Bioinformática: rodando um BLAST

Iniciando nossos estudos sobre Bioinformática, vamos aprender sobre um dos sites mais utilizados nas pesquisas em Biotecnologia de todo mundo: o NCBI. Já imaginou se, em suas pesquisas, você descobre uma sequência de centenas de nucleotídeos de um ser vivo e quer saber a qual espécie ele pertence, ou mesmo se ele já foi descoberto antes? Como resolvemos este problema, será que haveria um livro com todas os genomas já registrados no mundo, que codificam cada proteína de cada ser vivo?

Quase isso, porém muito mais eficiente, o National Center for Biotechnology Information (NCBI) é um banco internacional de dados, gratuito e de livre acesso, que possui um mecanismo que permite consultar a qual espécie pertence determinado fragmento de DNA, RNA, proteína e identificá-la.

Para isso, utilizamos uma ferramenta deste banco chamada Basic Local Alignment Search Tool que consiste em, dada uma sequência de nucleotídeos ou aminoácidos, alinhá-las e compará-las com todas as sequências já registradas no banco para fornecer qual é a espécie mais compatível e o nível de acurácia.

Tipos de BLAST:

BLASTn (Nucleotide-Nucleotide BLAST): Compara uma sequência de nucleotídeos (DNA ou RNA) com um banco de dados de sequências de nucleotídeos. É útil para encontrar regiões de similaridade entre sequências genômicas.
BLASTp (Protein-Protein BLAST): Compara uma sequência de aminoácidos (proteínas) com um banco de dados de proteínas. Ele é usado para identificar homólogos de proteínas ou determinar funções baseadas em similaridade.
BLASTx: Compara uma sequência de nucleotídeos traduzida (em todas as seis fases de leitura) com um banco de dados de proteínas. É útil para descobrir quais proteínas podem ser codificadas por uma sequência de DNA.
tBLASTn: Compara uma sequência de aminoácidos (proteínas) com um banco de dados de sequências de nucleotídeos traduzidas. É útil para encontrar genes que codificam proteínas em diferentes genomas.
tBLASTx: Compara uma sequência de nucleotídeos traduzida em todas as fases de leitura com outra sequência de nucleotídeos traduzida. Ele é usado em estudos onde as duas sequências podem codificar proteínas, mas as traduções diretas não estão disponíveis.

Para saber qual tipo de BLAST utilizar, é necessário então verificar qual é base de dados (nucleotídeos: DNA; nucleotídeos traduzidos: RNA ou aminoácidos: proteínas) e de qual banco deseja-se obter a resposta.

Vamos fazer isso na prática. Acesse: https://blast.ncbi.nlm.nih.gov/Blast.cgi.

Imagine que você está trabalhando em um projeto de biologia molecular e precisa descobrir qual proteína uma sequência de DNA codifica. Você possui uma sequência de nucleotídeos de um organismo desconhecido e gostaria de verificar se há homólogos conhecidos que possam ajudar a identificar sua função.

Problema:

Você tem a seguinte sequência de nucleotídeos:

MHSSIVLATVLFVAIASASKTRELCMKSLEHAKVGTSKEAKQDGIDLYKHMFEHYPAMKKYFKHRENYTP
ADVQKDPFFIKQGQNILLACHVLCATYDDRETFDAYVGELMARHERDHVKVPNDVWNHFWEHFIEFLGSK
TTLDEPTKHAWQEIGKEFSHEISHHGRHSVRDHCMNSLEYIAIGDKEHQKQNGIDLYKHMFEHYPHMRKA
FKGRENFTKEDVQKDAFFVNKDTRFCWPFVCCDSSYDDEPTFDYFVDALMDRHIKDDIHLPQEQWHEFWK
LFAEYLNEKSHQHLTEAEKHAWSTIGEDFAHEADKHAKAEKDHHEGEHKEEHH

Seu objetivo é descobrir se essa sequência codifica uma proteína conhecida. Para isso, você decide utilizar a ferramenta BLAST que compara uma sequência de nucleotídeos traduzida em todas as fases de leitura com um banco de dados de proteínas.

Qual ferramenta BLAST você escolheria para realizar essa tarefa e por quê?
Após rodar o BLAST, quais informações você esperaria obter dos resultados em relação à sequência analisada?
Como você interpretaria uma alta identidade e cobertura entre a sequência que você possui e uma sequência de banco de dados?

Resolvendo:

Vamos rodar um BLASTp, pois desejamos comparar uma sequência de aminoácidos com um banco de proteínas (aminoácidos $\Rightarrow$ proteínas).
Vamos rodar o BLAST. Acesse: BLASTp NCBI (isso pode demorar um pouco). Perceba que o primeiro resultado que aparece nos fornece o tipo de proteína, sua espécie e a acurácia (quanto mais superior na lista, maior a compatibilidade com a sequência fornecida).
Com uma acurácia de 100,00% como a nossa, podemos interpretar que o primeiro resultado obtido é compatível com a sequência fornecida. Logo a sequência de aminoácidos fornecida é a estrutura primária da hemoglobina da espécie Pseudoterranova decipiens.

O Percentual de Identificação (Per. Ident.) fornece a similaridade entre a sequência fornecida e a sequência do banco. Já o E value (ou valor E) é uma medida estatística que representa a probabilidade de que uma correspondência de sequência entre duas sequências biológicas ocorra por acaso.

Interpretação do E value:

Baixo E value: Um E value pequeno (geralmente menor que 0,01) sugere que a correspondência é estatisticamente significativa, tendo uma baixa probabilidade de ser um valor aleatório.
Alto E value: Um E value elevado indica que a correspondência é mais provável de ser um resultado de acaso e, portanto, é menos significativa.

Conhecer o NCBI e o BLAST é o primeiro passo para nosso estudo de Bioestatística, que trouxe eficiência e acurácia ao estudo da Biotecnologia.

Por Luiza Lanza.