Nion M. Dransfeld | www.nionmaron.com
Este artigo apresenta uma abordagem sistemática para automatizar o download de sequências do gene da subunidade I da citocromo c oxidase mitocondrial (MT CO1) do organismo Aedes aegypti a partir do National Center for Biotechnology Information (NCBI) utilizando a programação em R. A metodologia inclui o download de números de acesso, a recuperação dos dados das sequências e o salvamento das sequências no formato FASTA para análise posterior.
O gene da subunidade I da citocromo c oxidase mitocondrial (MT CO1) é frequentemente utilizado em ecologia molecular e filogenética como um marcador genético. Este estudo delineia um exercício prático de laboratório que visa automatizar a recuperação das sequências do gene MT CO1 para Aedes aegypti a partir do NCBI usando R, o que melhora a eficiência na coleta de dados e facilita a análise genética subsequente.
GenBank: É um banco de dados público e de acesso livre, mantido pelo National Center for Biotechnology Information (NCBI), que armazena sequências de DNA, RNA e proteínas. Ele funciona como um repositório abrangente de informações genéticas, onde pesquisadores de todo o mundo depositam e acessam dados de sequências para uma variedade de estudos em biologia molecular, evolução e biotecnologia. O GenBank faz parte da International Nucleotide Sequence Database Collaboration, que inclui também o DNA Data Bank of Japan (DDBJ) e o European Nucleotide Archive (ENA). Esses três bancos de dados trocam informações diariamente, garantindo que os dados de sequências estejam amplamente disponíveis para a comunidade científica global.
Estudos filogenéticos: São estudos que investigam as relações evolutivas entre diferentes organismos, buscando reconstruir a história da vida na Terra. Esses estudos utilizam dados genéticos, morfológicos e comportamentais para inferir como as espécies se relacionam entre si e como elas evoluíram ao longo do tempo. As relações filogenéticas são geralmente representadas em diagramas chamados árvores filogenéticas, que ilustram a ancestralidade comum e a divergência entre as linhagens. Os estudos filogenéticos são essenciais para a compreensão da biodiversidade, da classificação dos organismos e dos processos evolutivos que moldaram a vida no planeta.
Aedes aegypti: É o mosquito transmissor da dengue, zika, chikungunya e febre amarela.
Citocromo c oxidase subunidade I (MT CO1): Um gene mitocondrial que codifica para uma enzima essencial na respiração celular. Devido à sua taxa de mutação relativamente rápida e herança materna, é frequentemente utilizado como um marcador molecular em estudos filogenéticos e de identificação de espécies.
NCBI (National Center for Biotechnology Information): Uma base de dados online mantida pelo governo dos Estados Unidos que contém uma vasta coleção de informações sobre sequências genéticas, artigos científicos e outras ferramentas bioinformáticas.
Número de acesso: Um identificador único atribuído a cada sequência genética depositada em bancos de dados como o NCBI. Permite a recuperação precisa de sequências específicas.
Formato FASTA: Um formato de arquivo de texto simples para representar sequências de nucleotídeos ou aminoácidos. É amplamente utilizado em bioinformática devido à sua simplicidade e compatibilidade com várias ferramentas de análise.
Pacote “ape” em R: Uma biblioteca de funções em R especificamente projetada para análise filogenética e evolutiva. Inclui funções para ler e manipular sequências de DNA e realizar análises filogenéticas.
Filogenética: O estudo das relações evolutivas entre organismos, geralmente representadas em forma de árvore filogenética.
Ecologia molecular: Um campo da biologia que utiliza técnicas moleculares para estudar questões ecológicas, como a diversidade genética, estrutura populacional e interações entre espécies.
Marcadores genéticos: Sequências de DNA variáveis que podem ser usadas para distinguir indivíduos, populações ou espécies.
Reprodutibilidade: A capacidade de replicar um estudo ou experimento científico usando os mesmos métodos e dados, garantindo a confiabilidade dos resultados.
Antes de iniciar o processo de recuperação de dados, é necessário
carregar as bibliotecas necessárias no R. O pacote ape é
especialmente útil para ler e escrever sequências de DNA.
Os números de acesso para as sequências MT CO1 de Aedes
aegypti foram obtidos do NCBI utilizando o termo de busca
"(MT CO1) AND "Aedes aegypti"". Após realizar a busca, a
lista foi baixada como um arquivo .seq contendo 28 números
de acesso.
A lista de acessos baixada é lida no R da seguinte forma:
Esse comando importa os números de acesso para um data frame chamado
Sequences. O argumento header=FALSE indica que
a primeira linha não contém nomes de colunas.
Com os números de acesso carregados, agora podemos baixar as
sequências reais do GenBank. O seguinte comando utiliza a função
read.GenBank para ler as sequências, especificando a coluna
que contém os IDs de acesso (V1):
Myseq <- read.GenBank(Sequences$V1,
seq.names = Sequences$V1,
species.names = TRUE,
as.character = TRUE)seq.names especifica os nomes das
sequências como os IDs de acesso.species.names indica se as informações
sobre a espécie devem ser incluídas.as.character garante que as sequências
sejam tratadas como strings de caracteres.Uma vez que as sequências são recuperadas, elas podem ser salvas em um arquivo FASTA para análises futuras. O seguinte comando realiza essa tarefa:
A função write.dna salva as sequências em formato FASTA,
que é amplamente utilizado em bioinformática para representar sequências
de nucleotídeos.
Este exercício de laboratório demonstra como automatizar a recuperação de sequências do gene MT CO1 para Aedes aegypti a partir do NCBI usando R. Os métodos descritos facilitam a coleta eficiente de dados genéticos, permitindo que os pesquisadores se concentrem na análise e interpretação, em vez de na coleta manual de dados. Este fluxo de trabalho pode ser adaptado para outros organismos e marcadores genéticos, contribuindo para a reprodutibilidade e eficiência da pesquisa em biologia molecular.
Nion M Dransfeld (2024). Coleta de Sequências: Automatizando Downloads do GenBank para o Gene MT CO1 de Aedes aegypti. Publicado em RPubs. Disponível em: . Acessado em .