Resumo

Este artigo apresenta uma abordagem sistemática para automatizar o download de sequências do gene da subunidade I da citocromo c oxidase mitocondrial (MT CO1) do organismo Aedes aegypti a partir do National Center for Biotechnology Information (NCBI) utilizando a programação em R. A metodologia inclui o download de números de acesso, a recuperação dos dados das sequências e o salvamento das sequências no formato FASTA para análise posterior.

Introdução

O gene da subunidade I da citocromo c oxidase mitocondrial (MT CO1) é frequentemente utilizado em ecologia molecular e filogenética como um marcador genético. Este estudo delineia um exercício prático de laboratório que visa automatizar a recuperação das sequências do gene MT CO1 para Aedes aegypti a partir do NCBI usando R, o que melhora a eficiência na coleta de dados e facilita a análise genética subsequente.

Termos e Conceitos

GenBank: É um banco de dados público e de acesso livre, mantido pelo National Center for Biotechnology Information (NCBI), que armazena sequências de DNA, RNA e proteínas. Ele funciona como um repositório abrangente de informações genéticas, onde pesquisadores de todo o mundo depositam e acessam dados de sequências para uma variedade de estudos em biologia molecular, evolução e biotecnologia. O GenBank faz parte da International Nucleotide Sequence Database Collaboration, que inclui também o DNA Data Bank of Japan (DDBJ) e o European Nucleotide Archive (ENA). Esses três bancos de dados trocam informações diariamente, garantindo que os dados de sequências estejam amplamente disponíveis para a comunidade científica global.

Estudos filogenéticos: São estudos que investigam as relações evolutivas entre diferentes organismos, buscando reconstruir a história da vida na Terra. Esses estudos utilizam dados genéticos, morfológicos e comportamentais para inferir como as espécies se relacionam entre si e como elas evoluíram ao longo do tempo. As relações filogenéticas são geralmente representadas em diagramas chamados árvores filogenéticas, que ilustram a ancestralidade comum e a divergência entre as linhagens. Os estudos filogenéticos são essenciais para a compreensão da biodiversidade, da classificação dos organismos e dos processos evolutivos que moldaram a vida no planeta.

Aedes aegypti: É o mosquito transmissor da dengue, zika, chikungunya e febre amarela.

Citocromo c oxidase subunidade I (MT CO1): Um gene mitocondrial que codifica para uma enzima essencial na respiração celular. Devido à sua taxa de mutação relativamente rápida e herança materna, é frequentemente utilizado como um marcador molecular em estudos filogenéticos e de identificação de espécies.

NCBI (National Center for Biotechnology Information): Uma base de dados online mantida pelo governo dos Estados Unidos que contém uma vasta coleção de informações sobre sequências genéticas, artigos científicos e outras ferramentas bioinformáticas.

Número de acesso: Um identificador único atribuído a cada sequência genética depositada em bancos de dados como o NCBI. Permite a recuperação precisa de sequências específicas.

Formato FASTA: Um formato de arquivo de texto simples para representar sequências de nucleotídeos ou aminoácidos. É amplamente utilizado em bioinformática devido à sua simplicidade e compatibilidade com várias ferramentas de análise.

Pacote “ape” em R: Uma biblioteca de funções em R especificamente projetada para análise filogenética e evolutiva. Inclui funções para ler e manipular sequências de DNA e realizar análises filogenéticas.

Filogenética: O estudo das relações evolutivas entre organismos, geralmente representadas em forma de árvore filogenética.

Ecologia molecular: Um campo da biologia que utiliza técnicas moleculares para estudar questões ecológicas, como a diversidade genética, estrutura populacional e interações entre espécies.

Marcadores genéticos: Sequências de DNA variáveis que podem ser usadas para distinguir indivíduos, populações ou espécies.

Reprodutibilidade: A capacidade de replicar um estudo ou experimento científico usando os mesmos métodos e dados, garantindo a confiabilidade dos resultados.

Metodologia

Passo 1: Carregar Bibliotecas Necessárias

Antes de iniciar o processo de recuperação de dados, é necessário carregar as bibliotecas necessárias no R. O pacote ape é especialmente útil para ler e escrever sequências de DNA.

library("ape")

Passo 2: Download da Lista de Números de Acesso

Os números de acesso para as sequências MT CO1 de Aedes aegypti foram obtidos do NCBI utilizando o termo de busca "(MT CO1) AND "Aedes aegypti"". Após realizar a busca, a lista foi baixada como um arquivo .seq contendo 28 números de acesso.

Passo 3: Ler a Lista de Números de Acesso

A lista de acessos baixada é lida no R da seguinte forma:

Sequences <- read.table("sequence.seq", header=FALSE)

Esse comando importa os números de acesso para um data frame chamado Sequences. O argumento header=FALSE indica que a primeira linha não contém nomes de colunas.

Passo 4: Baixar Sequências do GenBank

Com os números de acesso carregados, agora podemos baixar as sequências reais do GenBank. O seguinte comando utiliza a função read.GenBank para ler as sequências, especificando a coluna que contém os IDs de acesso (V1):

Myseq <- read.GenBank(Sequences$V1,
                      seq.names = Sequences$V1,
                      species.names = TRUE,
                      as.character = TRUE)
  • seq.names especifica os nomes das sequências como os IDs de acesso.
  • species.names indica se as informações sobre a espécie devem ser incluídas.
  • as.character garante que as sequências sejam tratadas como strings de caracteres.

Passo 5: Escrever Sequências em um Arquivo FASTA

Uma vez que as sequências são recuperadas, elas podem ser salvas em um arquivo FASTA para análises futuras. O seguinte comando realiza essa tarefa:

write.dna(Myseq, "Aedes_aegypti.fasta", format = "fasta")

A função write.dna salva as sequências em formato FASTA, que é amplamente utilizado em bioinformática para representar sequências de nucleotídeos.

Conclusão

Este exercício de laboratório demonstra como automatizar a recuperação de sequências do gene MT CO1 para Aedes aegypti a partir do NCBI usando R. Os métodos descritos facilitam a coleta eficiente de dados genéticos, permitindo que os pesquisadores se concentrem na análise e interpretação, em vez de na coleta manual de dados. Este fluxo de trabalho pode ser adaptado para outros organismos e marcadores genéticos, contribuindo para a reprodutibilidade e eficiência da pesquisa em biologia molecular.

Referências

  • R Core Team. (2023). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria.
  • Paradis, E., Claude, J., & Strimmer, K. (2004). APE: Analyses of Phylogenetics and Evolution in R language. Bioinformatics, 20(2), 289-290.

Nion M Dransfeld (2024). Coleta de Sequências: Automatizando Downloads do GenBank para o Gene MT CO1 de Aedes aegypti. Publicado em RPubs. Disponível em: . Acessado em .