ACTIVIDAD 2
AUTOR Adolfo González Cruz
FECHA 10-09-2023


1.0.- BLAST (Basic Local Alignment Search Tool)



1.1.- Problema que aborda

Es una herramienta utilizada en bioinformática para comparar secuencias de ácido nucleico o proteína con un conjunto de secuencias en una base de datos. El problema principal que resuelve BLAST es identificar regiones similares entre la secuencia de interés y las secuencias en una base de datos. Esto permite la identificación de homologías, la predicción de funciones de genes y proteínas, y la asociación de secuencias a organismos específicos, entre otras aplicaciones. BLAST es una herramienta utilizada en bioinformática y genómica para buscar similitudes entre secuencias biológicas, como secuencias de ADN, ARN o proteínas. BLAST se utiliza para los siguientes propósitos; Identificar similitudes entre secuencias, Análisis funcional de secuencias desconocidas, Clasificación taxonómica, Detección de variantes genéticas, Diseño de cebadores y sondas, Análisis de evolución molecular y Caracterización de secuencias genéticas.

Artículo 1: Altschul, SF, Gish, W., Miller, W., Myers, EW, & Lipman, DJ (1990). Basic local alignment search tool. Journal of molecular biology, 215(3), 403-410. Enlace al artículo en ScienceDirect

  • Propósito: Este es el artículo original en el que se presentó BLAST. En él, los autores introdujeron el algoritmo y discutieron su eficacia y eficiencia para encontrar similitudes de secuencias.

Artículo 2: Maiden, MC, Bygraves, JA, Feil, E., Morelli, G., Russell, JE, Urwin, R., … & Hewitt, DG (1998). Multilocus sequence typing: a portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences, 95(6), 3140-3145. Enlace al Paper en PNAS

  • Propósito : En este estudio, los investigadores utilizaron BLAST para analizar secuencias de múltiples loci de bacterias patógenas. El objetivo era desarrollar un método de tipificación de secuencias multilocus (MLST) para identificar clones dentro de poblaciones de microorganismos patógenos.

Artículo 3: Ratnasingham, S. y Hebert, PD (2007). BOLD: The Barcode of Life Data System (http://www.barcodinglife.org). Molecular ecology notes, 7(3), 355-364.. Artículo en línea

  • Propósito : Este estudio se centró en el uso del “código de barras” de la vida (un fragmento corto y estandarizado de ADN utilizado para identificar especies). BLAST fue empleado para comparar secuencias de código de barras con bases de datos, permitiendo la identificación y clasificación de especies basada en similitudes de secuencia.


1.2.- Integración con R/Bioconductor

Para el siguiente ejemplo se utiliza la base de datos 16S_ribosomal_RNA, descargada desde ftp://ftp.ncbi.nlm.nih.gov/blast/db/ y cargada en el repositorio Blast del computador local.

PASO 1 : INSTALAR PAQUETES

# Instala y carga las bibliotecas necesarias si no están instaladas
if (!requireNamespace("BiocManager", quietly = TRUE))
  install.packages("BiocManager")
BiocManager::install("Biostrings")
## Bioconductor version 3.16 (BiocManager 1.30.22), R 4.2.3 (2023-03-15)
## Warning: package(s) not installed when version(s) same as or greater than current; use
##   `force = TRUE` to re-install: 'Biostrings'
BiocManager::install("ShortRead")
## Bioconductor version 3.16 (BiocManager 1.30.22), R 4.2.3 (2023-03-15)
## Warning: package(s) not installed when version(s) same as or greater than current; use
##   `force = TRUE` to re-install: 'ShortRead'
BiocManager::install("rentrez")
## Bioconductor version 3.16 (BiocManager 1.30.22), R 4.2.3 (2023-03-15)
## Warning: package(s) not installed when version(s) same as or greater than current; use
##   `force = TRUE` to re-install: 'rentrez'
# Carga las bibliotecas
library(Biostrings)
## Loading required package: BiocGenerics
## 
## Attaching package: 'BiocGenerics'
## The following objects are masked from 'package:stats':
## 
##     IQR, mad, sd, var, xtabs
## The following objects are masked from 'package:base':
## 
##     anyDuplicated, aperm, append, as.data.frame, basename, cbind,
##     colnames, dirname, do.call, duplicated, eval, evalq, Filter, Find,
##     get, grep, grepl, intersect, is.unsorted, lapply, Map, mapply,
##     match, mget, order, paste, pmax, pmax.int, pmin, pmin.int,
##     Position, rank, rbind, Reduce, rownames, sapply, setdiff, sort,
##     table, tapply, union, unique, unsplit, which.max, which.min
## Loading required package: S4Vectors
## Loading required package: stats4
## 
## Attaching package: 'S4Vectors'
## The following objects are masked from 'package:base':
## 
##     expand.grid, I, unname
## Loading required package: IRanges
## Loading required package: XVector
## Loading required package: GenomeInfoDb
## 
## Attaching package: 'Biostrings'
## The following object is masked from 'package:base':
## 
##     strsplit
library(ShortRead)
## Loading required package: BiocParallel
## Loading required package: Rsamtools
## Loading required package: GenomicRanges
## Loading required package: GenomicAlignments
## Loading required package: SummarizedExperiment
## Loading required package: MatrixGenerics
## Loading required package: matrixStats
## 
## Attaching package: 'MatrixGenerics'
## The following objects are masked from 'package:matrixStats':
## 
##     colAlls, colAnyNAs, colAnys, colAvgsPerRowSet, colCollapse,
##     colCounts, colCummaxs, colCummins, colCumprods, colCumsums,
##     colDiffs, colIQRDiffs, colIQRs, colLogSumExps, colMadDiffs,
##     colMads, colMaxs, colMeans2, colMedians, colMins, colOrderStats,
##     colProds, colQuantiles, colRanges, colRanks, colSdDiffs, colSds,
##     colSums2, colTabulates, colVarDiffs, colVars, colWeightedMads,
##     colWeightedMeans, colWeightedMedians, colWeightedSds,
##     colWeightedVars, rowAlls, rowAnyNAs, rowAnys, rowAvgsPerColSet,
##     rowCollapse, rowCounts, rowCummaxs, rowCummins, rowCumprods,
##     rowCumsums, rowDiffs, rowIQRDiffs, rowIQRs, rowLogSumExps,
##     rowMadDiffs, rowMads, rowMaxs, rowMeans2, rowMedians, rowMins,
##     rowOrderStats, rowProds, rowQuantiles, rowRanges, rowRanks,
##     rowSdDiffs, rowSds, rowSums2, rowTabulates, rowVarDiffs, rowVars,
##     rowWeightedMads, rowWeightedMeans, rowWeightedMedians,
##     rowWeightedSds, rowWeightedVars
## Loading required package: Biobase
## Welcome to Bioconductor
## 
##     Vignettes contain introductory material; view with
##     'browseVignettes()'. To cite Bioconductor, see
##     'citation("Biobase")', and for packages 'citation("pkgname")'.
## 
## Attaching package: 'Biobase'
## The following object is masked from 'package:MatrixGenerics':
## 
##     rowMedians
## The following objects are masked from 'package:matrixStats':
## 
##     anyMissing, rowMedians
library(rentrez)

# Define las secuencias en un archivo FASTA válido
fasta_file <- tempfile(fileext = ".fasta")
writeLines(c(
  ">Secuencia_buscar",
  "AGAGTTTGATCCTGGCTCAGAACGAACGCTGGCGGCAGGCCTAACACATGCAAGTCGAGCGCTCTCCTTCGGGAGGGAGC"
  
), con = fasta_file)

# Define la ubicación de blastn
blastn_location <- "/opt/homebrew/bin/blastn"

# Define la base de datos BLAST local que deseas utilizar
database_location <- "/Users/adolfogonzalez/desa_r/bioinformatica/base_dat/16S_ribosomal_RNA/16S_ribosomal_RNA"

# Lista para almacenar los resultados
resultados <- list()

# Bucle para buscar cada secuencia en la base de datos BLAST local
for (i in 1:6) {
  secuencia <- readLines(fasta_file, n = 2)
  secuencia <- gsub("^>", "", secuencia[1])
  
  # Ejecuta BLAST para buscar la secuencia en la base de datos
  blast_result <- system(paste(blastn_location, "-query", fasta_file, "-db", database_location, "-outfmt 7"), intern = TRUE)
  
  # Almacena el resultado en la lista
  resultados[[secuencia]] <- blast_result
}

# Muestra los resultados
for (secuencia in names(resultados)) {
  cat("Resultados para la secuencia:", secuencia, "\n\n")
  
  # Itera a través de las líneas de resultados y las imprime una por una
  for (linea in resultados[[secuencia]]) {
    cat(linea, "\n")
  }
}
## Resultados para la secuencia: Secuencia_buscar 
## 
## # BLASTN 2.14.1+ 
## # Query: Secuencia_buscar 
## # Database: /Users/adolfogonzalez/desa_r/bioinformatica/base_dat/16S_ribosomal_RNA/16S_ribosomal_RNA 
## # Fields: query acc.ver, subject acc.ver, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score 
## # 500 hits found 
## Secuencia_buscar NR_121711.2 100.000 80  0   0   1   80  8   87  3.46e-36    148 
## Secuencia_buscar NR_025637.1 100.000 80  0   0   1   80  1   80  3.46e-36    148 
## Secuencia_buscar NR_181776.1 97.500  80  0   2   1   80  1   78  2.69e-32    135 
## Secuencia_buscar NR_181702.1 97.500  80  0   2   1   80  8   85  2.69e-32    135 
## Secuencia_buscar NR_181243.1 97.500  80  0   2   1   80  8   85  2.69e-32    135 
## Secuencia_buscar NR_164621.1 97.500  80  0   2   1   80  1   78  2.69e-32    135 
## Secuencia_buscar NR_149192.1 97.500  80  0   2   1   80  1   78  2.69e-32    135 
## Secuencia_buscar NR_156933.1 97.500  80  0   2   1   80  1   78  2.69e-32    135 
## Secuencia_buscar NR_165006.1 97.500  80  0   2   1   80  1   78  2.69e-32    135 
## Secuencia_buscar NR_181628.1 97.468  79  0   2   2   80  1   77  9.68e-32    134 
## Secuencia_buscar NR_181125.1 96.250  80  3   0   1   80  1   80  3.48e-31    132 
## Secuencia_buscar NR_181047.1 97.436  78  0   2   3   80  1   76  3.48e-31    132 
## Secuencia_buscar NR_181260.1 96.250  80  1   2   1   80  1   78  1.25e-30    130 
## Secuencia_buscar NR_180603.1 96.250  80  1   2   1   80  1   78  1.25e-30    130 
## Secuencia_buscar NR_179861.1 96.250  80  1   2   1   80  1   78  1.25e-30    130 
## Secuencia_buscar NR_173514.1 96.250  80  1   2   1   80  2   79  1.25e-30    130 
## Secuencia_buscar NR_134144.1 96.203  79  1   2   1   79  4   80  4.51e-30    128 
## Secuencia_buscar NR_173533.1 95.000  80  4   0   1   80  5   84  1.62e-29    126 
## Secuencia_buscar NR_180992.1 95.000  80  4   0   1   80  1   80  1.62e-29    126 
## Secuencia_buscar NR_159234.1 95.000  80  4   0   1   80  1   80  1.62e-29    126 
## Secuencia_buscar NR_165005.1 95.000  80  4   0   1   80  1   80  1.62e-29    126 
## Secuencia_buscar NR_027205.1 95.122  82  0   4   1   80  1   80  1.62e-29    126 
## Secuencia_buscar NR_133834.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_181940.1 95.000  80  2   2   1   80  8   85  5.83e-29    124 
## Secuencia_buscar NR_181815.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_181537.1 95.000  80  2   2   1   80  8   85  5.83e-29    124 
## Secuencia_buscar NR_149190.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_180551.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_173493.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_180841.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_180694.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_180482.1 95.000  80  2   2   1   80  8   85  5.83e-29    124 
## Secuencia_buscar NR_180251.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_180050.1 95.000  80  2   2   1   80  2   79  5.83e-29    124 
## Secuencia_buscar NR_180011.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_179825.1 95.000  80  2   2   1   80  6   83  5.83e-29    124 
## Secuencia_buscar NR_179067.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_174272.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_159171.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_178596.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_159176.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_158148.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_174236.1 97.260  73  2   0   2   74  1   73  5.83e-29    124 
## Secuencia_buscar NR_179819.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_118725.1 95.000  80  2   2   1   80  9   86  5.83e-29    124 
## Secuencia_buscar NR_173511.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_184629.1 95.000  80  2   2   1   80  3   80  5.83e-29    124 
## Secuencia_buscar NR_102909.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_121706.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_148263.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_134107.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_074150.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_074143.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_043908.1 95.000  80  2   2   1   80  1   78  5.83e-29    124 
## Secuencia_buscar NR_028727.1 95.000  80  2   2   1   80  8   85  5.83e-29    124 
## Secuencia_buscar NR_181238.1 94.937  79  2   2   2   80  1   77  2.10e-28    122 
## Secuencia_buscar NR_165701.1 97.260  73  1   1   1   73  1   72  2.10e-28    122 
## Secuencia_buscar NR_147733.1 94.937  79  2   2   1   79  5   81  2.10e-28    122 
## Secuencia_buscar NR_165717.1 94.937  79  2   2   1   79  1   77  2.10e-28    122 
## Secuencia_buscar NR_042670.1 100.000 66  0   0   15  80  1   66  2.10e-28    122 
## Secuencia_buscar NR_116593.1 94.937  79  2   2   2   80  1   77  2.10e-28    122 
## Secuencia_buscar NR_044545.1 94.937  79  2   2   2   79  1   78  2.10e-28    122 
## Secuencia_buscar NR_180902.1 93.750  80  5   0   1   80  8   87  7.54e-28    121 
## Secuencia_buscar NR_074354.2 93.750  80  5   0   1   80  8   87  7.54e-28    121 
## Secuencia_buscar NR_102908.1 95.946  74  3   0   1   74  1   74  7.54e-28    121 
## Secuencia_buscar NR_102905.1 95.946  74  3   0   1   74  1   74  7.54e-28    121 
## Secuencia_buscar NR_042701.1 94.872  78  2   2   3   80  2   77  7.54e-28    121 
## Secuencia_buscar NR_165010.1 93.750  80  3   2   1   80  8   85  2.71e-27    119 
## Secuencia_buscar NR_181482.1 93.750  80  3   2   1   80  1   78  2.71e-27    119 
## Secuencia_buscar NR_180982.1 95.946  74  2   1   1   74  1   73  2.71e-27    119 
## Secuencia_buscar NR_165789.1 93.750  80  3   2   1   80  1   78  2.71e-27    119 
## Secuencia_buscar NR_180785.1 93.750  80  3   2   1   80  1   78  2.71e-27    119 
## Secuencia_buscar NR_180732.1 95.946  74  2   1   1   74  2   74  2.71e-27    119 
## Secuencia_buscar NR_159242.1 93.750  80  3   2   1   80  1   78  2.71e-27    119 
## Secuencia_buscar NR_179165.1 95.946  74  1   2   1   74  1   72  2.71e-27    119 
## Secuencia_buscar NR_135873.1 95.946  74  2   1   1   74  1   73  2.71e-27    119 
## Secuencia_buscar NR_175479.1 93.750  80  3   2   1   80  2   79  2.71e-27    119 
## Secuencia_buscar NR_136859.1 93.750  80  3   2   1   80  4   81  2.71e-27    119 
## Secuencia_buscar NR_134731.1 95.946  74  2   1   1   74  1   73  2.71e-27    119 
## Secuencia_buscar NR_043888.1 93.750  80  3   2   1   80  1   78  2.71e-27    119 
## Secuencia_buscar NR_108740.1 93.750  80  3   2   1   80  1   78  2.71e-27    119 
## Secuencia_buscar NR_042282.1 93.750  80  3   2   1   80  1   78  2.71e-27    119 
## Secuencia_buscar NR_115801.1 93.750  80  3   2   1   80  1   78  2.71e-27    119 
## Secuencia_buscar NR_109312.1 95.890  73  2   1   1   73  1   72  9.75e-27    117 
## Secuencia_buscar NR_165667.1 95.890  73  2   1   1   73  8   79  9.75e-27    117 
## Secuencia_buscar NR_181882.1 93.671  79  3   2   1   79  8   84  9.75e-27    117 
## Secuencia_buscar NR_181829.1 93.671  79  3   2   1   79  5   81  9.75e-27    117 
## Secuencia_buscar NR_181779.1 95.890  73  2   1   1   73  5   76  9.75e-27    117 
## Secuencia_buscar NR_181581.1 95.890  73  1   2   1   73  1   71  9.75e-27    117 
## Secuencia_buscar NR_173508.1 95.890  73  2   1   1   73  1   72  9.75e-27    117 
## Secuencia_buscar NR_173673.1 95.890  73  1   2   1   73  1   71  9.75e-27    117 
## Secuencia_buscar NR_173672.1 95.890  73  1   2   1   73  1   71  9.75e-27    117 
## Secuencia_buscar NR_179848.1 95.890  73  1   2   1   73  8   78  9.75e-27    117 
## Secuencia_buscar NR_179737.1 95.890  73  2   1   1   73  1   72  9.75e-27    117 
## Secuencia_buscar NR_179616.1 95.890  73  1   1   1   73  1   71  9.75e-27    117 
## Secuencia_buscar NR_163655.1 93.671  79  3   2   2   80  1   77  9.75e-27    117 
## Secuencia_buscar NR_159159.1 95.890  73  1   2   1   73  1   71  9.75e-27    117 
## Secuencia_buscar NR_024866.2 95.890  73  2   1   1   73  2   73  9.75e-27    117 
## Secuencia_buscar NR_159187.1 97.101  69  2   0   12  80  1   69  9.75e-27    117 
## Secuencia_buscar NR_179345.1 95.890  73  1   2   1   73  4   74  9.75e-27    117 
## Secuencia_buscar NR_179089.1 95.890  73  1   2   1   73  2   72  9.75e-27    117 
## Secuencia_buscar NR_179051.1 95.890  73  1   2   1   73  2   72  9.75e-27    117 
## Secuencia_buscar NR_178687.1 95.890  73  1   2   1   73  1   71  9.75e-27    117 
## Secuencia_buscar NR_156846.1 93.671  79  3   2   1   79  1   77  9.75e-27    117 
## Secuencia_buscar NR_159175.1 93.671  79  3   2   2   80  1   77  9.75e-27    117 
## Secuencia_buscar NR_151913.1 93.671  79  3   2   2   80  1   77  9.75e-27    117 
## Secuencia_buscar NR_173537.1 93.671  79  3   2   1   79  2   78  9.75e-27    117 
## Secuencia_buscar NR_159319.1 95.890  73  1   2   1   73  1   71  9.75e-27    117 
## Secuencia_buscar NR_157776.1 95.890  73  1   2   1   73  2   72  9.75e-27    117 
## Secuencia_buscar NR_137383.1 95.890  73  1   2   1   73  1   71  9.75e-27    117 
## Secuencia_buscar NR_176535.1 95.890  73  1   2   1   73  8   78  9.75e-27    117 
## Secuencia_buscar NR_169453.1 98.485  66  1   0   1   66  7   72  9.75e-27    117 
## Secuencia_buscar NR_171387.1 95.890  73  1   2   1   73  8   78  9.75e-27    117 
## Secuencia_buscar NR_118463.1 95.890  73  2   1   1   73  1   72  9.75e-27    117 
## Secuencia_buscar NR_074262.1 93.671  79  3   2   1   79  1   77  9.75e-27    117 
## Secuencia_buscar NR_112750.1 93.671  79  3   2   2   80  2   78  9.75e-27    117 
## Secuencia_buscar NR_043810.1 95.890  73  1   2   1   73  4   74  9.75e-27    117 
## Secuencia_buscar NR_133736.1 95.890  73  2   1   1   73  2   73  9.75e-27    117 
## Secuencia_buscar NR_044447.1 93.671  79  3   2   1   79  1   77  9.75e-27    117 
## Secuencia_buscar NR_116507.1 95.890  73  1   2   1   73  1   71  9.75e-27    117 
## Secuencia_buscar NR_116565.1 95.890  73  1   2   1   73  1   71  9.75e-27    117 
## Secuencia_buscar NR_108224.1 95.890  73  2   1   1   73  1   72  9.75e-27    117 
## Secuencia_buscar NR_029201.1 93.671  79  3   2   2   80  1   77  9.75e-27    117 
## Secuencia_buscar NR_025093.1 95.890  73  1   2   1   73  1   71  9.75e-27    117 
## Secuencia_buscar NR_173620.1 95.890  73  2   1   1   73  1   72  9.75e-27    117 
## Secuencia_buscar NR_109179.1 95.890  73  2   1   1   73  4   75  9.75e-27    117 
## Secuencia_buscar NR_125446.1 95.890  73  1   2   1   73  2   72  9.75e-27    117 
## Secuencia_buscar NR_132281.1 95.833  72  2   1   2   73  1   71  3.51e-26    115 
## Secuencia_buscar NR_164945.1 100.000 62  0   0   1   62  23  84  3.51e-26    115 
## Secuencia_buscar NR_181742.1 95.833  72  2   1   1   72  2   72  3.51e-26    115 
## Secuencia_buscar NR_181685.1 93.590  78  3   2   3   80  1   76  3.51e-26    115 
## Secuencia_buscar NR_180916.1 98.462  65  1   0   1   65  6   70  3.51e-26    115 
## Secuencia_buscar NR_145528.1 100.000 62  0   0   1   62  6   67  3.51e-26    115 
## Secuencia_buscar NR_180049.1 95.833  72  1   2   2   73  1   70  3.51e-26    115 
## Secuencia_buscar NR_158129.1 94.737  76  1   3   5   80  1   73  3.51e-26    115 
## Secuencia_buscar NR_042723.1 95.833  72  2   1   2   73  3   73  3.51e-26    115 
## Secuencia_buscar NR_042715.1 94.667  75  2   2   6   80  9   81  3.51e-26    115 
## Secuencia_buscar NR_118425.1 95.775  71  2   1   3   73  1   70  1.26e-25    113 
## Secuencia_buscar NR_118422.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_108526.1 95.775  71  2   1   3   73  2   71  1.26e-25    113 
## Secuencia_buscar NR_181734.1 100.000 61  0   0   1   61  8   68  1.26e-25    113 
## Secuencia_buscar NR_181353.1 100.000 61  0   0   1   61  5   65  1.26e-25    113 
## Secuencia_buscar NR_159922.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_169483.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_173492.1 94.595  74  3   1   1   74  1   73  1.26e-25    113 
## Secuencia_buscar NR_180994.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_180955.1 100.000 61  0   0   1   61  8   68  1.26e-25    113 
## Secuencia_buscar NR_180921.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_152010.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_169486.1 92.500  80  4   2   1   80  1   78  1.26e-25    113 
## Secuencia_buscar NR_180455.1 100.000 61  0   0   1   61  27  87  1.26e-25    113 
## Secuencia_buscar NR_180120.1 100.000 61  0   0   1   61  3   63  1.26e-25    113 
## Secuencia_buscar NR_180039.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_179999.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_179823.1 100.000 61  0   0   1   61  8   68  1.26e-25    113 
## Secuencia_buscar NR_179754.1 92.500  80  4   2   1   80  1   78  1.26e-25    113 
## Secuencia_buscar NR_158154.1 100.000 61  0   0   1   61  16  76  1.26e-25    113 
## Secuencia_buscar NR_157992.1 100.000 61  0   0   2   62  2   62  1.26e-25    113 
## Secuencia_buscar NR_164999.1 100.000 61  0   0   1   61  2   62  1.26e-25    113 
## Secuencia_buscar NR_157785.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_179048.1 97.059  68  0   2   13  80  3   68  1.26e-25    113 
## Secuencia_buscar NR_148630.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_178492.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_146678.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_171415.1 100.000 61  0   0   1   61  8   68  1.26e-25    113 
## Secuencia_buscar NR_173489.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_171523.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_151998.1 100.000 61  0   0   1   61  15  75  1.26e-25    113 
## Secuencia_buscar NR_136857.1 94.595  74  3   1   1   74  1   73  1.26e-25    113 
## Secuencia_buscar NR_158057.1 92.405  79  6   0   2   80  1   79  1.26e-25    113 
## Secuencia_buscar NR_157768.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_157648.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_178894.1 100.000 61  0   0   1   61  2   62  1.26e-25    113 
## Secuencia_buscar NR_125604.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_175596.1 100.000 61  0   0   1   61  8   68  1.26e-25    113 
## Secuencia_buscar NR_136446.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_135884.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_148272.1 92.500  80  4   2   1   80  1   78  1.26e-25    113 
## Secuencia_buscar NR_042377.1 92.500  80  4   2   1   80  1   78  1.26e-25    113 
## Secuencia_buscar NR_175565.1 100.000 61  0   0   1   61  9   69  1.26e-25    113 
## Secuencia_buscar NR_121734.1 100.000 61  0   0   1   61  8   68  1.26e-25    113 
## Secuencia_buscar NR_125598.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_118031.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_136453.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_074249.1 94.595  74  3   1   1   74  1   73  1.26e-25    113 
## Secuencia_buscar NR_025576.1 92.500  80  4   2   1   80  2   79  1.26e-25    113 
## Secuencia_buscar NR_074191.1 94.595  74  3   1   1   74  31  103 1.26e-25    113 
## Secuencia_buscar NR_134804.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_134157.1 100.000 61  0   0   1   61  2   62  1.26e-25    113 
## Secuencia_buscar NR_044158.1 92.500  80  4   2   1   80  1   78  1.26e-25    113 
## Secuencia_buscar NR_043797.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_044397.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_113171.1 97.015  67  2   0   14  80  1   67  1.26e-25    113 
## Secuencia_buscar NR_115319.1 92.500  80  4   2   1   80  1   78  1.26e-25    113 
## Secuencia_buscar NR_042716.1 95.775  71  2   1   3   73  2   71  1.26e-25    113 
## Secuencia_buscar NR_042713.1 95.775  71  1   2   3   73  6   74  1.26e-25    113 
## Secuencia_buscar NR_116522.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_116521.1 100.000 61  0   0   1   61  1   61  1.26e-25    113 
## Secuencia_buscar NR_108321.1 100.000 61  0   0   1   61  4   64  1.26e-25    113 
## Secuencia_buscar NR_104754.1 93.506  77  3   2   4   80  1   75  1.26e-25    113 
## Secuencia_buscar NR_109533.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_109517.1 93.421  76  3   2   1   76  2   75  4.54e-25    111 
## Secuencia_buscar NR_174321.1 95.714  70  1   2   4   73  1   68  4.54e-25    111 
## Secuencia_buscar NR_170430.1 92.405  79  4   2   1   79  10  86  4.54e-25    111 
## Secuencia_buscar NR_181822.1 92.405  79  4   2   1   79  5   81  4.54e-25    111 
## Secuencia_buscar NR_181727.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_181668.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_180329.1 100.000 60  0   0   3   62  1   60  4.54e-25    111 
## Secuencia_buscar NR_171450.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_181069.1 96.970  66  2   0   1   66  2   67  4.54e-25    111 
## Secuencia_buscar NR_181049.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_180903.1 96.970  66  2   0   1   66  8   73  4.54e-25    111 
## Secuencia_buscar NR_180702.1 100.000 60  0   0   2   61  1   60  4.54e-25    111 
## Secuencia_buscar NR_180608.1 94.521  73  2   2   1   73  1   71  4.54e-25    111 
## Secuencia_buscar NR_180341.1 100.000 60  0   0   2   61  1   60  4.54e-25    111 
## Secuencia_buscar NR_179844.1 92.405  79  4   2   1   79  1   77  4.54e-25    111 
## Secuencia_buscar NR_179725.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_179110.1 96.970  66  2   0   1   66  1   66  4.54e-25    111 
## Secuencia_buscar NR_178741.1 92.405  79  4   2   1   79  1   77  4.54e-25    111 
## Secuencia_buscar NR_164948.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_148642.1 93.421  76  3   2   1   75  1   75  4.54e-25    111 
## Secuencia_buscar NR_178568.1 94.521  73  2   2   1   73  1   71  4.54e-25    111 
## Secuencia_buscar NR_178519.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_178344.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_157680.1 94.521  73  3   1   1   73  2   73  4.54e-25    111 
## Secuencia_buscar NR_171532.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_146010.1 92.405  79  4   2   1   79  1   77  4.54e-25    111 
## Secuencia_buscar NR_074335.2 96.970  66  2   0   1   66  8   73  4.54e-25    111 
## Secuencia_buscar NR_156104.1 94.521  73  3   1   1   73  5   76  4.54e-25    111 
## Secuencia_buscar NR_152625.1 94.521  73  3   1   1   73  8   79  4.54e-25    111 
## Secuencia_buscar NR_157789.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_151937.1 100.000 60  0   0   2   61  1   60  4.54e-25    111 
## Secuencia_buscar NR_121713.2 98.413  63  1   0   1   63  8   70  4.54e-25    111 
## Secuencia_buscar NR_156158.1 94.521  73  3   1   1   73  13  84  4.54e-25    111 
## Secuencia_buscar NR_125678.1 100.000 60  0   0   2   61  11  70  4.54e-25    111 
## Secuencia_buscar NR_118535.1 92.405  79  4   2   1   79  1   77  4.54e-25    111 
## Secuencia_buscar NR_158063.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_137357.1 94.521  73  3   1   1   73  3   74  4.54e-25    111 
## Secuencia_buscar NR_173538.1 100.000 60  0   0   2   61  2   61  4.54e-25    111 
## Secuencia_buscar NR_136781.1 94.521  73  2   2   1   73  1   71  4.54e-25    111 
## Secuencia_buscar NR_040937.1 92.405  79  4   2   1   79  1   77  4.54e-25    111 
## Secuencia_buscar NR_037114.1 93.421  76  3   2   5   80  1   74  4.54e-25    111 
## Secuencia_buscar NR_137267.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_136418.1 94.521  73  2   2   1   73  1   71  4.54e-25    111 
## Secuencia_buscar NR_134752.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_133809.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_132390.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_074269.1 98.413  63  1   0   1   63  1   63  4.54e-25    111 
## Secuencia_buscar NR_074240.1 93.421  76  3   2   1   76  1   74  4.54e-25    111 
## Secuencia_buscar NR_074237.1 98.413  63  1   0   1   63  1   63  4.54e-25    111 
## Secuencia_buscar NR_044275.1 94.521  73  3   1   1   73  33  104 4.54e-25    111 
## Secuencia_buscar NR_117433.1 94.521  73  3   1   1   73  5   76  4.54e-25    111 
## Secuencia_buscar NR_114551.1 92.500  80  3   3   1   80  1   77  4.54e-25    111 
## Secuencia_buscar NR_116837.1 92.405  79  5   1   1   79  1   78  4.54e-25    111 
## Secuencia_buscar NR_132597.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_116571.1 94.521  73  3   1   1   73  1   72  4.54e-25    111 
## Secuencia_buscar NR_116431.1 93.421  76  3   2   1   76  1   74  4.54e-25    111 
## Secuencia_buscar NR_043915.1 100.000 60  0   0   2   61  1   60  4.54e-25    111 
## Secuencia_buscar NR_115255.1 96.970  66  2   0   1   66  3   68  4.54e-25    111 
## Secuencia_buscar NR_115254.1 96.970  66  2   0   1   66  3   68  4.54e-25    111 
## Secuencia_buscar NR_028838.1 93.421  76  3   2   1   76  2   75  4.54e-25    111 
## Secuencia_buscar NR_028784.1 100.000 60  0   0   2   61  1   60  4.54e-25    111 
## Secuencia_buscar NR_133049.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_117850.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_181653.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_181649.1 98.387  62  1   0   1   62  2   63  1.63e-24    110 
## Secuencia_buscar NR_181626.1 98.387  62  1   0   1   62  8   69  1.63e-24    110 
## Secuencia_buscar NR_181268.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_181255.1 98.387  62  1   0   1   62  5   66  1.63e-24    110 
## Secuencia_buscar NR_171508.1 98.387  62  1   0   1   62  5   66  1.63e-24    110 
## Secuencia_buscar NR_180685.1 98.387  62  1   0   1   62  31  92  1.63e-24    110 
## Secuencia_buscar NR_170463.1 96.970  66  1   1   1   66  1   65  1.63e-24    110 
## Secuencia_buscar NR_165733.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_174270.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_164910.1 94.444  72  2   2   2   73  1   70  1.63e-24    110 
## Secuencia_buscar NR_180788.1 94.444  72  3   1   1   72  1   71  1.63e-24    110 
## Secuencia_buscar NR_180738.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_180595.1 94.444  72  3   1   2   73  1   71  1.63e-24    110 
## Secuencia_buscar NR_180571.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_180504.1 98.387  62  1   0   1   62  8   69  1.63e-24    110 
## Secuencia_buscar NR_180208.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_179991.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_179958.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_179937.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_179824.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_178406.1 94.444  72  3   1   1   72  1   71  1.63e-24    110 
## Secuencia_buscar NR_157784.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_149237.1 94.444  72  3   1   1   72  1   71  1.63e-24    110 
## Secuencia_buscar NR_157767.1 98.387  62  1   0   1   62  16  77  1.63e-24    110 
## Secuencia_buscar NR_074499.2 98.387  62  1   0   1   62  8   69  1.63e-24    110 
## Secuencia_buscar NR_102476.2 98.387  62  1   0   1   62  8   69  1.63e-24    110 
## Secuencia_buscar NR_179776.1 98.387  62  1   0   1   62  2   63  1.63e-24    110 
## Secuencia_buscar NR_118850.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_148327.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_137243.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_137242.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_137241.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_146362.2 98.387  62  1   0   1   62  8   69  1.63e-24    110 
## Secuencia_buscar NR_114539.1 98.387  62  1   0   1   62  5   66  1.63e-24    110 
## Secuencia_buscar NR_148851.1 100.000 59  0   0   1   59  1   59  1.63e-24    110 
## Secuencia_buscar NR_133964.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_102511.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_102494.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_102452.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_104207.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_043150.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_042321.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_036785.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_029366.1 96.923  65  2   0   2   66  11  75  1.63e-24    110 
## Secuencia_buscar NR_148593.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_132669.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_074336.2 98.387  62  1   0   1   62  8   69  1.63e-24    110 
## Secuencia_buscar NR_103935.2 98.387  62  1   0   1   62  8   69  1.63e-24    110 
## Secuencia_buscar NR_133785.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_074286.1 98.387  62  1   0   1   62  8   69  1.63e-24    110 
## Secuencia_buscar NR_074255.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_074243.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_074209.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_074189.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_074111.1 98.387  62  1   0   1   62  9   70  1.63e-24    110 
## Secuencia_buscar NR_115920.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_024843.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_116004.1 98.387  62  1   0   1   62  4   65  1.63e-24    110 
## Secuencia_buscar NR_044216.1 98.387  62  1   0   1   62  4   65  1.63e-24    110 
## Secuencia_buscar NR_044095.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_169467.1 94.444  72  3   1   2   73  1   71  1.63e-24    110 
## Secuencia_buscar NR_118339.1 98.387  62  1   0   1   62  2   63  1.63e-24    110 
## Secuencia_buscar NR_118274.1 98.387  62  1   0   1   62  2   63  1.63e-24    110 
## Secuencia_buscar NR_117518.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_116708.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_113192.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_115519.1 98.387  62  1   0   1   62  7   68  1.63e-24    110 
## Secuencia_buscar NR_043399.1 98.387  62  1   0   1   62  7   68  1.63e-24    110 
## Secuencia_buscar NR_043756.1 98.387  62  1   0   1   62  2   63  1.63e-24    110 
## Secuencia_buscar NR_116790.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_116721.1 94.444  72  3   1   2   73  1   71  1.63e-24    110 
## Secuencia_buscar NR_116679.1 94.444  72  3   1   1   72  1   71  1.63e-24    110 
## Secuencia_buscar NR_029038.1 100.000 59  0   0   3   61  2   60  1.63e-24    110 
## Secuencia_buscar NR_028902.1 98.387  62  1   0   1   62  2   63  1.63e-24    110 
## Secuencia_buscar NR_115253.1 98.387  62  1   0   1   62  2   63  1.63e-24    110 
## Secuencia_buscar NR_104906.1 96.970  66  1   1   1   66  18  82  1.63e-24    110 
## Secuencia_buscar NR_109294.1 98.387  62  1   0   1   62  2   63  1.63e-24    110 
## Secuencia_buscar NR_118084.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_116357.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_036780.1 96.970  66  1   1   1   66  8   72  1.63e-24    110 
## Secuencia_buscar NR_043184.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_026060.1 93.333  75  3   2   6   80  1   73  1.63e-24    110 
## Secuencia_buscar NR_026059.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_025837.1 96.970  66  1   1   1   66  7   71  1.63e-24    110 
## Secuencia_buscar NR_043754.1 98.387  62  1   0   1   62  1   62  1.63e-24    110 
## Secuencia_buscar NR_118424.1 92.208  77  4   2   4   80  1   75  5.87e-24    108 
## Secuencia_buscar NR_169419.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_181409.1 100.000 58  0   0   1   58  7   64  5.87e-24    108 
## Secuencia_buscar NR_181355.1 93.151  73  5   0   1   73  29  101 5.87e-24    108 
## Secuencia_buscar NR_181208.1 100.000 58  0   0   1   58  1   58  5.87e-24    108 
## Secuencia_buscar NR_173589.1 98.361  61  1   0   1   61  2   62  5.87e-24    108 
## Secuencia_buscar NR_169472.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_180971.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_180908.1 94.366  71  3   1   3   73  1   70  5.87e-24    108 
## Secuencia_buscar NR_156992.1 93.243  74  4   1   1   74  1   73  5.87e-24    108 
## Secuencia_buscar NR_171528.1 92.208  77  4   2   3   79  1   75  5.87e-24    108 
## Secuencia_buscar NR_173509.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_170474.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_180703.1 100.000 58  0   0   1   58  1   58  5.87e-24    108 
## Secuencia_buscar NR_180319.1 98.361  61  1   0   1   61  2   62  5.87e-24    108 
## Secuencia_buscar NR_180223.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_180220.1 100.000 58  0   0   1   58  1   58  5.87e-24    108 
## Secuencia_buscar NR_180084.1 98.361  61  1   0   2   62  1   61  5.87e-24    108 
## Secuencia_buscar NR_180007.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_179947.1 98.361  61  1   0   2   62  1   61  5.87e-24    108 
## Secuencia_buscar NR_179936.1 93.243  74  4   1   1   74  1   73  5.87e-24    108 
## Secuencia_buscar NR_179845.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_179711.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_179677.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_158153.1 98.361  61  1   0   1   61  17  77  5.87e-24    108 
## Secuencia_buscar NR_173591.1 100.000 58  0   0   1   58  1   58  5.87e-24    108 
## Secuencia_buscar NR_179313.1 98.361  61  1   0   2   62  3   63  5.87e-24    108 
## Secuencia_buscar NR_179066.1 93.243  74  4   1   1   74  1   73  5.87e-24    108 
## Secuencia_buscar NR_179063.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_178885.1 100.000 58  0   0   1   58  1   58  5.87e-24    108 
## Secuencia_buscar NR_148653.1 93.243  74  4   1   1   74  8   80  5.87e-24    108 
## Secuencia_buscar NR_148335.1 98.361  61  1   0   1   61  3   63  5.87e-24    108 
## Secuencia_buscar NR_178550.1 98.361  61  1   0   2   62  1   61  5.87e-24    108 
## Secuencia_buscar NR_178414.1 100.000 58  0   0   1   58  2   59  5.87e-24    108 
## Secuencia_buscar NR_178272.1 98.361  61  1   0   2   62  3   63  5.87e-24    108 
## Secuencia_buscar NR_174210.1 100.000 58  0   0   1   58  2   59  5.87e-24    108 
## Secuencia_buscar NR_158041.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_148854.1 100.000 58  0   0   1   58  1   58  5.87e-24    108 
## Secuencia_buscar NR_118764.1 93.243  74  3   2   1   74  8   79  5.87e-24    108 
## Secuencia_buscar NR_159240.1 93.243  74  4   1   1   74  1   73  5.87e-24    108 
## Secuencia_buscar NR_151911.1 93.243  74  4   1   1   74  5   77  5.87e-24    108 
## Secuencia_buscar NR_137399.1 98.361  61  1   0   2   62  1   61  5.87e-24    108 
## Secuencia_buscar NR_137232.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_145871.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_137409.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_136454.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_135857.1 98.361  61  1   0   2   62  2   62  5.87e-24    108 
## Secuencia_buscar NR_148252.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_037044.1 98.361  61  1   0   1   61  3   63  5.87e-24    108 
## Secuencia_buscar NR_175537.1 93.151  73  5   0   1   73  8   80  5.87e-24    108 
## Secuencia_buscar NR_151927.1 98.361  61  1   0   1   61  2   62  5.87e-24    108 
## Secuencia_buscar NR_121771.1 100.000 58  0   0   1   58  1   58  5.87e-24    108 
## Secuencia_buscar NR_147755.1 93.151  73  5   0   1   73  1   73  5.87e-24    108 
## Secuencia_buscar NR_134122.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_126266.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_074208.1 93.243  74  4   1   1   74  1   73  5.87e-24    108 
## Secuencia_buscar NR_028710.1 98.361  61  1   0   2   62  1   61  5.87e-24    108 
## Secuencia_buscar NR_125465.1 100.000 58  0   0   1   58  2   59  5.87e-24    108 
## Secuencia_buscar NR_074166.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_024880.1 98.361  61  1   0   2   62  1   61  5.87e-24    108 
## Secuencia_buscar NR_024879.1 98.361  61  1   0   2   62  1   61  5.87e-24    108 
## Secuencia_buscar NR_133733.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_133995.1 100.000 58  0   0   1   58  1   58  5.87e-24    108 
## Secuencia_buscar NR_115343.1 98.361  61  1   0   1   61  2   62  5.87e-24    108 
## Secuencia_buscar NR_043985.1 98.361  61  1   0   3   63  4   64  5.87e-24    108 
## Secuencia_buscar NR_117855.1 96.875  64  2   0   1   64  1   64  5.87e-24    108 
## Secuencia_buscar NR_117516.1 96.875  64  2   0   1   64  1   64  5.87e-24    108 
## Secuencia_buscar NR_117037.1 100.000 58  0   0   1   58  1   58  5.87e-24    108 
## Secuencia_buscar NR_042714.1 95.588  68  1   2   6   73  1   66  5.87e-24    108 
## Secuencia_buscar NR_116445.1 98.361  61  1   0   2   62  1   61  5.87e-24    108 
## Secuencia_buscar NR_116728.1 100.000 58  0   0   1   58  1   58  5.87e-24    108 
## Secuencia_buscar NR_116320.1 100.000 58  0   0   1   58  1   58  5.87e-24    108 
## Secuencia_buscar NR_114877.1 100.000 58  0   0   1   58  3   60  5.87e-24    108 
## Secuencia_buscar NR_044514.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_044513.1 98.361  61  1   0   1   61  1   61  5.87e-24    108 
## Secuencia_buscar NR_029021.1 98.361  61  1   0   1   61  3   63  5.87e-24    108 
## Secuencia_buscar NR_173670.1 100.000 58  0   0   1   58  1   58  5.87e-24    108 
## Secuencia_buscar NR_029215.1 98.361  61  1   0   1   61  8   68  5.87e-24    108 
## Secuencia_buscar NR_118014.1 98.361  61  1   0   2   62  1   61  5.87e-24    108 
## Secuencia_buscar NR_025830.1 100.000 58  0   0   1   58  7   64  5.87e-24    108 
## Secuencia_buscar NR_026067.1 98.361  61  1   0   2   62  1   61  5.87e-24    108 
## Secuencia_buscar NR_125614.1 93.151  73  3   2   1   73  1   71  2.11e-23    106 
## Secuencia_buscar NR_109585.1 96.825  63  2   0   2   64  1   63  2.11e-23    106 
## Secuencia_buscar NR_169433.1 100.000 57  0   0   2   58  1   57  2.11e-23    106 
## Secuencia_buscar NR_164633.1 100.000 57  0   0   1   57  8   64  2.11e-23    106 
## Secuencia_buscar NR_181836.1 93.151  73  4   1   1   73  5   76  2.11e-23    106 
## Secuencia_buscar NR_181835.1 93.151  73  4   1   1   73  5   76  2.11e-23    106 
## Secuencia_buscar NR_181834.1 93.151  73  4   1   1   73  5   76  2.11e-23    106 
## Secuencia_buscar NR_181833.1 93.151  73  4   1   1   73  5   76  2.11e-23    106 
## Secuencia_buscar NR_181832.1 93.151  73  4   1   1   73  5   76  2.11e-23    106 
## Secuencia_buscar NR_181831.1 93.151  73  4   1   1   73  5   76  2.11e-23    106 
## Secuencia_buscar NR_181828.1 93.151  73  4   1   1   73  5   76  2.11e-23    106 
## Secuencia_buscar NR_181827.1 93.151  73  4   1   1   73  5   76  2.11e-23    106 
## Secuencia_buscar NR_181826.1 93.151  73  4   1   1   73  5   76  2.11e-23    106 
## Secuencia_buscar NR_181824.1 93.151  73  4   1   1   73  5   76  2.11e-23    106 
## Secuencia_buscar NR_181823.1 93.151  73  4   1   1   73  5   76  2.11e-23    106 
## Secuencia_buscar NR_181816.1 93.151  73  4   1   1   73  8   79  2.11e-23    106 
## Secuencia_buscar NR_181744.1 93.151  73  4   1   1   73  8   79  2.11e-23    106 
## Secuencia_buscar NR_181680.1 98.333  60  1   0   2   61  1   60  2.11e-23    106 
## Secuencia_buscar NR_181332.1 93.151  73  4   1   1   73  5   76  2.11e-23    106 
## Secuencia_buscar NR_174303.1 96.825  63  2   0   1   63  8   70  2.11e-23    106 
## Secuencia_buscar NR_165776.1 93.151  73  4   1   1   73  11  82  2.11e-23    106 
## Secuencia_buscar NR_173671.1 93.151  73  4   1   1   73  1   72  2.11e-23    106 
## Secuencia_buscar NR_181025.1 98.333  60  1   0   2   61  1   60  2.11e-23    106 
## Secuencia_buscar NR_169499.1 98.333  60  1   0   2   61  2   61  2.11e-23    106 
## Secuencia_buscar NR_171526.1 93.151  73  4   1   1   73  1   72  2.11e-23    106 
## Secuencia_buscar NR_180117.1 98.333  60  1   0   2   61  1   60  2.11e-23    106 
## Secuencia_buscar NR_180092.1 93.151  73  4   1   1   73  1   72  2.11e-23    106 
## Secuencia_buscar NR_179052.1 93.151  73  3   2   1   73  2   72  2.11e-23    106 
## Secuencia_buscar NR_178818.1 100.000 57  0   0   1   57  4   60  2.11e-23    106 
## Secuencia_buscar NR_178765.1 98.333  60  1   0   21  80  1   60  2.11e-23    106 
## Secuencia_buscar NR_152704.1 93.151  73  3   2   1   73  2   72  2.11e-23    106 
## Secuencia_buscar NR_147774.1 91.139  79  5   2   1   79  26  102 2.11e-23    106 
## Secuencia_buscar NR_171422.1 93.151  73  4   1   1   73  1   72  2.11e-23    106 
## Secuencia_buscar NR_152626.1 93.151  73  4   1   1   73  8   79  2.11e-23    106 
## Secuencia_buscar NR_153725.1 95.522  67  1   2   14  80  1   65  2.11e-23    106 
## Secuencia_buscar NR_118693.2 98.333  60  1   0   1   60  8   67  2.11e-23    106 
## Secuencia_buscar NR_118724.2 93.151  73  4   1   1   73  8   79  2.11e-23    106 
## Secuencia_buscar NR_137349.2 93.151  73  4   1   1   73  8   79  2.11e-23    106 
## Secuencia_buscar NR_146708.2 100.000 57  0   0   1   57  8   64  2.11e-23    106 
## Secuencia_buscar NR_114840.1 94.286  70  2   2   10  79  2   69  2.11e-23    106 
## Secuencia_buscar NR_126280.1 93.151  73  4   1   1   73  1   72  2.11e-23    106 
## Secuencia_buscar NR_175595.1 93.151  73  4   1   1   73  9   80  2.11e-23    106 
## Secuencia_buscar NR_175594.1 93.151  73  4   1   1   73  9   80  2.11e-23    106 
## Secuencia_buscar NR_175593.1 93.151  73  4   1   1   73  9   80  2.11e-23    106 
## Secuencia_buscar NR_175592.1 93.151  73  4   1   1   73  9   80  2.11e-23    106 
## Secuencia_buscar NR_145652.1 98.333  60  1   0   2   61  1   60  2.11e-23    106 
## Secuencia_buscar NR_135858.1 96.875  64  1   1   3   66  1   63  2.11e-23    106 
## Secuencia_buscar NR_146682.1 93.151  73  4   1   1   73  1   72  2.11e-23    106 
## Secuencia_buscar NR_043435.1 98.333  60  1   0   2   61  1   60  2.11e-23    106 
## Secuencia_buscar NR_040827.1 93.151  73  4   1   1   73  1   72  2.11e-23    106 
## Secuencia_buscar NR_148313.1 93.151  73  4   1   1   73  2   73  2.11e-23    106 
## Secuencia_buscar NR_146661.1 93.151  73  4   1   1   73  1   72  2.11e-23    106 
## Secuencia_buscar NR_118255.1 93.243  74  2   3   1   74  1   71  2.11e-23    106 
## Secuencia_buscar NR_136875.1 100.000 57  0   0   1   57  1   57  2.11e-23    106 
## Secuencia_buscar NR_132723.1 91.139  79  5   2   1   79  2   78  2.11e-23    106 
## Secuencia_buscar NR_117676.1 92.105  76  4   2   4   79  1   74  2.11e-23    106 
## Secuencia_buscar NR_074919.1 100.000 57  0   0   1   57  1   57  2.11e-23    106 
## Secuencia_buscar NR_029202.1 98.333  60  1   0   2   61  3   62  2.11e-23    106 
## Secuencia_buscar NR_113362.1 100.000 57  0   0   2   58  1   57  2.11e-23    106 
## Secuencia_buscar NR_074146.1 98.333  60  1   0   3   62  1   60  2.11e-23    106 
## Secuencia_buscar NR_074121.1 91.139  79  5   2   1   79  1   77  2.11e-23    106 
## Secuencia_buscar NR_134792.1 93.151  73  3   2   1   73  4   74  2.11e-23    106 
## Secuencia_buscar NR_134104.1 93.151  73  4   1   1   73  3   74  2.11e-23    106 
## Secuencia_buscar NR_134018.1 93.151  73  3   2   1   73  2   72  2.11e-23    106 
## Secuencia_buscar NR_133859.1 93.151  73  4   1   1   73  1   72  2.11e-23    106 
## Secuencia_buscar NR_044291.1 91.139  79  5   2   1   79  1   77  2.11e-23    106 
## Secuencia_buscar NR_044213.1 92.208  77  3   3   1   76  2   76  2.11e-23    106 
## Secuencia_buscar NR_044212.1 92.208  77  3   3   1   76  3   77  2.11e-23    106 
## Secuencia_buscar NR_112220.1 98.333  60  1   0   3   62  13  72  2.11e-23    106 
## # BLAST processed 1 queries


2.0.- Clustal Omega


2.1.- Problema que aborda

Clustal Omega es una herramienta bioinformática diseñada para realizar alineamientos múltiples de secuencias. El problema principal que Clustal Omega resuelve es el alineamiento múltiple de secuencias de ácidos nucleicos (como ADN o ARN) o proteínas. Esto es esencial para muchas tareas en biología molecular y evolutiva, como la identificación de regiones conservadas en genes o proteínas, la inferencia de relaciones evolutivas y la predicción de la función y estructura de nuevas secuencias. Alinear múltiples secuencias no es una tarea trivial, ya que aumenta exponencialmente en complejidad con el número de secuencias y su longitud. El objetivo es identificar la mejor manera de superponer estas secuencias para maximizar su similitud, a la vez que se tiene en cuenta las inserciones, deleciones (tipo de mutación genética) y sustituciones que han ocurrido a lo largo de la evolución. Clustal Omega utiliza técnicas avanzadas, como el alineamiento progresivo y un enfoque basado en perfiles, para aumentar la precisión y velocidad del alineamiento.

Artículo 1: Sievers, F., & Higgins, D. G. (2014). Clustal Omega, accurate alignment of very large numbers of sequences. Methods in Molecular Biology, 1079, 105-116. Enlace al artículo

  • Propósito: Clustal Omega es una reinvención de la serie de programas Clustal para alineación de secuencias múltiples. Es capaz de manejar grandes cantidades de secuencias de ADN/ARN o proteínas gracias al algoritmo mBED para calcular árboles guía. Este algoritmo resuelve rápidamente problemas de alineación significativos en ordenadores convencionales. Su precisión ha superado a versiones anteriores de Clustal mediante el uso del método HHalign para alinear modelos de perfil oculto de Markov. Actualmente, se opera desde la línea de comandos o en línea.

Artículo 2: Sievers, F., Wilm, A., Dineen, D., Gibson, T. J., Karplus, K., Li, W., Lopez, R., McWilliam, H., Remmert, M., Söding, J., Thompson, J. D., & Higgins, D. G. (2011). ast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Molecular Systems Biology, 7(539). Enlace al artículo

  • Propósito : Los alineamientos múltiples de secuencias son esenciales para varios métodos de análisis de secuencias. Aunque la mayoría de las alineaciones se obtienen mediante la heurística de alineación progresiva, este enfoque comienza a ser inadecuado para conjuntos de datos con miles de secuencias. Mientras algunos métodos sacrifican calidad para manejar grandes conjuntos de datos, otros ofrecen precisión pero no escalan adecuadamente. En el artículo, se introduce Clustal Omega, un programa que alinea rápidamente un vasto número de secuencias de proteínas con precisión. Su rendimiento en conjuntos de datos pequeños es comparable al de otros alineadores de alta calidad, pero en conjuntos más grandes, supera a competidores en velocidad y calidad.

Artículo 3: Sievers, F., & Higgins, D. G. (2018). Clustal Omega for making accurate alignments of many protein sequences. Protein Science, 27(1), 135-145. Molecular ecology notes, 7(3), 355-364. Enlace al artículo

  • Propósito : Se describe a Clustal Omega como una herramienta frecuentemente empleada para alineamientos de secuencias múltiples. Se mencionan adiciones recientes al software y se comparan diferentes métodos de alineamiento. Las evaluaciones se fundamentan en comparaciones o predicciones de estructuras proteicas, incorporando un enfoque innovador basado en la predicción de estructuras secundarias. En términos generales, Clustal Omega presenta rapidez para alineamientos extensos y ofrece alta precisión en alineamientos de proteínas en contraste con otros software.


2.2.- Integración con R/Bioconductor


PASO 1 : INSTALAR PAQUETES

if (!requireNamespace("BiocManager", quietly = TRUE))
  install.packages("BiocManager")
BiocManager::install("msa")
## Bioconductor version 3.16 (BiocManager 1.30.22), R 4.2.3 (2023-03-15)
## Warning: package(s) not installed when version(s) same as or greater than current; use
##   `force = TRUE` to re-install: 'msa'

PASO 2 : EJEMPLO DE USO 1

library(msa)
# Define las secuencias como un vector de caracteres
secuencias <- c(
  "MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG",
  "LVSVKVSDDFTIAAMRKTVELLISRLEERLDKFSNIVKRGDTYCCSNYKMNGITSWSRDG",
  "MYAQEYVFTDGERISLWADNIQKVHSAWADIALAEKDYNNLAEKYGKWRPFDIKNLKSIN",
  "LVKSAEEEARKKLDHPGISYFIKPSFETLQKGGGKDCRGIAGRIAATDETILAVYGLAED",
  "ERVNIDSLEKSYEEEHURAKVKLIGDRGYHJRYGAAKFDKIAKESMYTHRPRIDFTTKGK",
  "IVAIKIAQDYKCAVSAMMQEYVRTFGNGTATVKT"
)
# Convierte el vector de caracteres en un objeto AAStringSet
secuencias_aa <- AAStringSet(secuencias)
# Realiza el alineamiento con Clustal Omega
alineamiento <- msa(secuencias_aa, method = "ClustalOmega")
## using Gonnet
# Imprime el alineamiento
print(alineamiento)
## ClustalOmega 1.2.0 
## 
## Call:
##    msa(secuencias_aa, method = "ClustalOmega")
## 
## MsaAAMultipleAlignment with 6 rows and 87 columns
##     aln 
## [1] LVSVKVSDDFTIAAMRKTVEL-----------LISR...VKRGDTYCCSNYKMNGITS-----------WSRDG-
## [2] -----ERVNIDSLEKSYEEEHU--------------...GDRGYHJRYGAAKFDKIAKESMYTHRPRIDFTTKGK
## [3] ------------LVKSAEEEARKKLDHPGISYFIK-...QKGGGKDCR--GIAGRIAATDET-ILAVYGLAED--
## [4] ---------------MYAQEYV-FTDGERISLWADN...AEKDYNNLA--EKYGKWRPFDIK-NLKSIN------
## [5] ---------MTEITAAMVKELR-ESTGAGMMDCKNA...REKGLGKAA--KKADRLAA---E-G-----------
## [6] IVAIKIAQDYKCAVSAMMQEYV-RTFGNGTATVKT-...------------------------------------
## Con ---------??????????E??-???G?G??????-...???G?????--?K???IA?---?-?-----------

PASO 3 : EJEMPLO DE USO 2

Se confecciona un archivo .fasta por ejemplo example_clustal_omega.fasta con la siguiente información (información para el ejemplo)

>Secuencia1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRKTVELLISRLEERLDKFSNIVKRGDTYCCSNYKMNGITSWSRDG
MYAQEYVFTDGERISLWADNIQKVHSAWADIALAEKDYNNLAEKYGKWRPFDIKNLKSIN
LVKSAEEEARKKLDHPGISYFIKPSFETLQKGGGKDCRGIAGRIAATDETILAVYGLAED
ERVNIDSLEKSYEEEHURAKVKLIGDRGYHJRYGAAKFDKIAKESMYTHRPRIDFTTKGK
IVAIKIAQDYKCAVSAMMQEYVRTFGNGTATVKT
>Secuencia2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

Se ejecuta este código identificando el archivo .fasta a usar

library(msa)

secuencias <- readAAStringSet("/Users/adolfogonzalez/desa_r/bioinformatica/example_clustal_omega.fasta")
alineamiento <- msa(secuencias, method = "ClustalOmega")
## using Gonnet
print(alineamiento)
## ClustalOmega 1.2.0 
## 
## Call:
##    msa(secuencias, method = "ClustalOmega")
## 
## MsaAAMultipleAlignment with 2 rows and 334 columns
##     aln                                                    names
## [1] MTEITAAMVKELRESTGAGMMDCKNA...YKCAVSAMMQEYVRTFGNGTATVKT Secuencia1
## [2] -----SATVSEIN---------SETD...------------------------- Secuencia2
## Con ??????A?V?E???????????????...????????????????????????? Consensus


3.0.- UCSC Genome Browser


3.1.- Problema que aborda


Resuelve varios problemas relacionados con la investigación en genómica y la genómica comparativa. El problema principal que aborda es proporcionar una plataforma interactiva y accesible en línea para visualizar y analizar datos genómicos de diversas especies. Algunos de los problemas específicos que resuelve incluyen: Visualización de genomas completos, Anotación genómica, Comparación de genomas, Análisis de variantes genéticas, Integración de datos genómicos, Herramientas de análisis personalizadas y Acceso público.

Artículo 1: Rosenbloom, K., Taylor, J., Schaeffer, S., Kent, J., Haussler, D., & Miller, W. (2008). Phylogenomic resources at the UCSC Genome Browser. Methods in Molecular Biology, 422, 133-144. Enlace al artículo

  • Propósito : El texto ilustra cómo se utilizan estos recursos para asignar cambios genómicos raros a la rama del árbol filogenético correspondiente o para buscar evidencia que respalde una topología de árbol específica. Además, se proporciona un código fuente de muestra para llevar a cabo estas investigaciones.

Artículo 2: Pegueroles, C., & Gabaldón, T. (2016). Secondary structure impacts patterns of selection in human lncRNAs. Protein Science, 27(1), 135-145. BMC Biology, 14, 60. Enlace al artículo

  • Propósito : El estudio examina las firmas de selección en lncRNA humanos mediante la utilización de datos interespecíficos e intraespecíficos de cinco poblaciones principales. Además, se investiga la relación entre las variaciones de secuencia y las predicciones de la estructura secundaria. El análisis incluye referencias a lncRNA previamente caracterizados en términos de su función.

Artículo 3: Stojanovic, N. (2009). A Study of the Distribution of Phylogenetically Conserved Blocks within Clusters of Mammalian Homeobox Genes. Genetics and Molecular Biology, 32(3), 666-673. Enlace al artículo

  • Propósito : En el artículo se describe un método estadístico desarrollado para analizar patrones de conservación filogenética en secuencias de ADN de mamíferos, aprovechando la abundante información generada por los esfuerzos de secuenciación del genoma en la última década. El enfoque se aplicó específicamente al estudio de grupos de genes homeobox (Hox) altamente conservados, utilizando datos de alineamiento de seis especies. Se creó un mapa de Hox que identifica fragmentos conservados y sus ubicaciones con respecto a genes y otros puntos de referencia. Los resultados revelaron patrones inesperados en la disposición de estos elementos conservados.


3.2.- Integración con R/Bioconductor


PASO 1 : INSTALAR PAQUETES

# Instala y carga las bibliotecas necesarias
if (!requireNamespace("BiocManager", quietly = TRUE))
  install.packages("BiocManager")
BiocManager::install("rtracklayer")
## Bioconductor version 3.16 (BiocManager 1.30.22), R 4.2.3 (2023-03-15)
## Warning: package(s) not installed when version(s) same as or greater than current; use
##   `force = TRUE` to re-install: 'rtracklayer'
BiocManager::install("GenomicFeatures")
## Bioconductor version 3.16 (BiocManager 1.30.22), R 4.2.3 (2023-03-15)
## Warning: package(s) not installed when version(s) same as or greater than current; use
##   `force = TRUE` to re-install: 'GenomicFeatures'

PASO 2 : EJEMPLO DE USO

# Cargar Librerías
library(rtracklayer)
library(GenomicFeatures)
## Loading required package: AnnotationDbi
# Establece la región de interés (por ejemplo, el cromosoma 1)
chromosome <- "chr1"
start <- 1
end <- 1000000

# Descargar las anotaciones de genes desde UCSC Genome Browser
ucsc_track <- import.bed("https://genome.ucsc.edu/cgi-bin/hgTables?hgsid=1709785714_5tkFxszooob8e6g5nTFnRRAeBGDV&boolshad.hgta_printCustomTrackHeaders=0&hgta_ctName=tb_knownGene&hgta_ctDesc=table+browser+query+on+knownGene&hgta_ctVis=pack&hgta_ctUrl=&fbQual=whole&fbUpBases=200&fbExonBases=0&fbIntronBases=0&fbDownBases=200&hgta_doGetBed=get+BED")

# Filtrar las anotaciones para la región de interés
genes_in_region <- subsetByOverlaps(ucsc_track, GRanges(seqnames = chromosome, ranges = IRanges(start, end)))

# Imprime las primeras 5 filas de las anotaciones
head(genes_in_region)
## GRanges object with 4 ranges and 5 metadata columns:
##       seqnames      ranges strand |              name     score     itemRgb
##          <Rle>   <IRanges>  <Rle> |       <character> <numeric> <character>
##   [1]     chr1 11869-14409      + | ENST00000456328.2         0     #000000
##   [2]     chr1 12010-13670      + | ENST00000450305.2         0     #000000
##   [3]     chr1 14404-29570      - | ENST00000488147.1         0     #000000
##   [4]     chr1 17369-17436      - | ENST00000619216.1         0     #000000
##             thick                     blocks
##         <IRanges>              <IRangesList>
##   [1] 11869-11868    1-359,745-853,1353-2541
##   [2] 12010-12009   1-48,170-218,604-688,...
##   [3] 14404-14403 1-98,602-635,1393-1544,...
##   [4] 17369-17368                       1-68
##   -------
##   seqinfo: 1 sequence from an unspecified genome; no seqlengths
# Realiza operaciones con los datos de genes (por ejemplo, contar cuántos genes hay)
num_genes <- length(genes_in_region)
cat("Número de genes en la región:", num_genes, "\n")
## Número de genes en la región: 4


4.0.- PhyML


4.1.- Problema que aborda

PhyML (Phylogenetic Maximum Likelihood) es un software utilizado en biología molecular y evolutiva para resolver el problema principal de reconstrucción filogenética. El problema principal que PhyML resuelve es determinar la estructura del árbol filogenético que mejor representa la historia evolutiva de las secuencias de interés. Esto implica estimar las ramificaciones que conectan las secuencias en un árbol, donde las ramas representan relaciones evolutivas y las longitudes de las ramas pueden indicar la cantidad de cambio evolutivo (por ejemplo, sustituciones de nucleótidos o aminoácidos) entre las secuencias.

Artículo 1: Lavin, Paris, Gallardo-Cerda, Jorge, Torres-Diaz, Cristian, Asencio, Geraldine, & Gonzalez, Marcelo. (2013). Cepa antártica de Bacillus sp., con actividad extracelular de tipo agarolítica y alginatoliasa. Gayana (Concepción), 77(2), 75-82. Enlace al artículo

  • Propósito : Diversas bacterias asociadas a macroalgas tienen la capacidad de utilizar ficocoloides como fuente de carbono. En particular, las bacterias adaptadas a las condiciones adversas de la Antártica podrían ser especialmente efectivas en la degradación enzimática de azúcares complejos a bajas temperaturas. Esto podría tener aplicaciones significativas en la mejora de procesos industriales que hacen uso de enzimas. Un análisis del gen ribosomal 16S revela que la cepa bacteriana aislada de algas en la Isla Rey Jorge, en la Antártica, pertenece al género Bacillus. Se observó actividad agarasa y alginatoliasa en el sobrenadante libre de células. Notablemente, se encontraron diferencias significativas en la temperatura óptima para la hidrólisis de agarosa y alginato, con una mayor actividad agarolítica a 4 °C y una mayor actividad alginatoliasa a 30 °C. Estos hallazgos tienen un valor biotecnológico considerable y podrían tener aplicaciones industriales importantes.

Artículo 2: Duchen, P. (2021). Métodos de reconstrucción filogenética I: máxima verosimilitud. Tequio, 4(11), 69-79. Enlace al artículo

  • Propósito : Se explica cómo se realiza el cálculo de la verosimilitud de una filogenia utilizando secuencias de ADN de diversas especies como punto de partida. Además, se describen modelos de mutación de ADN que permiten calcular las probabilidades de transición entre nucleótidos, desempeñando un papel fundamental en la estimación de la verosimilitud. Se proporciona un ejemplo ilustrativo que detalla los pasos necesarios para llevar a cabo la inferencia filogenética y se menciona el software más ampliamente utilizado para este propósito, especialmente en el contexto de alineamientos de ADN de mayor tamaño.

Artículo 3: Matsen, F.A., Kodner, R.B., & Armbrust, E. (2010). pplacer: Linear time maximum-likelihood and Bayesian phylogenetic placement of sequences onto a fixed reference tree. BMC Bioinformatics, 11, 538. Enlace al artículo

  • Propósito : El artículo introduce “pplacer”, un paquete de software diseñado para la colocación filogenética y la representación visual subsiguiente. El algoritmo tiene una capacidad impresionante, permitiendo la colocación de hasta veinte mil lecturas cortas en un árbol de referencia que consta de mil taxones por hora por procesador, y presenta un rendimiento esencialmente lineal junto con una complejidad de memoria que depende del número de taxones en el árbol de referencia. Además, es altamente escalable para ejecución en paralelo.


4.2.- Integración con R/Bioconductor


PASO 1 : INSTALAR PAQUETES

# Instala y carga las bibliotecas necesarias
if (!requireNamespace("BiocManager", quietly = TRUE))
  install.packages("BiocManager")
BiocManager::install("rtracklayer")
## Bioconductor version 3.16 (BiocManager 1.30.22), R 4.2.3 (2023-03-15)
## Warning: package(s) not installed when version(s) same as or greater than current; use
##   `force = TRUE` to re-install: 'rtracklayer'
BiocManager::install("GenomicFeatures")
## Bioconductor version 3.16 (BiocManager 1.30.22), R 4.2.3 (2023-03-15)
## Warning: package(s) not installed when version(s) same as or greater than current; use
##   `force = TRUE` to re-install: 'GenomicFeatures'

PASO 2 : EJEMPLO DE USO

# Cargar Librerías
library(ape)
## 
## Attaching package: 'ape'
## The following object is masked from 'package:ShortRead':
## 
##     zoom
## The following object is masked from 'package:Biostrings':
## 
##     complement
library(phangorn)

# Crear un objeto de árbol filogenético creado con PhyML
tree <- read.tree("/Users/adolfogonzalez/desa_r/bioinformatica/arbol_ejemplo.nwk") 

# Visualizar el árbol
plot(tree, show.tip.label = TRUE)



5.0.- BEDTools


5.1.- Problema que aborda

BEDTools es una suite de herramientas de línea de comandos utilizada principalmente en bioinformática y genómica para resolver una variedad de problemas relacionados con la manipulación y análisis de datos en formato BED (Browser Extensible Data). El formato BED se utiliza comúnmente para representar anotaciones genómicas, como la ubicación de genes, exones, intrones, sitios de unión a proteínas, variantes genéticas y más. El problema principal que BEDTools resuelve es la manipulación eficiente de datos en formato BED para realizar análisis y extracciones específicas en conjuntos de datos genómicos. Algunos de los problemas que BEDTools ayuda a resolver incluyen; Intersección de intervalos, Unión de intervalos, Diferencia de intervalos, Filtrado de intervalos y Conversión de formatos.

Artículo 1: Wilderman, A., D’haene, E., Baetens, M., Yankee, T. N., Winchester, E. W., Glidden, N., Roets, E., Van Dorpe, J., Vergult, S., Cox, T. C., & Cotney, J. (2022). A distant global control region is essential for normal expression of anterior HOXA genes during mouse and human craniofacial development. bioRxiv, 2022.03.10.483852. Enlace al artículo

  • Propósito : Los defectos en los patrones embrionarios que causan anomalías craneofaciales son comunes en los defectos congénitos. La expresión precisa de genes en la formación facial se controla mediante elementos potenciadores de tejido, incluyendo las regiones superpotenciadoras. Se identificaron 531 regiones superpotenciadoras únicas en tejido craneofacial embrionario, algunas de las cuales están en regiones no codificantes. Estas regiones regulan la expresión de genes HOXA anteriores, y su eliminación causa problemas en la viabilidad y hendiduras orofaciales en ratones y humanos, lo que sugiere un papel crucial en el desarrollo craneofacial.

Artículo 2: Arneson, A., Haghani, A., Thompson, M. J., Pellegrini, M., Kwon, S. B., Vu, H., Maciejewski, E., Yao, M., Li, C. Z., Lu, A. T., Morselli, M., Rubbi, L., Barnes, B., Hansen, K. D., Zhou, W., Breeze, C. E., Ernst, J., & Horvath, S. (2022). A mammalian methylation array for profiling methylation levels at conserved sequences. Nature Communications, 13(1), 783. Enlace al artículo

  • Propósito : Se desarrolló una matriz de metilación de mamíferos que mide 36k CpG en múltiples especies. Esta matriz supera las limitaciones de las matrices específicas de especies y permite comparaciones entre especies. Se diseñaron sondas tolerantes a mutaciones entre especies y se evaluó su precisión en humanos, ratas y ratones. Además, esta matriz se aplica a todas las especies de mamíferos, incluso a las no secuenciadas.

Artículo 3: Talenti, A., Powell, J., Hemmink, J. D., Cook, E. A. J., Wragg, D., Jayaraman, S., … Prendergast, J. G. D. (2022). A cattle graph genome incorporating global breed diversity. Nature Communications, 13(1), 910. Enlace al artículo

  • Propósito : A pesar de que solo el 8% del ganado vacuno se encuentra en Europa, las razas europeas dominan los recursos genéticos actuales. Esto afecta negativamente la investigación ganadera en otras razas bovinas importantes a nivel mundial, especialmente las de África, que tienen recursos genómicos limitados pero son cruciales para las economías del continente. Para abordar este problema, se ha creado un genoma gráfico que combina datos genómicos de 294 bovinos diversos, incluyendo razas africanas, para representar de manera más completa la diversidad bovina global. Este nuevo conjunto de referencia contiene 116,1 Mb adicionales (4,2%) de secuencia que no está presente en la secuencia Hereford actual, lo que la hace inaccesible para las investigaciones actuales. Además, se ha demostrado que el uso de este genoma gráfico mejora las tasas de mapeo de lecturas, reduce los sesgos alélicos y aumenta la concordancia de las llamadas de variantes estructurales con datos de mapeo óptico independientes. En resumen, esta asamblea de referencia mejorada y más representativa promete impulsar la investigación ganadera a nivel mundial.


5.2.- Integración con R/Bioconductor


EJEMPLO DE USO

# Cargar Librerías
library(GenomicRanges)

# Leer el archivo BED en un objeto GRanges
bed_file <- import.bed("https://genome.ucsc.edu/cgi-bin/hgTables?hgsid=1709785714_5tkFxszooob8e6g5nTFnRRAeBGDV&boolshad.hgta_printCustomTrackHeaders=0&hgta_ctName=tb_knownGene&hgta_ctDesc=table+browser+query+on+knownGene&hgta_ctVis=pack&hgta_ctUrl=&fbQual=whole&fbUpBases=200&fbExonBases=0&fbIntronBases=0&fbDownBases=200&hgta_doGetBed=get+BED")
bed_ranges <- as(bed_file, "GRanges")

# Leer el archivo GTF en un objeto GRanges
gtf_file <- import("/Users/adolfogonzalez/desa_r/bioinformatica/gencode.v44.annotation.gtf")
gtf_ranges <- as(gtf_file, "GRanges")

# Realizar la superposición utilizando GenomicRanges
intersection_result <- findOverlaps(query = bed_ranges, subject = gtf_ranges)

# Realizar la superposición utilizando GenomicRanges
intersection_result <- findOverlaps(bed_ranges, gtf_ranges)

# Imprime superposición
print(intersection_result)
## Hits object with 47 hits and 0 metadata columns:
##        queryHits subjectHits
##        <integer>   <integer>
##    [1]         1           1
##    [2]         1           2
##    [3]         1           3
##    [4]         1           4
##    [5]         1           5
##    ...       ...         ...
##   [43]         4          14
##   [44]         4          15
##   [45]         4          27
##   [46]         4          28
##   [47]         4          29
##   -------
##   queryLength: 4 / subjectLength: 3424189