## 
## Adjuntando el paquete: 'BiocGenerics'
## The following objects are masked from 'package:stats':
## 
##     IQR, mad, sd, var, xtabs
## The following objects are masked from 'package:base':
## 
##     anyDuplicated, aperm, append, as.data.frame, basename, cbind,
##     colnames, dirname, do.call, duplicated, eval, evalq, Filter, Find,
##     get, grep, grepl, intersect, is.unsorted, lapply, Map, mapply,
##     match, mget, order, paste, pmax, pmax.int, pmin, pmin.int,
##     Position, rank, rbind, Reduce, rownames, sapply, setdiff, table,
##     tapply, union, unique, unsplit, which.max, which.min
## 
## Adjuntando el paquete: 'S4Vectors'
## The following object is masked from 'package:utils':
## 
##     findMatches
## The following objects are masked from 'package:base':
## 
##     expand.grid, I, unname
## 
## Adjuntando el paquete: 'IRanges'
## The following object is masked from 'package:grDevices':
## 
##     windows
## 
## Adjuntando el paquete: 'Biostrings'
## The following object is masked from 'package:base':
## 
##     strsplit
## 
## Adjuntando el paquete: 'MatrixGenerics'
## The following objects are masked from 'package:matrixStats':
## 
##     colAlls, colAnyNAs, colAnys, colAvgsPerRowSet, colCollapse,
##     colCounts, colCummaxs, colCummins, colCumprods, colCumsums,
##     colDiffs, colIQRDiffs, colIQRs, colLogSumExps, colMadDiffs,
##     colMads, colMaxs, colMeans2, colMedians, colMins, colOrderStats,
##     colProds, colQuantiles, colRanges, colRanks, colSdDiffs, colSds,
##     colSums2, colTabulates, colVarDiffs, colVars, colWeightedMads,
##     colWeightedMeans, colWeightedMedians, colWeightedSds,
##     colWeightedVars, rowAlls, rowAnyNAs, rowAnys, rowAvgsPerColSet,
##     rowCollapse, rowCounts, rowCummaxs, rowCummins, rowCumprods,
##     rowCumsums, rowDiffs, rowIQRDiffs, rowIQRs, rowLogSumExps,
##     rowMadDiffs, rowMads, rowMaxs, rowMeans2, rowMedians, rowMins,
##     rowOrderStats, rowProds, rowQuantiles, rowRanges, rowRanks,
##     rowSdDiffs, rowSds, rowSums2, rowTabulates, rowVarDiffs, rowVars,
##     rowWeightedMads, rowWeightedMeans, rowWeightedMedians,
##     rowWeightedSds, rowWeightedVars
## Welcome to Bioconductor
## 
##     Vignettes contain introductory material; view with
##     'browseVignettes()'. To cite Bioconductor, see
##     'citation("Biobase")', and for packages 'citation("pkgname")'.
## 
## Adjuntando el paquete: 'Biobase'
## The following object is masked from 'package:MatrixGenerics':
## 
##     rowMedians
## The following objects are masked from 'package:matrixStats':
## 
##     anyMissing, rowMedians

Seteo del directorio de trabajo y descarga de archivos fastq:

Descarga:

setwd("C:/Users/admin/Desktop/bioinfo/rmkd")

Crear el objeto:

## /Users/admin/Desktop/bioinfo/rmkd/Rqc.rda has been loaded.

_Este grÔfico muestra el contenido de guanina y citosina (GC) en cada ciclo de secuenciación. Un contenido de GC anormal puede indicar problemas en la secuenciación o en la calidad.

_El contenido de GC en un archivo FASTQ puede afectar la calidad de la secuenciación; las regiones con alto contenido de GC pueden ser mÔs difíciles de secuenciar debido a la estabilidad proporcionada por los triples enlaces entre las bases guanina y citosina. Esto puede llevar a un mayor error en estas regiones durante la secuenciación, afectando la calidad de los datos.

_Para que sea considerado de buena calidad el contenido de GC debería estar relativamente estable a lo largo de todos los ciclos. La distribución no debería mostrar picos ni caídas extremas, como se observa en el FASTQ 7 un pico inesperado en el contenido de GC, lo cual puede ser un signo de contaminación o problemas en la biblioteca de secuencia.

  • Este segundo grĆ”fico muestra la calidad de las bases a lo largo de los ciclos de secuenciación. Generalmente, los valores mĆ”s altos indican mejor calidad.

  • Para saber si el FASTQ es de buena calidad, en los primeros ciclos (generalmente del 1 al 20 o 30), deberĆ­an verse puntuaciones altas (generalmente superiores a 30, lo que corresponde a una precisión del 99.9% en la base llamada).

  • A medida que avanzan los ciclos, es normal que la calidad baje un poco, pero no deberĆ­a caer por debajo de 20 en la mayorĆ­a de los ciclos. El grĆ”fico deberĆ­a mostrar un rango estrecho de valores en la parte superior del grĆ”fico, lo que indica que la mayorĆ­a de las lecturas tienen una buena calidad constante.

  • En el caso del FASTQ 7 se ve una caĆ­da drĆ”stica en la calidad despuĆ©s de los primeros ciclos, esto puede indicar problemas con la secuenciación, como degradación de las molĆ©culas de ADN o errores tĆ©cnicos. Si el rango de la caja es muy amplio, esto indica que hay variabilidad en la calidad de las secuencias en los ciclos, lo cual no es ideal.

  • Si la calidad promedio estĆ” consistentemente por debajo de 20 (lo que corresponde a un 99% de precisión), las secuencias no tienen buena calidad, como pasa con el FASTQ 8.

Distribución de archivos de calidad media por lectura.

  • El grĆ”fico resultante presenta un boxplot para cada una de las lecturas en el conjunto. Cada caja representa la distribución del puntaje de calidad de las lecturas, mostrando la mediana(lĆ­nea dentro de la caja que indica el puntaje de calidad central),los cuartiles(los bordes de la caja representan el primer (Q1) y tercer cuartil (Q3), que indican la dispersión de la calidad.), y barras(extensiones que representan los valores mĆ”s bajos y mĆ”s altos dentro de 1.5 veces el rango intercuartĆ­lico (IQR), y posibles valores atĆ­picos se marcan como puntos individuales)

  • Un boxplot que muestra una mediana alta y cajas compactas sugiere que la calidad es consistente y alta en general.Los puntos fuera de las barras indican lecturas con puntajes de calidad inusuales, lo que podrĆ­a requerir una revisión o filtrado.

  • La extensión de las cajas y las barras te da una idea de la variabilidad en la calidad entre las lecturas.

Frecuancia de lecturas

  • Esta visualización nos perite ver cuĆ”ntas veces se repite una secuancia especĆ­fica

  • En el eje x se representan los reads (secuancias) y en el eje y vemos cuĆ”ntas veces se observa una misma secuencia en el archivo

  • El pico inicial representa las lecturas que ocurren una sola vez en el archivo, es decir, que la mayorĆ­a de las lecturas en todos los archivos FASTQ tienen una sola aparición (proporción cercana al 60%). Esto es normal en secuenciaciones de genomas grandes, donde la mayorĆ­a de las lecturas corresponden a regiones Ćŗnicas del genoma o transcriptoma.

  • A medida que te mueves hacia la derecha en el eje X (aumenta el nĆŗmero de repeticiones), la proporción de lecturas que se repiten disminuye considerablemente. Pero en algunos casos, ciertas secuencias se repiten miles de veces (hasta 10,000 veces o mĆ”s).

Distribución de las longitudes de las lecturas

  • En este grĆ”fico vemos la longitud de las lecturas en pares de bases (dividido en intervalos de tamaƱo: menos de 150 bp, entre 151-285 bp, y asĆ­ sucesivamente) en el eje x y el porcentaje de lecturas que tienen una longitud dentro de cada intervalo de tamaƱo

  • Esta visualización ayuda a evaluar la calidad y consistencia de las longitudes de las lecturas en cada archivo FASTQ. Las lecturas uniformes y consistentes sugieren que los datos estĆ”n en buen estado, mientras que una alta variabilidad en las longitudes podrĆ­a indicar la necesidad de filtrado o procesamiento adicional.

Calidad de las bases en los ciclos de secuenciación

  • Este grĆ”fico muestra la calidad de las bases a lo largo de los ciclos de secuenciación en los archivos FASTQ. Los colores en el grĆ”fico permiten visualizar rĆ”pidamente cómo varĆ­a la calidad de las lecturas.

  • El eje X representa los ciclos de secuenciación o las posiciones de las bases en las lecturas y el eje Y las puntuaciones de calidad promedio para cada ciclo de secuenciación.

    Los colores fríos (azul): representan puntuaciones de calidad altas, generalmente superiores a 30. Esto significa que las bases en esos ciclos tienen una alta precisión Los colores intermedios: suelen indicar puntuaciones en un rango intermedio (entre 20 y 30). En este rango, la precisión de las bases es moderadamente buena Los colores cÔlidos (naranja, rojo): indican que las bases en esos ciclos tienen una puntuación de calidad baja, por debajo de 20 en la escala. Esto muestra que las bases en esas posiciones son menos confiables.

  • De este modo en secuencias de alta calidad se ve que la mayor parte del grĆ”fico estĆ” en verde oscuro o azul.Si el grĆ”fico empieza con colores frĆ­os (azul) y se va volviendo mĆ”s rojo o naranja en los ciclos posteriores, eso indica una caĆ­da de calidad a medida que avanza la secuenciación.

  • Una caĆ­da drĆ”stica de la calidad en los ciclos, se observa en los cambios repentinos de color, puede ser una indicación de que las lecturas tienen problemas de precisión. como es en el caso del FASTQ 7 y el FASTQ 2 muchos colores rojos o naranjas desde los primeros ciclos, es una seƱal de que las bases tienen una baja precisión, lo que puede afectar la calidad general de los datos. esto se ve en el FASTQ 8

Frecuencia de las bases en los ciclos de secuenciación

  • Visualiza la frecuencia de las bases (A, T, C, G) a lo largo de los ciclos de secuenciación con el objetivo de ver si hay una desviacion en las lecturas de bases a lo largo del tiempo.

  • El eje X representa los ciclos de secuenciación, es decir, indica el nĆŗmero de posiciones leĆ­das de una base, mientras que el eje Y muestra la frecuencia con la que se detecta cada base en cada ciclo.

  • Si todas las bases se distribuyen de manera uniforme a lo largo de los ciclos, significa que la secuenciación estĆ” balanceada y no hay una desviación hacia una base particular.

  • Si alguna base aparece mucho mĆ”s en ciertos ciclos, podrĆ­a haber una desviacion o un problema en la calidad de esas lecturas, como pasa con el fastq 7

  • A medida que avanzan los ciclos, es comĆŗn que la calidad de la llamada de bases pueda disminuir un poco, pero una gran caĆ­da o un desbalance fuerte puede indicar un problema en el proceso de secuenciación. En el grĆ”fico, la ā€œNā€ indica una base que el secuenciador no pudo identificar. Muchas ā€œNā€, muestran problemas de calidad en los datos de secuenciación.

Visualización de los nucleótidos

Calidad de las lecturas en formato Phred, codificada en caracteres ASCII.

## class: FastqQuality
## quality:
## BStringSet object of length 9:
##     width seq
## [1]   301 BC@CCGGGGGGGGGGGGGGGGGGGGGGGG9FFFG...#################################
## [2]   301 BCCCCGGGGGGGGGGGGGGGGGGGGGCGGGGFGG...#################################
## [3]   301 CCCCCGGGGGGGGGGGGGGGGGGGGGGGGGGGGF...C>F<>2).65280;C+/<AA99<C95>BEC5:5
## [4]   301 CCCCCGGGGGGGGGGGGGGGGGGGC<EGGGGGGG...CF4)4<:AD43:,*:C/:4<C9<6C7>AF####
## [5]   301 @CBCCGGGGGGGGFGGGFGGCF7F@FGGGDEFFF...#################################
## [6]   301 CCCCCGGGGGGGGGGGGGGGGGGGGGGGGGGGFG...C7>:?A42.:<9<<6C:?FF?CECC>)45E5CE
## [7]   301 CCCCCGGGFGGGFGGGC9=8@+:EFEFEGGGFGG...GB68))64:4?7CEAFF################
## [8]   301 CCCCCGGGGEGGGGGGGGGGGEGGGEFGGGGGGG...<5@4422<4).4,2:+*6).<0<CCBB??CE##
## [9]   301 CCCCCGGGGGGGGGGGGGGGGGGGEFGGGGGGGG...F@FA?74AF<?23*:C@<)-<<96C;4<EFF##
## class: FastqQuality
## quality:
## BStringSet object of length 9:
##     width seq
## [1]   301 -ACCCGGGGGGGGGGGG,FGGG,@FFGGG9FECF...#################################
## [2]   301 ""!')++++++++++++#*++*!**++++!**++...!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
## [3]   301 !"!''*+++++++++**'**++)*'$**+#***+...!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
## [4]   301 @8CCCGGGGGGGGGGGGGGGGGGGGGGGGCGGGF...#################################
## [5]   301 &))))++**++++**++)))*++++#*++++**+...!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
## [6]   301 CCCCCGGGGGGGGGGGFEFEFGGGGGGGFGGGGG...F?448<<>FF9A::CFFBADC?CCF:@FGGCDF
## [7]   301 )))))+++++++++++++++++++++++++++++...*&!!"'**'(#($'**!#''++**+*&!!)))*
## [8]   301 )))))++++++++++++++++++++++++++**+...!&'!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
## [9]   301 '))))++++++++++++++++++*++++++++++...#&*!#'!!!$!!!$)***)*+)#)!''&++!&)
  • Cada carĆ”cter representa un valor numĆ©rico asociado a la calidad de cada base en las secuencias que cargaste desde el archivo FASTQ.

  • Nos permite visualizar valores relevantes: ! (Phred 0): Muy baja calidad. # (Phred 2): Baja calidad. @ (Phred 31): Buena calidad. F (Phred 37): Alta calidad.

  • En estos ejemplos podemos comparar la calidad del fastq 1 y 8, donde se aprecia, como ya vimos anes, la baja calidad del 8 en comparación con demĆ”s.

Cantidad de reads y de nucleótidos

##          records nucleotides   scores
## f5.fastq  120335    18170585 18170585
  • DespuĆ©s de comparar la longitud a partir de la cantidad de nucleótidos, podemos corroborar numĆ©ricamente, que el tamaƱo del fastq 5 es considerablemente mĆ”s corto que los demĆ”s.

Filtrado y Trimeo

  • Analizamos uno a uno los fastq para conocer las calidades de los reads

  • Con este grĆ”fico podemos ver la distribución de la caliad de las lecturas en el archivo fastq viendo cuantas lecturas tienen un puntaje total bajo, medio o alto

  • Para visualizarlo usamos de ejemplo el fastq 8, donde la mayor parte de la información (barra mĆ”s alta) estĆ” en la calidad baja.

  • Vamos a limpiar el fastq 8 cortando todos los reads donde la calidad sea menor de 4000

## 
## FALSE  TRUE 
## 62123 62528

## [1] 62123
## [1] 62528
  • Posterior al recorte, el grĆ”fico muestra todas las lecturas con una calidad superior, las cuales serĆ”n almacenadas para trabajar a partir de ellas.

  • Las lecturas de mala calidad tambiĆ©n son representadas, ya que la perdida de información es muy alta

  • Vamos a trimear los Ćŗltimos 30 pares de bases de todos los fastq (excluyendo el 6, 7 y 8) donde vimos que la calidad baja en todos

  • Podemos visualizar la distribución de la calidad antes y despuĆ©s del recorte