##
## Adjuntando el paquete: 'BiocGenerics'
## The following objects are masked from 'package:stats':
##
## IQR, mad, sd, var, xtabs
## The following objects are masked from 'package:base':
##
## anyDuplicated, aperm, append, as.data.frame, basename, cbind,
## colnames, dirname, do.call, duplicated, eval, evalq, Filter, Find,
## get, grep, grepl, intersect, is.unsorted, lapply, Map, mapply,
## match, mget, order, paste, pmax, pmax.int, pmin, pmin.int,
## Position, rank, rbind, Reduce, rownames, sapply, setdiff, table,
## tapply, union, unique, unsplit, which.max, which.min
##
## Adjuntando el paquete: 'S4Vectors'
## The following object is masked from 'package:utils':
##
## findMatches
## The following objects are masked from 'package:base':
##
## expand.grid, I, unname
##
## Adjuntando el paquete: 'IRanges'
## The following object is masked from 'package:grDevices':
##
## windows
##
## Adjuntando el paquete: 'Biostrings'
## The following object is masked from 'package:base':
##
## strsplit
##
## Adjuntando el paquete: 'MatrixGenerics'
## The following objects are masked from 'package:matrixStats':
##
## colAlls, colAnyNAs, colAnys, colAvgsPerRowSet, colCollapse,
## colCounts, colCummaxs, colCummins, colCumprods, colCumsums,
## colDiffs, colIQRDiffs, colIQRs, colLogSumExps, colMadDiffs,
## colMads, colMaxs, colMeans2, colMedians, colMins, colOrderStats,
## colProds, colQuantiles, colRanges, colRanks, colSdDiffs, colSds,
## colSums2, colTabulates, colVarDiffs, colVars, colWeightedMads,
## colWeightedMeans, colWeightedMedians, colWeightedSds,
## colWeightedVars, rowAlls, rowAnyNAs, rowAnys, rowAvgsPerColSet,
## rowCollapse, rowCounts, rowCummaxs, rowCummins, rowCumprods,
## rowCumsums, rowDiffs, rowIQRDiffs, rowIQRs, rowLogSumExps,
## rowMadDiffs, rowMads, rowMaxs, rowMeans2, rowMedians, rowMins,
## rowOrderStats, rowProds, rowQuantiles, rowRanges, rowRanks,
## rowSdDiffs, rowSds, rowSums2, rowTabulates, rowVarDiffs, rowVars,
## rowWeightedMads, rowWeightedMeans, rowWeightedMedians,
## rowWeightedSds, rowWeightedVars
## Welcome to Bioconductor
##
## Vignettes contain introductory material; view with
## 'browseVignettes()'. To cite Bioconductor, see
## 'citation("Biobase")', and for packages 'citation("pkgname")'.
##
## Adjuntando el paquete: 'Biobase'
## The following object is masked from 'package:MatrixGenerics':
##
## rowMedians
## The following objects are masked from 'package:matrixStats':
##
## anyMissing, rowMedians
## /Users/admin/Desktop/bioinfo/rmkd/Rqc.rda has been loaded.
_Este grÔfico muestra el contenido de guanina y citosina (GC) en cada ciclo de secuenciación. Un contenido de GC anormal puede indicar problemas en la secuenciación o en la calidad.
_El contenido de GC en un archivo FASTQ puede afectar la calidad de la secuenciación; las regiones con alto contenido de GC pueden ser mĆ”s difĆciles de secuenciar debido a la estabilidad proporcionada por los triples enlaces entre las bases guanina y citosina. Esto puede llevar a un mayor error en estas regiones durante la secuenciación, afectando la calidad de los datos.
_Para que sea considerado de buena calidad el contenido de GC deberĆa estar relativamente estable a lo largo de todos los ciclos. La distribución no deberĆa mostrar picos ni caĆdas extremas, como se observa en el FASTQ 7 un pico inesperado en el contenido de GC, lo cual puede ser un signo de contaminación o problemas en la biblioteca de secuencia.
Este segundo grÔfico muestra la calidad de las bases a lo largo de los ciclos de secuenciación. Generalmente, los valores mÔs altos indican mejor calidad.
Para saber si el FASTQ es de buena calidad, en los primeros ciclos (generalmente del 1 al 20 o 30), deberĆan verse puntuaciones altas (generalmente superiores a 30, lo que corresponde a una precisión del 99.9% en la base llamada).
A medida que avanzan los ciclos, es normal que la calidad baje un poco, pero no deberĆa caer por debajo de 20 en la mayorĆa de los ciclos. El grĆ”fico deberĆa mostrar un rango estrecho de valores en la parte superior del grĆ”fico, lo que indica que la mayorĆa de las lecturas tienen una buena calidad constante.
En el caso del FASTQ 7 se ve una caĆda drĆ”stica en la calidad despuĆ©s de los primeros ciclos, esto puede indicar problemas con la secuenciación, como degradación de las molĆ©culas de ADN o errores tĆ©cnicos. Si el rango de la caja es muy amplio, esto indica que hay variabilidad en la calidad de las secuencias en los ciclos, lo cual no es ideal.
Si la calidad promedio estÔ consistentemente por debajo de 20 (lo que corresponde a un 99% de precisión), las secuencias no tienen buena calidad, como pasa con el FASTQ 8.
El grĆ”fico resultante presenta un boxplot para cada una de las lecturas en el conjunto. Cada caja representa la distribución del puntaje de calidad de las lecturas, mostrando la mediana(lĆnea dentro de la caja que indica el puntaje de calidad central),los cuartiles(los bordes de la caja representan el primer (Q1) y tercer cuartil (Q3), que indican la dispersión de la calidad.), y barras(extensiones que representan los valores mĆ”s bajos y mĆ”s altos dentro de 1.5 veces el rango intercuartĆlico (IQR), y posibles valores atĆpicos se marcan como puntos individuales)
Un boxplot que muestra una mediana alta y cajas compactas sugiere que la calidad es consistente y alta en general.Los puntos fuera de las barras indican lecturas con puntajes de calidad inusuales, lo que podrĆa requerir una revisión o filtrado.
La extensión de las cajas y las barras te da una idea de la variabilidad en la calidad entre las lecturas.
Esta visualización nos perite ver cuĆ”ntas veces se repite una secuancia especĆfica
En el eje x se representan los reads (secuancias) y en el eje y vemos cuƔntas veces se observa una misma secuencia en el archivo
El pico inicial representa las lecturas que ocurren una sola vez en el archivo, es decir, que la mayorĆa de las lecturas en todos los archivos FASTQ tienen una sola aparición (proporción cercana al 60%). Esto es normal en secuenciaciones de genomas grandes, donde la mayorĆa de las lecturas corresponden a regiones Ćŗnicas del genoma o transcriptoma.
A medida que te mueves hacia la derecha en el eje X (aumenta el número de repeticiones), la proporción de lecturas que se repiten disminuye considerablemente. Pero en algunos casos, ciertas secuencias se repiten miles de veces (hasta 10,000 veces o mÔs).
En este grÔfico vemos la longitud de las lecturas en pares de bases (dividido en intervalos de tamaño: menos de 150 bp, entre 151-285 bp, y asà sucesivamente) en el eje x y el porcentaje de lecturas que tienen una longitud dentro de cada intervalo de tamaño
Esta visualización ayuda a evaluar la calidad y consistencia de las longitudes de las lecturas en cada archivo FASTQ. Las lecturas uniformes y consistentes sugieren que los datos estĆ”n en buen estado, mientras que una alta variabilidad en las longitudes podrĆa indicar la necesidad de filtrado o procesamiento adicional.
Este grĆ”fico muestra la calidad de las bases a lo largo de los ciclos de secuenciación en los archivos FASTQ. Los colores en el grĆ”fico permiten visualizar rĆ”pidamente cómo varĆa la calidad de las lecturas.
El eje X representa los ciclos de secuenciación o las posiciones de las bases en las lecturas y el eje Y las puntuaciones de calidad promedio para cada ciclo de secuenciación.
Los colores frĆos (azul): representan puntuaciones de calidad altas, generalmente superiores a 30. Esto significa que las bases en esos ciclos tienen una alta precisión Los colores intermedios: suelen indicar puntuaciones en un rango intermedio (entre 20 y 30). En este rango, la precisión de las bases es moderadamente buena Los colores cĆ”lidos (naranja, rojo): indican que las bases en esos ciclos tienen una puntuación de calidad baja, por debajo de 20 en la escala. Esto muestra que las bases en esas posiciones son menos confiables.
De este modo en secuencias de alta calidad se ve que la mayor parte del grĆ”fico estĆ” en verde oscuro o azul.Si el grĆ”fico empieza con colores frĆos (azul) y se va volviendo mĆ”s rojo o naranja en los ciclos posteriores, eso indica una caĆda de calidad a medida que avanza la secuenciación.
Una caĆda drĆ”stica de la calidad en los ciclos, se observa en los cambios repentinos de color, puede ser una indicación de que las lecturas tienen problemas de precisión. como es en el caso del FASTQ 7 y el FASTQ 2 muchos colores rojos o naranjas desde los primeros ciclos, es una seƱal de que las bases tienen una baja precisión, lo que puede afectar la calidad general de los datos. esto se ve en el FASTQ 8
Visualiza la frecuencia de las bases (A, T, C, G) a lo largo de los ciclos de secuenciación con el objetivo de ver si hay una desviacion en las lecturas de bases a lo largo del tiempo.
El eje X representa los ciclos de secuenciación, es decir, indica el nĆŗmero de posiciones leĆdas de una base, mientras que el eje Y muestra la frecuencia con la que se detecta cada base en cada ciclo.
Si todas las bases se distribuyen de manera uniforme a lo largo de los ciclos, significa que la secuenciación estÔ balanceada y no hay una desviación hacia una base particular.
Si alguna base aparece mucho mĆ”s en ciertos ciclos, podrĆa haber una desviacion o un problema en la calidad de esas lecturas, como pasa con el fastq 7
A medida que avanzan los ciclos, es comĆŗn que la calidad de la llamada de bases pueda disminuir un poco, pero una gran caĆda o un desbalance fuerte puede indicar un problema en el proceso de secuenciación. En el grĆ”fico, la āNā indica una base que el secuenciador no pudo identificar. Muchas āNā, muestran problemas de calidad en los datos de secuenciación.
## class: FastqQuality
## quality:
## BStringSet object of length 9:
## width seq
## [1] 301 BC@CCGGGGGGGGGGGGGGGGGGGGGGGG9FFFG...#################################
## [2] 301 BCCCCGGGGGGGGGGGGGGGGGGGGGCGGGGFGG...#################################
## [3] 301 CCCCCGGGGGGGGGGGGGGGGGGGGGGGGGGGGF...C>F<>2).65280;C+/<AA99<C95>BEC5:5
## [4] 301 CCCCCGGGGGGGGGGGGGGGGGGGC<EGGGGGGG...CF4)4<:AD43:,*:C/:4<C9<6C7>AF####
## [5] 301 @CBCCGGGGGGGGFGGGFGGCF7F@FGGGDEFFF...#################################
## [6] 301 CCCCCGGGGGGGGGGGGGGGGGGGGGGGGGGGFG...C7>:?A42.:<9<<6C:?FF?CECC>)45E5CE
## [7] 301 CCCCCGGGFGGGFGGGC9=8@+:EFEFEGGGFGG...GB68))64:4?7CEAFF################
## [8] 301 CCCCCGGGGEGGGGGGGGGGGEGGGEFGGGGGGG...<5@4422<4).4,2:+*6).<0<CCBB??CE##
## [9] 301 CCCCCGGGGGGGGGGGGGGGGGGGEFGGGGGGGG...F@FA?74AF<?23*:C@<)-<<96C;4<EFF##
## class: FastqQuality
## quality:
## BStringSet object of length 9:
## width seq
## [1] 301 -ACCCGGGGGGGGGGGG,FGGG,@FFGGG9FECF...#################################
## [2] 301 ""!')++++++++++++#*++*!**++++!**++...!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
## [3] 301 !"!''*+++++++++**'**++)*'$**+#***+...!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
## [4] 301 @8CCCGGGGGGGGGGGGGGGGGGGGGGGGCGGGF...#################################
## [5] 301 &))))++**++++**++)))*++++#*++++**+...!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
## [6] 301 CCCCCGGGGGGGGGGGFEFEFGGGGGGGFGGGGG...F?448<<>FF9A::CFFBADC?CCF:@FGGCDF
## [7] 301 )))))+++++++++++++++++++++++++++++...*&!!"'**'(#($'**!#''++**+*&!!)))*
## [8] 301 )))))++++++++++++++++++++++++++**+...!&'!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
## [9] 301 '))))++++++++++++++++++*++++++++++...#&*!#'!!!$!!!$)***)*+)#)!''&++!&)
Cada carƔcter representa un valor numƩrico asociado a la calidad de cada base en las secuencias que cargaste desde el archivo FASTQ.
Nos permite visualizar valores relevantes: ! (Phred 0): Muy baja calidad. # (Phred 2): Baja calidad. @ (Phred 31): Buena calidad. F (Phred 37): Alta calidad.
En estos ejemplos podemos comparar la calidad del fastq 1 y 8, donde se aprecia, como ya vimos anes, la baja calidad del 8 en comparación con demÔs.
## records nucleotides scores
## f5.fastq 120335 18170585 18170585
Con este grÔfico podemos ver la distribución de la caliad de las lecturas en el archivo fastq viendo cuantas lecturas tienen un puntaje total bajo, medio o alto
Para visualizarlo usamos de ejemplo el fastq 8, donde la mayor parte de la información (barra mÔs alta) estÔ en la calidad baja.
Vamos a limpiar el fastq 8 cortando todos los reads donde la calidad sea menor de 4000
##
## FALSE TRUE
## 62123 62528
## [1] 62123
## [1] 62528
Posterior al recorte, el grƔfico muestra todas las lecturas con una calidad superior, las cuales serƔn almacenadas para trabajar a partir de ellas.
Las lecturas de mala calidad también son representadas, ya que la perdida de información es muy alta
Vamos a trimear los Ćŗltimos 30 pares de bases de todos los fastq (excluyendo el 6, 7 y 8) donde vimos que la calidad baja en todos