Fastq QC- bioinfo

## 
## Adjuntando el paquete: 'BiocGenerics'

## The following objects are masked from 'package:stats':
## 
##     IQR, mad, sd, var, xtabs

## The following objects are masked from 'package:base':
## 
##     anyDuplicated, aperm, append, as.data.frame, basename, cbind,
##     colnames, dirname, do.call, duplicated, eval, evalq, Filter, Find,
##     get, grep, grepl, intersect, is.unsorted, lapply, Map, mapply,
##     match, mget, order, paste, pmax, pmax.int, pmin, pmin.int,
##     Position, rank, rbind, Reduce, rownames, sapply, setdiff, table,
##     tapply, union, unique, unsplit, which.max, which.min

## 
## Adjuntando el paquete: 'S4Vectors'

## The following object is masked from 'package:utils':
## 
##     findMatches

## The following objects are masked from 'package:base':
## 
##     expand.grid, I, unname

## 
## Adjuntando el paquete: 'IRanges'

## The following object is masked from 'package:grDevices':
## 
##     windows

## 
## Adjuntando el paquete: 'Biostrings'

## The following object is masked from 'package:base':
## 
##     strsplit

## 
## Adjuntando el paquete: 'MatrixGenerics'

## The following objects are masked from 'package:matrixStats':
## 
##     colAlls, colAnyNAs, colAnys, colAvgsPerRowSet, colCollapse,
##     colCounts, colCummaxs, colCummins, colCumprods, colCumsums,
##     colDiffs, colIQRDiffs, colIQRs, colLogSumExps, colMadDiffs,
##     colMads, colMaxs, colMeans2, colMedians, colMins, colOrderStats,
##     colProds, colQuantiles, colRanges, colRanks, colSdDiffs, colSds,
##     colSums2, colTabulates, colVarDiffs, colVars, colWeightedMads,
##     colWeightedMeans, colWeightedMedians, colWeightedSds,
##     colWeightedVars, rowAlls, rowAnyNAs, rowAnys, rowAvgsPerColSet,
##     rowCollapse, rowCounts, rowCummaxs, rowCummins, rowCumprods,
##     rowCumsums, rowDiffs, rowIQRDiffs, rowIQRs, rowLogSumExps,
##     rowMadDiffs, rowMads, rowMaxs, rowMeans2, rowMedians, rowMins,
##     rowOrderStats, rowProds, rowQuantiles, rowRanges, rowRanks,
##     rowSdDiffs, rowSds, rowSums2, rowTabulates, rowVarDiffs, rowVars,
##     rowWeightedMads, rowWeightedMeans, rowWeightedMedians,
##     rowWeightedSds, rowWeightedVars

## Welcome to Bioconductor
## 
##     Vignettes contain introductory material; view with
##     'browseVignettes()'. To cite Bioconductor, see
##     'citation("Biobase")', and for packages 'citation("pkgname")'.

## 
## Adjuntando el paquete: 'Biobase'

## The following object is masked from 'package:MatrixGenerics':
## 
##     rowMedians

## The following objects are masked from 'package:matrixStats':
## 
##     anyMissing, rowMedians

Seteo del directorio de trabajo y descarga de archivos fastq:

Descarga:

setwd("C:/Users/admin/Desktop/bioinfo/rmkd")

Crear el objeto:

## /Users/admin/Desktop/bioinfo/rmkd/Rqc.rda has been loaded.

_Este gráfico muestra el contenido de guanina y citosina (GC) en cada ciclo de secuenciación. Un contenido de GC anormal puede indicar problemas en la secuenciación o en la calidad.

_El contenido de GC en un archivo FASTQ puede afectar la calidad de la secuenciación; las regiones con alto contenido de GC pueden ser más difíciles de secuenciar debido a la estabilidad proporcionada por los triples enlaces entre las bases guanina y citosina. Esto puede llevar a un mayor error en estas regiones durante la secuenciación, afectando la calidad de los datos.

_Para que sea considerado de buena calidad el contenido de GC debería estar relativamente estable a lo largo de todos los ciclos. La distribución no debería mostrar picos ni caídas extremas, como se observa en el FASTQ 7 un pico inesperado en el contenido de GC, lo cual puede ser un signo de contaminación o problemas en la biblioteca de secuencia.

Este segundo gráfico muestra la calidad de las bases a lo largo de los ciclos de secuenciación. Generalmente, los valores más altos indican mejor calidad.
Para saber si el FASTQ es de buena calidad, en los primeros ciclos (generalmente del 1 al 20 o 30), deberían verse puntuaciones altas (generalmente superiores a 30, lo que corresponde a una precisión del 99.9% en la base llamada).
A medida que avanzan los ciclos, es normal que la calidad baje un poco, pero no debería caer por debajo de 20 en la mayoría de los ciclos. El gráfico debería mostrar un rango estrecho de valores en la parte superior del gráfico, lo que indica que la mayoría de las lecturas tienen una buena calidad constante.
En el caso del FASTQ 7 se ve una caída drástica en la calidad después de los primeros ciclos, esto puede indicar problemas con la secuenciación, como degradación de las moléculas de ADN o errores técnicos. Si el rango de la caja es muy amplio, esto indica que hay variabilidad en la calidad de las secuencias en los ciclos, lo cual no es ideal.
Si la calidad promedio está consistentemente por debajo de 20 (lo que corresponde a un 99% de precisión), las secuencias no tienen buena calidad, como pasa con el FASTQ 8.

Distribución de archivos de calidad media por lectura.

El gráfico resultante presenta un boxplot para cada una de las lecturas en el conjunto. Cada caja representa la distribución del puntaje de calidad de las lecturas, mostrando la mediana(línea dentro de la caja que indica el puntaje de calidad central),los cuartiles(los bordes de la caja representan el primer (Q1) y tercer cuartil (Q3), que indican la dispersión de la calidad.), y barras(extensiones que representan los valores más bajos y más altos dentro de 1.5 veces el rango intercuartílico (IQR), y posibles valores atípicos se marcan como puntos individuales)
Un boxplot que muestra una mediana alta y cajas compactas sugiere que la calidad es consistente y alta en general.Los puntos fuera de las barras indican lecturas con puntajes de calidad inusuales, lo que podría requerir una revisión o filtrado.
La extensión de las cajas y las barras te da una idea de la variabilidad en la calidad entre las lecturas.

Frecuancia de lecturas

Esta visualización nos perite ver cuántas veces se repite una secuancia específica
En el eje x se representan los reads (secuancias) y en el eje y vemos cuántas veces se observa una misma secuencia en el archivo
El pico inicial representa las lecturas que ocurren una sola vez en el archivo, es decir, que la mayoría de las lecturas en todos los archivos FASTQ tienen una sola aparición (proporción cercana al 60%). Esto es normal en secuenciaciones de genomas grandes, donde la mayoría de las lecturas corresponden a regiones únicas del genoma o transcriptoma.
A medida que te mueves hacia la derecha en el eje X (aumenta el número de repeticiones), la proporción de lecturas que se repiten disminuye considerablemente. Pero en algunos casos, ciertas secuencias se repiten miles de veces (hasta 10,000 veces o más).

Distribución de las longitudes de las lecturas

En este gráfico vemos la longitud de las lecturas en pares de bases (dividido en intervalos de tamaño: menos de 150 bp, entre 151-285 bp, y así sucesivamente) en el eje x y el porcentaje de lecturas que tienen una longitud dentro de cada intervalo de tamaño
Esta visualización ayuda a evaluar la calidad y consistencia de las longitudes de las lecturas en cada archivo FASTQ. Las lecturas uniformes y consistentes sugieren que los datos están en buen estado, mientras que una alta variabilidad en las longitudes podría indicar la necesidad de filtrado o procesamiento adicional.

Calidad de las bases en los ciclos de secuenciación

Este gráfico muestra la calidad de las bases a lo largo de los ciclos de secuenciación en los archivos FASTQ. Los colores en el gráfico permiten visualizar rápidamente cómo varía la calidad de las lecturas.
El eje X representa los ciclos de secuenciación o las posiciones de las bases en las lecturas y el eje Y las puntuaciones de calidad promedio para cada ciclo de secuenciación.

Los colores fríos (azul): representan puntuaciones de calidad altas, generalmente superiores a 30. Esto significa que las bases en esos ciclos tienen una alta precisión Los colores intermedios: suelen indicar puntuaciones en un rango intermedio (entre 20 y 30). En este rango, la precisión de las bases es moderadamente buena Los colores cálidos (naranja, rojo): indican que las bases en esos ciclos tienen una puntuación de calidad baja, por debajo de 20 en la escala. Esto muestra que las bases en esas posiciones son menos confiables.
De este modo en secuencias de alta calidad se ve que la mayor parte del gráfico está en verde oscuro o azul.Si el gráfico empieza con colores fríos (azul) y se va volviendo más rojo o naranja en los ciclos posteriores, eso indica una caída de calidad a medida que avanza la secuenciación.
Una caída drástica de la calidad en los ciclos, se observa en los cambios repentinos de color, puede ser una indicación de que las lecturas tienen problemas de precisión. como es en el caso del FASTQ 7 y el FASTQ 2 muchos colores rojos o naranjas desde los primeros ciclos, es una señal de que las bases tienen una baja precisión, lo que puede afectar la calidad general de los datos. esto se ve en el FASTQ 8

Frecuencia de las bases en los ciclos de secuenciación

Visualiza la frecuencia de las bases (A, T, C, G) a lo largo de los ciclos de secuenciación con el objetivo de ver si hay una desviacion en las lecturas de bases a lo largo del tiempo.
El eje X representa los ciclos de secuenciación, es decir, indica el número de posiciones leídas de una base, mientras que el eje Y muestra la frecuencia con la que se detecta cada base en cada ciclo.
Si todas las bases se distribuyen de manera uniforme a lo largo de los ciclos, significa que la secuenciación está balanceada y no hay una desviación hacia una base particular.
Si alguna base aparece mucho más en ciertos ciclos, podría haber una desviacion o un problema en la calidad de esas lecturas, como pasa con el fastq 7
A medida que avanzan los ciclos, es común que la calidad de la llamada de bases pueda disminuir un poco, pero una gran caída o un desbalance fuerte puede indicar un problema en el proceso de secuenciación. En el gráfico, la “N” indica una base que el secuenciador no pudo identificar. Muchas “N”, muestran problemas de calidad en los datos de secuenciación.

Visualización de los nucleótidos

Calidad de las lecturas en formato Phred, codificada en caracteres ASCII.

## class: FastqQuality
## quality:
## BStringSet object of length 9:
##     width seq
## [1]   301 BC@CCGGGGGGGGGGGGGGGGGGGGGGGG9FFFG...#################################
## [2]   301 BCCCCGGGGGGGGGGGGGGGGGGGGGCGGGGFGG...#################################
## [3]   301 CCCCCGGGGGGGGGGGGGGGGGGGGGGGGGGGGF...C>F<>2).65280;C+/<AA99<C95>BEC5:5
## [4]   301 CCCCCGGGGGGGGGGGGGGGGGGGC<EGGGGGGG...CF4)4<:AD43:,*:C/:4<C9<6C7>AF####
## [5]   301 @CBCCGGGGGGGGFGGGFGGCF7F@FGGGDEFFF...#################################
## [6]   301 CCCCCGGGGGGGGGGGGGGGGGGGGGGGGGGGFG...C7>:?A42.:<9<<6C:?FF?CECC>)45E5CE
## [7]   301 CCCCCGGGFGGGFGGGC9=8@+:EFEFEGGGFGG...GB68))64:4?7CEAFF################
## [8]   301 CCCCCGGGGEGGGGGGGGGGGEGGGEFGGGGGGG...<5@4422<4).4,2:+*6).<0<CCBB??CE##
## [9]   301 CCCCCGGGGGGGGGGGGGGGGGGGEFGGGGGGGG...F@FA?74AF<?23*:C@<)-<<96C;4<EFF##

## class: FastqQuality
## quality:
## BStringSet object of length 9:
##     width seq
## [1]   301 -ACCCGGGGGGGGGGGG,FGGG,@FFGGG9FECF...#################################
## [2]   301 ""!')++++++++++++#*++*!**++++!**++...!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
## [3]   301 !"!''*+++++++++**'**++)*'$**+#***+...!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
## [4]   301 @8CCCGGGGGGGGGGGGGGGGGGGGGGGGCGGGF...#################################
## [5]   301 &))))++**++++**++)))*++++#*++++**+...!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
## [6]   301 CCCCCGGGGGGGGGGGFEFEFGGGGGGGFGGGGG...F?448<<>FF9A::CFFBADC?CCF:@FGGCDF
## [7]   301 )))))+++++++++++++++++++++++++++++...*&!!"'**'(#($'**!#''++**+*&!!)))*
## [8]   301 )))))++++++++++++++++++++++++++**+...!&'!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
## [9]   301 '))))++++++++++++++++++*++++++++++...#&*!#'!!!$!!!$)***)*+)#)!''&++!&)

Cada carácter representa un valor numérico asociado a la calidad de cada base en las secuencias que cargaste desde el archivo FASTQ.
Nos permite visualizar valores relevantes: ! (Phred 0): Muy baja calidad. # (Phred 2): Baja calidad. @ (Phred 31): Buena calidad. F (Phred 37): Alta calidad.
En estos ejemplos podemos comparar la calidad del fastq 1 y 8, donde se aprecia, como ya vimos anes, la baja calidad del 8 en comparación con demás.

Cantidad de reads y de nucleótidos

##          records nucleotides   scores
## f5.fastq  120335    18170585 18170585

Después de comparar la longitud a partir de la cantidad de nucleótidos, podemos corroborar numéricamente, que el tamaño del fastq 5 es considerablemente más corto que los demás.

Filtrado y Trimeo

Analizamos uno a uno los fastq para conocer las calidades de los reads

Con este gráfico podemos ver la distribución de la caliad de las lecturas en el archivo fastq viendo cuantas lecturas tienen un puntaje total bajo, medio o alto
Para visualizarlo usamos de ejemplo el fastq 8, donde la mayor parte de la información (barra más alta) está en la calidad baja.
Vamos a limpiar el fastq 8 cortando todos los reads donde la calidad sea menor de 4000

## 
## FALSE  TRUE 
## 62123 62528

## [1] 62123

## [1] 62528

Posterior al recorte, el gráfico muestra todas las lecturas con una calidad superior, las cuales serán almacenadas para trabajar a partir de ellas.
Las lecturas de mala calidad también son representadas, ya que la perdida de información es muy alta
Vamos a trimear los últimos 30 pares de bases de todos los fastq (excluyendo el 6, 7 y 8) donde vimos que la calidad baja en todos

Podemos visualizar la distribución de la calidad antes y después del recorte