FastQC raw data

FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc/) é uma ferramenta que nos permite realizar um primeiro controlo de qualidade aos nossos dados, raw data, que obtemos a partir de tecnologia high throughput.
Tem como input um ou dois ficheiros FastQ (single-end or pair-end) e realiza um conjuntos de testes que vão averiguar a qualidade das bases.

Nesta análise, foi necessário copiar os dados de outro local do servidor:

#copy raw data 
scp /home/ibbc/data/aula_tp4/*gz ./

Seguida da ativação do ambiente conda que contem todas as ferramentas de qualidade necessárias à análise:

#activate conda environment with quality tools 
conda activate tools_qc

Numa análise inicial dos dados, é necessário avaliar o seu estado atual para determinar se a amostra obtida é de boa ou má qualidade, para tal, utiliza-se o programa fastqc.

Uma vez que o protocolo utilizado foi de pair-ended é dado como input dois ficheiros que correspondem:
- forward reads: amostra 400_mM_NOD_plus_1_aaa.fastq.gz
- reverse reads: amostra 400_mM_NOD_plus_2_aaa.fastq.gz

#fastqc of raw data
fastqc 400_mM_NOD_plus_1_aaa.fastq.gz 400_mM_NOD_plus_2_aaa.fastq.gz

O FastQC fornce como output dois ficheiros html e dois ficheiros .zip com toda a informação sobre o controlo de qualidade dos dados. O formato html permite abrir diretamente o ficheiro no browser e observar todo o controlo de qualidade por meio de gráficos e informação complementar.

Na Figura1 podemos verificar que a qualidade por base dos dados forward (Figura1) é de boa qualidade mesmo tendo um pequeno decrescimonas últimas 124-125 bases. No que toca ao conteúdo por bases (Figura2), vemos que existe algum ruído nas primeiras 12 bases.

Figura 1: Qualidade por base da raw reads forward. Qualidade de Q=36 em média, por base.

Figura 2: Qualidade por conteudo de bases na raw reads forward. Verifica-se um ruído acentuado nas primeiras 12 bases.

Relativamente à qualidade por bases dos dados reverse (Figura3) temos um descrescimo nas últimas bases mais acentuado, quando comparado com os dados forward. No entanto, em média, as bases possuem uma boa qualidade. Identicamente, verificamos também a ocorrencia de ruído no que toca ao conteúdo por bases nas mesmas 12 bases iniciais (Figura4).

Figura 3: Qualidade por base da raw reads reversed. Verifica-se, em media, uma boa qualidade com algum decrescimo acentuado nas últimas 124-125 bases. Aproximadamente, temos Q=36 em média, por base.

Figura 4: Qualidade por conteudo de bases na raw reads reversed. Verifica-se um ruído acentuado nas primeiras 12 bases e um ruído negligenciavél nas últimas 124-125 bases.

No geral, os dados possuem uma boa qualidade de bases. sendo que o único problema em ambas as amostras é a ocorrencia de ruido nas primeiras 12 bases. De forma, a resolver esta constrição, é necessario utilizar uma ferramenta de trimming que vai possibilitar eliminar as regiões de baixa qualidade.

Neste caso, utilizou-se a ferramenta Trimmomatic.

Trimmomatic

Trimmomatic (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4103590/) é uma ferramenta amplamente utilizada no controlo de qualidade de dados gerados por tecnologias de high throughput, nomeadamente de Illumina reads.

Esta ferramenta recebe como input os ficheiros de leitura forward e reverse e gera 4 ficheiros de output. Dois desses ficheiros contêm todas as sequencias que passaram corretamente pelo trimmomatic (paired), enquanto que os outros dois contém as restantes (unpaired).

Nesta análise, executou-se o comando com os seguintes parâmetros:
ILLUMINACLIP – caminho para o ficheiro TruSeq3-PE-2.fa, que contém as sequências de adpatadores
LEADING:3 – remoção de bases iniciais com qualidade inferior a 3
TRAILING:3 – remoção de bases finais com qualidade inferior a 3
SLIDINGWINDOW:4:16 – análise de grupos de 4 bases e remoção de grupos cuja qualidade seja inferior a 16
MINLEN:36 – após o trimming, manter apenas sequencias com 36 pares de bases ou mais
HEADCROP:12 – remoção as primerias 12 bases do início das reads

Com a excessão do HEADCROP, em todos os parametros foram definidos parametros médios, com o objectivo de melhorar a qualidade da sequencias, sem comprometer a informação contida nelas. Relativamente ao HEADCROP, este é especifico para os dados, uma vez, que temos a presença de ruído nas primerias 12 bases em ambas as amostras forward e reverse.

Abaixo, apresenta-se a linha de código executavel. Note que os nomes dos ficheiros de output foram personalizados para os dados paired (extensão trimP) e os dados unpaired (extensão trimU).

#trimming of raw data
trimmomatic PE -phred33 400_mM_NOD_plus_1_aaa.fastq.gz 400_mM_NOD_plus_2_aaa.fastq.gz 400_mM_NOD_plus_1.trimP.fastq.gz 400_mM_NOD_plus_1.trimU.fastq.gz 400_mM_NOD_plus_2.trimP.fastq.gz 400_mM_NOD_plus_2.trimU.fastq.gz ILLUMINACLIP:/home/fc52570/miniconda3/envs/tools_qc/share/trimmomatic-0.39-2/adapters/TruSeq3-PE-2.fa:2:151:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:16 MINLEN:36 HEADCROP:12

FastQC trimm data

Após o trimming aplica-se de novo o programa FASTQC sobre os ficheiros com extensão trimP, de forma a verificar a qualidade dos dados trimmed.

fastqc 400_mM_NOD_plus_1.trimP.fastq.gz 400_mM_NOD_plus_2.trimP.fastq.gz

Para os dados forward, ao nível da qualidade por base (Figura 5) obteve-se um ligeiro ajuste mas mantendo a média de qualidade de 36. Relativamente à constrição do conteúdo por bases, foi possivel elimiar as reads defeituosas (Figura 6).

Figura 5: Qualidade por base dos dados forward após trimming. Mantem-se, aproximadamente, uma qualidade média de 36 por base.

Figura 6: Qualidade por conteudo de bases dos dados forward após trimming. Verifica-se um bom equilibrio de bases ao longo de toda a read.

Os mesmos resultados foram obtidos para os dados reverse após o trimming (Figuras 7 e 8).

Figura 7: Qualidade por base dos dados reverse após trimming. Mantem-se, aproximadamente, uma qualidade média de 36 por base.

Figura 8: Qualidade por conteudo de bases dos dados reverse após trimming. Verifica-se um bom equilibrio de bases ao longo de toda a read.

Quality control

Filipa Batista

2024-10-11

Índice

FastQC raw data

Trimmomatic

FastQC trimm data