FastQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)
é uma ferramenta que nos permite realizar um primeiro controlo de
qualidade aos nossos dados, raw data, que obtemos a partir de
tecnologia high throughput.
Tem como input um ou dois ficheiros FastQ
(single-end or pair-end) e realiza um conjuntos de
testes que vão averiguar a qualidade das bases.
Nesta análise, foi necessário copiar os dados de outro local do servidor:
#copy raw data
scp /home/ibbc/data/aula_tp4/*gz ./
Seguida da ativação do ambiente conda que contem todas as ferramentas de qualidade necessárias à análise:
#activate conda environment with quality tools
conda activate tools_qc
Numa análise inicial dos dados, é necessário avaliar o seu estado atual para determinar se a amostra obtida é de boa ou má qualidade, para tal, utiliza-se o programa fastqc.
Uma vez que o protocolo utilizado foi de pair-ended
é dado como input dois ficheiros que correspondem:
- forward reads: amostra
400_mM_NOD_plus_1_aaa.fastq.gz
- reverse reads: amostra
400_mM_NOD_plus_2_aaa.fastq.gz
#fastqc of raw data
fastqc 400_mM_NOD_plus_1_aaa.fastq.gz 400_mM_NOD_plus_2_aaa.fastq.gz
O FastQC fornce como output dois ficheiros
html e dois ficheiros .zip com toda a
informação sobre o controlo de qualidade dos dados. O formato
html permite abrir diretamente o ficheiro no browser e
observar todo o controlo de qualidade por meio de gráficos e informação
complementar.
Figura 1: Qualidade por base da raw reads forward. Qualidade de Q=36 em média, por base.
Figura 2: Qualidade por conteudo de bases na raw reads forward. Verifica-se um ruído acentuado nas primeiras 12 bases.
Relativamente à qualidade por bases dos dados reverse (Figura3) temos um descrescimo nas últimas bases mais acentuado, quando comparado com os dados forward. No entanto, em média, as bases possuem uma boa qualidade. Identicamente, verificamos também a ocorrencia de ruído no que toca ao conteúdo por bases nas mesmas 12 bases iniciais (Figura4).
Figura 3: Qualidade por base da raw reads reversed. Verifica-se, em media, uma boa qualidade com algum decrescimo acentuado nas últimas 124-125 bases. Aproximadamente, temos Q=36 em média, por base.
Figura 4: Qualidade por conteudo de bases na raw reads reversed. Verifica-se um ruído acentuado nas primeiras 12 bases e um ruído negligenciavél nas últimas 124-125 bases.
No geral, os dados possuem uma boa qualidade de bases. sendo que o único problema em ambas as amostras é a ocorrencia de ruido nas primeiras 12 bases. De forma, a resolver esta constrição, é necessario utilizar uma ferramenta de trimming que vai possibilitar eliminar as regiões de baixa qualidade.
Neste caso, utilizou-se a ferramenta Trimmomatic.
Trimmomatic (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4103590/) é uma ferramenta amplamente utilizada no controlo de qualidade de dados gerados por tecnologias de high throughput, nomeadamente de Illumina reads.
Esta ferramenta recebe como input os ficheiros de leitura forward e reverse e gera 4 ficheiros de output. Dois desses ficheiros contêm todas as sequencias que passaram corretamente pelo trimmomatic (paired), enquanto que os outros dois contém as restantes (unpaired).
Nesta análise, executou-se o comando com os seguintes
parâmetros:
ILLUMINACLIP – caminho para o ficheiro
TruSeq3-PE-2.fa, que contém as sequências de adpatadores
LEADING:3 – remoção de bases iniciais com qualidade
inferior a 3
TRAILING:3 – remoção de bases finais com qualidade
inferior a 3
SLIDINGWINDOW:4:16 – análise de grupos de 4 bases e
remoção de grupos cuja qualidade seja inferior a 16
MINLEN:36 – após o trimming, manter apenas
sequencias com 36 pares de bases ou mais
HEADCROP:12 – remoção as primerias 12 bases do início
das reads
Com a excessão do HEADCROP, em todos os parametros foram definidos parametros médios, com o objectivo de melhorar a qualidade da sequencias, sem comprometer a informação contida nelas. Relativamente ao HEADCROP, este é especifico para os dados, uma vez, que temos a presença de ruído nas primerias 12 bases em ambas as amostras forward e reverse.
Abaixo, apresenta-se a linha de código executavel. Note que os nomes dos ficheiros de output foram personalizados para os dados paired (extensão trimP) e os dados unpaired (extensão trimU).
#trimming of raw data
trimmomatic PE -phred33 400_mM_NOD_plus_1_aaa.fastq.gz 400_mM_NOD_plus_2_aaa.fastq.gz 400_mM_NOD_plus_1.trimP.fastq.gz 400_mM_NOD_plus_1.trimU.fastq.gz 400_mM_NOD_plus_2.trimP.fastq.gz 400_mM_NOD_plus_2.trimU.fastq.gz ILLUMINACLIP:/home/fc52570/miniconda3/envs/tools_qc/share/trimmomatic-0.39-2/adapters/TruSeq3-PE-2.fa:2:151:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:16 MINLEN:36 HEADCROP:12
Após o trimming aplica-se de novo o programa FASTQC
sobre os ficheiros com extensão trimP, de forma a verificar
a qualidade dos dados trimmed.
fastqc 400_mM_NOD_plus_1.trimP.fastq.gz 400_mM_NOD_plus_2.trimP.fastq.gz
Para os dados forward, ao nível da qualidade por
base (Figura 5) obteve-se um ligeiro ajuste mas mantendo a
média de qualidade de 36. Relativamente à constrição do conteúdo
por bases, foi possivel elimiar as reads defeituosas (Figura
6).
Figura 5: Qualidade por base dos dados forward após trimming. Mantem-se, aproximadamente, uma qualidade média de 36 por base.
Figura 6: Qualidade por conteudo de bases dos dados forward após trimming. Verifica-se um bom equilibrio de bases ao longo de toda a read.
Figura 7: Qualidade por base dos dados reverse após trimming. Mantem-se, aproximadamente, uma qualidade média de 36 por base.
Figura 8: Qualidade por conteudo de bases dos dados reverse após trimming. Verifica-se um bom equilibrio de bases ao longo de toda a read.