Segunda Clase

Tere Parra

2023-02-17

Clase No.2 Introducción a la bioinformática

Contenido de hoy:

  1. Tu primer comando

  2. Bases de datos biologicas

  3. Archivos usados en bioinformática

  4. Continuación de comandos

  5. Introducción a entrez

Tu primer comando

Figura 1.El árbol de UNIX

Tu primer comando

comando pwd -> Permite ubicarnos dentro de los directorios linux

comando ls -> Despliega la lista de archivos y carpetas dentro de un directorio

comando cd -> Movernos entre directorios

comando man -> Saber para que sirve ese comando y sus opciones de uso

Permisos

‘d’ indica que es un directorio (una carpeta).

‘r’ que tenemos permiso de lectura en esa carpeta o archivo.

‘x’ tambíen tenemos permiso de ejecucción sobre la carpeta.

Crear archivos y directorios

comando mkdir -> Crea nuevos directorios

comando rmdir -> Elimina directorios

comando nano, cat, less y touch –> Manipulación y creación de archivos

comando rm -> Elimina archivos

Moviendo archivos

comando cp -> Copiar un archivo a otro directorio

comando mv -> Mover un archivo a otro directorio. Tambíen permite cambiar el nombre del directorio o archivo

Descargando archivos

comando curl -> curl puede acceder a sitios web a través de HTTP y HTTPS y puede manejar FTP en ambas direcciones. Es compatible con LDAP e incluso acciones de Samba.

Comando wget -> Permite descargar todo en una página o todos los archivos en un directorio FTP a la vez.

Descomprimiendo archivos

Archivos .tar:

#Descomprimir archivos tar
tar xvzf nombre_del_archivo.tar

donde:

c: crear un archivo
x: extraer de un archivo
t: listar los contenidos de un archivo
v: ver un reporte de las acciones a medida que se van realizando
f: empaquetar contenidos de archivos
z: para comprimir a la vez que se empaqueta

Descomprimiendo archivos

Archivos .zip

#Descomprimir archivos zip
unzip archivo_comprimido.zip

Comprimiendo archivos

#Comprimir archivos tar
tar czvf nombre_del_archivo.tgz archivo_a_comprimir
#Comprimir archivos zip
zip -r archivo_comprimido carpeta-a-comprimir

Ejemplo 1

  1. Crea una carpeta llamada: practica1 y dentro de esa carpeta genera dos documentos con extensión *.txt , uno llamado prueba1.txt y otro prueba2.txt.

  2. Mueve ambos documentos afuera de la carpeta que creaste (ve que sucede). ¿cambio el nombre?

  3. Copia el archivo creado dentro de la carpeta practica1

WildCards

Wildcards Linux

Ejemplo 2

  1. Descargemos la carpeta
wget  https://892a30b0-82e8-4dde-9018-5c35800cfd0e.filesusr.com/archives/
dfa257_3142900e2fc4493a376bc83c75e0229.gz?dn=codigo.tar.gz  
  1. Descomprimamos la carpeta

  2. Eliminemos los archivos que no terminen en .fasta

Intentalo tu

Con ayuda de la guía de comandos 1, realiza los siguiente:

  1. Crea una carpeta llamada Archivos_fasta

  2. Descarga en esa carpeta los archivos del anterior ejercicio

  3. Copia todos los archivos fasta que se encuentran en la carpeta codigo a la carpeta Archivos_fasta

  4. Elimina la carpeta codigo

2. Bases de datos biologicas

Tipos de bases biologicas

Bases de datos biologicas | ¿Cómo se generan?

  1. Bases de datos orientadas a objetos

-Hace que sea más fácil conectar datos

Bases de datos orientadas a objetos

Bases de datos biologicas | ¿Cómo se generan?

  1. Bases de datos relacionales

Base de datos relacionales

Principales bases de datos

Principales bases de datos

Otras bases de datos

Por secuencias:

  1. GENBANK

  2. European Nucleotide Archive

  3. DNA Database of Japan

  4. GenPept

5 Protein information resources

Otras bases de datos

Compuestas:

  1. Uniprot

Secundarias:

  1. PROSITE

  2. PRINTS

  3. Pfam

  4. InterPro

Archivos usados en bioinformática

Muchos formatos en bioinformática son simples archivos tabulares de texto plano delimitados por un carácter.

En general hay tres tipos:

  1. delimitado por tabuladores

  2. separado por comas

  3. delimitado por espacios variables.

Archivos usados en bioinformática | FASTA

Creado por William R. Pearson y David J.Lipmman. Se utiliza para almacenar cualquier tipo de secuencia que no requieran puntuaciones de calidad por par de bases.

Ejemplo: Genomas, secuencias de proteinas, secuencias de ADN codificante, secuencias de transcripción, etc…

Extenciones:.fa, .fasta, .fna (secuencia nucleotidica) .faa (secuencia aminoacidica)

Formato FASTA

Archivos usados en bioinformática | FASTQC

El formato FASTQC amplía el formato FASTA al incluir una puntuación numérica de calidad (escala PHRED) a la base de la secuencia.

Extenciones: .fastq o .fq

Formato FASTQC

Archivos usados en bioinformática | FASTQC

Caracteres de calidad ASCII (American Standard Code for Information Interchange).

Existen tres esquemas de calidad diferentes: Sanger, Solexa e Illumina

Rango de calidad

Archivos usados en bioinformática | FASTQC

Imaginemos que tenemos la secuencia FASTQC:

@AZ1:233:B390NACCC:2:1203:7689:2153 GTTGTTCTTGATGAGCCATGAGGAAGGCATGCCAAATTAAAATACTGGTGCGAATTTAAT + CCFFFFHHHHHJJJJJEIFJIJIJJJIJIJJJJCDGHIIIGIGIJIJIIIIJIJJIJIIH

  1. De acuerdo con el código “JJJJJJJJJ” , sería en numeros: [74, 74, 74, 74 …]

  2. El indice de cálidad del formato Sanger, sería 74- 33 (offset)

  3. Calculo de la probabilidad estimada de que la base sea correcta:

Q = -10 log10P, dando como resultando: 1e-05

Archivos usados en bioinformática | FASTQC

Calidad del programa FASTQC

Archivos usados en bioinformática | BAM y SAM

Los archivos en formato SAM constan de una sección de cabecera y otra de alineación. Los archivos SAM son de texto plano (a diferencia de su homólogo binario, BAM)

Archivos usados en bioinformática | BAM y SAM

Header SAM

Archivos usados en bioinformática | BAM y SAM

Formato SAM

Archivos usados en bioinformática | BAM y SAM

Formato SAM

Archivos usados en bioinformática | BAM y SAM

Formato SAM

Archivos usados en bioinformática| Formato CRAM

CRAM es un formato de archivo altamente comprimido

Archivos usados en bioinformática | BAM y SAM

Estos archivos se pueden visualizar con un programa llamado “Integret Genome Viewer” (IGV)

VCF workflow

Archivos usados en bioinformática| VCF

VCF workflow

Archivos usados en bioinformática| VCF

VCF (Variant Call Format), consta de tres partes:

Formato VCF

Archivos usados en bioinformática| VCF

Formato VCF

Archivos usados en bioinformática | GFF/GTF/BED

Formatos que conservan únicamente las coordenadas de una región del genoma

Archivos usados en bioinformática | GFF/GTF/BED

Formato gff3

Archivos usados en bioinformática | GFF/GTF/BED

Formato gff3

Archivos usados en bioinformática | Formato GENBANK

Formato más completo que FASTA, presenta tres secciones: Definición, Características y Secuencia.

Podemos ver información acerca de la longitud, número de acceso, anotación y referencias bibliográficas donde aparece

Continuación de comandos | Opciones

ls

Las opciones son:

l -Muestra los detalles de archivos y directorios

a -Muestra los archivos y directorios ocultos

d -Muestra solo el nombre de los directorios, sin el contenido

s -Muestra el tamaño de los archivos (k o Mb)

Continuación de comandos | Opciones

mkdir

p -Crea varios directorios a manera de arbol

rmdir

p -Elimina varios directorios a manera de arbol

Continuación de comandos | Opciones

rm

f -Forzar al sistema eliminar ese archivo

i -Preguntar al sistema si desea eliminar ese archivo

r -Remueve directorios

Continuación de comandos | Opciones

cat

Tambíen sirve para concatenar archivos

“>” almacena el texto a otro archivo

“>>” Añade el texto a otro archivo

Continuación de comandos | Tips

Tips para recordar los comandos:

-Utilizar la función TAB

-Utilizar la función –help

-Utilizar la función man

Continuación de comandos

La finalidad de aprender estos comandos es para poder analizar los archivos vistos en la anterior clase de manera masiva, por ello descargaremos el genoma de referencia de Arabidopsis Thailana y lo analizaremos

#Descargando el archivo gff con wget
wget https://www.arabidopsis.org/download_files/Genes/TAIR10_genome_release/TAIR10_gff3/TAIR10_GFF3_genes.gff

Continuación de comandos | echo

Función: Imprime palabras en la términal y variables

Variables de entorno:

$HOME $USER $SHELL $PATH

Operaciones aritmeticas

(+) <- mas (-) <- menos (*) <- multiplicación (/) <- división

** <- potenciación

Ejemplo:

x=1
y=2
sum= $(($x+$y))
echo $sum

Continuación de comandos | cut

comando cut

Función: Delimita o corta columnas

c -Delimita caracteres

f -Selecciona/Delimita columnas

d -Delimita por algún patrón

Continuación de comandos | wc

Función: Imprime caracteres, archivos, etc

m -Imprime caracteres de ese archivo

l -Imprime lineas de ese archivo

w -Imprime las palabras de ese archivo

Continuación de comandos | head y Tail

Por defecto Cuando vemos un archivo bash nos imprime el archivo, usamos head para ver las primeras 10 lineas del archivo y tail para ver las últimas 10

Opciones:

n -Imprime un numero “n” de lineas

c -Imprime caracteres

Continuación de comandos | nl

Función: Enumera lineas de un archivo

opciones:

v -Indica cuantas lineas y en que orden

Continuación de comandos | sort

Ordena palabras en orden alfabetico

Opciones:

r -Por línea

k -Por campo

Continuación de comandos | El pipe (tuberias)

Las tuberias permiten redireccionar comandos. Es importante que esta redirección tenga congruencia. Por ejemplo ver las imprimir solo las primeras 10 lineas de un archivo

Recordamos que cat imprime palabras y head muestra las primeras 10 lineas

#Imprimir las primeras 10 líneas
cat TAIR10_GFF3_genes.gff | head

Continuación de comandos | uniq

Elimina palabras repetidas

D -Imprime todas las lineas repetidas

c -Cuenta el numero de ocurrencias

#¿cuantos cromosomas tiene el genoma de referencia?
cat TAIR10_GFF3_genes.gff | cut -f 1 | uniq 

Continuación de comandos | grep

Función: Imprime patrónes de busqueda

opciones:

i -Imprime mayusculas y minusculas

n -Donde esta la palabra (línea)

w - Solo esa palabra

c - ¿Cuantas veces esta esa palabra?

#¿cuantos genes tiene el genoma de referencia?
cat TAIR10_GFF3_genes.gff |cut -f 3 | grep gene | wc -l

Continuación de comandos | sed

Función: permite cambiar el texto de archivos.

comando sed

Juguemos un Kahoot

https://create.kahoot.it/share/kahoot-para-la-evaluacion-formativa/3a311dfd-1a2e-4229-bbdf-4a968a33eec0

 PIN: 176 3586
 

Kahoot

Introducción a entrez | efetch

Entrez es un sistema de base de datos de biología molecular que brinda acceso integrado a datos e secuencias de nucleótidos y proteínas, información de mapeo genómico y centrado en genes, datos de estructura 3D, PubMed MEDLINE y más.

El sistema Entrez comprende 39 bases de datos moleculares y bibliográficas. Contiene dos herramientas: efetch y esearch

Efetch permite descargar secuencias de manera masiva en diferentes formatos

efetch -db=nuccore -format=gb -id=AF086833 | head

Introducción a entrez | esearch

Permite buscar en bases de datos

Sintaxis

esearch -db [Database] -query “DDT [GENE/PROT] AND mouse [ORGN]”

Ejemplo:

#Ejemplo de busqueda
esearch -db pubmed -query "tn3 transposition immunity" |
efetch -format medline