Tere Parra
2023-02-17
Contenido de hoy:
Tu primer comando
Bases de datos biologicas
Archivos usados en bioinformática
Continuación de comandos
Introducción a entrez
Figura 1.El árbol de UNIX
comando pwd -> Permite ubicarnos dentro de los directorios linux
comando ls -> Despliega la lista de archivos y carpetas dentro de un directorio
comando cd -> Movernos entre directorios
comando man -> Saber para que sirve ese comando y sus opciones de uso
‘d’ indica que es un directorio (una carpeta).
‘r’ que tenemos permiso de lectura en esa carpeta o archivo.
‘x’ tambíen tenemos permiso de ejecucción sobre la carpeta.
comando mkdir -> Crea nuevos directorios
comando rmdir -> Elimina directorios
comando nano, cat, less y touch –> Manipulación y creación de archivos
comando rm -> Elimina archivos
comando cp -> Copiar un archivo a otro directorio
comando mv -> Mover un archivo a otro directorio. Tambíen permite cambiar el nombre del directorio o archivo
comando curl -> curl puede acceder a sitios web a través de HTTP y HTTPS y puede manejar FTP en ambas direcciones. Es compatible con LDAP e incluso acciones de Samba.
Comando wget -> Permite descargar todo en una página o todos los archivos en un directorio FTP a la vez.
Archivos .tar:
donde:
c: crear un archivo
x: extraer de un archivo
t: listar los contenidos de un archivo
v: ver un reporte de las acciones a medida que se van realizando
f: empaquetar contenidos de archivos
z: para comprimir a la vez que se empaqueta
Crea una carpeta llamada: practica1 y dentro de esa carpeta genera dos documentos con extensión *.txt , uno llamado prueba1.txt y otro prueba2.txt.
Mueve ambos documentos afuera de la carpeta que creaste (ve que sucede). ¿cambio el nombre?
Copia el archivo creado dentro de la carpeta practica1
Wildcards Linux
wget https://892a30b0-82e8-4dde-9018-5c35800cfd0e.filesusr.com/archives/
dfa257_3142900e2fc4493a376bc83c75e0229.gz?dn=codigo.tar.gz Descomprimamos la carpeta
Eliminemos los archivos que no terminen en .fasta
Con ayuda de la guía de comandos 1, realiza los siguiente:
Crea una carpeta llamada Archivos_fasta
Descarga en esa carpeta los archivos del anterior ejercicio
Copia todos los archivos fasta que se encuentran en la carpeta codigo a la carpeta Archivos_fasta
Elimina la carpeta codigo
Tipos de bases biologicas
-Hace que sea más fácil conectar datos
Bases de datos orientadas a objetos
Base de datos relacionales
Principales bases de datos
Por secuencias:
GENBANK
European Nucleotide Archive
DNA Database of Japan
GenPept
5 Protein information resources
Compuestas:
Secundarias:
PROSITE
PRINTS
Pfam
InterPro
Muchos formatos en bioinformática son simples archivos tabulares de texto plano delimitados por un carácter.
En general hay tres tipos:
delimitado por tabuladores
separado por comas
delimitado por espacios variables.
Creado por William R. Pearson y David J.Lipmman. Se utiliza para almacenar cualquier tipo de secuencia que no requieran puntuaciones de calidad por par de bases.
Ejemplo: Genomas, secuencias de proteinas, secuencias de ADN codificante, secuencias de transcripción, etc…
Extenciones:.fa, .fasta, .fna (secuencia nucleotidica) .faa (secuencia aminoacidica)
Formato FASTA
El formato FASTQC amplía el formato FASTA al incluir una puntuación numérica de calidad (escala PHRED) a la base de la secuencia.
Extenciones: .fastq o .fq
Formato FASTQC
Caracteres de calidad ASCII (American Standard Code for Information Interchange).
Existen tres esquemas de calidad diferentes: Sanger, Solexa e Illumina
Rango de calidad
Imaginemos que tenemos la secuencia FASTQC:
@AZ1:233:B390NACCC:2:1203:7689:2153 GTTGTTCTTGATGAGCCATGAGGAAGGCATGCCAAATTAAAATACTGGTGCGAATTTAAT + CCFFFFHHHHHJJJJJEIFJIJIJJJIJIJJJJCDGHIIIGIGIJIJIIIIJIJJIJIIH
De acuerdo con el código “JJJJJJJJJ” , sería en numeros: [74, 74, 74, 74 …]
El indice de cálidad del formato Sanger, sería 74- 33 (offset)
Calculo de la probabilidad estimada de que la base sea correcta:
Q = -10 log10P, dando como resultando: 1e-05
Calidad del programa FASTQC
Los archivos en formato SAM constan de una sección de cabecera y otra de alineación. Los archivos SAM son de texto plano (a diferencia de su homólogo binario, BAM)
Header SAM
Formato SAM
Formato SAM
Formato SAM
CRAM es un formato de archivo altamente comprimido
Estos archivos se pueden visualizar con un programa llamado “Integret Genome Viewer” (IGV)
VCF workflow
VCF workflow
VCF (Variant Call Format), consta de tres partes:
Formato VCF
Formato VCF
Formatos que conservan únicamente las coordenadas de una región del genoma
Formato gff3
Formato gff3
Formato más completo que FASTA, presenta tres secciones: Definición, Características y Secuencia.
Podemos ver información acerca de la longitud, número de acceso, anotación y referencias bibliográficas donde aparece
ls
Las opciones son:
l -Muestra los detalles de archivos y directorios
a -Muestra los archivos y directorios ocultos
d -Muestra solo el nombre de los directorios, sin el contenido
s -Muestra el tamaño de los archivos (k o Mb)
mkdir
p -Crea varios directorios a manera de arbol
rmdir
p -Elimina varios directorios a manera de arbol
rm
f -Forzar al sistema eliminar ese archivo
i -Preguntar al sistema si desea eliminar ese archivo
r -Remueve directorios
cat
Tambíen sirve para concatenar archivos
“>” almacena el texto a otro archivo
“>>” Añade el texto a otro archivo
Tips para recordar los comandos:
-Utilizar la función TAB
-Utilizar la función –help
-Utilizar la función man
La finalidad de aprender estos comandos es para poder analizar los archivos vistos en la anterior clase de manera masiva, por ello descargaremos el genoma de referencia de Arabidopsis Thailana y lo analizaremos
Función: Imprime palabras en la términal y variables
Variables de entorno:
$HOME $USER $SHELL $PATH
Operaciones aritmeticas
(+) <- mas (-) <- menos (*) <- multiplicación (/) <- división
** <- potenciación
Ejemplo:
comando cut
Función: Delimita o corta columnas
c -Delimita caracteres
f -Selecciona/Delimita columnas
d -Delimita por algún patrón
Función: Imprime caracteres, archivos, etc
m -Imprime caracteres de ese archivo
l -Imprime lineas de ese archivo
w -Imprime las palabras de ese archivo
Por defecto Cuando vemos un archivo bash nos imprime el archivo, usamos head para ver las primeras 10 lineas del archivo y tail para ver las últimas 10
Opciones:
n -Imprime un numero “n” de lineas
c -Imprime caracteres
Función: Enumera lineas de un archivo
opciones:
v -Indica cuantas lineas y en que orden
Ordena palabras en orden alfabetico
Opciones:
r -Por línea
k -Por campo
Las tuberias permiten redireccionar comandos. Es importante que esta redirección tenga congruencia. Por ejemplo ver las imprimir solo las primeras 10 lineas de un archivo
Recordamos que cat imprime palabras y head muestra las primeras 10 lineas
Elimina palabras repetidas
D -Imprime todas las lineas repetidas
c -Cuenta el numero de ocurrencias
Función: Imprime patrónes de busqueda
opciones:
i -Imprime mayusculas y minusculas
n -Donde esta la palabra (línea)
w - Solo esa palabra
c - ¿Cuantas veces esta esa palabra?
Función: permite cambiar el texto de archivos.
comando sed
PIN: 176 3586
Kahoot
Entrez es un sistema de base de datos de biología molecular que brinda acceso integrado a datos e secuencias de nucleótidos y proteínas, información de mapeo genómico y centrado en genes, datos de estructura 3D, PubMed MEDLINE y más.
El sistema Entrez comprende 39 bases de datos moleculares y bibliográficas. Contiene dos herramientas: efetch y esearch
Efetch permite descargar secuencias de manera masiva en diferentes formatos
Permite buscar en bases de datos
Sintaxis
esearch -db [Database] -query “DDT [GENE/PROT] AND mouse [ORGN]”
Ejemplo:
elink -> Redirecciona
efilter -> acepta muchos más filtros que esearch
#Busqueda de un artículo en pubmed
esearch -db pubmed -query "opsin gene conversion" |
elink -related |
efilter -query "tetrachromacy"Existen otras opciones más como xtract, nquire, transmut, etc.