1 El escenario

En 2020, un estudio publicado en Nature propuso que cada tipo de cáncer tiene una “firma microbiana” única, basándose en datos de secuenciación de The Cancer Genome Atlas (TCGA). El hallazgo generó gran interés y el artículo acumuló cientos de citas.

En 2023, un re-análisis independiente de los mismos datos (Salzberg et al., 2023) reveló que gran parte de las señales “bacterianas” correspondían a secuencias humanas mal clasificadas, debido a problemas en el procesamiento bioinformático. En 2024, Nature retractó el artículo original.

Más allá de quién tuvo razón, este caso es un excelente ejemplo de cómo funciona la ciencia: los datos públicos permiten que otros investigadores verifiquen los resultados, y los formatos en los que se almacenan esos datos son fundamentales para hacer esa verificación correctamente.

La pregunta que guía esta sesión es: ¿Cómo se verifican los datos genómicos? Para responderla, necesitamos entender los formatos en los que se almacenan estos datos. Vamos a explorar los cinco formatos más comunes en bioinformática usando archivos reales como los que se encuentran en proyectos como TCGA:

datos_tcga_ejemplo/
├── referencia_bacterial.fasta    → Secuencias de referencia
├── lecturas_tumor_BRCA.fastq.gz  → Lecturas crudas de secuenciación
├── anotacion_GRCh38.gff3         → Anotación del genoma
├── regiones_captura.bed           → Coordenadas genómicas
└── variantes_tumor.vcf            → Variantes genéticas

Al finalizar esta sesión, serás capaz de:

  1. Distinguir entre bases de datos primarias y secundarias, y explicar su rol en la investigación genómica.
  2. Interpretar y manipular los formatos más utilizados en bioinformática: FASTA, FASTQ, GFF/GTF, BED y VCF.
  3. Comprender la estructura lógica de los identificadores y metadatos en cada formato.
  4. Aplicar buenas prácticas de verificación de datos genómicos.

2 Antes de abrir los archivos: ¿de dónde vienen estos datos?

El estudio en cuestión usó datos de TCGA, uno de los repositorios de datos genómicos más grandes del mundo: 33 tipos de cáncer, más de 17,000 muestras, secuenciación de genoma completo y transcriptoma. Esos datos están almacenados en bases de datos biológicas públicas, lo que hizo posible la verificación independiente.

2.1 Un poco de historia: antes de las bases de datos

Las bases de datos biológicas que hoy usamos sin pensarlo tienen menos de 60 años de historia. Antes de ellas, las secuencias se publicaban impresas en las páginas de los artículos científicos — literalmente como texto o tablas dentro del paper. Cuando Frederick Sanger determinó la secuencia completa de la insulina bovina en 1955, la publicó como figuras en el Biochemical Journal (Sanger & Tuppy, 1951, DOI: 10.1042/bj0490463). Un investigador que quisiera comparar su proteína con secuencias conocidas tenía que buscar manualmente en pilas de revistas impresas.

La primera persona en reconocer que esto era insostenible fue Margaret Dayhoff (1925–1983), una fisicoquímica del National Biomedical Research Foundation en Washington. En 1965 publicó el Atlas of Protein Sequence and Structure, la primera colección sistemática de secuencias biológicas: 65 proteínas en un libro impreso. Cada edición crecía (para 1978 ya contenía más de 1,500 secuencias), pero el formato impreso tenía un límite claro. Dayhoff es considerada la madre de la bioinformática — también creó el código de una letra para aminoácidos y las primeras matrices de sustitución (las matrices PAM).

La primera base de datos electrónica en biología fue el Protein Data Bank (PDB), creado en 1971 en Brookhaven National Laboratory con apenas 7 estructuras cristalográficas (Berman et al., 2000, DOI: 10.1093/nar/28.1.235). Hoy contiene más de 220,000.

Para secuencias de nucleótidos, la primera base de datos fue la EMBL Data Library (hoy ENA), creada en 1980 en el European Molecular Biology Laboratory en Heidelberg. Dos años después, en 1982, se creó GenBank en Los Alamos National Laboratory con 680 secuencias y 606,000 nucleótidos (Benson et al., 2013, DOI: 10.1093/nar/gks1195). La DDBJ en Japón se sumó en 1986. En 1988, estas tres bases de datos formaron el INSDC (International Nucleotide Sequence Database Collaboration) y comenzaron a sincronizar sus datos diariamente — el mismo sistema que existe hoy.

El crecimiento fue explosivo: los métodos de secuenciación de ADN de Frederick Sanger (sí, el mismo Sanger de la insulina — ganó dos premios Nobel, uno por secuenciar proteínas en 1958 y otro por secuenciar ADN en 1980) hicieron que las secuencias se acumularan más rápido de lo que cualquier libro podía contener. Para los años 90, era claro que la ciencia genómica necesitaba no solo bases de datos, sino políticas de depósito obligatorio.

2.2 La política de datos abiertos

El momento clave llegó en febrero de 1996, en una reunión del Human Genome Project en Bermuda. Ahí se adoptaron los Principios de Bermuda, impulsados por los biólogos John Sulston y Robert Waterston: toda secuencia de ADN financiada por el HGP debía liberarse al dominio público en un plazo de 24 horas (Maxson Jones et al., 2018, DOI: 10.1007/s10739-018-9538-7). No en meses, no al publicar — cada día. La idea nació de la comunidad de C. elegans, donde el intercambio rápido de datos servía para control de calidad y coordinación. En el HGP, también buscaba evitar que las patentes de genes bloquearan el avance científico.

Los Principios de Bermuda se convirtieron en el modelo para la ciencia genómica. Desde entonces, las principales revistas científicas (Nature, Science, Cell) exigen que los datos de secuenciación se depositen en bases de datos públicas como condición para publicar. Esto no es un capricho editorial: sin datos abiertos, no hay reproducibilidad. Y sin reproducibilidad, no hay ciencia.

De hecho, fue precisamente porque los datos de TCGA son públicos que otros investigadores pudieron re-analizar el estudio de forma independiente. Sin acceso abierto, la verificación no habría sido posible. Los Principios de Bermuda, adoptados hace 30 años, siguen siendo la base de este proceso.

2.3 ¿Qué es una base de datos biológica?

Una base de datos biológica es una colección organizada de datos biológicos almacenados electrónicamente y accesibles mediante consultas estructuradas. No es simplemente un archivo con datos: tiene un esquema (la estructura que define qué tipo de información almacena y cómo se relaciona), mecanismos de búsqueda (para encontrar información específica), y un sistema de acceso (generalmente una interfaz web o una API programática).

Ahora bien, es importante distinguir entre dos conceptos que a veces se usan como sinónimos pero no lo son:

Base de datos (database): colección estructurada donde los datos se organizan en campos definidos, se pueden consultar con criterios específicos y se mantienen con reglas de consistencia. Ejemplo: UniProt organiza cada proteína con campos definidos (secuencia, función, estructura, localización, variantes, referencias bibliográficas) y puedes buscar por cualquiera de ellos.

Repositorio (repository): almacén donde los investigadores depositan datos asociados a una publicación, con estructura mínima y búsqueda limitada. Ejemplo: el SRA (Sequence Read Archive) almacena los archivos crudos de secuenciación tal como los generó el secuenciador — es un depósito masivo, no una base de datos curada.

En la práctica, muchos recursos biológicos combinan ambas funciones. GEO, por ejemplo, es un repositorio (los investigadores depositan sus datos de expresión), pero también permite búsquedas estructuradas y tiene herramientas de análisis como GEO2R.

2.4 Clasificación de las bases de datos biológicas

Las bases de datos biológicas se pueden clasificar de varias formas. La más útil para este curso combina dos ejes: el tipo de dato que almacenan y el nivel de curación que aplican.

2.4.1 Por tipo de dato

Categoría Qué almacenan Ejemplos
De secuencias Secuencias de nucleótidos y proteínas GenBank, ENA, DDBJ, UniProt
De estructuras Estructuras 3D de macromoléculas PDB, AlphaFold DB
De expresión Niveles de expresión génica GEO, Expression Atlas, ArrayExpress
De variación Variantes genéticas y su significado clínico dbSNP, ClinVar, GWAS Catalog
De rutas y funciones Rutas metabólicas, señalización, ontologías KEGG, Reactome, Gene Ontology
De interacciones Interacciones proteína-proteína, redes STRING, IntAct, BioGRID
De regulación Regulación transcripcional, epigenómica RegulonDB, ENCODE, Roadmap Epigenomics
Especializadas Inmunología, microbiomas, organismos modelo IEDB, ImmPort, Human Cell Atlas, FlyBase

2.4.2 Por nivel de curación (primarias vs. secundarias)

Esta es la distinción más importante para entender la calidad y confiabilidad de los datos:

Bases de datos primarias almacenan datos experimentales directamente como los depositó el investigador. Tienen curación mínima y no aplican interpretación adicional. Piensa en GenBank como un flat file: tú depositas tu secuencia y ahí se queda tal cual la enviaste.

Bases de datos secundarias (o curadas) toman esos datos primarios y los procesan, anotan y validan. Piensa en RefSeq como una biblioteca curada: alguien tomó las mejores secuencias de GenBank, las verificó y creó un conjunto de referencia no redundante.

En el caso que vimos al inicio, parte del problema fue que la base de datos de genomas bacterianos usada como referencia contenía secuencias contaminadas con ADN humano — un riesgo conocido en bases de datos primarias. Esto no es culpa de un investigador en particular; es un desafío inherente al manejo de grandes volúmenes de datos genómicos. Buena práctica: verifica la calidad de tus bases de datos de referencia antes de confiar en los resultados.

Aspecto Primarias Secundarias
Fuente de datos Depósito directo del investigador Derivada de primarias + literatura
Curación Mínima o ninguna Expertos humanos y/o algoritmos
Redundancia Alta Baja o nula
Errores Posibles (del experimento) Minimizados por validación
Ejemplo GenBank entry AB012345 RefSeq NM_001301
Uso típico Acceder a datos originales Referencia para análisis

Ejemplos de bases de datos primarias:

Base de datos Tipo de datos Organización
GenBank Secuencias de nucleótidos NCBI (EUA)
ENA Secuencias de nucleótidos EBI (Europa)
DDBJ Secuencias de nucleótidos NIG (Japón)
SRA Lecturas crudas de secuenciación NCBI
GEO Datos de expresión génica NCBI
PDB Estructuras 3D de proteínas wwPDB

Ejemplos de bases de datos secundarias:

Base de datos Tipo de datos Característica
RefSeq Secuencias de referencia Curada por NCBI
UniProt/Swiss-Prot Secuencias de proteínas Curada manualmente
Ensembl Genomas anotados Pipelines automatizados + curación
KEGG Rutas metabólicas Mapeo de genes a pathways
Reactome Rutas biológicas Curada por expertos

Nota conceptual: En resumen, las bases de datos biológicas cumplen tres funciones esenciales: almacenamiento estandarizado (datos en formatos reproducibles), acceso público (cualquier investigador puede reutilizar datos experimentales) e integración (conectar datos de diferentes fuentes: secuencias, estructuras, expresión, variantes). El tipo de base de datos que consultes y su nivel de curación determinan directamente la confiabilidad de tus resultados.

Nota importante: GenBank (NCBI, EUA), ENA (EBI, Europa) y DDBJ (NIG, Japón) forman el International Nucleotide Sequence Database Collaboration (INSDC). Los tres sincronizan los registros de secuencias de nucleótidos (los archivos con accession numbers tipo NM_, NC_, SRR_), de modo que una secuencia depositada en cualquiera de ellos aparecerá en los otros. Sin embargo, no son idénticos: cada miembro mantiene sus propios sistemas de búsqueda, herramientas de análisis, interfaces de depósito y servicios adicionales. Por ejemplo, ENA organiza los datos en una jerarquía Study → Sample → Experiment → Run que GenBank no usa, y DDBJ ofrece herramientas de anotación propias. En la práctica, para encontrar una secuencia basta con buscar en uno de los tres, pero la experiencia de navegación y los servicios de valor agregado difieren.


3 Archivo 1: referencia_bacterial.fasta — ¿Bacteria o humano?

Empecemos con el archivo de referencia. En estudios de metagenómica, se usan genomas bacterianos como referencia para clasificar lecturas de secuenciación. Abres el FASTA (un formato flat file) y ves algo como:

>NZ_CP027599.1 Fusobacterium nucleatum subsp. animalis strain KCOM 1279
ATGCACAGCTCAGCACTGCTCTGTTGCCTGGTCCTCCTGACTGGGGTGAGGGCCAGCCC
AGGCCAGGGCACCCAGTCTGAGAACAGCTGCACCCACTTCCCAGGCAACCTGCCTAACATG
CTTCGAGATCTCCGAGATGCCTTCAGCAGAGTGAAGACTTTCTTTCAAATGAAGGATCAG

Esto es formato FASTA, el más simple y universal para representar secuencias biológicas. Aquí hay una pregunta interesante: si alineas esta secuencia contra el genoma humano… ¿se alinea? Este tipo de verificación cruzada es una buena práctica fundamental cuando se trabaja con bases de datos de referencia.

3.1 Las reglas del FASTA

Nota técnica: La estructura de un FASTA es minimalista: una línea de encabezado que empieza con > seguida de la secuencia en una o más líneas. El identificador es la primera palabra después de > (sin espacios). El resto del encabezado es descripción opcional. La secuencia típicamente tiene 60-80 caracteres por línea. No contiene información de calidad.

Una cosa que vas a encontrar frecuentemente: archivos Multi-FASTA, donde varias secuencias están concatenadas, cada una con su propio encabezado >. Una base de datos de referencia bacteriana como la que se usó en el estudio puede contener miles de genomas, cada uno como una entrada en un Multi-FASTA enorme.

3.2 Ejercicio 6.1: Verificando una secuencia de referencia con BLAST

Vamos a practicar una habilidad esencial: verificar si una secuencia es realmente lo que dice ser.

Parte A — Obtener la secuencia de TP53

  1. Ve a NCBI Gene y busca TP53 human.
  2. Haz clic en el primer resultado: TP53 tumor protein p53 [Homo sapiens (human)], Gene ID: 7157.
  3. En la sección RefSeq Transcripts, localiza el mRNA principal: NM_000546.6.
  4. Haz clic en el accession NM_000546.6 → te lleva a la página de la secuencia.
  5. Haz clic en FASTA (menú superior) para ver la secuencia en formato FASTA.

Resultado esperado: Verás un encabezado como:

>NM_000546.6 Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA

Seguido de la secuencia del mRNA (~2629 nucleótidos).

  1. Copia los primeros 200 nucleótidos de la secuencia (sin el encabezado).

Parte B — BLAST de la secuencia

  1. Ve a NCBI BLAST y selecciona Nucleotide BLAST.
  2. Pega los 200 nucleótidos en el campo “Enter Query Sequence”.
  3. En Database, selecciona Nucleotide collection (nr/nt).
  4. Haz clic en BLAST.
  5. Espera ~30 segundos a que aparezcan los resultados.

Resultado esperado:

Campo Valor esperado
Primer hit (Description) Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
Accession del primer hit NM_000546.6
Percent Identity 100%
E-value 0.0 (o un número extremadamente pequeño como 2e-100) — ver Guía de scores y estadísticas (material suplementario)
Query Cover 100%
Organismo Homo sapiens

Los primeros hits serán todos humanos (variantes de transcritos de TP53 y secuencias genómicas). No deberían aparecer hits bacterianos con alta identidad.

Reflexión: Si una secuencia humana terminara accidentalmente en una base de datos de genomas bacterianos, cualquier lectura humana que coincidiera se clasificaría erróneamente como “bacteriana”. Esto no es un escenario hipotético: Breitwieser & Salzberg (2019) documentaron que miles de genomas bacterianos en bases de datos públicas contienen secuencias contaminadas con ADN humano, principalmente de regiones repetitivas (LINEs, Alus, satélites). Este tipo de contaminación cruzada es un desafío técnico importante en bioinformática y afecta cualquier análisis que dependa de bases de datos de referencia. La lección es clara: siempre verifica tus referencias antes de confiar en los resultados de clasificación.


4 Archivo 2: lecturas_tumor_BRCA.fastq.gz — Las lecturas crudas de TCGA

El siguiente archivo es mucho más grande y viene comprimido (.gz). Son lecturas de secuenciación de un tumor de mama (BRCA = Breast Cancer) de TCGA. Descomprimido se ve algo como:

@SRR12345678.1 1 length=150
ATCGATCGATCGATCGATCGATCGATCGATCGATCG
+
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:

Esto es formato FASTQ: una extensión de FASTA que incluye puntuaciones de calidad para cada base. Es el formato estándar de salida de los secuenciadores de nueva generación.

4.1 Las cuatro líneas sagradas del FASTQ

Cada lectura ocupa exactamente 4 líneas:

  1. Línea 1 (@): Identificador de la lectura.
  2. Línea 2: La secuencia de nucleótidos.
  3. Línea 3 (+): Separador (puede repetir el identificador o estar vacío).
  4. Línea 4: Calidades — un carácter ASCII por cada base.

Nota técnica — Calidad Phred: El sistema de puntuación Phred fue desarrollado por Ewing et al. (1998, DOI: 10.1101/gr.8.3.186). Cada carácter de la línea 4 representa la calidad de la base correspondiente. La fórmula es Q = -10 × log₁₀(P), donde P es la probabilidad de error. Q20 = 1 error en 100 (99% precisión). Q30 = 1 error en 1,000 (99.9%). Q40 = 1 error en 10,000 (ver material suplementario: Guía de scores y estadísticas, para ejemplos de cálculo detallados). En la práctica, un Q30 promedio es el estándar mínimo aceptable para la mayoría de los análisis.

Calidad Phred Probabilidad de error Carácter ASCII (Illumina 1.8+)
0 1 en 1 !
10 1 en 10 +
20 1 en 100 5
30 1 en 1,000 ?
40 1 en 10,000 I

Entonces, cuando ves FFFFFFFFFFF: al final de una lectura, las F indican calidad alta y el : al final indica que la última base tiene menor confianza. Esto es súper común: la calidad de las lecturas suele decaer hacia el extremo 3’.

En cualquier análisis de secuenciación, la calidad de las lecturas importa. Una lectura de baja calidad puede alinearse incorrectamente contra una referencia, generando falsos positivos. Buena práctica: filtra lecturas de baja calidad antes del alineamiento y verifica tus resultados contra el genoma del organismo de origen.

Nota: La descarga y análisis de lecturas desde el SRA usando la terminal se realizará como ejercicio práctico en la Sesión 09.


5 Archivo 3: anotacion_GRCh38.gff3 — El mapa del genoma

El tercer archivo contiene la anotación del genoma humano de referencia (GRCh38). Este tipo de archivo es esencial para saber dónde caen las lecturas de secuenciación en el genoma:

chr1    Ensembl gene    11869   14409   .   +   .   ID=ENSG00000223972;Name=DDX11L1;biotype=transcribed_unprocessed_pseudogene
chr1    Ensembl exon    11869   12227   .   +   .   Parent=ENST00000456328;Name=ENSE00002234944

Esto es formato GFF3 (General Feature Format, versión 3). Piensa en él como un mapa que te dice exactamente dónde están las cosas en el genoma: genes, exones, CDS, regiones regulatorias…

5.1 Las 9 columnas del GFF3

Columna Descripción Ejemplo
1. seqid Cromosoma o scaffold chr1
2. source Quién generó la anotación Ensembl
3. type Tipo de feature gene, exon, CDS
4. start Posición inicio (1-based) 11869
5. end Posición fin (inclusivo) 14409
6. score Puntuación (o . si no aplica) .
7. strand Cadena + o -
8. phase Marco de lectura para CDS 0, 1, 2 o .
9. attributes Pares clave=valor ID=gene0001;Name=DDX11L1

5.2 La familia de formatos GFF: versiones y diferencias

En la práctica te vas a encontrar archivos con extensiones .gff, .gff3 y .gtf. Todos describen features genómicos con 9 columnas separadas por tabulador, pero no son intercambiables. Entender sus diferencias te evitará errores silenciosos.

GFF2 (también llamado GFF) — El formato original, desarrollado a finales de los 90. La columna 9 de atributos usa un formato simple de pares separados por punto y coma: gene_id "DDX11L1"; transcript_id "NM_001101". No tiene una forma estándar de representar relaciones jerárquicas entre features (gen → transcrito → exón), lo que lo hace ambiguo. Está obsoleto y no debería usarse en análisis nuevos, pero aún aparece en archivos antiguos. Si te encuentras un .gff sin número de versión, probablemente es GFF2.

GTF (Gene Transfer Format, también llamado GFF2.5) — Una extensión de GFF2 creada específicamente para la anotación de genes. Mantiene el formato de atributos de GFF2 pero exige dos atributos obligatorios: gene_id y transcript_id. Es el formato estándar para herramientas de cuantificación de RNA-seq como HTSeq, featureCounts y STAR. Ejemplo:

chr1    HAVANA  exon    11869   12227   .   +   .   gene_id "ENSG00000223972"; transcript_id "ENST00000456328"; gene_name "DDX11L1";

GFF3 — La versión actual del estándar (Sequence Ontology, 2005). Resuelve las limitaciones de GFF2 con un sistema formal de relaciones jerárquicas usando ID= y Parent=. Un gen contiene transcritos, que contienen exones, y estas relaciones están explícitas. También requiere una línea de encabezado ##gff-version 3. Es más flexible y expresivo que GTF, y es el formato preferido por Ensembl, NCBI y la mayoría de los organismos modelo. Ejemplo:

chr1    ensembl gene    11869   14409   .   +   .   ID=ENSG00000223972;Name=DDX11L1;biotype=transcribed_unprocessed_pseudogene
chr1    ensembl mRNA    11869   14409   .   +   .   ID=ENST00000456328;Parent=ENSG00000223972
chr1    ensembl exon    11869   12227   .   +   .   Parent=ENST00000456328;Name=ENSE00002234944

Resumen comparativo:

Característica GFF2 GTF (GFF2.5) GFF3
Estado Obsoleto Vigente Vigente (recomendado)
Jerarquía gen→transcrito→exón No formal Implícita (por gene_id/transcript_id) Explícita (ID/Parent)
Atributos obligatorios Ninguno gene_id, transcript_id ID (para features referenciados)
Separador de atributos ; (punto y coma + espacio) ; (punto y coma + espacio) ; (punto y coma, sin espacio)
Valores entre comillas A veces Sí ("valor") No
Uso principal Archivos legacy RNA-seq (HTSeq, featureCounts, STAR) Bases de datos (Ensembl, NCBI, organismos modelo)

Buena práctica: Cuando descargues un archivo de anotación, verifica siempre qué formato es antes de usarlo. Muchas herramientas esperan un formato específico: featureCounts y HTSeq trabajan mejor con GTF, mientras que herramientas como GMOD/JBrowse y bases de datos genómicas prefieren GFF3. Si necesitas convertir entre formatos, herramientas como gffread (parte de Cufflinks/StringTie) hacen la conversión: gffread input.gff3 -T -o output.gtf.


6 Archivo 4: regiones_captura.bed — Las coordenadas mínimas

El cuarto archivo define las regiones de captura del kit de secuenciación usado en TCGA. Es el más escueto:

chr1    11868   14409   DDX11L1 1000    +
chr1    14403   29570   WASH7P  1000    -
chr7    27221129    27224842    HOXA13  900 -

Este es formato BED (Browser Extensible Data). Tres columnas obligatorias (cromosoma, inicio, fin) con columnas opcionales adicionales. Es el formato favorito para definir regiones genómicas: picos de ChIP-seq, regiones regulatorias, intervalos de interés…

Pero hay una trampa, y es importante.

Nota crítica — Sistemas de coordenadas: BED usa coordenadas 0-based, half-open [start, end). La primera base del cromosoma es la posición 0, y la posición end NO está incluida. En contraste, GFF usa coordenadas 1-based, closed [start, end]. Confundir estos sistemas es una de las fuentes de error más comunes en bioinformática. Un off-by-one error puede arruinar un análisis completo.

Ejemplo concreto: Las primeras 100 bases del cromosoma 1:

  • En BED: chr1 0 100 (posición 0 hasta 99, el 100 NO está incluido)
  • En GFF: chr1 ... 1 100 ... (posición 1 hasta 100, ambos incluidos)

Buena práctica: Cuando combines archivos en formatos distintos (ej. BED con GFF), asegúrate de convertir correctamente los sistemas de coordenadas. Un error de uno en la posición puede cambiar completamente qué gen o región se identifica.

6.1 Ejercicio 6.3: Convirtiendo coordenadas (ojo con los detalles)

Dado este fragmento GFF3:

chr7    Ensembl gene    27221129    27224842    .   -   .   ID=ENSG00000106031;Name=HOXA13
  1. Convierte esta anotación a formato BED (3 columnas). Recuerda el cambio de sistema de coordenadas.
  2. ¿Cuál es la posición chromStart correcta en BED?
  3. ¿Cambia la posición chromEnd? ¿Por qué sí o por qué no?

Respuesta esperada:

chr7    27221128    27224842
  • chromStart = 27221129 − 1 = 27221128 (conversión de 1-based a 0-based).
  • chromEnd = 27224842 (no cambia: en BED el end es exclusivo, en GFF es inclusivo. Numéricamente coinciden al hacer la conversión).

Buena práctica: Cuando hagas conversiones de coordenadas, siempre verifica con un caso simple (por ejemplo, “las primeras 10 bases”) que tu lógica sea correcta antes de aplicarla a todo un archivo.


7 Archivo 5: variantes_tumor.vcf — La variación genética

El último archivo contiene variantes somáticas encontradas en tumores de TCGA:

##fileformat=VCFv4.3
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
#CHROM  POS ID  REF ALT QUAL    FILTER  INFO    FORMAT  SAMPLE1
chr1    12345   rs123456    A   G   50  PASS    DP=30   GT  0/1
chr17   7674220 rs28934578  G   A   99  PASS    DP=45   GT  1/1

Este es formato VCF (Variant Call Format), el estándar para describir variantes genéticas (SNPs, indels, variantes estructurales) respecto a un genoma de referencia.

7.1 Anatomía de un VCF

El archivo tiene dos partes: un encabezado (líneas que empiezan con ##) que define los metadatos, y el cuerpo con las variantes:

Columna Descripción
CHROM Cromosoma
POS Posición (1-based)
ID Identificador (ej. rsID de dbSNP, o . si no tiene)
REF Alelo de referencia
ALT Alelo(s) alternativo(s)
QUAL Calidad de la variante (Phred-scaled)
FILTER PASS o razón del filtro
INFO Anotaciones (pares clave=valor separados por ;)
FORMAT Formato de los genotipos por muestra
SAMPLE(s) Datos por muestra

Nota técnica — Interpretación de genotipos:

  • 0/0 = homocigoto referencia (tiene dos copias del alelo de referencia)
  • 0/1 = heterocigoto (una copia del referencia, una del alternativo)
  • 1/1 = homocigoto alternativo (dos copias del alelo alternativo)
  • 1/2 = heterocigoto con dos alelos alternativos diferentes

7.2 Ejercicio 6.4: Investigando una variante real de cáncer en dbSNP

El VCF incluye la variante rs28934578 en el cromosoma 17. Esta es la famosa mutación R248W de TP53, una de las mutaciones más frecuentes en cáncer humano. Vamos a investigarla paso a paso.

Paso 1: Ve a dbSNP y escribe rs28934578 en la barra de búsqueda. Presiona Enter.

Paso 2: En la página de resultados, localiza la información principal.

Resultados esperados:

Campo Valor esperado
Tipo de variante SNV (Single Nucleotide Variant)
Gen TP53 (tumor protein p53)
Posición (GRCh38) chr17:7674220
Alelo REF C
Alelo ALT T
Consecuencia molecular missense variant (cambio de aminoácido)
Cambio de aminoácido R248W (Arg → Trp en la posición 248)

Nota: La cadena sentido del gen TP53 está en la hebra negativa, por eso en el VCF puedes ver G→A (que corresponde a C→T en la hebra codificante).

Paso 3: En la misma página, busca la sección Clinical Significance (o haz clic en el enlace a ClinVar).

Resultado esperado en ClinVar:

Campo Valor esperado
Significancia clínica Pathogenic / Likely pathogenic
Condiciones asociadas Li-Fraumeni syndrome, Hereditary cancer-predisposing syndrome, múltiples neoplasias
Estrellas de revisión Múltiples submitters, sin conflictos

Paso 4 — Reflexión:

Si un tumor muestra genotipo 1/1 para esta variante, significa que ambas copias de TP53 tienen la mutación R248W (homocigoto alternativo). TP53 es un gen supresor de tumores — funciona como un freno para la proliferación celular. Cuando ambas copias están mutadas, la célula pierde completamente esta protección, lo que es consistente con la hipótesis de los “dos hits” de Knudson (1971, DOI: 10.1073/pnas.68.4.820).


8 Resumen: los 5 archivos descifrados

Ahora tienes el vocabulario para entender los datos de TCGA:

Formato Archivo Qué contiene Coordenadas Buena práctica de verificación
FASTA referencia_bacterial.fasta Genomas de referencia N/A Verificar calidad y posible contaminación cruzada
FASTQ lecturas_tumor_BRCA.fastq.gz Lecturas crudas con calidad N/A Filtrar por calidad antes de cualquier análisis
GFF3 anotacion_GRCh38.gff3 Anotación genómica 1-based, closed Confirmar en qué regiones genómicas caen las lecturas
BED regiones_captura.bed Regiones de captura 0-based, half-open Verificar sistema de coordenadas al combinar con otros formatos
VCF variantes_tumor.vcf Variantes somáticas 1-based Verificar filtros de calidad y significancia clínica

9 Buenas prácticas de verificación

Lo que aprendimos hoy no es solo sobre formatos. Es sobre por qué los formatos importan y cómo verificar datos correctamente. En cada formato hay una oportunidad de verificación:

  • Bases de datos de referencia (FASTA): verificar que no contengan contaminación cruzada entre organismos.
  • Lecturas crudas (FASTQ): filtrar por calidad y verificar el origen taxonómico de las lecturas.
  • Anotaciones (GFF/BED): usarlas activamente para confirmar en qué regiones genómicas caen las lecturas.
  • Variantes (VCF): verificar que las variantes reportadas cumplan los filtros de calidad esperados.

Cada formato que aprendiste hoy es una pieza del rompecabezas. En las próximas sesiones vamos a aprender a usar las bases de datos y las herramientas programáticas para armar ese rompecabezas con rigor — aplicando las mejores prácticas de verificación.


10 Preguntas de reflexión

  1. Si un investigador deposita una secuencia contaminada en GenBank, ¿se detecta automáticamente? ¿Qué implicaciones tiene esto para quien usa esos datos como referencia?
  2. ¿Por qué es tan importante el sistema de coordenadas al convertir entre formatos? Da un ejemplo de un error real que podría ocurrir en el contexto de clasificar lecturas como bacterianas vs. humanas.
  3. ¿Qué ventajas ofrece FASTQ sobre FASTA para datos de secuenciación de nueva generación? ¿Cómo podría la calidad de las lecturas influir en una clasificación errónea?
  4. ¿Por qué las revistas científicas exigen depositar secuencias en bases de datos públicas antes de la publicación? ¿Cómo contribuyó esto a que el caso del microbioma pudiera ser verificado independientemente?

11 Recursos adicionales

12 Referencias

  • Benson, D.A. et al. (2013). “GenBank.” Nucleic Acids Research, 41(D1), D36–D42. DOI: 10.1093/nar/gks1195
  • Berman, H.M. et al. (2000). “The Protein Data Bank.” Nucleic Acids Research, 28(1), 235–242. DOI: 10.1093/nar/28.1.235
  • Breitwieser, F.P. & Salzberg, S.L. (2019). “Human contamination in bacterial genomes has created thousands of spurious proteins.” Genome Research, 29(6), 954–960. DOI: 10.1101/gr.245373.118
  • Ewing, B. et al. (1998). “Base-calling of automated sequencer traces using Phred. I. Accuracy assessment.” Genome Research, 8(3), 175–185. DOI: 10.1101/gr.8.3.186
  • Knudson, A.G. (1971). “Mutation and cancer: statistical study of retinoblastoma.” Proceedings of the National Academy of Sciences, 68(4), 820–823. DOI: 10.1073/pnas.68.4.820
  • Maxson Jones, K. et al. (2018). “The Bermuda Triangle: the pragmatics, policies, and principles for data sharing in the history of the Human Genome Project.” Journal of the History of Biology, 51, 693–805. DOI: 10.1007/s10739-018-9538-7
  • Poore, G.D. et al. (2020). “Microbiome analyses of blood and tissues suggest cancer diagnostic approach.” Nature, 579, 567–574. Retractado en junio de 2024. DOI: 10.1038/s41586-020-2012-7
  • Retraction notice: Nature (2024). DOI: 10.1038/s41586-024-07656-x
  • Salzberg, S.L. et al. (2023). “Microbiome data are not correct for several types of cancer.” mBio, 14(3), e01607-23. DOI: 10.1128/mbio.01607-23
  • Sanger, F. & Tuppy, H. (1951). “The amino-acid sequence in the phenylalanyl chain of insulin.” Biochemical Journal, 49(4), 463–481. DOI: 10.1042/bj0490463

13 Errores y sugerencias

Este material está en desarrollo continuo. Si encuentras errores, enlaces rotos o tienes sugerencias para mejorarlo, por favor repórtalos a: