1 El escenario

En 2020, un estudio publicado en Nature anunció un hallazgo espectacular: analizando datos de secuenciación de The Cancer Genome Atlas (TCGA), los autores afirmaron que cada tipo de cáncer tiene una “firma microbiana” única — bacterias específicas que podrían usarse para diagnosticar cáncer con una precisión cercana al 100%. Se fundó una empresa (Micronoma) para comercializar la tecnología. El artículo acumuló más de 600 citas.

En 2023, un equipo liderado por Steven Salzberg (Johns Hopkins) re-analizó los mismos datos y mostró que la mayoría de las “bacterias” reportadas eran en realidad secuencias humanas mal clasificadas. La verificación rigurosa reveló que errores en el procesamiento bioinformático habían generado millones de falsos positivos. En junio de 2024, Nature retractó el artículo.

¿Qué podemos aprender de este caso? Una parte clave de la respuesta está en algo que suena básico pero resulta ser fundamental: los formatos de datos y cómo se procesan correctamente.

La pregunta que guía esta sesión es: ¿Cómo se verifican datos genómicos? Para responderla, necesitamos entender los formatos en los que se almacenan estos datos. Vamos a explorar los cinco formatos más comunes en bioinformática usando archivos reales como los que se encuentran en proyectos como TCGA:

datos_tcga_ejemplo/
├── referencia_bacterial.fasta    → Secuencias de referencia
├── lecturas_tumor_BRCA.fastq.gz  → Lecturas crudas de secuenciación
├── anotacion_GRCh38.gff3         → Anotación del genoma
├── regiones_captura.bed           → Coordenadas genómicas
└── variantes_tumor.vcf            → Variantes genéticas

Al finalizar esta sesión, serás capaz de:

  1. Distinguir entre bases de datos primarias y secundarias, y explicar su rol en la investigación genómica.
  2. Interpretar y manipular los formatos más utilizados en bioinformática: FASTA, FASTQ, GFF/GTF, BED y VCF.
  3. Comprender la estructura lógica de los identificadores y metadatos en cada formato.
  4. Explorar datos de expresión génica en GEO.

2 Antes de abrir los archivos: ¿de dónde vienen estos datos?

El estudio retractado usó datos de TCGA, uno de los repositorios de datos genómicos más grandes del mundo: 33 tipos de cáncer, más de 17,000 muestras, secuenciación de genoma completo y transcriptoma. Esos datos no aparecieron de la nada — están almacenados en bases de datos biológicas públicas.

2.1 Un poco de historia: antes de las bases de datos

Las bases de datos biológicas que hoy usamos sin pensarlo tienen menos de 60 años de historia. Antes de ellas, las secuencias se publicaban impresas en las páginas de los artículos científicos — literalmente como texto o tablas dentro del paper. Cuando Frederick Sanger determinó la secuencia completa de la insulina bovina en 1955, la publicó como figuras en el Biochemical Journal (Sanger & Tuppy, 1951, DOI: 10.1042/bj0490463). Un investigador que quisiera comparar su proteína con secuencias conocidas tenía que buscar manualmente en pilas de revistas impresas.

La primera persona en reconocer que esto era insostenible fue Margaret Dayhoff (1925–1983), una fisicoquímica del National Biomedical Research Foundation en Washington. En 1965 publicó el Atlas of Protein Sequence and Structure, la primera colección sistemática de secuencias biológicas: 65 proteínas en un libro impreso. Cada edición crecía (para 1978 ya contenía más de 1,500 secuencias), pero el formato impreso tenía un límite claro. Dayhoff es considerada la madre de la bioinformática — también creó el código de una letra para aminoácidos y las primeras matrices de sustitución (las matrices PAM).

La primera base de datos electrónica en biología fue el Protein Data Bank (PDB), creado en 1971 en Brookhaven National Laboratory con apenas 7 estructuras cristalográficas (Berman et al., 2000, DOI: 10.1093/nar/28.1.235). Hoy contiene más de 220,000.

Para secuencias de nucleótidos, la primera base de datos fue la EMBL Data Library (hoy ENA), creada en 1980 en el European Molecular Biology Laboratory en Heidelberg. Dos años después, en 1982, se creó GenBank en Los Alamos National Laboratory con 680 secuencias y 606,000 nucleótidos (Benson et al., 2013, DOI: 10.1093/nar/gks1195). La DDBJ en Japón se sumó en 1986. En 1988, estas tres bases de datos formaron el INSDC (International Nucleotide Sequence Database Collaboration) y comenzaron a sincronizar sus datos diariamente — el mismo sistema que existe hoy.

El crecimiento fue explosivo: los métodos de secuenciación de ADN de Frederick Sanger (sí, el mismo Sanger de la insulina — ganó dos premios Nobel, uno por secuenciar proteínas en 1958 y otro por secuenciar ADN en 1980) hicieron que las secuencias se acumularan más rápido de lo que cualquier libro podía contener. Para los años 90, era claro que la ciencia genómica necesitaba no solo bases de datos, sino políticas de depósito obligatorio.

2.2 La política de datos abiertos

El momento clave llegó en febrero de 1996, en una reunión del Human Genome Project en Bermuda. Ahí se adoptaron los Principios de Bermuda, impulsados por los biólogos John Sulston y Robert Waterston: toda secuencia de ADN financiada por el HGP debía liberarse al dominio público en un plazo de 24 horas (Maxson Jones et al., 2018, DOI: 10.1007/s10739-018-9538-7). No en meses, no al publicar — cada día. La idea nació de la comunidad de C. elegans, donde el intercambio rápido de datos servía para control de calidad y coordinación. En el HGP, también buscaba evitar que las patentes de genes bloquearan el avance científico.

Los Principios de Bermuda se convirtieron en el modelo para la ciencia genómica. Desde entonces, las principales revistas científicas (Nature, Science, Cell) exigen que los datos de secuenciación se depositen en bases de datos públicas como condición para publicar. Esto no es un capricho editorial: sin datos abiertos, no hay reproducibilidad. Y sin reproducibilidad, no hay ciencia.

De hecho, fue precisamente porque los datos de TCGA son públicos que el equipo de Salzberg pudo re-analizar el estudio y encontrar los errores. Sin acceso abierto, el error habría pasado desapercibido. Los Principios de Bermuda, adoptados hace 30 años, hicieron posible esta verificación.

2.3 ¿Qué es una base de datos biológica?

Una base de datos biológica es una colección organizada de datos biológicos almacenados electrónicamente y accesibles mediante consultas estructuradas. No es simplemente un archivo con datos: tiene un esquema (la estructura que define qué tipo de información almacena y cómo se relaciona), mecanismos de búsqueda (para encontrar información específica), y un sistema de acceso (generalmente una interfaz web o una API programática).

Es importante distinguir entre dos conceptos que a veces se usan como sinónimos pero no lo son:

Base de datos (database): colección estructurada donde los datos se organizan en campos definidos, se pueden consultar con criterios específicos y se mantienen con reglas de consistencia. Ejemplo: UniProt organiza cada proteína con campos definidos (secuencia, función, estructura, localización, variantes, referencias bibliográficas) y puedes buscar por cualquiera de ellos.

Repositorio (repository): almacén donde los investigadores depositan datos asociados a una publicación, con estructura mínima y búsqueda limitada. Ejemplo: el SRA (Sequence Read Archive) almacena los archivos crudos de secuenciación tal como los generó el secuenciador — es un depósito masivo, no una base de datos curada.

En la práctica, muchos recursos biológicos combinan ambas funciones. GEO, por ejemplo, es un repositorio (los investigadores depositan sus datos de expresión), pero también permite búsquedas estructuradas y tiene herramientas de análisis como GEO2R.

2.4 Clasificación de las bases de datos biológicas

Las bases de datos biológicas se pueden clasificar de varias formas. La más útil para este curso combina dos ejes: el tipo de dato que almacenan y el nivel de curación que aplican.

2.4.1 Por tipo de dato

Categoría Qué almacenan Ejemplos
De secuencias Secuencias de nucleótidos y proteínas GenBank, ENA, DDBJ, UniProt
De estructuras Estructuras 3D de macromoléculas PDB, AlphaFold DB
De expresión Niveles de expresión génica GEO, Expression Atlas, ArrayExpress
De variación Variantes genéticas y su significado clínico dbSNP, ClinVar, GWAS Catalog
De rutas y funciones Rutas metabólicas, señalización, ontologías KEGG, Reactome, Gene Ontology
De interacciones Interacciones proteína-proteína, redes STRING, IntAct, BioGRID
De regulación Regulación transcripcional, epigenómica RegulonDB, ENCODE, Roadmap Epigenomics
Especializadas Inmunología, microbiomas, organismos modelo IEDB, ImmPort, Human Cell Atlas, FlyBase

2.4.2 Por nivel de curación (primarias vs. secundarias)

Esta es la distinción más importante para entender la calidad y confiabilidad de los datos:

Bases de datos primarias almacenan datos experimentales directamente como los depositó el investigador. Tienen curación mínima y no aplican interpretación adicional. Piensa en GenBank como un flat file: tú depositas tu secuencia y ahí se queda tal cual la enviaste.

Bases de datos secundarias (o curadas) toman esos datos primarios y los procesan, anotan y validan. Piensa en RefSeq como una biblioteca curada: alguien tomó las mejores secuencias de GenBank, las verificó y creó un conjunto de referencia no redundante.

En el caso Poore/Salzberg, se usó una base de datos de genomas bacterianos como referencia para clasificar lecturas. Una de las lecciones fue que esa base de datos contenía secuencias contaminadas con ADN humano — un riesgo conocido en bases de datos que no han pasado por curación rigurosa. Buena práctica: verifica la calidad de tus bases de datos de referencia antes de confiar en los resultados.

Aspecto Primarias Secundarias
Fuente de datos Depósito directo del investigador Derivada de primarias + literatura
Curación Mínima o ninguna Expertos humanos y/o algoritmos
Redundancia Alta Baja o nula
Errores Posibles (del experimento) Minimizados por validación
Ejemplo GenBank entry AB012345 RefSeq NM_001301
Uso típico Acceder a datos originales Referencia para análisis

Ejemplos de bases de datos primarias:

Base de datos Tipo de datos Organización
GenBank Secuencias de nucleótidos NCBI (EUA)
ENA Secuencias de nucleótidos EBI (Europa)
DDBJ Secuencias de nucleótidos NIG (Japón)
SRA Lecturas crudas de secuenciación NCBI
GEO Datos de expresión génica NCBI
PDB Estructuras 3D de proteínas wwPDB

Ejemplos de bases de datos secundarias:

Base de datos Tipo de datos Característica
RefSeq Secuencias de referencia Curada por NCBI
UniProt/Swiss-Prot Secuencias de proteínas Curada manualmente
Ensembl Genomas anotados Pipelines automatizados + curación
KEGG Rutas metabólicas Mapeo de genes a pathways
Reactome Rutas biológicas Curada por expertos

Nota conceptual: En resumen, las bases de datos biológicas cumplen tres funciones esenciales: almacenamiento estandarizado (datos en formatos reproducibles), acceso público (cualquier investigador puede reutilizar datos experimentales) e integración (conectar datos de diferentes fuentes: secuencias, estructuras, expresión, variantes). El tipo de base de datos que consultes y su nivel de curación determinan directamente la confiabilidad de tus resultados.

Nota importante: GenBank (NCBI, EUA), ENA (EBI, Europa) y DDBJ (NIG, Japón) forman el International Nucleotide Sequence Database Collaboration (INSDC). Los tres sincronizan los registros de secuencias de nucleótidos (los archivos con accession numbers tipo NM_, NC_, SRR_), de modo que una secuencia depositada en cualquiera de ellos aparecerá en los otros. Sin embargo, no son idénticos: cada miembro mantiene sus propios sistemas de búsqueda, herramientas de análisis, interfaces de depósito y servicios adicionales. Por ejemplo, ENA organiza los datos en una jerarquía Study → Sample → Experiment → Run que GenBank no usa, y DDBJ ofrece herramientas de anotación propias. En la práctica, para encontrar una secuencia basta con buscar en uno de los tres, pero la experiencia de navegación y los servicios de valor agregado difieren.


3 Archivo 1: referencia_bacterial.fasta — ¿Bacteria o humano?

Empecemos con el archivo de referencia. En el estudio retractado, se usaron genomas bacterianos como referencia para clasificar las lecturas de TCGA. Abres el FASTA (un formato flat file) y ves algo como:

>NZ_CP027599.1 Fusobacterium nucleatum subsp. animalis strain KCOM 1279
ATGCACAGCTCAGCACTGCTCTGTTGCCTGGTCCTCCTGACTGGGGTGAGGGCCAGCCC
AGGCCAGGGCACCCAGTCTGAGAACAGCTGCACCCACTTCCCAGGCAACCTGCCTAACATG
CTTCGAGATCTCCGAGATGCCTTCAGCAGAGTGAAGACTTTCTTTCAAATGAAGGATCAG

Esto es formato FASTA, el más simple y universal para representar secuencias biológicas. Aquí hay una pregunta clave de verificación: si alineas esta secuencia contra el genoma humano… ¿se alinea? Este tipo de verificación cruzada es una buena práctica fundamental cuando se trabaja con bases de datos de referencia.

3.1 Las reglas del FASTA

Nota técnica: La estructura de un FASTA es minimalista: una línea de encabezado que empieza con > seguida de la secuencia en una o más líneas. El identificador es la primera palabra después de > (sin espacios). El resto del encabezado es descripción opcional. La secuencia típicamente tiene 60-80 caracteres por línea. No contiene información de calidad.

Una cosa que vas a encontrar frecuentemente: archivos Multi-FASTA, donde varias secuencias están concatenadas, cada una con su propio encabezado >. Una base de datos de referencia bacteriana como la que se usó en el estudio puede contener miles de genomas, cada uno como una entrada en un Multi-FASTA enorme.

3.2 Ejercicio 6.1: Verificando una secuencia de referencia con BLAST

Vamos a hacer lo que el equipo de Salzberg hizo: verificar si una secuencia es realmente lo que dice ser.

Parte A — Obtener la secuencia de TP53

  1. Ve a NCBI Gene y busca TP53 human.
  2. Haz clic en el primer resultado: TP53 tumor protein p53 [Homo sapiens (human)], Gene ID: 7157.
  3. En la sección RefSeq Transcripts, localiza el mRNA principal: NM_000546.6.
  4. Haz clic en el accession NM_000546.6 → te lleva a la página de la secuencia.
  5. Haz clic en FASTA (menú superior) para ver la secuencia en formato FASTA.

Resultado esperado: Verás un encabezado como:

>NM_000546.6 Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA

Seguido de la secuencia del mRNA (~2629 nucleótidos).

  1. Copia los primeros 200 nucleótidos de la secuencia (sin el encabezado).

Parte B — BLAST de la secuencia

  1. Ve a NCBI BLAST y selecciona Nucleotide BLAST.
  2. Pega los 200 nucleótidos en el campo “Enter Query Sequence”.
  3. En Database, selecciona Nucleotide collection (nr/nt).
  4. Haz clic en BLAST.
  5. Espera ~30 segundos a que aparezcan los resultados.

Resultado esperado:

Campo Valor esperado
Primer hit (Description) Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
Accession del primer hit NM_000546.6
Percent Identity 100%
E-value 0.0 (o un número extremadamente pequeño como 2e-100) — ver Guía de scores
Query Cover 100%
Organismo Homo sapiens

Los primeros hits serán todos humanos (variantes de transcritos de TP53 y secuencias genómicas). No deberían aparecer hits bacterianos con alta identidad.

Reflexión: Si una secuencia humana terminara accidentalmente en una base de datos de genomas bacterianos, cualquier lectura humana que coincidiera se clasificaría erróneamente como “bacteriana”. Esto es exactamente lo que documentaron Breitwieser & Salzberg (2019): encontraron que 2,250 genomas bacterianos en RefSeq están contaminados con secuencias humanas — principalmente de regiones repetitivas (LINEs, Alus, satélites) que no están bien representadas en el genoma de referencia humano GRCh38. Esta contaminación generó 3,437 proteínas espurias en las bases de datos nr y TrEMBL. Cuando Poore et al. (2020) alinearon las lecturas de TCGA contra estas bases de datos contaminadas, millones de lecturas humanas fueron reportadas como “bacterianas”, lo que llevó a reportar asociaciones imposibles — por ejemplo, bacterias de algas marinas en cáncer de vejiga, o Methanothermus, un archaeon extremófilo de fuentes hidrotermales, asociado a tumores humanos.


4 Archivo 2: lecturas_tumor_BRCA.fastq.gz — Las lecturas crudas de TCGA

El siguiente archivo es mucho más grande y viene comprimido (.gz). Son lecturas de secuenciación de un tumor de mama (BRCA = Breast Cancer) de TCGA. Descomprimido se ve algo como:

@SRR12345678.1 1 length=150
ATCGATCGATCGATCGATCGATCGATCGATCGATCG
+
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:

Esto es formato FASTQ: una extensión de FASTA que incluye puntuaciones de calidad para cada base. Es el formato estándar de salida de los secuenciadores de nueva generación.

4.1 Las cuatro líneas sagradas del FASTQ

Cada lectura ocupa exactamente 4 líneas:

  1. Línea 1 (@): Identificador de la lectura.
  2. Línea 2: La secuencia de nucleótidos.
  3. Línea 3 (+): Separador (puede repetir el identificador o estar vacío).
  4. Línea 4: Calidades — un carácter ASCII por cada base.

Nota técnica — Calidad Phred: El sistema de puntuación Phred fue desarrollado por Ewing et al. (1998, DOI: 10.1101/gr.8.3.186). Cada carácter de la línea 4 representa la calidad de la base correspondiente. La fórmula es Q = -10 × log₁₀(P), donde P es la probabilidad de error. Q20 = 1 error en 100 (99% precisión). Q30 = 1 error en 1,000 (99.9%). Q40 = 1 error en 10,000 (ver Material suplementario: Guía de scores y estadísticas para ejemplos de cálculo detallados). En la práctica, un Q30 promedio es el estándar mínimo aceptable para la mayoría de los análisis.

Calidad Phred Probabilidad de error Carácter ASCII (Illumina 1.8+)
0 1 en 1 !
10 1 en 10 +
20 1 en 100 5
30 1 en 1,000 ?
40 1 en 10,000 I

Entonces, cuando ves FFFFFFFFFFF: al final de una lectura, las F indican calidad alta y el : al final indica que la última base tiene menor confianza. Esto es súper común: la calidad de las lecturas suele decaer hacia el extremo 3’.

En el contexto del caso del microbioma: la calidad de las lecturas importa. Una lectura humana de baja calidad puede alinearse incorrectamente contra una base de datos bacteriana, generando falsos positivos. Buena práctica: filtra lecturas de baja calidad antes del alineamiento y verifica tus resultados contra el genoma del organismo de origen.

4.2 Ejercicio 6.2: Descarga y análisis rápido con la terminal

Si tienes acceso a una terminal con SRA Toolkit instalado, sigue estos pasos:

Paso 1 — Descargar un subconjunto de lecturas:

# Descargar las primeras 1000 lecturas del accession SRR835775 (TCGA breast cancer)
fastq-dump --split-files -X 1000 SRR835775

Resultado esperado: Se descargarán dos archivos (porque son lecturas paired-end):

SRR835775_1.fastq  (*forward reads*)
SRR835775_2.fastq  (*reverse reads*)

Paso 2 — Ver las primeras lecturas:

# Ver las primeras 8 líneas (= 2 lecturas completas, 4 líneas cada una)
head -8 SRR835775_1.fastq

Resultado esperado (formato aproximado):

@SRR835775.1 1 length=100
ATCGATCGATCG... (secuencia de ~100 nucleótidos)
+
FFFFFFFFFFF... (caracteres de calidad)
@SRR835775.2 2 length=100
GCTAGCTAGCTA... (secuencia de ~100 nucleótidos)
+
FFFFFFFFFFF... (caracteres de calidad)

Paso 3 — Contar el número total de lecturas:

echo $(( $(wc -l < SRR835775_1.fastq) / 4 ))

Resultado esperado: 1000 (porque descargamos 1000 lecturas con -X 1000).

Respuestas a las preguntas:

  • ¿Por qué dividimos entre 4? Porque cada lectura en formato FASTQ ocupa exactamente 4 líneas (identificador, secuencia, separador, calidades).
  • Si un archivo tiene 4000 líneas, ¿cuántas lecturas contiene? 4000 / 4 = 1000 lecturas.
  • Calidad típica: La mayoría de los caracteres de calidad serán letras como F, G, H (Q35-Q40, calidad alta). Hacia el final de las lecturas es común ver caracteres de menor calidad como 5 o : (Q20-Q25).

5 Archivo 3: anotacion_GRCh38.gff3 — El mapa del genoma

El tercer archivo contiene la anotación del genoma humano de referencia (GRCh38). El equipo de Salzberg necesitó esta anotación para verificar dónde caían las lecturas “bacterianas” en el genoma humano:

chr1    Ensembl gene    11869   14409   .   +   .   ID=ENSG00000223972;Name=DDX11L1;biotype=transcribed_unprocessed_pseudogene
chr1    Ensembl exon    11869   12227   .   +   .   Parent=ENST00000456328;Name=ENSE00002234944

Esto es formato GFF3 (General Feature Format, versión 3). Piensa en él como un mapa que te dice exactamente dónde están las cosas en el genoma: genes, exones, CDS, regiones regulatorias…

5.1 Las 9 columnas del GFF3

Columna Descripción Ejemplo
1. seqid Cromosoma o scaffold chr1
2. source Quién generó la anotación Ensembl
3. type Tipo de feature gene, exon, CDS
4. start Posición inicio (1-based) 11869
5. end Posición fin (inclusivo) 14409
6. score Puntuación (o . si no aplica) .
7. strand Cadena + o -
8. phase Marco de lectura para CDS 0, 1, 2 o .
9. attributes Pares clave=valor ID=gene0001;Name=DDX11L1

Nota conceptual — GFF3 vs GTF: Ambos describen features genómicos, pero difieren en la columna de atributos. GTF usa gene_id y transcript_id como atributos obligatorios y es más común en pipelines de RNA-seq (HTSeq, featureCounts). GFF3 usa relaciones jerárquicas Parent/ID y es más flexible. Si alguien te pasa un archivo de anotación, lo primero que debes verificar es si es GFF3 o GTF, porque mezclarlos causa errores silenciosos.


6 Archivo 4: regiones_captura.bed — Las coordenadas mínimas

El cuarto archivo define las regiones de captura del kit de secuenciación usado en TCGA. Es el más escueto:

chr1    11868   14409   DDX11L1 1000    +
chr1    14403   29570   WASH7P  1000    -
chr7    27221129    27224842    HOXA13  900 -

Este es formato BED (Browser Extensible Data). Tres columnas obligatorias (cromosoma, inicio, fin) con columnas opcionales adicionales. Es el formato favorito para definir regiones genómicas: picos de ChIP-seq, regiones regulatorias, intervalos de interés…

Pero hay una trampa, y es importante.

Nota crítica — Sistemas de coordenadas: BED usa coordenadas 0-based, half-open [start, end). La primera base del cromosoma es la posición 0, y la posición end NO está incluida. En contraste, GFF usa coordenadas 1-based, closed [start, end]. Confundir estos sistemas es una de las fuentes de error más comunes en bioinformática. Un off-by-one error puede arruinar un análisis completo.

Ejemplo concreto: Las primeras 100 bases del cromosoma 1:

  • En BED: chr1 0 100 (posición 0 hasta 99, el 100 NO está incluido)
  • En GFF: chr1 ... 1 100 ... (posición 1 hasta 100, ambos incluidos)

Buena práctica: Cuando combines archivos en formatos distintos (ej. BED con GFF), asegúrate de convertir correctamente los sistemas de coordenadas. Un error de uno en la posición puede cambiar completamente qué gen o región se identifica.

6.1 Ejercicio 6.3: Convirtiendo coordenadas (ojo con los detalles)

Dado este fragmento GFF3:

chr7    Ensembl gene    27221129    27224842    .   -   .   ID=ENSG00000106031;Name=HOXA13
  1. Convierte esta anotación a formato BED (3 columnas). Recuerda el cambio de sistema de coordenadas.
  2. ¿Cuál es la posición chromStart correcta en BED?
  3. ¿Cambia la posición chromEnd? ¿Por qué sí o por qué no?

Respuesta esperada:

chr7    27221128    27224842
  • chromStart = 27221129 − 1 = 27221128 (conversión de 1-based a 0-based).
  • chromEnd = 27224842 (no cambia: en BED el end es exclusivo, en GFF es inclusivo. Numéricamente coinciden al hacer la conversión).

Buena práctica: Cuando hagas conversiones de coordenadas, siempre verifica con un caso simple (por ejemplo, “las primeras 10 bases”) que tu lógica sea correcta antes de aplicarla a todo un archivo.


7 Archivo 5: variantes_tumor.vcf — La variación genética

El último archivo contiene variantes somáticas encontradas en tumores de TCGA:

##fileformat=VCFv4.3
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
#CHROM  POS ID  REF ALT QUAL    FILTER  INFO    FORMAT  SAMPLE1
chr1    12345   rs123456    A   G   50  PASS    DP=30   GT  0/1
chr17   7674220 rs28934578  G   A   99  PASS    DP=45   GT  1/1

Este es formato VCF (Variant Call Format), el estándar para describir variantes genéticas (SNPs, indels, variantes estructurales) respecto a un genoma de referencia.

7.1 Anatomía de un VCF

El archivo tiene dos partes: un encabezado (líneas que empiezan con ##) que define los metadatos, y el cuerpo con las variantes:

Columna Descripción
CHROM Cromosoma
POS Posición (1-based)
ID Identificador (ej. rsID de dbSNP, o . si no tiene)
REF Alelo de referencia
ALT Alelo(s) alternativo(s)
QUAL Calidad de la variante (Phred-scaled)
FILTER PASS o razón del filtro
INFO Anotaciones (pares clave=valor separados por ;)
FORMAT Formato de los genotipos por muestra
SAMPLE(s) Datos por muestra

Nota técnica — Interpretación de genotipos:

  • 0/0 = homocigoto referencia (tiene dos copias del alelo de referencia)
  • 0/1 = heterocigoto (una copia del referencia, una del alternativo)
  • 1/1 = homocigoto alternativo (dos copias del alelo alternativo)
  • 1/2 = heterocigoto con dos alelos alternativos diferentes

7.2 Ejercicio 6.4: Investigando una variante real de cáncer en dbSNP

El VCF incluye la variante rs28934578 en el cromosoma 17. Esta es la famosa mutación R248W de TP53, una de las mutaciones más frecuentes en cáncer humano. Vamos a investigarla paso a paso.

Paso 1: Ve a dbSNP y escribe rs28934578 en la barra de búsqueda. Presiona Enter.

Paso 2: En la página de resultados, localiza la información principal.

Resultados esperados:

Campo Valor esperado
Tipo de variante SNV (Single Nucleotide Variant)
Gen TP53 (tumor protein p53)
Posición (GRCh38) chr17:7674220
Alelo REF C
Alelo ALT T
Consecuencia molecular missense variant (cambio de aminoácido)
Cambio de aminoácido R248W (Arg → Trp en la posición 248)

Nota: La cadena sentido del gen TP53 está en la hebra negativa, por eso en el VCF puedes ver G→A (que corresponde a C→T en la hebra codificante).

Paso 3: En la misma página, busca la sección Clinical Significance (o haz clic en el enlace a ClinVar).

Resultado esperado en ClinVar:

Campo Valor esperado
Significancia clínica Pathogenic / Likely pathogenic
Condiciones asociadas Li-Fraumeni syndrome, Hereditary cancer-predisposing syndrome, múltiples neoplasias
Estrellas de revisión Múltiples submitters, sin conflictos

Paso 4 — Reflexión:

Si un tumor muestra genotipo 1/1 para esta variante, significa que ambas copias de TP53 tienen la mutación R248W (homocigoto alternativo). TP53 es un gen supresor de tumores — funciona como un freno para la proliferación celular. Cuando ambas copias están mutadas, la célula pierde completamente esta protección, lo que es consistente con la hipótesis de los “dos hits” de Knudson (1971, DOI: 10.1073/pnas.68.4.820).


8 Resumen: los 5 archivos descifrados

Ahora tienes el vocabulario para entender los datos de TCGA:

Formato Archivo Qué contiene Coordenadas Relevancia en la controversia
FASTA referencia_bacterial.fasta Genomas bacterianos de referencia N/A Verificar calidad y posible contaminación cruzada
FASTQ lecturas_tumor_BRCA.fastq.gz Lecturas crudas con calidad N/A Filtrar por calidad y verificar origen taxonómico
GFF3 anotacion_GRCh38.gff3 Anotación genómica 1-based, closed Confirmar en qué regiones genómicas caen las lecturas
BED regiones_captura.bed Regiones de captura 0-based, half-open Definir qué regiones se secuenciaron
VCF variantes_tumor.vcf Variantes somáticas 1-based Identificar variantes reales en los tumores

9 Pero… ¿y los datos de expresión?

TCGA no solo tiene secuencias — también tiene datos de expresión génica. Estos datos están en GEO (Gene Expression Omnibus). Para entender la controversia del microbioma, necesitamos saber qué genes humanos están realmente activos en esos tumores.

9.1 Ejercicio 6.5: Explorando datos de expresión en GEO

Vamos a usar un dataset específico de cáncer de mama para explorar GEO.

Paso 1: Ve a GEO y busca directamente GSE22820 en la barra de búsqueda.

Paso 2: Explora la página del GSE.

Resultados esperados:

Campo Valor esperado
Título Breast cancer: Expression data from primary breast tumors
Organismo Homo sapiens
Tipo de experimento Expression profiling by array
Plataforma GPL570 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array
Número de muestras ~176 muestras (GSMs)
Grupos Tumores de mama con diferentes subtipos moleculares

Paso 3: Haz clic en “Analyze with GEO2R” (botón naranja en la parte superior de la página).

Paso 4: Define los grupos de comparación: - Haz clic en “Define groups”. - Crea dos grupos: por ejemplo, “ER_positive” y “ER_negative” (o “tumor” y “normal” si la información de las muestras lo permite). - Asigna al menos 3 muestras por grupo haciendo clic en ellas. - Haz clic en “Analyze” (el botón “Top 250”).

Paso 5: En los resultados, busca TP53 usando Ctrl+F o el filtro de la tabla.

Resultado esperado: TP53 puede o no aparecer entre los top 250 genes diferencialmente expresados, dependiendo de los grupos que elegiste. Si aparece, observarás columnas como:

Columna Significado
adj.P.Val p-value ajustado por pruebas múltiples (Benjamini-Hochberg)
logFC log2 fold change entre los grupos
Gene.symbol Símbolo del gen

Nota conceptual: Que TP53 no aparezca como diferencialmente expresado a nivel de mRNA no significa que no esté alterado — las mutaciones de TP53 frecuentemente afectan la función de la proteína sin cambiar necesariamente sus niveles de expresión. Por eso se necesitan múltiples tipos de datos (expresión + variantes + proteínas) para una evaluación completa.


10 Buenas prácticas de verificación: la lección del caso Poore/Salzberg

Lo que aprendimos hoy no es solo sobre formatos. Es sobre por qué los formatos importan y cómo verificar datos correctamente. El caso del microbioma del cáncer nos enseña que en cada formato hay una oportunidad de verificación:

  • Bases de datos de referencia (FASTA): verificar que no contengan contaminación cruzada entre organismos.
  • Lecturas crudas (FASTQ): filtrar por calidad y verificar el origen taxonómico de las lecturas.
  • Anotaciones (GFF/BED): usarlas activamente para confirmar en qué regiones genómicas caen las lecturas.
  • Datos de expresión (GEO): cruzar los resultados con perfiles de expresión conocidos del organismo de origen.

Cada formato que aprendiste hoy es una pieza del rompecabezas. En las próximas sesiones vamos a aprender a usar las bases de datos y las herramientas programáticas para armar ese rompecabezas con rigor — aplicando las mejores prácticas de verificación.


11 Preguntas de reflexión

  1. Si un investigador deposita una secuencia contaminada en GenBank, ¿se detecta automáticamente? ¿Qué implicaciones tiene esto para quien usa esos datos como referencia?
  2. ¿Por qué es tan importante el sistema de coordenadas al convertir entre formatos? Da un ejemplo de un error real que podría ocurrir en el contexto de clasificar lecturas como bacterianas vs. humanas.
  3. ¿Qué ventajas ofrece FASTQ sobre FASTA para datos de secuenciación de nueva generación? ¿Cómo podría la calidad de las lecturas influir en una clasificación errónea?
  4. ¿Por qué las revistas científicas exigen depositar secuencias en bases de datos públicas antes de la publicación? ¿Cómo contribuyó esto a que el caso del microbioma pudiera ser verificado independientemente?

12 Recursos adicionales

13 Referencias

  • Benson, D.A. et al. (2013). “GenBank.” Nucleic Acids Research, 41(D1), D36–D42. DOI: 10.1093/nar/gks1195
  • Berman, H.M. et al. (2000). “The Protein Data Bank.” Nucleic Acids Research, 28(1), 235–242. DOI: 10.1093/nar/28.1.235
  • Breitwieser, F.P. & Salzberg, S.L. (2019). “Human contamination in bacterial genomes has created thousands of spurious proteins.” Genome Research, 29(6), 954–960. DOI: 10.1101/gr.245373.118
  • Ewing, B. et al. (1998). “Base-calling of automated sequencer traces using Phred. I. Accuracy assessment.” Genome Research, 8(3), 175–185. DOI: 10.1101/gr.8.3.186
  • Knudson, A.G. (1971). “Mutation and cancer: statistical study of retinoblastoma.” Proceedings of the National Academy of Sciences, 68(4), 820–823. DOI: 10.1073/pnas.68.4.820
  • Maxson Jones, K. et al. (2018). “The Bermuda Triangle: the pragmatics, policies, and principles for data sharing in the history of the Human Genome Project.” Journal of the History of Biology, 51, 693–805. DOI: 10.1007/s10739-018-9538-7
  • Poore, G.D. et al. (2020). “Microbiome analyses of blood and tissues suggest cancer diagnostic approach.” Nature, 579, 567–574. Retractado en junio de 2024. DOI: 10.1038/s41586-020-2012-7
  • Retraction notice: Nature (2024). DOI: 10.1038/s41586-024-07656-x
  • Salzberg, S.L. et al. (2023). “Microbiome data are not correct for several types of cancer.” mBio, 14(3), e01607-23. DOI: 10.1128/mbio.01607-23
  • Sanger, F. & Tuppy, H. (1951). “The amino-acid sequence in the phenylalanyl chain of insulin.” Biochemical Journal, 49(4), 463–481. DOI: 10.1042/bj0490463