En 2020, un estudio publicado en Nature anunció un hallazgo espectacular: analizando datos de secuenciación de The Cancer Genome Atlas (TCGA), los autores afirmaron que cada tipo de cáncer tiene una “firma microbiana” única — bacterias específicas que podrían usarse para diagnosticar cáncer con una precisión cercana al 100%. Se fundó una empresa (Micronoma) para comercializar la tecnología. El artículo acumuló más de 600 citas.
En 2023, un equipo liderado por Steven Salzberg (Johns Hopkins) re-analizó los mismos datos y mostró que la mayoría de las “bacterias” reportadas eran en realidad secuencias humanas mal clasificadas. La verificación rigurosa reveló que errores en el procesamiento bioinformático habían generado millones de falsos positivos. En junio de 2024, Nature retractó el artículo.
¿Qué podemos aprender de este caso? Una parte clave de la respuesta está en algo que suena básico pero resulta ser fundamental: los formatos de datos y cómo se procesan correctamente.
La pregunta que guía esta sesión es: ¿Cómo se verifican datos genómicos? Para responderla, necesitamos entender los formatos en los que se almacenan estos datos. Vamos a explorar los cinco formatos más comunes en bioinformática usando archivos reales como los que se encuentran en proyectos como TCGA:
datos_tcga_ejemplo/
├── referencia_bacterial.fasta → Secuencias de referencia
├── lecturas_tumor_BRCA.fastq.gz → Lecturas crudas de secuenciación
├── anotacion_GRCh38.gff3 → Anotación del genoma
├── regiones_captura.bed → Coordenadas genómicas
└── variantes_tumor.vcf → Variantes genéticas
Al finalizar esta sesión, serás capaz de:
El estudio retractado usó datos de TCGA, uno de los repositorios de datos genómicos más grandes del mundo: 33 tipos de cáncer, más de 17,000 muestras, secuenciación de genoma completo y transcriptoma. Esos datos no aparecieron de la nada — están almacenados en bases de datos biológicas públicas.
Las bases de datos biológicas que hoy usamos sin pensarlo tienen menos de 60 años de historia. Antes de ellas, las secuencias se publicaban impresas en las páginas de los artículos científicos — literalmente como texto o tablas dentro del paper. Cuando Frederick Sanger determinó la secuencia completa de la insulina bovina en 1955, la publicó como figuras en el Biochemical Journal (Sanger & Tuppy, 1951, DOI: 10.1042/bj0490463). Un investigador que quisiera comparar su proteína con secuencias conocidas tenía que buscar manualmente en pilas de revistas impresas.
La primera persona en reconocer que esto era insostenible fue Margaret Dayhoff (1925–1983), una fisicoquímica del National Biomedical Research Foundation en Washington. En 1965 publicó el Atlas of Protein Sequence and Structure, la primera colección sistemática de secuencias biológicas: 65 proteínas en un libro impreso. Cada edición crecía (para 1978 ya contenía más de 1,500 secuencias), pero el formato impreso tenía un límite claro. Dayhoff es considerada la madre de la bioinformática — también creó el código de una letra para aminoácidos y las primeras matrices de sustitución (las matrices PAM).
La primera base de datos electrónica en biología fue el Protein Data Bank (PDB), creado en 1971 en Brookhaven National Laboratory con apenas 7 estructuras cristalográficas (Berman et al., 2000, DOI: 10.1093/nar/28.1.235). Hoy contiene más de 220,000.
Para secuencias de nucleótidos, la primera base de datos fue la EMBL Data Library (hoy ENA), creada en 1980 en el European Molecular Biology Laboratory en Heidelberg. Dos años después, en 1982, se creó GenBank en Los Alamos National Laboratory con 680 secuencias y 606,000 nucleótidos (Benson et al., 2013, DOI: 10.1093/nar/gks1195). La DDBJ en Japón se sumó en 1986. En 1988, estas tres bases de datos formaron el INSDC (International Nucleotide Sequence Database Collaboration) y comenzaron a sincronizar sus datos diariamente — el mismo sistema que existe hoy.
El crecimiento fue explosivo: los métodos de secuenciación de ADN de Frederick Sanger (sí, el mismo Sanger de la insulina — ganó dos premios Nobel, uno por secuenciar proteínas en 1958 y otro por secuenciar ADN en 1980) hicieron que las secuencias se acumularan más rápido de lo que cualquier libro podía contener. Para los años 90, era claro que la ciencia genómica necesitaba no solo bases de datos, sino políticas de depósito obligatorio.
El momento clave llegó en febrero de 1996, en una reunión del Human Genome Project en Bermuda. Ahí se adoptaron los Principios de Bermuda, impulsados por los biólogos John Sulston y Robert Waterston: toda secuencia de ADN financiada por el HGP debía liberarse al dominio público en un plazo de 24 horas (Maxson Jones et al., 2018, DOI: 10.1007/s10739-018-9538-7). No en meses, no al publicar — cada día. La idea nació de la comunidad de C. elegans, donde el intercambio rápido de datos servía para control de calidad y coordinación. En el HGP, también buscaba evitar que las patentes de genes bloquearan el avance científico.
Los Principios de Bermuda se convirtieron en el modelo para la ciencia genómica. Desde entonces, las principales revistas científicas (Nature, Science, Cell) exigen que los datos de secuenciación se depositen en bases de datos públicas como condición para publicar. Esto no es un capricho editorial: sin datos abiertos, no hay reproducibilidad. Y sin reproducibilidad, no hay ciencia.
De hecho, fue precisamente porque los datos de TCGA son públicos que el equipo de Salzberg pudo re-analizar el estudio y encontrar los errores. Sin acceso abierto, el error habría pasado desapercibido. Los Principios de Bermuda, adoptados hace 30 años, hicieron posible esta verificación.
Una base de datos biológica es una colección organizada de datos biológicos almacenados electrónicamente y accesibles mediante consultas estructuradas. No es simplemente un archivo con datos: tiene un esquema (la estructura que define qué tipo de información almacena y cómo se relaciona), mecanismos de búsqueda (para encontrar información específica), y un sistema de acceso (generalmente una interfaz web o una API programática).
Es importante distinguir entre dos conceptos que a veces se usan como sinónimos pero no lo son:
Base de datos (database): colección estructurada donde los datos se organizan en campos definidos, se pueden consultar con criterios específicos y se mantienen con reglas de consistencia. Ejemplo: UniProt organiza cada proteína con campos definidos (secuencia, función, estructura, localización, variantes, referencias bibliográficas) y puedes buscar por cualquiera de ellos.
Repositorio (repository): almacén donde los investigadores depositan datos asociados a una publicación, con estructura mínima y búsqueda limitada. Ejemplo: el SRA (Sequence Read Archive) almacena los archivos crudos de secuenciación tal como los generó el secuenciador — es un depósito masivo, no una base de datos curada.
En la práctica, muchos recursos biológicos combinan ambas funciones. GEO, por ejemplo, es un repositorio (los investigadores depositan sus datos de expresión), pero también permite búsquedas estructuradas y tiene herramientas de análisis como GEO2R.
Las bases de datos biológicas se pueden clasificar de varias formas. La más útil para este curso combina dos ejes: el tipo de dato que almacenan y el nivel de curación que aplican.
| Categoría | Qué almacenan | Ejemplos |
|---|---|---|
| De secuencias | Secuencias de nucleótidos y proteínas | GenBank, ENA, DDBJ, UniProt |
| De estructuras | Estructuras 3D de macromoléculas | PDB, AlphaFold DB |
| De expresión | Niveles de expresión génica | GEO, Expression Atlas, ArrayExpress |
| De variación | Variantes genéticas y su significado clínico | dbSNP, ClinVar, GWAS Catalog |
| De rutas y funciones | Rutas metabólicas, señalización, ontologías | KEGG, Reactome, Gene Ontology |
| De interacciones | Interacciones proteína-proteína, redes | STRING, IntAct, BioGRID |
| De regulación | Regulación transcripcional, epigenómica | RegulonDB, ENCODE, Roadmap Epigenomics |
| Especializadas | Inmunología, microbiomas, organismos modelo | IEDB, ImmPort, Human Cell Atlas, FlyBase |
Esta es la distinción más importante para entender la calidad y confiabilidad de los datos:
Bases de datos primarias almacenan datos experimentales directamente como los depositó el investigador. Tienen curación mínima y no aplican interpretación adicional. Piensa en GenBank como un flat file: tú depositas tu secuencia y ahí se queda tal cual la enviaste.
Bases de datos secundarias (o curadas) toman esos datos primarios y los procesan, anotan y validan. Piensa en RefSeq como una biblioteca curada: alguien tomó las mejores secuencias de GenBank, las verificó y creó un conjunto de referencia no redundante.
En el caso Poore/Salzberg, se usó una base de datos de genomas bacterianos como referencia para clasificar lecturas. Una de las lecciones fue que esa base de datos contenía secuencias contaminadas con ADN humano — un riesgo conocido en bases de datos que no han pasado por curación rigurosa. Buena práctica: verifica la calidad de tus bases de datos de referencia antes de confiar en los resultados.
| Aspecto | Primarias | Secundarias |
|---|---|---|
| Fuente de datos | Depósito directo del investigador | Derivada de primarias + literatura |
| Curación | Mínima o ninguna | Expertos humanos y/o algoritmos |
| Redundancia | Alta | Baja o nula |
| Errores | Posibles (del experimento) | Minimizados por validación |
| Ejemplo | GenBank entry AB012345 | RefSeq NM_001301 |
| Uso típico | Acceder a datos originales | Referencia para análisis |
Ejemplos de bases de datos primarias:
| Base de datos | Tipo de datos | Organización |
|---|---|---|
| GenBank | Secuencias de nucleótidos | NCBI (EUA) |
| ENA | Secuencias de nucleótidos | EBI (Europa) |
| DDBJ | Secuencias de nucleótidos | NIG (Japón) |
| SRA | Lecturas crudas de secuenciación | NCBI |
| GEO | Datos de expresión génica | NCBI |
| PDB | Estructuras 3D de proteínas | wwPDB |
Ejemplos de bases de datos secundarias:
| Base de datos | Tipo de datos | Característica |
|---|---|---|
| RefSeq | Secuencias de referencia | Curada por NCBI |
| UniProt/Swiss-Prot | Secuencias de proteínas | Curada manualmente |
| Ensembl | Genomas anotados | Pipelines automatizados + curación |
| KEGG | Rutas metabólicas | Mapeo de genes a pathways |
| Reactome | Rutas biológicas | Curada por expertos |
Nota conceptual: En resumen, las bases de datos biológicas cumplen tres funciones esenciales: almacenamiento estandarizado (datos en formatos reproducibles), acceso público (cualquier investigador puede reutilizar datos experimentales) e integración (conectar datos de diferentes fuentes: secuencias, estructuras, expresión, variantes). El tipo de base de datos que consultes y su nivel de curación determinan directamente la confiabilidad de tus resultados.
Nota importante: GenBank (NCBI, EUA), ENA (EBI, Europa) y DDBJ (NIG, Japón) forman el International Nucleotide Sequence Database Collaboration (INSDC). Los tres sincronizan los registros de secuencias de nucleótidos (los archivos con accession numbers tipo
NM_,NC_,SRR_), de modo que una secuencia depositada en cualquiera de ellos aparecerá en los otros. Sin embargo, no son idénticos: cada miembro mantiene sus propios sistemas de búsqueda, herramientas de análisis, interfaces de depósito y servicios adicionales. Por ejemplo, ENA organiza los datos en una jerarquía Study → Sample → Experiment → Run que GenBank no usa, y DDBJ ofrece herramientas de anotación propias. En la práctica, para encontrar una secuencia basta con buscar en uno de los tres, pero la experiencia de navegación y los servicios de valor agregado difieren.
referencia_bacterial.fasta — ¿Bacteria o humano?Empecemos con el archivo de referencia. En el estudio retractado, se usaron genomas bacterianos como referencia para clasificar las lecturas de TCGA. Abres el FASTA (un formato flat file) y ves algo como:
>NZ_CP027599.1 Fusobacterium nucleatum subsp. animalis strain KCOM 1279
ATGCACAGCTCAGCACTGCTCTGTTGCCTGGTCCTCCTGACTGGGGTGAGGGCCAGCCC
AGGCCAGGGCACCCAGTCTGAGAACAGCTGCACCCACTTCCCAGGCAACCTGCCTAACATG
CTTCGAGATCTCCGAGATGCCTTCAGCAGAGTGAAGACTTTCTTTCAAATGAAGGATCAG
Esto es formato FASTA, el más simple y universal para representar secuencias biológicas. Aquí hay una pregunta clave de verificación: si alineas esta secuencia contra el genoma humano… ¿se alinea? Este tipo de verificación cruzada es una buena práctica fundamental cuando se trabaja con bases de datos de referencia.
Nota técnica: La estructura de un FASTA es minimalista: una línea de encabezado que empieza con
>seguida de la secuencia en una o más líneas. El identificador es la primera palabra después de>(sin espacios). El resto del encabezado es descripción opcional. La secuencia típicamente tiene 60-80 caracteres por línea. No contiene información de calidad.
Una cosa que vas a encontrar frecuentemente: archivos
Multi-FASTA, donde varias secuencias están
concatenadas, cada una con su propio encabezado >. Una
base de datos de referencia bacteriana como la que se usó en el estudio
puede contener miles de genomas, cada uno como una entrada en un
Multi-FASTA enorme.
Vamos a hacer lo que el equipo de Salzberg hizo: verificar si una secuencia es realmente lo que dice ser.
Parte A — Obtener la secuencia de TP53
Resultado esperado: Verás un encabezado como:
>NM_000546.6 Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
Seguido de la secuencia del mRNA (~2629 nucleótidos).
Parte B — BLAST de la secuencia
Resultado esperado:
| Campo | Valor esperado |
|---|---|
| Primer hit (Description) | Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA |
| Accession del primer hit | NM_000546.6 |
| Percent Identity | 100% |
| E-value | 0.0 (o un número extremadamente pequeño como 2e-100) — ver Guía de scores |
| Query Cover | 100% |
| Organismo | Homo sapiens |
Los primeros hits serán todos humanos (variantes de transcritos de TP53 y secuencias genómicas). No deberían aparecer hits bacterianos con alta identidad.
Reflexión: Si una secuencia humana terminara accidentalmente en una base de datos de genomas bacterianos, cualquier lectura humana que coincidiera se clasificaría erróneamente como “bacteriana”. Esto es exactamente lo que documentaron Breitwieser & Salzberg (2019): encontraron que 2,250 genomas bacterianos en RefSeq están contaminados con secuencias humanas — principalmente de regiones repetitivas (LINEs, Alus, satélites) que no están bien representadas en el genoma de referencia humano GRCh38. Esta contaminación generó 3,437 proteínas espurias en las bases de datos nr y TrEMBL. Cuando Poore et al. (2020) alinearon las lecturas de TCGA contra estas bases de datos contaminadas, millones de lecturas humanas fueron reportadas como “bacterianas”, lo que llevó a reportar asociaciones imposibles — por ejemplo, bacterias de algas marinas en cáncer de vejiga, o Methanothermus, un archaeon extremófilo de fuentes hidrotermales, asociado a tumores humanos.
lecturas_tumor_BRCA.fastq.gz — Las lecturas crudas de
TCGAEl siguiente archivo es mucho más grande y viene comprimido
(.gz). Son lecturas de secuenciación de un tumor de mama
(BRCA = Breast Cancer) de TCGA. Descomprimido se ve algo como:
@SRR12345678.1 1 length=150
ATCGATCGATCGATCGATCGATCGATCGATCGATCG
+
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:
Esto es formato FASTQ: una extensión de FASTA que incluye puntuaciones de calidad para cada base. Es el formato estándar de salida de los secuenciadores de nueva generación.
Cada lectura ocupa exactamente 4 líneas:
@): Identificador de la
lectura.+): Separador (puede repetir
el identificador o estar vacío).Nota técnica — Calidad Phred: El sistema de puntuación Phred fue desarrollado por Ewing et al. (1998, DOI: 10.1101/gr.8.3.186). Cada carácter de la línea 4 representa la calidad de la base correspondiente. La fórmula es Q = -10 × log₁₀(P), donde P es la probabilidad de error. Q20 = 1 error en 100 (99% precisión). Q30 = 1 error en 1,000 (99.9%). Q40 = 1 error en 10,000 (ver Material suplementario: Guía de scores y estadísticas para ejemplos de cálculo detallados). En la práctica, un Q30 promedio es el estándar mínimo aceptable para la mayoría de los análisis.
| Calidad Phred | Probabilidad de error | Carácter ASCII (Illumina 1.8+) |
|---|---|---|
| 0 | 1 en 1 | ! |
| 10 | 1 en 10 | + |
| 20 | 1 en 100 | 5 |
| 30 | 1 en 1,000 | ? |
| 40 | 1 en 10,000 | I |
Entonces, cuando ves FFFFFFFFFFF: al final de una
lectura, las F indican calidad alta y el : al
final indica que la última base tiene menor confianza. Esto es súper
común: la calidad de las lecturas suele decaer hacia el extremo 3’.
En el contexto del caso del microbioma: la calidad de las lecturas importa. Una lectura humana de baja calidad puede alinearse incorrectamente contra una base de datos bacteriana, generando falsos positivos. Buena práctica: filtra lecturas de baja calidad antes del alineamiento y verifica tus resultados contra el genoma del organismo de origen.
Si tienes acceso a una terminal con SRA Toolkit instalado, sigue estos pasos:
Paso 1 — Descargar un subconjunto de lecturas:
# Descargar las primeras 1000 lecturas del accession SRR835775 (TCGA breast cancer)
fastq-dump --split-files -X 1000 SRR835775
Resultado esperado: Se descargarán dos archivos (porque son lecturas paired-end):
SRR835775_1.fastq (*forward reads*)
SRR835775_2.fastq (*reverse reads*)
Paso 2 — Ver las primeras lecturas:
# Ver las primeras 8 líneas (= 2 lecturas completas, 4 líneas cada una)
head -8 SRR835775_1.fastq
Resultado esperado (formato aproximado):
@SRR835775.1 1 length=100
ATCGATCGATCG... (secuencia de ~100 nucleótidos)
+
FFFFFFFFFFF... (caracteres de calidad)
@SRR835775.2 2 length=100
GCTAGCTAGCTA... (secuencia de ~100 nucleótidos)
+
FFFFFFFFFFF... (caracteres de calidad)
Paso 3 — Contar el número total de lecturas:
echo $(( $(wc -l < SRR835775_1.fastq) / 4 ))
Resultado esperado: 1000 (porque
descargamos 1000 lecturas con -X 1000).
Respuestas a las preguntas:
F, G, H
(Q35-Q40, calidad alta). Hacia el final de las lecturas es común ver
caracteres de menor calidad como 5 o :
(Q20-Q25).anotacion_GRCh38.gff3 — El mapa del genomaEl tercer archivo contiene la anotación del genoma humano de referencia (GRCh38). El equipo de Salzberg necesitó esta anotación para verificar dónde caían las lecturas “bacterianas” en el genoma humano:
chr1 Ensembl gene 11869 14409 . + . ID=ENSG00000223972;Name=DDX11L1;biotype=transcribed_unprocessed_pseudogene
chr1 Ensembl exon 11869 12227 . + . Parent=ENST00000456328;Name=ENSE00002234944
Esto es formato GFF3 (General Feature Format, versión 3). Piensa en él como un mapa que te dice exactamente dónde están las cosas en el genoma: genes, exones, CDS, regiones regulatorias…
| Columna | Descripción | Ejemplo |
|---|---|---|
| 1. seqid | Cromosoma o scaffold | chr1 |
| 2. source | Quién generó la anotación | Ensembl |
| 3. type | Tipo de feature | gene, exon, CDS |
| 4. start | Posición inicio (1-based) | 11869 |
| 5. end | Posición fin (inclusivo) | 14409 |
| 6. score | Puntuación (o . si no aplica) |
. |
| 7. strand | Cadena | + o - |
| 8. phase | Marco de lectura para CDS | 0, 1, 2 o . |
| 9. attributes | Pares clave=valor | ID=gene0001;Name=DDX11L1 |
Nota conceptual — GFF3 vs GTF: Ambos describen features genómicos, pero difieren en la columna de atributos. GTF usa
gene_idytranscript_idcomo atributos obligatorios y es más común en pipelines de RNA-seq (HTSeq, featureCounts). GFF3 usa relaciones jerárquicas Parent/ID y es más flexible. Si alguien te pasa un archivo de anotación, lo primero que debes verificar es si es GFF3 o GTF, porque mezclarlos causa errores silenciosos.
regiones_captura.bed — Las coordenadas mínimasEl cuarto archivo define las regiones de captura del kit de secuenciación usado en TCGA. Es el más escueto:
chr1 11868 14409 DDX11L1 1000 +
chr1 14403 29570 WASH7P 1000 -
chr7 27221129 27224842 HOXA13 900 -
Este es formato BED (Browser Extensible Data). Tres columnas obligatorias (cromosoma, inicio, fin) con columnas opcionales adicionales. Es el formato favorito para definir regiones genómicas: picos de ChIP-seq, regiones regulatorias, intervalos de interés…
Pero hay una trampa, y es importante.
Nota crítica — Sistemas de coordenadas: BED usa coordenadas 0-based, half-open [start, end). La primera base del cromosoma es la posición 0, y la posición end NO está incluida. En contraste, GFF usa coordenadas 1-based, closed [start, end]. Confundir estos sistemas es una de las fuentes de error más comunes en bioinformática. Un off-by-one error puede arruinar un análisis completo.
Ejemplo concreto: Las primeras 100 bases del cromosoma 1:
- En BED:
chr1 0 100(posición 0 hasta 99, el 100 NO está incluido)- En GFF:
chr1 ... 1 100 ...(posición 1 hasta 100, ambos incluidos)
Buena práctica: Cuando combines archivos en formatos distintos (ej. BED con GFF), asegúrate de convertir correctamente los sistemas de coordenadas. Un error de uno en la posición puede cambiar completamente qué gen o región se identifica.
Dado este fragmento GFF3:
chr7 Ensembl gene 27221129 27224842 . - . ID=ENSG00000106031;Name=HOXA13
chromStart correcta en BED?chromEnd? ¿Por qué sí o por qué
no?Respuesta esperada:
chr7 27221128 27224842
chromStart = 27221129 − 1 = 27221128 (conversión de
1-based a 0-based).chromEnd = 27224842 (no cambia: en BED el end es
exclusivo, en GFF es inclusivo. Numéricamente coinciden al hacer la
conversión).Buena práctica: Cuando hagas conversiones de coordenadas, siempre verifica con un caso simple (por ejemplo, “las primeras 10 bases”) que tu lógica sea correcta antes de aplicarla a todo un archivo.
variantes_tumor.vcf — La variación genéticaEl último archivo contiene variantes somáticas encontradas en tumores de TCGA:
##fileformat=VCFv4.3
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT SAMPLE1
chr1 12345 rs123456 A G 50 PASS DP=30 GT 0/1
chr17 7674220 rs28934578 G A 99 PASS DP=45 GT 1/1
Este es formato VCF (Variant Call Format), el estándar para describir variantes genéticas (SNPs, indels, variantes estructurales) respecto a un genoma de referencia.
El archivo tiene dos partes: un encabezado (líneas
que empiezan con ##) que define los metadatos, y el
cuerpo con las variantes:
| Columna | Descripción |
|---|---|
| CHROM | Cromosoma |
| POS | Posición (1-based) |
| ID | Identificador (ej. rsID de dbSNP, o . si no tiene) |
| REF | Alelo de referencia |
| ALT | Alelo(s) alternativo(s) |
| QUAL | Calidad de la variante (Phred-scaled) |
| FILTER | PASS o razón del filtro |
| INFO | Anotaciones (pares clave=valor separados por ;) |
| FORMAT | Formato de los genotipos por muestra |
| SAMPLE(s) | Datos por muestra |
Nota técnica — Interpretación de genotipos:
0/0= homocigoto referencia (tiene dos copias del alelo de referencia)0/1= heterocigoto (una copia del referencia, una del alternativo)1/1= homocigoto alternativo (dos copias del alelo alternativo)1/2= heterocigoto con dos alelos alternativos diferentes
El VCF incluye la variante rs28934578 en el cromosoma 17. Esta es la famosa mutación R248W de TP53, una de las mutaciones más frecuentes en cáncer humano. Vamos a investigarla paso a paso.
Paso 1: Ve a dbSNP y escribe rs28934578 en la barra de búsqueda. Presiona Enter.
Paso 2: En la página de resultados, localiza la información principal.
Resultados esperados:
| Campo | Valor esperado |
|---|---|
| Tipo de variante | SNV (Single Nucleotide Variant) |
| Gen | TP53 (tumor protein p53) |
| Posición (GRCh38) | chr17:7674220 |
| Alelo REF | C |
| Alelo ALT | T |
| Consecuencia molecular | missense variant (cambio de aminoácido) |
| Cambio de aminoácido | R248W (Arg → Trp en la posición 248) |
Nota: La cadena sentido del gen TP53 está en la hebra negativa, por eso en el VCF puedes ver G→A (que corresponde a C→T en la hebra codificante).
Paso 3: En la misma página, busca la sección Clinical Significance (o haz clic en el enlace a ClinVar).
Resultado esperado en ClinVar:
| Campo | Valor esperado |
|---|---|
| Significancia clínica | Pathogenic / Likely pathogenic |
| Condiciones asociadas | Li-Fraumeni syndrome, Hereditary cancer-predisposing syndrome, múltiples neoplasias |
| Estrellas de revisión | Múltiples submitters, sin conflictos |
Paso 4 — Reflexión:
Si un tumor muestra genotipo 1/1 para esta variante,
significa que ambas copias de TP53 tienen la mutación
R248W (homocigoto alternativo). TP53 es un gen supresor de
tumores — funciona como un freno para la proliferación celular.
Cuando ambas copias están mutadas, la célula pierde completamente esta
protección, lo que es consistente con la hipótesis de los “dos hits” de
Knudson (1971, DOI:
10.1073/pnas.68.4.820).
Ahora tienes el vocabulario para entender los datos de TCGA:
| Formato | Archivo | Qué contiene | Coordenadas | Relevancia en la controversia |
|---|---|---|---|---|
| FASTA | referencia_bacterial.fasta | Genomas bacterianos de referencia | N/A | Verificar calidad y posible contaminación cruzada |
| FASTQ | lecturas_tumor_BRCA.fastq.gz | Lecturas crudas con calidad | N/A | Filtrar por calidad y verificar origen taxonómico |
| GFF3 | anotacion_GRCh38.gff3 | Anotación genómica | 1-based, closed | Confirmar en qué regiones genómicas caen las lecturas |
| BED | regiones_captura.bed | Regiones de captura | 0-based, half-open | Definir qué regiones se secuenciaron |
| VCF | variantes_tumor.vcf | Variantes somáticas | 1-based | Identificar variantes reales en los tumores |
TCGA no solo tiene secuencias — también tiene datos de expresión génica. Estos datos están en GEO (Gene Expression Omnibus). Para entender la controversia del microbioma, necesitamos saber qué genes humanos están realmente activos en esos tumores.
Vamos a usar un dataset específico de cáncer de mama para explorar GEO.
Paso 1: Ve a GEO y busca directamente GSE22820 en la barra de búsqueda.
Paso 2: Explora la página del GSE.
Resultados esperados:
| Campo | Valor esperado |
|---|---|
| Título | Breast cancer: Expression data from primary breast tumors |
| Organismo | Homo sapiens |
| Tipo de experimento | Expression profiling by array |
| Plataforma | GPL570 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array |
| Número de muestras | ~176 muestras (GSMs) |
| Grupos | Tumores de mama con diferentes subtipos moleculares |
Paso 3: Haz clic en “Analyze with GEO2R” (botón naranja en la parte superior de la página).
Paso 4: Define los grupos de comparación: - Haz clic en “Define groups”. - Crea dos grupos: por ejemplo, “ER_positive” y “ER_negative” (o “tumor” y “normal” si la información de las muestras lo permite). - Asigna al menos 3 muestras por grupo haciendo clic en ellas. - Haz clic en “Analyze” (el botón “Top 250”).
Paso 5: En los resultados, busca TP53 usando Ctrl+F o el filtro de la tabla.
Resultado esperado: TP53 puede o no aparecer entre los top 250 genes diferencialmente expresados, dependiendo de los grupos que elegiste. Si aparece, observarás columnas como:
| Columna | Significado |
|---|---|
| adj.P.Val | p-value ajustado por pruebas múltiples (Benjamini-Hochberg) |
| logFC | log2 fold change entre los grupos |
| Gene.symbol | Símbolo del gen |
Nota conceptual: Que TP53 no aparezca como diferencialmente expresado a nivel de mRNA no significa que no esté alterado — las mutaciones de TP53 frecuentemente afectan la función de la proteína sin cambiar necesariamente sus niveles de expresión. Por eso se necesitan múltiples tipos de datos (expresión + variantes + proteínas) para una evaluación completa.
Lo que aprendimos hoy no es solo sobre formatos. Es sobre por qué los formatos importan y cómo verificar datos correctamente. El caso del microbioma del cáncer nos enseña que en cada formato hay una oportunidad de verificación:
Cada formato que aprendiste hoy es una pieza del rompecabezas. En las próximas sesiones vamos a aprender a usar las bases de datos y las herramientas programáticas para armar ese rompecabezas con rigor — aplicando las mejores prácticas de verificación.