En 2020, un estudio publicado en Nature propuso que cada tipo de cáncer tiene una “firma microbiana” única, basándose en datos de secuenciación de The Cancer Genome Atlas (TCGA). El hallazgo generó gran interés y el artículo acumuló cientos de citas.
En 2023, un re-análisis independiente de los mismos datos (Salzberg et al., 2023) reveló que gran parte de las señales “bacterianas” correspondían a secuencias humanas mal clasificadas, debido a problemas en el procesamiento bioinformático. En 2024, Nature retractó el artículo original.
Más allá de quién tuvo razón, este caso es un excelente ejemplo de cómo funciona la ciencia: los datos públicos permiten que otros investigadores verifiquen los resultados, y los formatos en los que se almacenan esos datos son fundamentales para hacer esa verificación correctamente.
La pregunta que guía esta sesión es: ¿Cómo se verifican los datos genómicos? Para responderla, necesitamos entender los formatos en los que se almacenan estos datos. Vamos a explorar los cinco formatos más comunes en bioinformática usando archivos reales como los que se encuentran en proyectos como TCGA:
datos_tcga_ejemplo/
├── referencia_bacterial.fasta → Secuencias de referencia
├── lecturas_tumor_BRCA.fastq.gz → Lecturas crudas de secuenciación
├── anotacion_GRCh38.gff3 → Anotación del genoma
├── regiones_captura.bed → Coordenadas genómicas
└── variantes_tumor.vcf → Variantes genéticas
Al finalizar esta sesión, serás capaz de:
El estudio en cuestión usó datos de TCGA, uno de los repositorios de datos genómicos más grandes del mundo: 33 tipos de cáncer, más de 17,000 muestras, secuenciación de genoma completo y transcriptoma. Esos datos están almacenados en bases de datos biológicas públicas, lo que hizo posible la verificación independiente.
Las bases de datos biológicas que hoy usamos sin pensarlo tienen menos de 60 años de historia. Antes de ellas, las secuencias se publicaban impresas en las páginas de los artículos científicos — literalmente como texto o tablas dentro del paper. Cuando Frederick Sanger determinó la secuencia completa de la insulina bovina en 1955, la publicó como figuras en el Biochemical Journal (Sanger & Tuppy, 1951, DOI: 10.1042/bj0490463). Un investigador que quisiera comparar su proteína con secuencias conocidas tenía que buscar manualmente en pilas de revistas impresas.
La primera persona en reconocer que esto era insostenible fue Margaret Dayhoff (1925–1983), una fisicoquímica del National Biomedical Research Foundation en Washington. En 1965 publicó el Atlas of Protein Sequence and Structure, la primera colección sistemática de secuencias biológicas: 65 proteínas en un libro impreso. Cada edición crecía (para 1978 ya contenía más de 1,500 secuencias), pero el formato impreso tenía un límite claro. Dayhoff es considerada la madre de la bioinformática — también creó el código de una letra para aminoácidos y las primeras matrices de sustitución (las matrices PAM).
La primera base de datos electrónica en biología fue el Protein Data Bank (PDB), creado en 1971 en Brookhaven National Laboratory con apenas 7 estructuras cristalográficas (Berman et al., 2000, DOI: 10.1093/nar/28.1.235). Hoy contiene más de 220,000.
Para secuencias de nucleótidos, la primera base de datos fue la EMBL Data Library (hoy ENA), creada en 1980 en el European Molecular Biology Laboratory en Heidelberg. Dos años después, en 1982, se creó GenBank en Los Alamos National Laboratory con 680 secuencias y 606,000 nucleótidos (Benson et al., 2013, DOI: 10.1093/nar/gks1195). La DDBJ en Japón se sumó en 1986. En 1988, estas tres bases de datos formaron el INSDC (International Nucleotide Sequence Database Collaboration) y comenzaron a sincronizar sus datos diariamente — el mismo sistema que existe hoy.
El crecimiento fue explosivo: los métodos de secuenciación de ADN de Frederick Sanger (sí, el mismo Sanger de la insulina — ganó dos premios Nobel, uno por secuenciar proteínas en 1958 y otro por secuenciar ADN en 1980) hicieron que las secuencias se acumularan más rápido de lo que cualquier libro podía contener. Para los años 90, era claro que la ciencia genómica necesitaba no solo bases de datos, sino políticas de depósito obligatorio.
El momento clave llegó en febrero de 1996, en una reunión del Human Genome Project en Bermuda. Ahí se adoptaron los Principios de Bermuda, impulsados por los biólogos John Sulston y Robert Waterston: toda secuencia de ADN financiada por el HGP debía liberarse al dominio público en un plazo de 24 horas (Maxson Jones et al., 2018, DOI: 10.1007/s10739-018-9538-7). No en meses, no al publicar — cada día. La idea nació de la comunidad de C. elegans, donde el intercambio rápido de datos servía para control de calidad y coordinación. En el HGP, también buscaba evitar que las patentes de genes bloquearan el avance científico.
Los Principios de Bermuda se convirtieron en el modelo para la ciencia genómica. Desde entonces, las principales revistas científicas (Nature, Science, Cell) exigen que los datos de secuenciación se depositen en bases de datos públicas como condición para publicar. Esto no es un capricho editorial: sin datos abiertos, no hay reproducibilidad. Y sin reproducibilidad, no hay ciencia.
De hecho, fue precisamente porque los datos de TCGA son públicos que otros investigadores pudieron re-analizar el estudio de forma independiente. Sin acceso abierto, la verificación no habría sido posible. Los Principios de Bermuda, adoptados hace 30 años, siguen siendo la base de este proceso.
Una base de datos biológica es una colección organizada de datos biológicos almacenados electrónicamente y accesibles mediante consultas estructuradas. No es simplemente un archivo con datos: tiene un esquema (la estructura que define qué tipo de información almacena y cómo se relaciona), mecanismos de búsqueda (para encontrar información específica), y un sistema de acceso (generalmente una interfaz web o una API programática).
Ahora bien, es importante distinguir entre dos conceptos que a veces se usan como sinónimos pero no lo son:
Base de datos (database): colección estructurada donde los datos se organizan en campos definidos, se pueden consultar con criterios específicos y se mantienen con reglas de consistencia. Ejemplo: UniProt organiza cada proteína con campos definidos (secuencia, función, estructura, localización, variantes, referencias bibliográficas) y puedes buscar por cualquiera de ellos.
Repositorio (repository): almacén donde los investigadores depositan datos asociados a una publicación, con estructura mínima y búsqueda limitada. Ejemplo: el SRA (Sequence Read Archive) almacena los archivos crudos de secuenciación tal como los generó el secuenciador — es un depósito masivo, no una base de datos curada.
En la práctica, muchos recursos biológicos combinan ambas funciones. GEO, por ejemplo, es un repositorio (los investigadores depositan sus datos de expresión), pero también permite búsquedas estructuradas y tiene herramientas de análisis como GEO2R.
Las bases de datos biológicas se pueden clasificar de varias formas. La más útil para este curso combina dos ejes: el tipo de dato que almacenan y el nivel de curación que aplican.
| Categoría | Qué almacenan | Ejemplos |
|---|---|---|
| De secuencias | Secuencias de nucleótidos y proteínas | GenBank, ENA, DDBJ, UniProt |
| De estructuras | Estructuras 3D de macromoléculas | PDB, AlphaFold DB |
| De expresión | Niveles de expresión génica | GEO, Expression Atlas, ArrayExpress |
| De variación | Variantes genéticas y su significado clínico | dbSNP, ClinVar, GWAS Catalog |
| De rutas y funciones | Rutas metabólicas, señalización, ontologías | KEGG, Reactome, Gene Ontology |
| De interacciones | Interacciones proteína-proteína, redes | STRING, IntAct, BioGRID |
| De regulación | Regulación transcripcional, epigenómica | RegulonDB, ENCODE, Roadmap Epigenomics |
| Especializadas | Inmunología, microbiomas, organismos modelo | IEDB, ImmPort, Human Cell Atlas, FlyBase |
Esta es la distinción más importante para entender la calidad y confiabilidad de los datos:
Bases de datos primarias almacenan datos experimentales directamente como los depositó el investigador. Tienen curación mínima y no aplican interpretación adicional. Piensa en GenBank como un flat file: tú depositas tu secuencia y ahí se queda tal cual la enviaste.
Bases de datos secundarias (o curadas) toman esos datos primarios y los procesan, anotan y validan. Piensa en RefSeq como una biblioteca curada: alguien tomó las mejores secuencias de GenBank, las verificó y creó un conjunto de referencia no redundante.
En el caso que vimos al inicio, parte del problema fue que la base de datos de genomas bacterianos usada como referencia contenía secuencias contaminadas con ADN humano — un riesgo conocido en bases de datos primarias. Esto no es culpa de un investigador en particular; es un desafío inherente al manejo de grandes volúmenes de datos genómicos. Buena práctica: verifica la calidad de tus bases de datos de referencia antes de confiar en los resultados.
| Aspecto | Primarias | Secundarias |
|---|---|---|
| Fuente de datos | Depósito directo del investigador | Derivada de primarias + literatura |
| Curación | Mínima o ninguna | Expertos humanos y/o algoritmos |
| Redundancia | Alta | Baja o nula |
| Errores | Posibles (del experimento) | Minimizados por validación |
| Ejemplo | GenBank entry AB012345 | RefSeq NM_001301 |
| Uso típico | Acceder a datos originales | Referencia para análisis |
Ejemplos de bases de datos primarias:
| Base de datos | Tipo de datos | Organización |
|---|---|---|
| GenBank | Secuencias de nucleótidos | NCBI (EUA) |
| ENA | Secuencias de nucleótidos | EBI (Europa) |
| DDBJ | Secuencias de nucleótidos | NIG (Japón) |
| SRA | Lecturas crudas de secuenciación | NCBI |
| GEO | Datos de expresión génica | NCBI |
| PDB | Estructuras 3D de proteínas | wwPDB |
Ejemplos de bases de datos secundarias:
| Base de datos | Tipo de datos | Característica |
|---|---|---|
| RefSeq | Secuencias de referencia | Curada por NCBI |
| UniProt/Swiss-Prot | Secuencias de proteínas | Curada manualmente |
| Ensembl | Genomas anotados | Pipelines automatizados + curación |
| KEGG | Rutas metabólicas | Mapeo de genes a pathways |
| Reactome | Rutas biológicas | Curada por expertos |
Nota conceptual: En resumen, las bases de datos biológicas cumplen tres funciones esenciales: almacenamiento estandarizado (datos en formatos reproducibles), acceso público (cualquier investigador puede reutilizar datos experimentales) e integración (conectar datos de diferentes fuentes: secuencias, estructuras, expresión, variantes). El tipo de base de datos que consultes y su nivel de curación determinan directamente la confiabilidad de tus resultados.
Nota importante: GenBank (NCBI, EUA), ENA (EBI, Europa) y DDBJ (NIG, Japón) forman el International Nucleotide Sequence Database Collaboration (INSDC). Los tres sincronizan los registros de secuencias de nucleótidos (los archivos con accession numbers tipo
NM_,NC_,SRR_), de modo que una secuencia depositada en cualquiera de ellos aparecerá en los otros. Sin embargo, no son idénticos: cada miembro mantiene sus propios sistemas de búsqueda, herramientas de análisis, interfaces de depósito y servicios adicionales. Por ejemplo, ENA organiza los datos en una jerarquía Study → Sample → Experiment → Run que GenBank no usa, y DDBJ ofrece herramientas de anotación propias. En la práctica, para encontrar una secuencia basta con buscar en uno de los tres, pero la experiencia de navegación y los servicios de valor agregado difieren.
referencia_bacterial.fasta — ¿Bacteria o humano?Empecemos con el archivo de referencia. En estudios de metagenómica, se usan genomas bacterianos como referencia para clasificar lecturas de secuenciación. Abres el FASTA (un formato flat file) y ves algo como:
>NZ_CP027599.1 Fusobacterium nucleatum subsp. animalis strain KCOM 1279
ATGCACAGCTCAGCACTGCTCTGTTGCCTGGTCCTCCTGACTGGGGTGAGGGCCAGCCC
AGGCCAGGGCACCCAGTCTGAGAACAGCTGCACCCACTTCCCAGGCAACCTGCCTAACATG
CTTCGAGATCTCCGAGATGCCTTCAGCAGAGTGAAGACTTTCTTTCAAATGAAGGATCAG
Esto es formato FASTA, el más simple y universal para representar secuencias biológicas. Aquí hay una pregunta interesante: si alineas esta secuencia contra el genoma humano… ¿se alinea? Este tipo de verificación cruzada es una buena práctica fundamental cuando se trabaja con bases de datos de referencia.
Nota técnica: La estructura de un FASTA es minimalista: una línea de encabezado que empieza con
>seguida de la secuencia en una o más líneas. El identificador es la primera palabra después de>(sin espacios). El resto del encabezado es descripción opcional. La secuencia típicamente tiene 60-80 caracteres por línea. No contiene información de calidad.
Una cosa que vas a encontrar frecuentemente: archivos
Multi-FASTA, donde varias secuencias están
concatenadas, cada una con su propio encabezado >. Una
base de datos de referencia bacteriana como la que se usó en el estudio
puede contener miles de genomas, cada uno como una entrada en un
Multi-FASTA enorme.
Vamos a practicar una habilidad esencial: verificar si una secuencia es realmente lo que dice ser.
Parte A — Obtener la secuencia de TP53
Resultado esperado: Verás un encabezado como:
>NM_000546.6 Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
Seguido de la secuencia del mRNA (~2629 nucleótidos).
Parte B — BLAST de la secuencia
Resultado esperado:
| Campo | Valor esperado |
|---|---|
| Primer hit (Description) | Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA |
| Accession del primer hit | NM_000546.6 |
| Percent Identity | 100% |
| E-value | 0.0 (o un número extremadamente pequeño como 2e-100) — ver Guía de scores y estadísticas (material suplementario) |
| Query Cover | 100% |
| Organismo | Homo sapiens |
Los primeros hits serán todos humanos (variantes de transcritos de TP53 y secuencias genómicas). No deberían aparecer hits bacterianos con alta identidad.
Reflexión: Si una secuencia humana terminara accidentalmente en una base de datos de genomas bacterianos, cualquier lectura humana que coincidiera se clasificaría erróneamente como “bacteriana”. Esto no es un escenario hipotético: Breitwieser & Salzberg (2019) documentaron que miles de genomas bacterianos en bases de datos públicas contienen secuencias contaminadas con ADN humano, principalmente de regiones repetitivas (LINEs, Alus, satélites). Este tipo de contaminación cruzada es un desafío técnico importante en bioinformática y afecta cualquier análisis que dependa de bases de datos de referencia. La lección es clara: siempre verifica tus referencias antes de confiar en los resultados de clasificación.
lecturas_tumor_BRCA.fastq.gz — Las lecturas crudas de
TCGAEl siguiente archivo es mucho más grande y viene comprimido
(.gz). Son lecturas de secuenciación de un tumor de mama
(BRCA = Breast Cancer) de TCGA. Descomprimido se ve algo como:
@SRR12345678.1 1 length=150
ATCGATCGATCGATCGATCGATCGATCGATCGATCG
+
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:
Esto es formato FASTQ: una extensión de FASTA que incluye puntuaciones de calidad para cada base. Es el formato estándar de salida de los secuenciadores de nueva generación.
Cada lectura ocupa exactamente 4 líneas:
@): Identificador de la
lectura.+): Separador (puede repetir
el identificador o estar vacío).Nota técnica — Calidad Phred: El sistema de puntuación Phred fue desarrollado por Ewing et al. (1998, DOI: 10.1101/gr.8.3.186). Cada carácter de la línea 4 representa la calidad de la base correspondiente. La fórmula es Q = -10 × log₁₀(P), donde P es la probabilidad de error. Q20 = 1 error en 100 (99% precisión). Q30 = 1 error en 1,000 (99.9%). Q40 = 1 error en 10,000 (ver material suplementario: Guía de scores y estadísticas, para ejemplos de cálculo detallados). En la práctica, un Q30 promedio es el estándar mínimo aceptable para la mayoría de los análisis.
| Calidad Phred | Probabilidad de error | Carácter ASCII (Illumina 1.8+) |
|---|---|---|
| 0 | 1 en 1 | ! |
| 10 | 1 en 10 | + |
| 20 | 1 en 100 | 5 |
| 30 | 1 en 1,000 | ? |
| 40 | 1 en 10,000 | I |
Entonces, cuando ves FFFFFFFFFFF: al final de una
lectura, las F indican calidad alta y el : al
final indica que la última base tiene menor confianza. Esto es súper
común: la calidad de las lecturas suele decaer hacia el extremo 3’.
En cualquier análisis de secuenciación, la calidad de las lecturas importa. Una lectura de baja calidad puede alinearse incorrectamente contra una referencia, generando falsos positivos. Buena práctica: filtra lecturas de baja calidad antes del alineamiento y verifica tus resultados contra el genoma del organismo de origen.
Nota: La descarga y análisis de lecturas desde el SRA usando la terminal se realizará como ejercicio práctico en la Sesión 09.
anotacion_GRCh38.gff3 — El mapa del genomaEl tercer archivo contiene la anotación del genoma humano de referencia (GRCh38). Este tipo de archivo es esencial para saber dónde caen las lecturas de secuenciación en el genoma:
chr1 Ensembl gene 11869 14409 . + . ID=ENSG00000223972;Name=DDX11L1;biotype=transcribed_unprocessed_pseudogene
chr1 Ensembl exon 11869 12227 . + . Parent=ENST00000456328;Name=ENSE00002234944
Esto es formato GFF3 (General Feature Format, versión 3). Piensa en él como un mapa que te dice exactamente dónde están las cosas en el genoma: genes, exones, CDS, regiones regulatorias…
| Columna | Descripción | Ejemplo |
|---|---|---|
| 1. seqid | Cromosoma o scaffold | chr1 |
| 2. source | Quién generó la anotación | Ensembl |
| 3. type | Tipo de feature | gene, exon, CDS |
| 4. start | Posición inicio (1-based) | 11869 |
| 5. end | Posición fin (inclusivo) | 14409 |
| 6. score | Puntuación (o . si no aplica) |
. |
| 7. strand | Cadena | + o - |
| 8. phase | Marco de lectura para CDS | 0, 1, 2 o . |
| 9. attributes | Pares clave=valor | ID=gene0001;Name=DDX11L1 |
En la práctica te vas a encontrar archivos con extensiones
.gff, .gff3 y .gtf. Todos
describen features genómicos con 9 columnas separadas por
tabulador, pero no son intercambiables. Entender sus
diferencias te evitará errores silenciosos.
GFF2 (también llamado GFF) — El formato original,
desarrollado a finales de los 90. La columna 9 de atributos usa un
formato simple de pares separados por punto y coma:
gene_id "DDX11L1"; transcript_id "NM_001101". No tiene una
forma estándar de representar relaciones jerárquicas entre features (gen
→ transcrito → exón), lo que lo hace ambiguo. Está
obsoleto y no debería usarse en análisis nuevos, pero aún
aparece en archivos antiguos. Si te encuentras un .gff sin
número de versión, probablemente es GFF2.
GTF (Gene Transfer Format, también llamado GFF2.5) —
Una extensión de GFF2 creada específicamente para la anotación de genes.
Mantiene el formato de atributos de GFF2 pero exige dos
atributos obligatorios: gene_id y
transcript_id. Es el formato estándar para herramientas de
cuantificación de RNA-seq como HTSeq, featureCounts y STAR. Ejemplo:
chr1 HAVANA exon 11869 12227 . + . gene_id "ENSG00000223972"; transcript_id "ENST00000456328"; gene_name "DDX11L1";
GFF3 — La versión actual del estándar (Sequence
Ontology, 2005). Resuelve las limitaciones de GFF2 con un sistema formal
de relaciones jerárquicas usando ID= y
Parent=. Un gen contiene transcritos, que contienen exones,
y estas relaciones están explícitas. También requiere una línea de
encabezado ##gff-version 3. Es más flexible y expresivo que
GTF, y es el formato preferido por Ensembl, NCBI y la mayoría de los
organismos modelo. Ejemplo:
chr1 ensembl gene 11869 14409 . + . ID=ENSG00000223972;Name=DDX11L1;biotype=transcribed_unprocessed_pseudogene
chr1 ensembl mRNA 11869 14409 . + . ID=ENST00000456328;Parent=ENSG00000223972
chr1 ensembl exon 11869 12227 . + . Parent=ENST00000456328;Name=ENSE00002234944
Resumen comparativo:
| Característica | GFF2 | GTF (GFF2.5) | GFF3 |
|---|---|---|---|
| Estado | Obsoleto | Vigente | Vigente (recomendado) |
| Jerarquía gen→transcrito→exón | No formal | Implícita (por gene_id/transcript_id) |
Explícita (ID/Parent) |
| Atributos obligatorios | Ninguno | gene_id, transcript_id |
ID (para features referenciados) |
| Separador de atributos | ; (punto y coma + espacio) |
; (punto y coma + espacio) |
; (punto y coma, sin espacio) |
| Valores entre comillas | A veces | Sí ("valor") |
No |
| Uso principal | Archivos legacy | RNA-seq (HTSeq, featureCounts, STAR) | Bases de datos (Ensembl, NCBI, organismos modelo) |
Buena práctica: Cuando descargues un archivo de anotación, verifica siempre qué formato es antes de usarlo. Muchas herramientas esperan un formato específico: featureCounts y HTSeq trabajan mejor con GTF, mientras que herramientas como GMOD/JBrowse y bases de datos genómicas prefieren GFF3. Si necesitas convertir entre formatos, herramientas como
gffread(parte de Cufflinks/StringTie) hacen la conversión:gffread input.gff3 -T -o output.gtf.
regiones_captura.bed — Las coordenadas mínimasEl cuarto archivo define las regiones de captura del kit de secuenciación usado en TCGA. Es el más escueto:
chr1 11868 14409 DDX11L1 1000 +
chr1 14403 29570 WASH7P 1000 -
chr7 27221129 27224842 HOXA13 900 -
Este es formato BED (Browser Extensible Data). Tres columnas obligatorias (cromosoma, inicio, fin) con columnas opcionales adicionales. Es el formato favorito para definir regiones genómicas: picos de ChIP-seq, regiones regulatorias, intervalos de interés…
Pero hay una trampa, y es importante.
Nota crítica — Sistemas de coordenadas: BED usa coordenadas 0-based, half-open [start, end). La primera base del cromosoma es la posición 0, y la posición end NO está incluida. En contraste, GFF usa coordenadas 1-based, closed [start, end]. Confundir estos sistemas es una de las fuentes de error más comunes en bioinformática. Un off-by-one error puede arruinar un análisis completo.
Ejemplo concreto: Las primeras 100 bases del cromosoma 1:
- En BED:
chr1 0 100(posición 0 hasta 99, el 100 NO está incluido)- En GFF:
chr1 ... 1 100 ...(posición 1 hasta 100, ambos incluidos)
Buena práctica: Cuando combines archivos en formatos distintos (ej. BED con GFF), asegúrate de convertir correctamente los sistemas de coordenadas. Un error de uno en la posición puede cambiar completamente qué gen o región se identifica.
Dado este fragmento GFF3:
chr7 Ensembl gene 27221129 27224842 . - . ID=ENSG00000106031;Name=HOXA13
chromStart correcta en BED?chromEnd? ¿Por qué sí o por qué
no?Respuesta esperada:
chr7 27221128 27224842
chromStart = 27221129 − 1 = 27221128 (conversión de
1-based a 0-based).chromEnd = 27224842 (no cambia: en BED el end es
exclusivo, en GFF es inclusivo. Numéricamente coinciden al hacer la
conversión).Buena práctica: Cuando hagas conversiones de coordenadas, siempre verifica con un caso simple (por ejemplo, “las primeras 10 bases”) que tu lógica sea correcta antes de aplicarla a todo un archivo.
variantes_tumor.vcf — La variación genéticaEl último archivo contiene variantes somáticas encontradas en tumores de TCGA:
##fileformat=VCFv4.3
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT SAMPLE1
chr1 12345 rs123456 A G 50 PASS DP=30 GT 0/1
chr17 7674220 rs28934578 G A 99 PASS DP=45 GT 1/1
Este es formato VCF (Variant Call Format), el estándar para describir variantes genéticas (SNPs, indels, variantes estructurales) respecto a un genoma de referencia.
El archivo tiene dos partes: un encabezado (líneas
que empiezan con ##) que define los metadatos, y el
cuerpo con las variantes:
| Columna | Descripción |
|---|---|
| CHROM | Cromosoma |
| POS | Posición (1-based) |
| ID | Identificador (ej. rsID de dbSNP, o . si no tiene) |
| REF | Alelo de referencia |
| ALT | Alelo(s) alternativo(s) |
| QUAL | Calidad de la variante (Phred-scaled) |
| FILTER | PASS o razón del filtro |
| INFO | Anotaciones (pares clave=valor separados por ;) |
| FORMAT | Formato de los genotipos por muestra |
| SAMPLE(s) | Datos por muestra |
Nota técnica — Interpretación de genotipos:
0/0= homocigoto referencia (tiene dos copias del alelo de referencia)0/1= heterocigoto (una copia del referencia, una del alternativo)1/1= homocigoto alternativo (dos copias del alelo alternativo)1/2= heterocigoto con dos alelos alternativos diferentes
El VCF incluye la variante rs28934578 en el cromosoma 17. Esta es la famosa mutación R248W de TP53, una de las mutaciones más frecuentes en cáncer humano. Vamos a investigarla paso a paso.
Paso 1: Ve a dbSNP y escribe rs28934578 en la barra de búsqueda. Presiona Enter.
Paso 2: En la página de resultados, localiza la información principal.
Resultados esperados:
| Campo | Valor esperado |
|---|---|
| Tipo de variante | SNV (Single Nucleotide Variant) |
| Gen | TP53 (tumor protein p53) |
| Posición (GRCh38) | chr17:7674220 |
| Alelo REF | C |
| Alelo ALT | T |
| Consecuencia molecular | missense variant (cambio de aminoácido) |
| Cambio de aminoácido | R248W (Arg → Trp en la posición 248) |
Nota: La cadena sentido del gen TP53 está en la hebra negativa, por eso en el VCF puedes ver G→A (que corresponde a C→T en la hebra codificante).
Paso 3: En la misma página, busca la sección Clinical Significance (o haz clic en el enlace a ClinVar).
Resultado esperado en ClinVar:
| Campo | Valor esperado |
|---|---|
| Significancia clínica | Pathogenic / Likely pathogenic |
| Condiciones asociadas | Li-Fraumeni syndrome, Hereditary cancer-predisposing syndrome, múltiples neoplasias |
| Estrellas de revisión | Múltiples submitters, sin conflictos |
Paso 4 — Reflexión:
Si un tumor muestra genotipo 1/1 para esta variante,
significa que ambas copias de TP53 tienen la mutación
R248W (homocigoto alternativo). TP53 es un gen supresor de
tumores — funciona como un freno para la proliferación celular.
Cuando ambas copias están mutadas, la célula pierde completamente esta
protección, lo que es consistente con la hipótesis de los “dos hits” de
Knudson (1971, DOI:
10.1073/pnas.68.4.820).
Ahora tienes el vocabulario para entender los datos de TCGA:
| Formato | Archivo | Qué contiene | Coordenadas | Buena práctica de verificación |
|---|---|---|---|---|
| FASTA | referencia_bacterial.fasta | Genomas de referencia | N/A | Verificar calidad y posible contaminación cruzada |
| FASTQ | lecturas_tumor_BRCA.fastq.gz | Lecturas crudas con calidad | N/A | Filtrar por calidad antes de cualquier análisis |
| GFF3 | anotacion_GRCh38.gff3 | Anotación genómica | 1-based, closed | Confirmar en qué regiones genómicas caen las lecturas |
| BED | regiones_captura.bed | Regiones de captura | 0-based, half-open | Verificar sistema de coordenadas al combinar con otros formatos |
| VCF | variantes_tumor.vcf | Variantes somáticas | 1-based | Verificar filtros de calidad y significancia clínica |
Lo que aprendimos hoy no es solo sobre formatos. Es sobre por qué los formatos importan y cómo verificar datos correctamente. En cada formato hay una oportunidad de verificación:
Cada formato que aprendiste hoy es una pieza del rompecabezas. En las próximas sesiones vamos a aprender a usar las bases de datos y las herramientas programáticas para armar ese rompecabezas con rigor — aplicando las mejores prácticas de verificación.
Este material está en desarrollo continuo. Si encuentras errores, enlaces rotos o tienes sugerencias para mejorarlo, por favor repórtalos a: yalbibalderas@gmail.com