https://rpubs.com/daniloceschin/IAencienciasdelavida
El análisis bioinformático moderno combina tres pilares digitales:
Al finalizar esta unidad, serás capaz de:
Un Modelo de Lenguaje de Gran Escala es una inteligencia artificial entrenada sobre enormes corpus de texto (artículos científicos, código, documentación, libros) para:
Analogía: Es como un asistente que leyó millones de artículos científicos, manuales de herramientas bioinformáticas y repositorios de código, y puede ayudarte a entender, analizar y generar contenido técnico — aunque no siempre con precisión garantizada.
| LLM | Empresa | Características | Ideal para (Bioinformática) | Acceso |
|---|---|---|---|---|
| ChatGPT | OpenAI | Versátil, muy popular, plugins | Uso general, scripting Python básico | chat.openai.com |
| Claude | Anthropic | Contexto muy extenso (200k tokens), preciso | Secuencias largas, código y papers completos | claude.ai |
| Gemini | Integrado con Drive/Docs, actualizado | Búsqueda bibliográfica, workflows con Google | gemini.google.com | |
| DeepSeek | DeepSeek AI | Gratuito, fuerte en código y matemática | Scripts Python/R, análisis estadístico | chat.deepseek.com |
| Copilot | Microsoft | Integrado en VS Code y Office 365 | Completado de código en el editor, Jupyter | copilot.microsoft.com |
| Grok | xAI | Acceso a datos en tiempo real (X/Twitter) | Noticias recientes en ciencia, papers 2024–2025 | grok.com |
| Llama (local) | Meta (open-source) | Corre en hardware propio, privado | Datos sensibles, genómica clínica, HPC local | ollama.com / HuggingFace |
| Mistral | Mistral AI | Modelos eficientes, europeo (RGPD) | Alternativa liviana para servidores propios | mistral.ai |
| Perplexity | Perplexity AI | Búsqueda aumentada con fuentes citadas | Revisión bibliográfica con referencias verificables | perplexity.ai |
Recomendación para esta práctica: Claude es especialmente útil para analizar archivos de texto largos (alineamientos, outputs de ensamblado, reportes BUSCO) y para código Python/R complejo. ChatGPT y Gemini son buenas alternativas gratuitas para comenzar. Llama en local es la opción más segura para datos de pacientes.
Un prompt es la instrucción que le das al LLM. La calidad de la respuesta depende directamente de la calidad del prompt.
Fórmula básica:
PROMPT = [CONTEXTO] + [TAREA] + [FORMATO]
❌ Vago:
Explica el BLAST
✅ Específico (contexto genómico):
Soy estudiante de Licenciatura en Genética. Explicame cómo funciona
el algoritmo BLAST para comparar una secuencia nucleotídica contra
una base de datos. Incluí:
1. El concepto de HSP (High-scoring Segment Pair)
2. El significado del E-value y cuándo considerar un hit significativo
3. La diferencia entre blastn, blastp y blastx
Usá lenguaje técnico pero didáctico.
❌ Sin contexto:
Analiza este output: N50=452000, BUSCO=88.5%, QV=45
✅ Con contexto genómico:
Soy estudiante de bioinformática evaluando el ensamblado de novo de
un genoma de mamífero (~2.4 Gb) generado con lecturas Nanopore.
Métricas obtenidas:
- N50: 452,000 pb
- Número de contigs: 1,840
- BUSCO completeness: 88.5% (mammalia_odb10)
- QV (Merqury): 45
¿Cómo interpretás estas métricas? ¿El ensamblado es de buena calidad?
¿Qué podría explicar el 88.5% de BUSCO en lugar de >95%?
Explicame el flujo de trabajo de RNA-seq diferencial.
Formato requerido:
1. Descripción general del objetivo (1 párrafo)
2. Lista de pasos desde FASTQ hasta genes DE
3. Tabla comparando DESeq2 vs edgeR (3 criterios)
4. Una advertencia común en el análisis
Actuá como un bioinformático especializado en genómica comparativa
con experiencia en ensamblado de genomas de vertebrados.
Tengo un ensamblado Nanopore con alta fragmentación en regiones
repetitivas. El gráfico de cobertura muestra caídas bruscas cada
~150 kb. Sugerí estrategias bioinformáticas para:
1. Diagnosticar la causa de la fragmentación
2. Mejorar la contigüidad post-ensamblado
3. Evaluar si las regiones afectadas son biológicamente relevantes
Los LLMs no son oráculos de una sola consulta. La estrategia más efectiva es iterar:
[Primera consulta]
Explicame qué hace la función DESeq() en el paquete DESeq2 de R.
[Seguimiento — profundizar]
Ahora explicame específicamente cómo estima la dispersión génica
y por qué eso es importante para muestras con n pequeño (n=3).
[Seguimiento — aplicar]
Mi experimento tiene 3 réplicas por condición. ¿Conviene usar
DESeq2 o edgeR en ese caso? Argumentá con criterios estadísticos.
Escribí un script en Python para parsear un archivo FASTA y calcular
el contenido GC por secuencia.
Antes de darte el código final, identificá posibles errores lógicos
o casos borde que podrían fallar (e.g., secuencias vacías, caracteres
ambiguos como N). Luego escribí el código corregido con esos casos
contemplados.
Interpretá las siguientes métricas de ensamblado de novo (Nanopore + Hifiasm):
Organismo: mamífero diploide (~2.4 Gb estimado)
Herramienta: Hifiasm v0.19
- Total assembled: 2.51 Gb
- N50: 4.2 Mb
- N90: 820 kb
- Contigs totales: 312
- BUSCO (mammalia_odb10): 94.1% completos, 1.8% fragmentados
- QV (Merqury): 52
- Heterocigosidad estimada: 1.2%
Proporciona:
1. Evaluación de la calidad del ensamblado
2. Comparación con estándares de la literatura para mamíferos
3. Posibles causas de los contigs fragmentados
4. Pasos recomendados para mejorar el ensamblado
Soy estudiante de bioinformática. Este es el output de BUSCO
para mi ensamblado:
C:88.5%[S:85.2%,D:3.3%],F:3.1%,M:8.4%,n:9226
Explicame:
1. Qué significa cada componente del reporte
2. Si este resultado es aceptable para un genoma de mamífero
3. Qué podría estar causando el 8.4% de genes faltantes (Missing)
4. Cómo podría mejorar el puntaje en un ensamblado posterior
Soy estudiante de bioinformática aprendiendo a procesar datos de RNA-seq.
Tengo un DataFrame en R con columnas: gene_id, log2FC, pvalue, padj.
Escribime código en R (tidyverse + ggplot2) para:
1. Filtrar genes con |log2FC| > 1 y padj < 0.05
2. Crear un volcano plot con esos umbrales como líneas de corte
3. Colorear puntos: rojo = up-regulados, azul = down-regulados, gris = NS
4. Etiquetar los 10 genes más significativos
Comentá el código línea por línea en español.
Tengo este script en Python para parsear resultados de BLAST (formato 6)
y me da el siguiente error:
[PEGAR CÓDIGO]
Error:
[PEGAR MENSAJE DE ERROR]
1. Identificá el problema
2. Explicame por qué ocurre
3. Corregí el código
4. Sugerí cómo podría evitar este tipo de error en scripts futuros
Necesito armar un workflow en Snakemake para análisis de RNA-seq.
Los pasos son:
1. Control de calidad: FastQC
2. Trimming: Trimmomatic (paired-end)
3. Alineamiento: STAR contra genoma de referencia
4. Cuantificación: featureCounts
5. Análisis diferencial: DESeq2 en R
Generá un Snakefile básico con:
- Una regla por paso
- Manejo de wildcards para múltiples muestras
- Un archivo config.yaml con parámetros configurables
- Comentarios explicativos en español
Estoy analizando datos de scRNA-seq de células mononucleares de sangre
periférica (PBMCs) usando Scanpy en Python.
Después de clustering (leiden resolution=0.5), obtuve 12 clusters.
El UMAP muestra buena separación pero dos clusters adyacentes
(#3 y #7) comparten marcadores similares.
Ayudame a:
1. Decidir si debo fusionar o mantener separados esos clusters
2. Qué genes marcadores buscaría para diferenciar linfocitos T CD4+
de CD8+ en este tipo de datos
3. Cómo interpretaría un cluster con alto porcentaje de genes
mitocondriales (>20%)
4. Escribir el código Scanpy para graficar los top 5 marcadores
por cluster usando sc.pl.dotplot()
Estoy siguiendo el pipeline GATK Best Practices para variant calling
en datos de WGS (30x cobertura, paired-end 150bp, Illumina NovaSeq).
Después de HaplotypeCaller + GenotypeGVCFs, obtuve 4.2M variantes.
Antes del filtrado, explicame:
1. La diferencia entre VQSR y hard filtering, y cuándo usar cada uno
2. Los filtros hard recomendados para SNPs según GATK
(QD, MQ, FS, SOR, MQRankSum, ReadPosRankSum)
3. Qué significa el campo FILTER="PASS" en el VCF final
4. Cómo evaluar la calidad del variant calling con métricas de Ti/Tv
Revisá este párrafo de Materiales y Métodos para un manuscrito
científico:
[PEGAR TEXTO AQUÍ]
Mejorá:
- Precisión técnica y reproducibilidad
(versiones de software, parámetros explícitos, bases de datos usadas)
- Gramática en inglés científico
- Estructura lógica del workflow
- Cumplimiento con estándares de reportes bioinformáticos (MINSEQE, FAIR)
Indicá cada cambio y el motivo.
Nota: Para búsqueda bibliográfica, usar preferentemente Perplexity (cita fuentes) o Gemini (integrado con Google Scholar). Siempre verificar los DOIs en PubMed.
[En Perplexity.ai]
Buscá artículos publicados entre 2022 y 2025 sobre ensamblado
de novo de genomas de mamíferos usando lecturas HiFi (PacBio)
o Nanopore R10.
Para cada artículo relevante, indicá:
- Título, autores y año
- Organismo ensamblado y tamaño estimado del genoma
- Herramienta de ensamblado y métricas principales (N50, BUSCO)
- DOI para verificación
Filtrá para excluir genomas de humano y ratón.
Cuándo usar un modelo local: cuando trabajás con datos de pacientes, variantes clínicas o cualquier dato que no deba salir de tu institución. Instalación vía Ollama.
# Instalar y correr Llama 3 localmente
ollama pull llama3
ollama run llama3
[Prompt para modelo local]
Tengo el siguiente reporte de variantes en formato VCF (datos
anonimizados de un paciente con diagnóstico clínico sospechado
de síndrome de Cornelia de Lange):
[PEGAR VCF ANONIMIZADO]
Identificá variantes en genes NIPBL, SMC1A, SMC3, RAD21 o HDAC8.
Para cada variante encontrada, indicá:
1. Posición cromosómica y cambio de aminoácido (si aplica)
2. Clasificación ACMG preliminar (patogénica/VUS/benigna)
3. Criterios ACMG aplicables según el contexto
✅ Siempre declarar el uso de IA:
Ejemplo en trabajo académico:
"En la elaboración de este informe se utilizó Claude (Anthropic,
versión 2024) para asistencia en la estructuración del documento
y revisión de código R. Todos los análisis bioinformáticos,
interpretación de resultados y conclusiones son responsabilidad
del autor."
❌ Nunca: - Copiar código o texto de IA sin citar - Presentar análisis generados por IA como completamente propios - Usar IA en evaluaciones donde no está explícitamente permitido
🔴 CRÍTICO: Siempre verificar información de la IA
Qué verificar en bioinformática: - ✅ Referencias bibliográficas → verificar en PubMed / DOI - ✅ Parámetros de herramientas (STAR, SPAdes, GATK, Hifiasm…) - ✅ Versiones de software y compatibilidad - ✅ Fórmulas estadísticas y matemáticas - ✅ Nombres de bases de datos y accesos (RefSeq, Ensembl, gnomAD)
Regla de oro: Si el resultado va a un informe, tesis o manuscrito → verificar con la fuente primaria (manual oficial, paper original, documentación).
🚨 MUY IMPORTANTE: Los datos genómicos son inherentemente identificadores
Tienen implicaciones legales, éticas y familiares. La Ley 25.326 (Argentina) y el RGPD (Europa) regulan su tratamiento.
❌ NUNCA compartir con LLMs públicos (ChatGPT, Claude, Gemini, etc.): - Secuencias genómicas vinculadas a identidad de pacientes - Variantes clínicas con datos demográficos identificables - IDs de muestras vinculados a bases de datos institucionales
✅ SIEMPRE anonimizar:
❌ Malo:
"El paciente Juan Pérez, legajo 12345, presenta la variante
BRCA1 c.5266dupC..."
✅ Bueno:
"Individuo femenino de 45 años presenta la variante
BRCA1 c.5266dupC..."
✅ Mejor para análisis bioinformático:
"Sample_ID: ANON_001, variante: chr17:41,244,429, genotipo: het"
✅ Para datos sensibles: usar modelos locales (Llama, Mistral vía Ollama)
Los LLM pueden inventar información con total confianza. En bioinformática esto es especialmente peligroso:
Ejemplos documentados: referencias bibliográficas que no existen, parámetros de herramientas incorrectos (
--min-overlapen SPAdes que no existe), nombres de bases de datos inexistentes, versiones de software erróneas.
Solución: Verificar parámetros en la documentación oficial. Ejecutar el código y evaluar el output real.
Cada modelo tiene una fecha de corte. En bioinformática, las herramientas y bases de datos evolucionan muy rápido:
Solución: Indicarle al LLM la versión específica que usás. Usar Perplexity o Grok para información reciente con fuentes citadas.
Los LLM predicen texto estadísticamente plausible, no razonan causalmente sobre biología:
Implicación: Útil para código y estructura, insuficiente para interpretación biológica profunda sin tu supervisión.
Relevancia para tu carrera: Al trabajar con genomas no-modelo (huemul, plantas nativas, microbiomas ambientales), la IA puede tener menos contexto específico. Complementar siempre con literatura especializada.
| Tarea | ¿Confiar en IA? | Verificación necesaria |
|---|---|---|
| Explorar ideas de análisis | ✅ Alta | Mínima — punto de partida |
| Explicar conceptos genómicos | ✅ Alta | Media — verificar definiciones clave |
| Generar borradores de texto | ✅ Alta | Alta — revisar antes de entregar |
| Escribir/depurar código Python/R | ⚠️ Media | Alta — ejecutar y validar output |
| Interpretar resultados (BUSCO, BLAST) | ⚠️ Media | Alta — consultar documentación oficial |
| Citar referencias bibliográficas | ❌ Baja | CRÍTICA — verificar en PubMed/DOI |
| Parámetros de herramientas bioinformáticas | ❌ Baja | CRÍTICA — consultar manual oficial |
| Interpretar variantes clínicas | ❌ Muy baja | CRÍTICA — nunca usar sin verificar |
Inteligencia Artificial para Bioinformática: - Qué son los LLM y cuáles son más útiles en contextos genómicos - Escribir prompts efectivos: con contexto, tarea clara y formato definido - Aplicar IA para análisis de ensamblados, código R/Python y redacción científica - Reconocer limitaciones (alucinaciones, datos desactualizados, sesgos) y actuar éticamente
🔑 Sobre IA en Bioinformática:
“La IA no reemplazará a los genetistas. Pero los genetistas que usen IA efectiva y críticamente tendrán una ventaja significativa en la ciencia del siglo XXI.”
Tu compromiso: - ⚖️ Usar IA éticamente y con criterio científico - 🔍 Verificar información crítica antes de incluirla en informes o manuscritos - 🔒 Proteger la privacidad de datos genómicos y de pacientes - 📚 Seguir aprendiendo sobre nuevas herramientas de IA en bioinformática
Respuestas esperadas: 1.
[CONTEXTO] + [TAREA] + [FORMATO] 2. Pueden estar inventadas
— verificar siempre en PubMed/DOI 3. Valor aceptable pero no ideal:
posibles causas son homopolymer indels (Nanopore), regiones repetitivas
o gaps en la base de datos BUSCO 4. NO — solo datos
anonimizados; para datos reales usar modelo local 5. SÍ
— siempre ejecutar y validar el output 6. Un modelo local como
Llama (vía Ollama) que no envía datos a servidores
externos
"Tengo un ensamblado de novo de [organismo] (~[tamaño] Gb).
Métricas: N50=[valor], contigs=[n], BUSCO=[x%], QV=[valor].
Evaluá la calidad, compará con estándares para este tipo de genoma
y sugerí pasos de mejora."
"Tengo este script en [Python/R/Bash] que da el siguiente error:
[PEGAR CÓDIGO]
[PEGAR ERROR]
Identificá el problema, corregilo y explicá el motivo del error."
"Explicame [concepto bioinformático] para estudiante de
Licenciatura en Genética con conocimientos básicos de biología molecular.
Incluí: definición, aplicación práctica en genómica, limitaciones.
Formato: 3 párrafos técnicos pero accesibles."
"Necesito un pipeline en Snakemake/Nextflow para [objetivo].
Los pasos son: [lista].
Generá el archivo de workflow con una regla por paso,
wildcards para múltiples muestras y un config con parámetros clave."
"Revisá este párrafo de Materiales y Métodos:
[PEGAR TEXTO]
Mejorá: precisión técnica, reproducibilidad (versiones de software,
parámetros explícitos), gramática en inglés científico.
Indicá cada cambio y el motivo."
"Tengo la siguiente variante anonimizada en formato VCF:
[PEGAR LÍNEA VCF]
Clasificala según criterios ACMG. Indicá los criterios aplicables
(PVS1, PS1-4, PM1-6, PP1-5) y su nivel de evidencia."
LLMs principales:
Documentación bioinformática (siempre verificar aquí):
Verificación bibliográfica:
IA en Ciencias de la Vida · Unidad 4 · Bioinformática · Lic. en Genética Dr. Danilo Ceschin · IUCBC/CIMETSA–CONICET · Córdoba, Argentina