Guia_Unidad4_IA

Inteligencia Artificial en Ciencias de la Vida

Bioinformática · Licenciatura en Genética · Dr. Danilo Ceschin · IUCBC/CIMETSA–CONICET

https://rpubs.com/daniloceschin/IAencienciasdelavida

Tabla de Contenidos

Introducción y Objetivos
Introducción a los LLM
Ingeniería de Prompts Básica
Prompts Listos para Bioinformática
Uso Ético de IA en Bioinformática
Limitaciones de los LLM
Resumen y Conclusiones
Anexo: Prompts de Referencia Rápida

1. Introducción y Objetivos

La IA como herramienta en el laboratorio computacional

El análisis bioinformático moderno combina tres pilares digitales:

Infraestructura de cómputo: HPC, AWS, Snakemake/Nextflow
Herramientas especializadas: GATK, SPAdes, Hifiasm, DESeq2, Scanpy…
Inteligencia Artificial: para asistencia en código, interpretación y redacción científica

Al finalizar esta unidad, serás capaz de:

✅ Usar ChatGPT, Claude, Gemini, DeepSeek, Copilot u otros LLMs de forma efectiva en contextos de bioinformática
✅ Escribir prompts orientados a análisis de secuencias, código bioinformático y literatura científica
✅ Reconocer las limitaciones y principios éticos del uso de IA en ciencias genómicas

2. Introducción a los LLM

¿Qué es un LLM (Large Language Model)?

Un Modelo de Lenguaje de Gran Escala es una inteligencia artificial entrenada sobre enormes corpus de texto (artículos científicos, código, documentación, libros) para:

Comprender lenguaje natural y técnico
Responder preguntas complejas
Generar y depurar código
Asistir en análisis, interpretación y redacción

Analogía: Es como un asistente que leyó millones de artículos científicos, manuales de herramientas bioinformáticas y repositorios de código, y puede ayudarte a entender, analizar y generar contenido técnico — aunque no siempre con precisión garantizada.

Principales LLM Disponibles

LLM	Empresa	Características	Ideal para (Bioinformática)	Acceso
ChatGPT	OpenAI	Versátil, muy popular, plugins	Uso general, scripting Python básico	chat.openai.com
Claude	Anthropic	Contexto muy extenso (200k tokens), preciso	Secuencias largas, código y papers completos	claude.ai
Gemini	Google	Integrado con Drive/Docs, actualizado	Búsqueda bibliográfica, workflows con Google	gemini.google.com
DeepSeek	DeepSeek AI	Gratuito, fuerte en código y matemática	Scripts Python/R, análisis estadístico	chat.deepseek.com
Copilot	Microsoft	Integrado en VS Code y Office 365	Completado de código en el editor, Jupyter	copilot.microsoft.com
Grok	xAI	Acceso a datos en tiempo real (X/Twitter)	Noticias recientes en ciencia, papers 2024–2025	grok.com
Llama (local)	Meta (open-source)	Corre en hardware propio, privado	Datos sensibles, genómica clínica, HPC local	ollama.com / HuggingFace
Mistral	Mistral AI	Modelos eficientes, europeo (RGPD)	Alternativa liviana para servidores propios	mistral.ai
Perplexity	Perplexity AI	Búsqueda aumentada con fuentes citadas	Revisión bibliográfica con referencias verificables	perplexity.ai

Recomendación para esta práctica: Claude es especialmente útil para analizar archivos de texto largos (alineamientos, outputs de ensamblado, reportes BUSCO) y para código Python/R complejo. ChatGPT y Gemini son buenas alternativas gratuitas para comenzar. Llama en local es la opción más segura para datos de pacientes.

Lo que los LLM PUEDEN hacer en Bioinformática

✅ Explicar conceptos de genómica, transcriptómica, epigenética y variantes
✅ Ayudar a interpretar métricas de ensamblado (N50, BUSCO, QV, LAI)
✅ Escribir y depurar scripts en Python, R, Bash, Snakemake y Nextflow
✅ Redactar borradores de secciones de métodos, resultados y discusión
✅ Sugerir estrategias de análisis estadístico o bioinformático
✅ Resumir artículos y proponer preguntas de investigación
✅ Traducir y mejorar texto científico en inglés

Lo que los LLM NO DEBEN hacer

❌ Reemplazar tu juicio profesional en interpretación de resultados biológicos
❌ Proporcionar referencias bibliográficas sin verificación — pueden ser inventadas
❌ Definir parámetros críticos de herramientas sin consultar el manual oficial
❌ Manejar datos genómicos de pacientes identificables
❌ Ser la única fuente de decisiones metodológicas en un manuscrito

3. Ingeniería de Prompts Básica

¿Qué es un Prompt?

Un prompt es la instrucción que le das al LLM. La calidad de la respuesta depende directamente de la calidad del prompt.

Fórmula básica:

PROMPT = [CONTEXTO] + [TAREA] + [FORMATO]

Técnica 1: Ser Específico

❌ Vago:

Explica el BLAST

✅ Específico (contexto genómico):

Soy estudiante de Licenciatura en Genética. Explicame cómo funciona
el algoritmo BLAST para comparar una secuencia nucleotídica contra
una base de datos. Incluí:
  1. El concepto de HSP (High-scoring Segment Pair)
  2. El significado del E-value y cuándo considerar un hit significativo
  3. La diferencia entre blastn, blastp y blastx
Usá lenguaje técnico pero didáctico.

Técnica 2: Dar Contexto

❌ Sin contexto:

Analiza este output: N50=452000, BUSCO=88.5%, QV=45

✅ Con contexto genómico:

Soy estudiante de bioinformática evaluando el ensamblado de novo de
un genoma de mamífero (~2.4 Gb) generado con lecturas Nanopore.

Métricas obtenidas:
  - N50: 452,000 pb
  - Número de contigs: 1,840
  - BUSCO completeness: 88.5% (mammalia_odb10)
  - QV (Merqury): 45

¿Cómo interpretás estas métricas? ¿El ensamblado es de buena calidad?
¿Qué podría explicar el 88.5% de BUSCO en lugar de >95%?

Técnica 3: Especificar Formato

Explicame el flujo de trabajo de RNA-seq diferencial.

Formato requerido:
  1. Descripción general del objetivo (1 párrafo)
  2. Lista de pasos desde FASTQ hasta genes DE
  3. Tabla comparando DESeq2 vs edgeR (3 criterios)
  4. Una advertencia común en el análisis

Técnica 4: Asignar un Rol

Actuá como un bioinformático especializado en genómica comparativa
con experiencia en ensamblado de genomas de vertebrados.

Tengo un ensamblado Nanopore con alta fragmentación en regiones
repetitivas. El gráfico de cobertura muestra caídas bruscas cada
~150 kb. Sugerí estrategias bioinformáticas para:
  1. Diagnosticar la causa de la fragmentación
  2. Mejorar la contigüidad post-ensamblado
  3. Evaluar si las regiones afectadas son biológicamente relevantes

Técnica 5: Iterar y Refinar

Los LLMs no son oráculos de una sola consulta. La estrategia más efectiva es iterar:

[Primera consulta]
Explicame qué hace la función DESeq() en el paquete DESeq2 de R.

[Seguimiento — profundizar]
Ahora explicame específicamente cómo estima la dispersión génica
y por qué eso es importante para muestras con n pequeño (n=3).

[Seguimiento — aplicar]
Mi experimento tiene 3 réplicas por condición. ¿Conviene usar
DESeq2 o edgeR en ese caso? Argumentá con criterios estadísticos.

Técnica 6: Pedir que Verifique su Propio Razonamiento

Escribí un script en Python para parsear un archivo FASTA y calcular
el contenido GC por secuencia.

Antes de darte el código final, identificá posibles errores lógicos
o casos borde que podrían fallar (e.g., secuencias vacías, caracteres
ambiguos como N). Luego escribí el código corregido con esos casos
contemplados.

4. Prompts Listos para Bioinformática

Prompt 1: Análisis de Métricas de Ensamblado

Interpretá las siguientes métricas de ensamblado de novo (Nanopore + Hifiasm):

  Organismo: mamífero diploide (~2.4 Gb estimado)
  Herramienta: Hifiasm v0.19
  - Total assembled: 2.51 Gb
  - N50: 4.2 Mb
  - N90: 820 kb
  - Contigs totales: 312
  - BUSCO (mammalia_odb10): 94.1% completos, 1.8% fragmentados
  - QV (Merqury): 52
  - Heterocigosidad estimada: 1.2%

Proporciona:
  1. Evaluación de la calidad del ensamblado
  2. Comparación con estándares de la literatura para mamíferos
  3. Posibles causas de los contigs fragmentados
  4. Pasos recomendados para mejorar el ensamblado

Prompt 2: Interpretación de Output BUSCO

Soy estudiante de bioinformática. Este es el output de BUSCO
para mi ensamblado:

  C:88.5%[S:85.2%,D:3.3%],F:3.1%,M:8.4%,n:9226

Explicame:
  1. Qué significa cada componente del reporte
  2. Si este resultado es aceptable para un genoma de mamífero
  3. Qué podría estar causando el 8.4% de genes faltantes (Missing)
  4. Cómo podría mejorar el puntaje en un ensamblado posterior

Prompt 3: Generar y Depurar Código R

Soy estudiante de bioinformática aprendiendo a procesar datos de RNA-seq.
Tengo un DataFrame en R con columnas: gene_id, log2FC, pvalue, padj.

Escribime código en R (tidyverse + ggplot2) para:
  1. Filtrar genes con |log2FC| > 1 y padj < 0.05
  2. Crear un volcano plot con esos umbrales como líneas de corte
  3. Colorear puntos: rojo = up-regulados, azul = down-regulados, gris = NS
  4. Etiquetar los 10 genes más significativos

Comentá el código línea por línea en español.

Prompt 4: Depurar un Error en Python

Tengo este script en Python para parsear resultados de BLAST (formato 6)
y me da el siguiente error:

[PEGAR CÓDIGO]

Error:
[PEGAR MENSAJE DE ERROR]

  1. Identificá el problema
  2. Explicame por qué ocurre
  3. Corregí el código
  4. Sugerí cómo podría evitar este tipo de error en scripts futuros

Prompt 5: Diseñar un Workflow de Snakemake

Necesito armar un workflow en Snakemake para análisis de RNA-seq.
Los pasos son:
  1. Control de calidad: FastQC
  2. Trimming: Trimmomatic (paired-end)
  3. Alineamiento: STAR contra genoma de referencia
  4. Cuantificación: featureCounts
  5. Análisis diferencial: DESeq2 en R

Generá un Snakefile básico con:
  - Una regla por paso
  - Manejo de wildcards para múltiples muestras
  - Un archivo config.yaml con parámetros configurables
  - Comentarios explicativos en español

Prompt 6: Interpretar Resultados de scRNA-seq (Scanpy)

Estoy analizando datos de scRNA-seq de células mononucleares de sangre
periférica (PBMCs) usando Scanpy en Python.

Después de clustering (leiden resolution=0.5), obtuve 12 clusters.
El UMAP muestra buena separación pero dos clusters adyacentes
(#3 y #7) comparten marcadores similares.

Ayudame a:
  1. Decidir si debo fusionar o mantener separados esos clusters
  2. Qué genes marcadores buscaría para diferenciar linfocitos T CD4+
     de CD8+ en este tipo de datos
  3. Cómo interpretaría un cluster con alto porcentaje de genes
     mitocondriales (>20%)
  4. Escribir el código Scanpy para graficar los top 5 marcadores
     por cluster usando sc.pl.dotplot()

Prompt 7: Análisis de Variantes con GATK

Estoy siguiendo el pipeline GATK Best Practices para variant calling
en datos de WGS (30x cobertura, paired-end 150bp, Illumina NovaSeq).

Después de HaplotypeCaller + GenotypeGVCFs, obtuve 4.2M variantes.
Antes del filtrado, explicame:
  1. La diferencia entre VQSR y hard filtering, y cuándo usar cada uno
  2. Los filtros hard recomendados para SNPs según GATK
     (QD, MQ, FS, SOR, MQRankSum, ReadPosRankSum)
  3. Qué significa el campo FILTER="PASS" en el VCF final
  4. Cómo evaluar la calidad del variant calling con métricas de Ti/Tv

Prompt 8: Revisión de Sección de Métodos Científicos

Revisá este párrafo de Materiales y Métodos para un manuscrito
científico:

[PEGAR TEXTO AQUÍ]

Mejorá:
  - Precisión técnica y reproducibilidad
    (versiones de software, parámetros explícitos, bases de datos usadas)
  - Gramática en inglés científico
  - Estructura lógica del workflow
  - Cumplimiento con estándares de reportes bioinformáticos (MINSEQE, FAIR)

Indicá cada cambio y el motivo.

Prompt 9: Explorar Literatura con Perplexity o Gemini

Nota: Para búsqueda bibliográfica, usar preferentemente Perplexity (cita fuentes) o Gemini (integrado con Google Scholar). Siempre verificar los DOIs en PubMed.

[En Perplexity.ai]

Buscá artículos publicados entre 2022 y 2025 sobre ensamblado
de novo de genomas de mamíferos usando lecturas HiFi (PacBio)
o Nanopore R10.

Para cada artículo relevante, indicá:
  - Título, autores y año
  - Organismo ensamblado y tamaño estimado del genoma
  - Herramienta de ensamblado y métricas principales (N50, BUSCO)
  - DOI para verificación

Filtrá para excluir genomas de humano y ratón.

Prompt 10: Usar Llama Localmente para Datos Sensibles

Cuándo usar un modelo local: cuando trabajás con datos de pacientes, variantes clínicas o cualquier dato que no deba salir de tu institución. Instalación vía Ollama.

# Instalar y correr Llama 3 localmente
ollama pull llama3
ollama run llama3

[Prompt para modelo local]

Tengo el siguiente reporte de variantes en formato VCF (datos
anonimizados de un paciente con diagnóstico clínico sospechado
de síndrome de Cornelia de Lange):

[PEGAR VCF ANONIMIZADO]

Identificá variantes en genes NIPBL, SMC1A, SMC3, RAD21 o HDAC8.
Para cada variante encontrada, indicá:
  1. Posición cromosómica y cambio de aminoácido (si aplica)
  2. Clasificación ACMG preliminar (patogénica/VUS/benigna)
  3. Criterios ACMG aplicables según el contexto

5. Uso Ético de IA en Bioinformática

Principio 1: Transparencia

✅ Siempre declarar el uso de IA:

Ejemplo en trabajo académico:
"En la elaboración de este informe se utilizó Claude (Anthropic,
versión 2024) para asistencia en la estructuración del documento
y revisión de código R. Todos los análisis bioinformáticos,
interpretación de resultados y conclusiones son responsabilidad
del autor."

❌ Nunca: - Copiar código o texto de IA sin citar - Presentar análisis generados por IA como completamente propios - Usar IA en evaluaciones donde no está explícitamente permitido

Principio 2: Verificación Obligatoria

🔴 CRÍTICO: Siempre verificar información de la IA

Qué verificar en bioinformática: - ✅ Referencias bibliográficas → verificar en PubMed / DOI - ✅ Parámetros de herramientas (STAR, SPAdes, GATK, Hifiasm…) - ✅ Versiones de software y compatibilidad - ✅ Fórmulas estadísticas y matemáticas - ✅ Nombres de bases de datos y accesos (RefSeq, Ensembl, gnomAD)

Regla de oro: Si el resultado va a un informe, tesis o manuscrito → verificar con la fuente primaria (manual oficial, paper original, documentación).

Principio 3: Privacidad en Genómica

🚨 MUY IMPORTANTE: Los datos genómicos son inherentemente identificadores

Tienen implicaciones legales, éticas y familiares. La Ley 25.326 (Argentina) y el RGPD (Europa) regulan su tratamiento.

❌ NUNCA compartir con LLMs públicos (ChatGPT, Claude, Gemini, etc.): - Secuencias genómicas vinculadas a identidad de pacientes - Variantes clínicas con datos demográficos identificables - IDs de muestras vinculados a bases de datos institucionales

✅ SIEMPRE anonimizar:

❌ Malo:
"El paciente Juan Pérez, legajo 12345, presenta la variante
BRCA1 c.5266dupC..."

✅ Bueno:
"Individuo femenino de 45 años presenta la variante
BRCA1 c.5266dupC..."

✅ Mejor para análisis bioinformático:
"Sample_ID: ANON_001, variante: chr17:41,244,429, genotipo: het"

✅ Para datos sensibles: usar modelos locales (Llama, Mistral vía Ollama)

Principio 4: Responsabilidad Científica

La IA es una herramienta de asistencia, no un co-autor ni un árbitro científico
El análisis bioinformático implica decisiones metodológicas que son responsabilidad del investigador
Los resultados firmados en un informe o manuscrito conllevan responsabilidad académica
El criterio científico y biológico es insustituible

6. Limitaciones de los LLM

1. Alucinaciones

Los LLM pueden inventar información con total confianza. En bioinformática esto es especialmente peligroso:

Ejemplos documentados: referencias bibliográficas que no existen, parámetros de herramientas incorrectos (--min-overlap en SPAdes que no existe), nombres de bases de datos inexistentes, versiones de software erróneas.

Solución: Verificar parámetros en la documentación oficial. Ejecutar el código y evaluar el output real.

2. Conocimiento Desactualizado

Cada modelo tiene una fecha de corte. En bioinformática, las herramientas y bases de datos evolucionan muy rápido:

Nuevas versiones de GATK, SPAdes, Hifiasm pueden tener cambios de sintaxis significativos
Bases de datos (RefSeq, Ensembl, gnomAD) se actualizan frecuentemente
Mejores prácticas cambian con nuevas publicaciones

Solución: Indicarle al LLM la versión específica que usás. Usar Perplexity o Grok para información reciente con fuentes citadas.

3. No Razonamiento Biológico Real

Los LLM predicen texto estadísticamente plausible, no razonan causalmente sobre biología:

No comprenden el organismo de estudio ni su biología particular
No tienen acceso a tus datos reales — solo procesan lo que pegás en el prompt
No pueden evaluar si un resultado biológico “tiene sentido” desde la fisiología

Implicación: Útil para código y estructura, insuficiente para interpretación biológica profunda sin tu supervisión.

4. Sesgos en Datos de Entrenamiento

Organismos: mucho más datos de humano/ratón que de animales silvestres o plantas
Herramientas: las más citadas en inglés están mejor representadas
Publicaciones: estudios de especies no-modelo pueden estar subrepresentados
Idioma: más información en inglés que en español

Relevancia para tu carrera: Al trabajar con genomas no-modelo (huemul, plantas nativas, microbiomas ambientales), la IA puede tener menos contexto específico. Complementar siempre con literatura especializada.

Matriz de Confianza para Bioinformática

Tarea	¿Confiar en IA?	Verificación necesaria
Explorar ideas de análisis	✅ Alta	Mínima — punto de partida
Explicar conceptos genómicos	✅ Alta	Media — verificar definiciones clave
Generar borradores de texto	✅ Alta	Alta — revisar antes de entregar
Escribir/depurar código Python/R	⚠️ Media	Alta — ejecutar y validar output
Interpretar resultados (BUSCO, BLAST)	⚠️ Media	Alta — consultar documentación oficial
Citar referencias bibliográficas	❌ Baja	CRÍTICA — verificar en PubMed/DOI
Parámetros de herramientas bioinformáticas	❌ Baja	CRÍTICA — consultar manual oficial
Interpretar variantes clínicas	❌ Muy baja	CRÍTICA — nunca usar sin verificar

7. Resumen y Conclusiones

Lo que Aprendiste Hoy

Inteligencia Artificial para Bioinformática: - Qué son los LLM y cuáles son más útiles en contextos genómicos - Escribir prompts efectivos: con contexto, tarea clara y formato definido - Aplicar IA para análisis de ensamblados, código R/Python y redacción científica - Reconocer limitaciones (alucinaciones, datos desactualizados, sesgos) y actuar éticamente

Principios Clave para Recordar

🔑 Sobre IA en Bioinformática:

Verificar SIEMPRE información crítica (parámetros, referencias, versiones)
Declarar el uso de IA en trabajos académicos y científicos
Nunca compartir datos genómicos de pacientes sin anonimizar
Para datos sensibles: usar modelos locales (Llama, Mistral)
La IA asiste — el criterio científico es insustituible

Reflexión Final

“La IA no reemplazará a los genetistas. Pero los genetistas que usen IA efectiva y críticamente tendrán una ventaja significativa en la ciencia del siglo XXI.”

Tu compromiso: - ⚖️ Usar IA éticamente y con criterio científico - 🔍 Verificar información crítica antes de incluirla en informes o manuscritos - 🔒 Proteger la privacidad de datos genómicos y de pacientes - 📚 Seguir aprendiendo sobre nuevas herramientas de IA en bioinformática

Autoevaluación (respondé mentalmente)

¿Cuál es la fórmula básica de un buen prompt?
¿Por qué no debería copiar directamente una referencia que me da la IA?
¿Qué significa un BUSCO del 88.5% y qué podría explicarlo?
¿Puedo pegar secuencias de un paciente oncológico en ChatGPT?
¿Debo verificar el código Python que me genera la IA antes de usarlo?
¿Qué LLM usaría si necesito analizar datos genómicos confidenciales?

Respuestas esperadas: 1. [CONTEXTO] + [TAREA] + [FORMATO] 2. Pueden estar inventadas — verificar siempre en PubMed/DOI 3. Valor aceptable pero no ideal: posibles causas son homopolymer indels (Nanopore), regiones repetitivas o gaps en la base de datos BUSCO 4. NO — solo datos anonimizados; para datos reales usar modelo local 5. SÍ — siempre ejecutar y validar el output 6. Un modelo local como Llama (vía Ollama) que no envía datos a servidores externos

8. Anexo: Prompts de Referencia Rápida

Análisis de Ensamblado

"Tengo un ensamblado de novo de [organismo] (~[tamaño] Gb).
Métricas: N50=[valor], contigs=[n], BUSCO=[x%], QV=[valor].
Evaluá la calidad, compará con estándares para este tipo de genoma
y sugerí pasos de mejora."

Depuración de Código

"Tengo este script en [Python/R/Bash] que da el siguiente error:
[PEGAR CÓDIGO]
[PEGAR ERROR]
Identificá el problema, corregilo y explicá el motivo del error."

Explicación Conceptual

"Explicame [concepto bioinformático] para estudiante de
Licenciatura en Genética con conocimientos básicos de biología molecular.
Incluí: definición, aplicación práctica en genómica, limitaciones.
Formato: 3 párrafos técnicos pero accesibles."

Diseño de Workflow

"Necesito un pipeline en Snakemake/Nextflow para [objetivo].
Los pasos son: [lista].
Generá el archivo de workflow con una regla por paso,
wildcards para múltiples muestras y un config con parámetros clave."

Revisión de Métodos Científicos

"Revisá este párrafo de Materiales y Métodos:
[PEGAR TEXTO]
Mejorá: precisión técnica, reproducibilidad (versiones de software,
parámetros explícitos), gramática en inglés científico.
Indicá cada cambio y el motivo."

Interpretación de Variantes (solo datos anonimizados)

"Tengo la siguiente variante anonimizada en formato VCF:
[PEGAR LÍNEA VCF]
Clasificala según criterios ACMG. Indicá los criterios aplicables
(PVS1, PS1-4, PM1-6, PP1-5) y su nivel de evidencia."

Recursos para Continuar

LLMs principales:

ChatGPT: https://chat.openai.com
Claude: https://claude.ai
Gemini: https://gemini.google.com
DeepSeek: https://chat.deepseek.com
Perplexity (con fuentes): https://perplexity.ai
Grok (datos recientes): https://grok.com
Llama local: https://ollama.com

Documentación bioinformática (siempre verificar aquí):

BUSCO: https://busco.ezlab.org
Hifiasm: https://github.com/chhylp123/hifiasm
GATK Best Practices: https://gatk.broadinstitute.org
Bioconductor (R): https://bioconductor.org
Scanpy (scRNA-seq): https://scanpy.readthedocs.io
Snakemake: https://snakemake.readthedocs.io

Verificación bibliográfica:

PubMed: https://pubmed.ncbi.nlm.nih.gov
DOI resolver: https://doi.org

IA en Ciencias de la Vida · Unidad 4 · Bioinformática · Lic. en Genética Dr. Danilo Ceschin · IUCBC/CIMETSA–CONICET · Córdoba, Argentina