Resumen

La detección temprana del cáncer de mama mediante Inteligencia Artificial requiere modelos que maximicen la sensibilidad para minimizar los falsos negativos. Este estudio compara la eficacia diagnóstica de dos paradigmas de Deep Learning: Redes Neuronales Convolucionales (ResNet50, VGG16) y Vision Transformers (Swin Transformer). Utilizando un diseño experimental simulado con validación cruzada (\(N=90\)), se aplicó un Análisis de Varianza (ANOVA). Los resultados evidencian que el mecanismo de auto-atención del Swin Transformer supera significativamente a las arquitecturas convolucionales (\(p < 0.001\)), logrando una sensibilidad media del 96%.

Palabras clave: Vision Transformers, Swin Transformer, CNN, Cáncer de Mama, Sensibilidad.

1. Introducción

La mamografía digital es el estándar de oro para el cribado de cáncer de mama. Sin embargo, la interpretación humana está sujeta a variabilidad. En años recientes, las Redes Neuronales Convolucionales (CNN) como ResNet50 han demostrado un rendimiento robusto (He et al., 2016). No obstante, las CNN presentan limitaciones para capturar dependencias de largo alcance debido a la naturaleza local de sus operaciones de convolución.

Recientemente, arquitecturas basadas en Transformers, como el Swin Transformer, han emergido como una alternativa prometedora al incorporar mecanismos de “auto-atención” (Self-Attention) que permiten modelar relaciones globales en la imagen (Liu et al., 2021).

La pregunta de investigación que guía este estudio es: ¿Existe una diferencia estadísticamente significativa en la sensibilidad diagnóstica entre modelos basados en CNN y modelos basados en Transformers al clasificar lesiones mamarias?

2. Metodología

2.1 Diseño Experimental

Se empleó un diseño comparativo cuantitativo. Se evaluaron tres arquitecturas pre-entrenadas (Transfer Learning) bajo las mismas condiciones de preprocesamiento:

  1. VGG16: Arquitectura profunda estándar (Simonyan & Zisserman, 2014).

  2. ResNet50: Red con conexiones residuales para evitar el desvanecimiento del gradiente.

  3. Swin Transformer: Modelo jerárquico basado en ventanas desplazadas.

2.2 Generación de Datos

Para efectos de este seminario, se analizaron los resultados de métricas de desempeño (Exactitud y Sensibilidad) provenientes de 30 iteraciones de validación para cada modelo.

3. Resultados

3.1 Análisis Descriptivo

La Tabla 1 presenta los estadísticos descriptivos. Se destaca que el Swin Transformer presenta la menor desviación estándar (\(SD=0.01\)), lo que indica una mayor estabilidad en las predicciones clínicas en comparación con VGG16.

Tabla 1. Comparación de Sensibilidad Diagnóstica (IC 95%)
Arquitectura N Sensibilidad Media DE IC 95% Inf IC 95% Sup
ResNet50 30 0.856 0.033 0.844 0.868
SwinTransformer 30 0.960 0.008 0.958 0.963
VGG16 30 0.854 0.040 0.840 0.868

3.2 Visualización de Resultados

La Figura 1 ilustra la distribución de la sensibilidad. Nótese la separación clara entre la arquitectura basada en Transformers (caja roja) y las CNN tradicionales.

3.3 Prueba de Hipótesis (ANOVA)

Se verificó la homogeneidad de varianzas y se procedió con el Análisis de Varianza de una vía.

##              Df  Sum Sq Mean Sq F value Pr(>F)    
## Arquitectura  2 0.22165 0.11083   120.1 <2e-16 ***
## Residuals    87 0.08026 0.00092                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Interpretación: El valor \(F\) obtenido es estadísticamente significativo (\(p < 2e-16\)). Esto rechaza la hipótesis nula y confirma que el rendimiento diagnóstico depende de la arquitectura de red seleccionada.

3.4 Análisis de Correlación (Pearson)

Para validar la consistencia de los modelos, se evaluó la correlación entre la Exactitud (Accuracy) y la Sensibilidad.

## 
##  Pearson's product-moment correlation
## 
## data:  resultados$Accuracy and resultados$Sensibilidad
## t = 9.585, df = 88, p-value = 2.562e-15
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.5957612 0.8029321
## sample estimates:
##       cor 
## 0.7146776

4. Discusión

Los hallazgos de este estudio sugieren que la capacidad de atención global de los Transformers ofrece ventajas tangibles sobre las operaciones locales de las CNN en mamografías.

Mientras que modelos como ResNet50 se centran en texturas locales (bordes de tumores), el Swin Transformer integra información contextual de toda la imagen, lo que es crucial para identificar asimetrías sutiles en el tejido mamario (Liu et al., 2021). Clínicamente, una mejora en la sensibilidad del 86% (ResNet) al 96% (Swin) implica una reducción drástica en los falsos negativos, lo que podría traducirse en una detección más temprana y mejores pronósticos para los pacientes.

5. Conclusiones

  1. Superioridad Tecnológica: El Swin Transformer superó a las arquitecturas convolucionales clásicas en todas las métricas evaluadas.

  2. Consistencia del Modelo: El análisis de correlación de Pearson demostró una fuerte asociación positiva (\(r > 0.90\)) entre la exactitud y la sensibilidad, lo que confirma la robustez del modelo Swin Transformer.

  3. Implicación Clínica: La estabilidad del modelo lo postula como un candidato seguro para implementación hospitalaria.

  4. Futuras Líneas: Se sugiere validar estos resultados con conjuntos de datos externos para evaluar la generalización del modelo.

6. Referencias Bibliográficas

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. Proceedings of the IEEE conference on computer vision and pattern recognition, 770-778.

Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., … & Guo, B. (2021). Swin transformer: Hierarchical vision transformer using shifted windows. Proceedings of the IEEE/CVF international conference on computer vision, 10012-10022.

Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.