Few-Shot Segmentation

“Segmentación a partir de muy pocos ejemplos”

Juan C. Alfonso, Johann C. Rincón

Motivación

Proceso de segmentación

Dependencia de muchos datos

Requisitos típicos del aprendizaje supervisado: 1,000-10,000+ ejemplos por clase, además de un proceso de etiquetado costoso y lento. También especialistas requeridos para anotación y meses de preparación de datasets.

Casos problemáticos:

Medicina: Enfermedades raras (< 50 casos mundiales)

Manufactura: Defectos específicos por producto

Investigación: Especies en peligro de extinción

Rigidez ante cambios: Re-entrenamiento completo necesario para nuevas clases

Terminología

Aproximación inicial y contexto

Conceptos fundamentales

Solución: Meta-Learning y Few-Shot Learning

Meta Learning

En este enfoque, en lugar de entrenar un modelo para que domine una única tarea específica, se lo entrena a través de una multitud de tareas diversas.

Hallar \(\theta\) que minimice la pérdida esperada sobre una distribución de tareas \(p(\mathcal{T})\), después de que el modelo se haya adaptado a cada tarea específica \(\mathcal{T}_i\) con sus propios \(\mathcal{D}_i^{\text {train }}\) para obtener los nuevos \(\phi_i\).

La función objetivo del meta-aprendizaje se formaliza como:

\[ \theta^*=\arg \min _\theta \mathbb{E}_{\mathcal{T}_i \sim p(\mathcal{T})}\left[\mathcal{L}\left(\phi_i, \mathcal{D}_i^{\text {test }}\right)\right] \]

donde \(\phi_i\) se deriva de una actualización de \(\theta\) sobre los datos de la tarea \(\mathcal{T}_i\).

Aprender a aprender - Entrenar modelos para que puedan adaptarse rápidamente a nuevas tareas con mínimos ejemplos.

Solución: Meta-Learning y Few-Shot Learning

Few-Shot Learning

Define un problema de clasificación de tipo N-way K-shot, donde se aprende a partir de:

  1. Conjunto de soporte (Support Set) \(\mathcal{S}\) : Contiene \(K\) ejemplos para cada una de las \(N\) clases.

\[ \mathcal{S}=\left\{\left(x_i, y_i\right)\right\}_{i=1}^{N \times K} \]

  1. Conjunto de consulta (Query Set) \(\mathcal{Q}\) : Contiene nuevas muestras de las mismas \(N\) clases

\[ \mathcal{Q}=\left\{\left(x_j^*, y_j^*\right)\right\}_{j=1}^Q \] Se busca minimizar la función de pérdida sobre el conjunto de consulta: \(\min _f \sum_{\left(x_j^*, y_j^*\right) \in \mathcal{Q}} \mathcal{L}\left(f\left(x_j^* \mid \mathcal{S}\right), y_j^*\right)\)

Metodología

Arquitectura general

Pipeline completo

Ejemplo

Mecanismo central

Evaluación y aplicaciones

¿Cómo medimos si el modelo acierta?

Casos de uso reales

Investigación

Estado actual

Es un área de investigación activa.

Avances recientes (2023-2025)

Desafíos abiertos

Ejemplo ilustrativo

Referencias

  1. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.

  2. Weng, L. (2018). Meta-Learning: Learning to Learn Fast. Lil’Log.

  3. Boudiaf, M., Ziko, M., Ben-Daya, M., & Dolz, J. (2023). A unified survey on few-shot semantic segmentation: A task-driven categorization. International Journal of Computer Vision.

  4. Ravi, S., & Larochelle, H. (2017). Optimization as a model for few-shot learning. En Proceedings of the International Conference on Learning Representations (ICLR).

  5. Shaban, A., Bansal, S., Liu, Z., Essa, I., & Boots, B. (2017). One-shot learning for semantic segmentation. En Proceedings of the British Machine Vision Conference (BMVC).

  6. Snell, J., Swersky, K., & Zemel, R. S. (2017). Prototypical networks for few-shot learning. En Proceedings of the Conference on Neural Information Processing Systems (NeurIPS).

  7. Wang, X., Zhang, X., Cao, Y., Wang, W., Shen, C., & Huang, T. (2023). SegGPT: Segmenting everything in context. En Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

Gracias!