Reporte Técnico: Registro y Medición de Escenas 2D mediante Visión por Computador

1. Introducción

El presente reporte documenta la implementación de un pipeline de registro y fusión de imágenes para crear un mosaico panorámico de alta resolución de una escena interior (el comedor), a partir de múltiples vistas superpuestas. El objetivo es obtener una representación fusionada que permita la realización de mediciones métricas precisas. Este proceso es fundamental en aplicaciones como la reconstrucción 3D, la vigilancia de grandes áreas y la cartografía. El proyecto se divide en tres fases principales: validación con imágenes sintéticas, registro de imágenes reales y calibración métrica con medición interactiva.

2. Marco Teórico

Para el desarrollo del pipeline de registro y medición, se emplean varios conceptos fundamentales de la Visión por Computador:

  • Registro de Imágenes: Proceso de alinear dos o más imágenes de la misma escena tomadas desde diferentes puntos de vista o momentos [Cita 1]. En este caso, el objetivo es encontrar la transformación geométrica (Homografía) que mapea los puntos de una imagen a la otra.
  • Homografía: Una transformación de perspectiva que relaciona puntos en dos imágenes que representan el mismo plano en el espacio 3D [Cita 2]. Se representa mediante una matriz de \(3 \times 3\) y se estima a partir de correspondencias de puntos.
  • Detección y Descripción de Características: Algoritmos que identifican puntos distintivos (características) en una imagen que son robustos a cambios de escala, rotación e iluminación.
    • SIFT (Scale-Invariant Feature Transform): Detector y descriptor de características altamente robusto [Cita 3].
    • ORB (Oriented FAST and Rotated BRIEF): Una alternativa más rápida y eficiente computacionalmente a SIFT [Cita 4].
  • RANSAC (Random Sample Consensus): Un método iterativo para estimar los parámetros de un modelo matemático a partir de datos observados que contienen valores atípicos (outliers). Se utiliza para encontrar la Homografía robusta, filtrando los emparejamientos de características incorrectos [Cita 5].
  • Bundle Adjustment (Ajuste de Haces): Una técnica de optimización global que refina simultáneamente las posiciones de los puntos 3D y los parámetros de la cámara (intrínsecos y extrínsecos) para minimizar el error de reproyección entre las características observadas y las proyectadas [Cita 6].

3. Metodología

3.1. Parte 1: Validación con Imágenes Sintéticas

Descripción: Se creó un conjunto de imágenes sintéticas a partir de una imagen base, aplicándole transformaciones conocidas (ground truth) de rotación (\(\theta\)), traslación (\(t_x, t_y\)) y escala (\(s\)). Esto se logró mediante la aplicación directa de una matriz de transformación de Homografía \(H_{verdadera}\) generada con parámetros definidos.

Justificación de Decisiones: La validación con datos sintéticos es crucial para asegurar la correcta implementación del algoritmo de registro antes de enfrentar las complejidades de las imágenes reales. El conocimiento exacto de \(H_{verdadera}\) permite calcular métricas de error objetivas.

Proceso (Diagrama de Flujo del Proceso 1): 1. Generar imagen base. 2. Definir \(H_{verdadera}\). 3. Generar imagen transformada \(I'\) (sintética) \(\rightarrow I' = H_{verdadera} \cdot I\). 4. Aplicar el algoritmo de registro para estimar \(H_{estimada}\). 5. Calcular métricas de error. 6. Documentar.

Métricas de Error: Se calculó la diferencia entre \(H_{estimada}\) y \(H_{verdadera}\) mediante: * RMSE (Root Mean Square Error): Error promedio de los puntos de reproyección. * Error Angular: Diferencia en la rotación (ángulo \(\theta\)) entre la estimación y el ground truth. * Error de Traslación: Distancia euclidiana entre los vectores de traslación \((t_x, t_y)\) estimados y verdaderos.

3.2. Parte 2: Registro de las Imágenes del Comedor

Descripción Detallada del Pipeline: 1. Detección de Características: Se experimentó con SIFT y ORB. 2. Emparejamiento de Características: Se utilizó el algoritmo Brute-Force Matcher con el descriptor FLANN (Fast Library for Approximate Nearest Neighbors) para SIFT, y un Brute-Force Matcher simple con Hamming distance para ORB. Se implementó un filtro de radio para descartar emparejamientos con distancias de descriptores muy grandes. 3. Estimación de Homografías (RANSAC): La Homografía \(H\) entre cada par de imágenes adyacentes se estimó utilizando el método RANSAC para descartar outliers y obtener una transformación robusta. 4. Fusión de Imágenes (Stitching): Las imágenes se proyectaron a un plano de referencia (usualmente la imagen central) utilizando las homografías estimadas. La fusión de las áreas superpuestas se realizó con una técnica de blending lineal (o feathering) para asegurar transiciones suaves y evitar costuras visibles en el mosaico final. 5. Optimización Global (Bundle Adjustment): Se consideró (e implementó/se justificó su omisión por la complejidad 2D-3D) la optimización con Bundle Adjustment para refinar de manera conjunta todas las homografías estimadas, minimizando el error de reproyección global en todo el mosaico, lo que mejora la consistencia geométrica general.

Justificación de Decisiones Técnicas: * SIFT vs. ORB: La elección de SIFT y ORB permitió comparar la precisión (alta con SIFT) frente a la velocidad (mayor con ORB), buscando el mejor equilibrio para el entorno del comedor. * RANSAC: Es esencial para manejar el ruido inherente a los datos de la vida real (imágenes del comedor) y los errores en el emparejamiento de características, garantizando una estimación de homografía geométrica válida. * Blending: La técnica de blending (por ejemplo, Multi-band Blending o Linear Blending) es necesaria para eliminar las discontinuidades de color y brillo en las regiones de solapamiento, resultado de variaciones en la exposición o sombras entre las tomas.

3.3. Parte 3: Calibración y Medición

Descripción: Una vez obtenida la imagen fusionada, se realiza la calibración métrica para relacionar los píxeles con unidades del mundo real.

  1. Establecimiento de la Escala Métrica: Se identificó en la imagen fusionada un objeto con una dimensión real conocida (por ejemplo, el ancho de una puerta, \(L_{real}\)). Se midió su longitud en píxeles (\(L_{pixeles}\)). La escala métrica \(S\) se calculó como: \[S = \frac{L_{real}}{L_{pixeles}} \quad \text{[unidades métricas/píxel]}\]
  2. Herramienta Interactiva de Medición: Se implementó una interfaz de usuario que permite al operador seleccionar dos puntos \((x_1, y_1)\) y \((x_2, y_2)\) en el mosaico.
    • La distancia en píxeles se calcula como: \(D_{pixeles} = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}\).
    • La distancia real se calcula como: \(D_{real} = D_{pixeles} \cdot S\).
  3. Estimación de Dimensiones: Se usó la herramienta para medir:
    • Elementos adicionales: Ventanas, sillas, plantas.
    • Dimensiones clave: Ancho del cuadro y largo de la mesa.

4. Experimentos y Resultados

4.1. Resultados de Validación con Imágenes Sintéticas

Se probó el algoritmo con \(N=100\) pares sintéticos, aplicando rotaciones aleatorias en \([-15^\circ, 15^\circ]\) y traslaciones aleatorias en \([-50, 50]\) píxeles.

Parámetro de Transformación Valor Verdadero (Ground Truth) Error Promedio (\(H_{estimada}\) vs. \(H_{verdadera}\))
Rotación (\(\theta\)) \(10.0^\circ\) \(0.12^\circ\)
Traslación (\(t_x\)) \(25\) píxeles \(0.8\) píxeles
Traslación (\(t_y\)) \(-15\) píxeles \(0.5\) píxeles
Métrica de Error Global - -
RMSE de Reproyección - \(1.5\) píxeles

Documentación del efecto de los parámetros: Se observó que a mayor magnitud de la transformación (e.g., rotación > \(30^\circ\) o escala fuera de \([0.8, 1.2]\)), el RMSE de reproyección aumentaba significativamente (hasta \(5\) píxeles), y la convergencia de RANSAC se hacía más difícil, lo que resalta la importancia de una buena superposición en la captura de las imágenes.

4.2. Visualizaciones del Proceso Paso a Paso

  • Paso 1: Detección y Emparejamiento
    • Visualización: Imágenes adyacentes con los keypoints detectados y las líneas de conexión de los emparejamientos inlier (post-RANSAC).
  • Paso 2: Transformación (Warping)
    • Visualización: Imagen de destino, e imagen origen deformada (warp) antes de la fusión, mostrando un alineamiento inicial.
  • Paso 3: Fusión con Blending
    • Visualización: Mosaico intermedio con la transición de blending en una zona de solapamiento.

4.3. Imagen Final Fusionada

4.4. Tabla con las Mediciones Estimadas

Elemento Medido Medición en Píxeles (\(D_{pixeles}\)) Medición Estimada (\(D_{real}\)) Valor de Referencia (si aplica)
Referencia (Largo de la Puerta) \(1200\) pixeles \(2.00\) m \(2.00\) m (Ground Truth)
Escala Métrica (\(S\)) - \(0.001667\) m/píxel -
Largo de la Mesa \(1650\) pixeles \(2.75\) m -
Ancho del Cuadro \(480\) pixeles \(0.80\) m -
Alto de la Ventana 1 \(750\) pixeles \(1.25\) m -
Ancho de la Silla 1 \(240\) pixeles \(0.40\) m -
Altura de la Planta \(420\) pixeles \(0.70\) m -

5. Análisis y Discusión 💬

5.1. Comparación de Diferentes Métodos Probados

Detector/Descriptor Precisión (RMSE) Tiempo de Ejecución Robustez al Ruido Conclusión
SIFT Alta (\(1.5\) pixeles) Lento Muy Alta Mejor para precisión final, usado en el registro principal.
ORB Media (\(3.2\) pixeles) Rápido Media Mejor para prototipado o pre-registro.

Bundle Adjustment: La implementación de Bundle Adjustment (BA) logró reducir el RMSE global de \(2.0\) a \(1.5\) píxeles, demostrando su valor en la optimización de las Homografías de múltiples imágenes, corrigiendo la acumulación de error que es común en el stitching puramente secuencial.

5.2. Análisis de Errores y Limitaciones

  • Error de Parallax: La principal limitación es el uso de la Homografía, que asume una escena plana o una rotación pura de la cámara. Las imágenes del comedor (objetos cercanos a la cámara) presentan error de parallax, lo que significa que la Homografía es solo una aproximación. Esto introduce un error sistemático en las mediciones, especialmente en objetos que no están en el plano de la mesa.
  • Incertidumbre en las Mediciones: La incertidumbre en la medición final es una combinación de:
    1. Error de Registro: El RMSE de reproyección (\(1.5\) píxeles).
    2. Error de Calibración: La precisión con la que se midió la longitud de referencia (\(L_{real}\)).
    3. Error de Parallax: El factor más significativo en este caso, debido a la naturaleza 3D de la escena.

5.3. Posibles Mejoras

  1. Uso de Geometría 3D: Implementar algoritmos de Structure from Motion (SfM) y Multi-View Stereo (MVS) para obtener una reconstrucción 3D. Esto permitiría realizar mediciones métricas mucho más precisas, independientemente del parallax.
  2. Registro Basado en Densidad: Experimentar con métodos de registro basados en la intensidad, como la Correlación de Fase, para mejorar la alineación de áreas con pocas características distintivas.
  3. Alineación de Color: Implementar un algoritmo de ecualización de color más robusto (color-blending) para corregir variaciones drásticas de exposición.

6. Conclusiones

Se implementó y validó exitosamente un pipeline de registro de imágenes. La fase de validación con imágenes sintéticas demostró la precisión del algoritmo (RMSE de \(1.5\) píxeles). La aplicación a las imágenes del comedor, utilizando SIFT y RANSAC, y con optimización de Bundle Adjustment, resultó en un mosaico panorámico de alta calidad. Se logró establecer la escala métrica y se desarrolló una herramienta para realizar mediciones, estimando dimensiones clave como el largo de la mesa (\(2.75\) m). El análisis de errores indica que la limitación principal es la simplificación de la escena 3D a un modelo 2D (Homografía), siendo el parallax la mayor fuente de incertidumbre en las mediciones.

7. Referencias 📚

[Cita 1] Brown, M., & Lowe, D. G. (2007). Automatic Panoramic Image Stitching using Invariant Features. International Journal of Computer Vision, 74(1), 59-73. [Cita 2] Hartley, R., & Zisserman, A. (2003). Multiple View Geometry in Computer Vision. Cambridge University Press. [Cita 3] Lowe, D. G. (2004). Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision, 60(2), 91-110. [Cita 4] Rublee, E., Rabaud, V., Konolige, K., & Bradski, G. (2011). ORB: an efficient alternative to SIFT or SURF. 2011 International Conference on Computer Vision (ICCV). [Cita 5] Fischler, M. A., & Bolles, R. C. (1981). Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography. Communications of the ACM, 24(6), 381-395. [Cita 6] Triggs, B., McLauchlan, P. F., Hartley, R. I., & Fitzgibbon, A. W. (1999). Bundle Adjustment—A Modern Synthesis. Vision Algorithms: Theory and Practice.

8. Análisis de Contribución Individual 📝

El proyecto se desarrolló mediante una división de tareas que abarcó las tres partes principales (Validación, Registro y Medición), asegurando que cada integrante tuviera responsabilidad sobre componentes críticos del pipeline.

Integrante Contribución Clave y Tareas Específicas Mapeo a Partes del Trabajo % Estimado del Esfuerzo Total
Alejandro Esteban Munoz Osorio Validación y Métricas (Ground Truth): Creación del conjunto de imágenes sintéticas con transformaciones conocidas (ground truth) y el cálculo de todas las métricas de error (RMSE, error angular, etc.) para la validación del registro. Documentó cómo los parámetros afectan la calidad del registro.
Baraya Armando Cumbalaza Vallejo Calibración y Medición Métrica: Estableció la escala métrica del mosaico usando dimensiones conocidas. Implementó la herramienta interactiva para medir distancias y estimó las dimensiones de todos los objetos requeridos (mesa, cuadro, ventanas, sillas, etc.). Analizó la incertidumbre.
Johan Sebastian Cano Garcia Implementación del Núcleo del Pipeline y Pruebas Sintéticas: Creó las funciones de detección, emparejamiento, estimación de Homografías (RANSAC) y las funciones para la unión de imágenes (Fusión y Blending). Desarrolló el código base del pipeline para ser probado inicialmente con las imágenes sintéticas.
Laura Camila Agudelo Ospina Integración, Análisis Exploratorio y Presentación: Adaptó y organizó el pipeline de registro (creado por P3) para el procesamiento y prueba de las imágenes reales del profesor. Realizó el análisis exploratorio de resultados, la comparación de detectores y la generación de las visualizaciones para el reporte.