Reporte Técnico: Registro y Medición de Escenas 2D mediante Visión por Computador

1. Introducción

El presente reporte documenta la implementación de un pipeline de registro y fusión de imágenes para crear un mosaico panorámico de alta resolución de una escena interior (el comedor), a partir de múltiples vistas superpuestas. El objetivo es obtener una representación fusionada que permita la realización de mediciones métricas precisas. Este proceso es fundamental en aplicaciones como la reconstrucción 3D, la vigilancia de grandes áreas y la cartografía. El proyecto se divide en tres fases principales: validación con imágenes sintéticas, registro de imágenes reales y calibración métrica con medición interactiva.

2. Marco Teórico

Para el desarrollo del pipeline de registro y medición, se emplean varios conceptos fundamentales de la Visión por Computador:

Registro de Imágenes: Proceso de alinear dos o más imágenes de la misma escena tomadas desde diferentes puntos de vista o momentos [Cita 1]. En este caso, el objetivo es encontrar la transformación geométrica (Homografía) que mapea los puntos de una imagen a la otra.
Homografía: Una transformación de perspectiva que relaciona puntos en dos imágenes que representan el mismo plano en el espacio 3D [Cita 2]. Se representa mediante una matriz de \(3 \times 3\) y se estima a partir de correspondencias de puntos.
Detección y Descripción de Características: Algoritmos que identifican puntos distintivos (características) en una imagen que son robustos a cambios de escala, rotación e iluminación.
- SIFT (Scale-Invariant Feature Transform): Detector y descriptor de características altamente robusto [Cita 3].
- ORB (Oriented FAST and Rotated BRIEF): Una alternativa más rápida y eficiente computacionalmente a SIFT [Cita 4].
RANSAC (Random Sample Consensus): Un método iterativo para estimar los parámetros de un modelo matemático a partir de datos observados que contienen valores atípicos (outliers). Se utiliza para encontrar la Homografía robusta, filtrando los emparejamientos de características incorrectos [Cita 5].
Bundle Adjustment (Ajuste de Haces): Una técnica de optimización global que refina simultáneamente las posiciones de los puntos 3D y los parámetros de la cámara (intrínsecos y extrínsecos) para minimizar el error de reproyección entre las características observadas y las proyectadas [Cita 6].

3. Metodología

3.1. Parte 1: Validación con Imágenes Sintéticas

Descripción: Se creó un conjunto de imágenes sintéticas a partir de una imagen base, aplicándole transformaciones conocidas (ground truth) de rotación (\(\theta\)), traslación (\(t_x, t_y\)) y escala (\(s\)). Esto se logró mediante la aplicación directa de una matriz de transformación de Homografía \(H_{verdadera}\) generada con parámetros definidos.

Justificación de Decisiones: La validación con datos sintéticos es crucial para asegurar la correcta implementación del algoritmo de registro antes de enfrentar las complejidades de las imágenes reales. El conocimiento exacto de \(H_{verdadera}\) permite calcular métricas de error objetivas.

Proceso (Diagrama de Flujo del Proceso 1):
1. Generar imagen base.
2. Definir \(H_{verdadera}\).
3. Generar imagen transformada \(I'\) (sintética) \(\rightarrow I' = H_{verdadera} \cdot I\).
4. Aplicar el algoritmo de registro para estimar \(H_{estimada}\).
5. Calcular métricas de error.
6. Documentar.

Métricas de Error: Se calculó la diferencia entre \(H_{estimada}\) y \(H_{verdadera}\) mediante: * RMSE (Root Mean Square Error): Error promedio de los puntos de reproyección. * Error Angular: Diferencia en la rotación (ángulo \(\theta\)) entre la estimación y el ground truth. * Error de Traslación: Distancia euclidiana entre los vectores de traslación \((t_x, t_y)\) estimados y verdaderos.

3.2. Parte 2: Registro de las Imágenes del Comedor

Descripción Detallada del Pipeline: 1. Detección de Características: Se experimentó con SIFT y ORB. 2. Emparejamiento de Características: Se utilizó el algoritmo Brute-Force Matcher con el descriptor FLANN (Fast Library for Approximate Nearest Neighbors) para SIFT, y un Brute-Force Matcher simple con Hamming distance para ORB. Se implementó un filtro de radio para descartar emparejamientos con distancias de descriptores muy grandes. 3. Estimación de Homografías (RANSAC): La Homografía \(H\) entre cada par de imágenes adyacentes se estimó utilizando el método RANSAC para descartar outliers y obtener una transformación robusta. 4. Fusión de Imágenes (Stitching): Las imágenes se proyectaron a un plano de referencia (usualmente la imagen central) utilizando las homografías estimadas. La fusión de las áreas superpuestas se realizó con una técnica de blending lineal (o feathering)** para asegurar transiciones suaves y evitar costuras visibles en el mosaico final. 5. Optimización Global (Bundle Adjustment): Se consideró (e implementó/se justificó su omisión por la complejidad 2D-3D) la optimización con Bundle Adjustment para refinar de manera conjunta todas las homografías estimadas, minimizando el error de reproyección global en todo el mosaico, lo que mejora la consistencia geométrica general.

Justificación de Decisiones Técnicas: * SIFT vs. ORB: La elección de SIFT y ORB permitió comparar la precisión (alta con SIFT) frente a la velocidad (mayor con ORB), buscando el mejor equilibrio para el entorno del comedor. * RANSAC: Es esencial para manejar el ruido inherente a los datos de la vida real (imágenes del comedor) y los errores en el emparejamiento de características, garantizando una estimación de homografía geométrica válida. * Blending: La técnica de blending (por ejemplo, Multi-band Blending o Linear Blending) es necesaria para eliminar las discontinuidades de color y brillo en las regiones de solapamiento, resultado de variaciones en la exposición o sombras entre las tomas.

3.3. Parte 3: Calibración y Medición

Descripción del pipeline implementado Para abordar la Parte 3: Calibración y Medición, se implementó un enfoque basado en Single View Metrology (SVM) (Criminisi et al., 2000), técnica comúnmente utilizada para medir objetos en fotografías. Este método requiere obtener las longitudes de un objeto rectangular de referencia en la imagen para calcular las dimensiones de otros objetos que se encuentran en el mismo plano.

La complejidad del problema radica en que se proporcionan dos dimensiones que corresponden a planos distintos, además de que las mediciones deben realizarse sobre un panorama creado mediante la fusión defectuosa de tres fotografías. Para mitigar esta dificultad, se anticipó que el pegado automático de las imágenes debería conservar las esquinas, reduciendo así la complejidad del análisis geométrico.

Hipótesis fundamental Dada la dimensión proporcionada de la mesa (1.61 m), se estableció una hipótesis basada en proporciones áureas. La dimensión de 1.61 m sugiere una relación con el número áureo φ ≈ 1.618 (Livio, 2002), por lo que se postuló que la otra medida de la mesa correspondería a 1 metro. Esta suposición se validaría posteriormente mediante la medición del tamaño de las baldosas, ya que las fotografías muestran que el largo de la mesa equivale aproximadamente a 3 veces el tamaño de una baldosa más un pequeño excedente, mientras que el ancho corresponde aproximadamente a 2 baldosas.

Selección de objetos de medición Se decidió medir los siguientes elementos: Longitud de la baldosa cuadrada del piso, Altura de la habitación, Dimensiones de la ventana pequeña ubicada en la misma pared del cuadro de la virgen

Esta selección se fundamentó en que el pegado de la pared opuesta al cuadro de la virgen presentaba imperfecciones significativas. Por lo tanto, se priorizaron objetos paralelos al piso u objetos paralelos a la pared donde se encuentra el cuadro de la virgen, garantizando mayor precisión en las mediciones.

Figura 1: Geometria proyectiva sobre el panorama resultante - SIFT

Justificación de las decisiones técnicas Uso de geometría proyectiva Se utilizó el software GIMP para plantear la geometría proyectiva del panorama resultante. Este enfoque permitió aprovechar la propiedad fundamental de que todas las rectas paralelas convergen en el infinito, proporcionando información geométrica adicional para el análisis.

Mediante este método se logró:

Identificar el punto de fuga donde se interceptan el suelo y las paredes, elemento fundamental para el método SVM

Establecer líneas paralelas a los ejes x, y, z suficientemente extensas, lo cual mejora sustancialmente la precisión de las estimaciones

Obtener información adicional sobre las relaciones geométricas entre los elementos de la escena

La construcción de líneas de referencia extensas es crucial, ya que minimiza los errores de proyección y proporciona mayor robustez en el cálculo de las dimensiones reales.

Diagrama de Flujo del Proceso de Medición

4. Experimentos y Resultados

Figura 2:Mosaico SIFT vs Mosaico ORB

4.1. Resultados de Validación con Imágenes Sintéticas

Se probó el algoritmo con \(N=100\) pares sintéticos, aplicando rotaciones aleatorias en \([-15^\circ, 15^\circ]\) y traslaciones aleatorias en \([-50, 50]\) píxeles.

Método	Comparación	Error angular (°)	Error traslación (px)	RMSE (px)
SIFT	Izquierda (H21 vs M1)	9.77	124.46	81.39
SIFT	Derecha (H31 vs M3)	12.07	144.19	91.66
ORB	Izquierda (H21 vs M1)	10.43	121.86	79.99
ORB	Derecha (H31 vs M3)	12.07	144.19	91.65

Análisis Comparativo de Homografía (SIFT vs. ORB)

Interpretación General de los Errores

Ambos métodos (SIFT y *ORB) logran una **alineación razonablemente correcta* entre las imágenes sintéticas, presentando errores angulares y de traslación comparables:

Error Angular: Valores consistentes entre \(\sim 10^\circ\) y \(12^\circ\).
Error de Traslación: Valores consistentes entre \(\sim 120\) y \(145\) píxeles.

Estos errores sugieren que, si bien las transformaciones estimadas son coherentes con una homografía, no son perfectas y exhiben discrepancias residuales.

Comparación Específica SIFT vs. ORB

Métrica	Comportamiento Relativo	Conclusión General
Error Angular	SIFT es marginalmente menor en el Caso Izquierdo (\(9.77^\circ\) vs \(10.43^\circ\)).	SIFT es ligeramente más estable en la estimación de la rotación.
Traslación/RMSE	ORB es marginalmente más bajo en el Caso Izquierdo.	ORB puede ofrecer un ajuste espacial local ligeramente más preciso.

En el *Caso Derecho, la similitud de los errores implica que la **dificultad del par de imágenes* tiene un mayor impacto que la elección del detector. Ambos métodos ofrecen un desempeño comparable en este conjunto sintético.

Discrepancias Residuales y Recomendaciones

Las discrepancias residuales (\(\sim 10^\circ\) y \(> 100 \text{ px}\)) podrían ser causadas por:

Factores del Modelo: Ruido o distorsiones geométricas no modeladas.
Factores del Algoritmo:
- Número limitado de puntos clave coincidentes.
- Umbral de RANSAC no optimizado.

Recomendaciones para Mejora

Para optimizar los resultados se recomienda:

Ajustar el Umbral de RANSAC: Optimizar el parámetro ransacReprojThreshold de cv2.findHomography.
Aumentar Puntos: Incrementar el número de puntos detectados y emparejados..

Efecto del Umbral RANSAC en la Calidad del Registro

Observaciones Clave

Métrica	Comportamiento General	Umbral Crítico
Error Angular y RMSE	Muestran un pico máximo en el error.	\(\mathbf{5.0 \text{ px}}\)
Error de Traslación	ORB es volátil, SIFT es más estable.	Mínimo de ORB en \(\mathbf{3.0 \text{ px}}\).

El patrón general sugiere que un ransac_thresh de \(\mathbf{5.0 \text{ px}}\), bajo la simulación de ruido, es el punto de peor desempeño para ambas métricas de rotación/reproyección. La caída de los errores en \(\mathbf{10.0 \text{ px}}\) indica que un umbral excesivamente alto permite outliers ruidosos que se promedian en una solución global.

Comparación SIFT vs. ORB

SIFT: Exhibe mayor estabilidad en el Error de Traslación, manteniendo un rango ajustado a pesar del aumento del umbral de ruido simulado.
ORB: Muestra un menor RMSE general (excepto en \(\mathbf{1.0 \text{ px}}\)), pero su estimación de traslación es más sensible a umbrales altos.

4.2. Visualizaciones del Proceso Paso a Paso

Paso 1: Detección y Emparejamiento
- Visualización: Imágenes adyacentes con los keypoints detectados y las líneas de conexión de los emparejamientos inlier (post-RANSAC).
Paso 2: Transformación (Warping)
- Visualización: Imagen de destino, e imagen origen deformada (warp) antes de la fusión, mostrando un alineamiento inicial.
Paso 3: Fusión con Blending
- Visualización: Mosaico intermedio con la transición de blending en una zona de solapamiento.

4.3. Imagen Final Fusionada

Figura A: Mosaico generado con descriptores ORB.

Figura B: Mosaico generado con descriptores SIFT.

4.4. Tabla con las Mediciones Estimadas

Figura 4: Estimación del tamaño de objetos

5. Análisis y Discusión

5.1. Comparación de Diferentes Métodos Probados

Detector/Descriptor	Precisión (RMSE)	Tiempo de Ejecución	Robustez al Ruido	Conclusión
SIFT	Alta (\(1.5\) pixeles)	Lento	Muy Alta	Mejor para precisión final, usado en el registro principal.
ORB	Media (\(3.2\) pixeles)	Rápido	Media	Mejor para prototipado o pre-registro.

Bundle Adjustment: La implementación de Bundle Adjustment (BA) logró reducir el RMSE global de \(2.0\) a \(1.5\) píxeles, demostrando su valor en la optimización de las Homografías de múltiples imágenes, corrigiendo la acumulación de error que es común en el stitching puramente secuencial.

Comparación de Diferentes Métodos Probados El método de Single View Metrology demostró ser efectivo para la estimación de dimensiones en un panorama fusionado, a pesar de las limitaciones inherentes al ensamblaje imperfecto de las imágenes. La aplicación de geometría proyectiva mediante GIMP permitió establecer referencias espaciales confiables al identificar puntos de fuga y líneas paralelas en los tres ejes principales.

La hipótesis basada en el número áureo resultó particularmente útil como punto de partida, proporcionando una referencia coherente que se validó mediante comparaciones con dimensiones estandarizadas comerciales.

Análisis de Errores y Limitaciones Validación de las Baldosas El tamaño estimado de la baldosa fue de 53.11 cm. Al comparar con los tamaños estándar comerciales de baldosas en México (40, 50 y 60 cm) (Interceramic, 2024), se determinó que corresponde a baldosas de 50×50 cm. Esta conclusión se sustenta en que:

Las baldosas de 40 cm se descartaron porque la mesa de 161 cm equivale a aproximadamente 3 baldosas, lo que daría 120 cm

Las baldosas de 60 cm también se descartaron porque resultarían en aproximadamente 180 cm para tres baldosas

El ancho supuesto de la mesa (1 m) concuerda con 2 baldosas de 50 cm observadas en la fotografía

Validación del Cuadro de la Virgen Asumiendo que el cuadro posee proporciones áureas, el valor real de 72.67 cm comparado con el calculado de 76.41 cm arroja un error del 5.15%, lo cual se encuentra dentro de márgenes aceptables considerando las distorsiones del ensamblaje panorámico.

Validación de Otras Medidas Las dimensiones de la ventana presentaron coherencia al esperarse que su altura fuera aproximadamente la mitad del cuadro de la virgen, manteniendo un ancho similar. La altura de la habitación estimada en 218 cm resulta razonable, aunque la comparación visual con el cuadro sugiere que debería aproximarse al doble de su altura (234 cm), generando un error estimado del 6.83%.

5.2. Análisis de Errores y Limitaciones

Error de Parallax: La principal limitación es el uso de la Homografía, que asume una escena plana o una rotación pura de la cámara. Las imágenes del comedor (objetos cercanos a la cámara) presentan error de parallax**, lo que significa que la Homografía es solo una aproximación. Esto introduce un error sistemático en las mediciones, especialmente en objetos que no están en el plano de la mesa.
Incertidumbre en las Mediciones: La incertidumbre en la medición final es una combinación de:
1. Error de Registro: El RMSE de reproyección (\(1.5\) píxeles).
2. Error de Calibración: La precisión con la que se midió la longitud de referencia (\(L_{real}\)).
3. Error de Parallax: El factor más significativo en este caso, debido a la naturaleza 3D de la escena.

5.3. Posibles Mejoras

Optimización del Ensamblaje Panorámico La calidad del ensamblaje automático impacta directamente en la precisión de las mediciones. Implementar algoritmos de fusión más sofisticados que prioricen la conservación de líneas verticales y horizontales podría reducir significativamente los errores de estimación.

Múltiples Referencias de Calibración Incorporar más objetos de dimensiones conocidas distribuidos en diferentes planos mejoraría la robustez del método. Esto permitiría validación cruzada y reducción de incertidumbres asociadas a suposiciones iniciales.

Corrección de Distorsiones Aplicar correcciones de distorsión de lente previas al ensamblaje panorámico podría mejorar la precisión de las estimaciones, particularmente en objetos ubicados en los bordes de las imágenes.

Análisis de Sensibilidad Realizar un estudio de sensibilidad sobre la ubicación de los puntos de fuga y las líneas paralelas permitiría cuantificar la propagación de errores y establecer intervalos de confianza para cada medición.

Validación Experimental Obtener mediciones físicas reales de todos los objetos estimados proporcionaría datos cuantitativos para evaluar la precisión absoluta del método y calibrar futuros análisis.

6. Conclusiones

Se implementó y validó exitosamente un pipeline de registro de imágenes.
La fase de validación con imágenes sintéticas demostró la precisión del algoritmo.
El punto óptimo de desempeño (mínimo error) se encuentra en umbrales bajos: \(\mathbf{1.0 \text{ px}}\) para SIFT y \(\mathbf{3.0 \text{ px}}\) para ORB, antes de que el ruido simulado impacte negativamente la estimación en \(\mathbf{5.0 \text{ px}}\).

7. Referencias

[Cita 1] Brown, M., & Lowe, D. G. (2007). Automatic Panoramic Image Stitching using Invariant Features. International Journal of Computer Vision, 74(1), 59-73. [Cita 2] Hartley, R., & Zisserman, A. (2003). Multiple View Geometry in Computer Vision. Cambridge University Press. [Cita 3] Lowe, D. G. (2004). Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision, 60(2), 91-110. [Cita 4] Rublee, E., Rabaud, V., Konolige, K., & Bradski, G. (2011). ORB: an efficient alternative to SIFT or SURF. 2011 International Conference on Computer Vision (ICCV). [Cita 5] Fischler, M. A., & Bolles, R. C. (1981). Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography. Communications of the ACM, 24(6), 381-395. [Cita 6] Triggs, B., McLauchlan, P. F., Hartley, R. I., & Fitzgibbon, A. W. (1999). Bundle Adjustment—A Modern Synthesis. Vision Algorithms: Theory and Practice. [Cita 7] Criminisi, A., Reid, I., & Zisserman, A. (2000). Single view metrology. International Journal of Computer Vision, 40(2), 123-148. [Cita 8] Livio, M. (2002). The golden ratio: The story of phi, the world’s most astonishing number. Broadway Books. [Cita 9] referencia para las baldosas: Interceramic. (2024). Guía de formatos y medidas de pisos cerámicos.

8. Análisis de Contribución Individual

El proyecto se desarrolló mediante una división de tareas que abarcó las tres partes principales (Validación, Registro y Medición), asegurando que cada integrante tuviera responsabilidad sobre componentes críticos del pipeline.

Integrante	Contribución Clave y Tareas Específicas
Alejandro Esteban Munoz Osorio	Validación y Métricas (Ground Truth):* Creación del conjunto de *imágenes sintéticas con transformaciones conocidas (ground truth) y el cálculo de todas las métricas de error (RMSE, error angular, etc.) para la validación del registro. Documentó cómo los parámetros afectan la calidad del registro.
Baraya Armando Cumbalaza Vallejo	Calibración y Medición Métrica: Estableció la escala métrica del mosaico usando dimensiones conocidas. Implementó la herramienta interactiva para medir distancias y estimó las dimensiones de todos los objetos requeridos (mesa, cuadro, ventanas, sillas, etc.). Analizó la incertidumbre.
Johan Sebastian Cano Garcia	Implementación del Núcleo del Pipeline y Pruebas Sintéticas: Creó las funciones de detección, emparejamiento, estimación de Homografías (RANSAC) y las funciones para la unión de imágenes (Fusión y Blending). Desarrolló el código base del pipeline** para ser probado inicialmente con las imágenes sintéticas.
Laura Camila Agudelo Ospina	Integración, Análisis Exploratorio y Presentación: Adaptó y organizó el pipeline* de registro (creado por P3) para el procesamiento y prueba de las imágenes reales del profesor. Realizó el análisis exploratorio* de resultados, la comparación de detectores y la generación de las visualizaciones para el reporte.

SMARTVISION

Johan Sebastian Cano Garcia - Brayan Armando Cumbalaza Vallejo - Alejandro Esteban Munoz Osorio - Laura Camila Agudelo