Seminario Internacional PortADa

Enfoques computacionales para desambiguar nombres de barcos (Barcelona, Buenos Aires, La Habana, Marsella, 1850-1914)

Departamento de Historia y Arqueología

Universidad de Barcelona

Dr. Agustín Nieto (INHUS-CONICET/UNMdP)

| @agusnieto77

3 y 4 de marzo de 2025

Coincidencia difusa

Un algoritmo de coincidencia difusa de nombres es una técnica que permite comparar y emparejar nombres con pequeñas diferencias, variaciones o errores. Esta técnica es especialmente útil al trabajar con fuentes de datos que contienen nombres con distintas ortografías, abreviaturas, información faltante o errores tipográficos, como ocurre con los nombres de los barcos en la base de datos construida en el marco del proyecto PortADa.

Casos de uso
Caso Ejemplo
Ortografías diferentes “Santa María” vs. “Santamaría”
Abreviaturas “St.” vs. “Santo”
Errores tipográficos “Juanita” vs. “Juanito”
Información faltante “La Esperanza” vs. “Esperanza”

Tres Enfoques Principales

  1. Similitud Fonética
    • Se basa en cómo SUENAN los nombres
    • Ejemplo: “Smith” ≈ “Smyth”
    • Algoritmos: Soundex, Metaphone

  1. Similitud de Caracteres
    • Se basa en cómo se ESCRIBEN los nombres
    • Ejemplo: “Giuseppe” ≈ “Joseppe”
    • Algoritmos: Levenshtein, Jaro-Winkler

  1. Similitud Semántica
    • Se basa en el SIGNIFICADO
    • Ejemplo: “Bob” ≈ “Robert”
    • Usa modelos de incrustación (contexto semántico)

¿Para qué se puede utilizar?

Área Aplicaciones
Gestión de Datos • Limpieza de bases de datos
• Desambiguación
Búsqueda • Motores de búsqueda
• Consultas semánticas
Usuario • Corrección automática
• Validación de entrada

Desafíos

Categoría Desafíos
Culturales • Ambigüedad y variaciones en nombres
• Diferentes convenciones de nomenclatura
• Caracteres especiales y diacríticos
• Transliteraciones entre idiomas
Técnicos • Falta de contexto en la comparación
• Problemas de calidad de datos
• Escalabilidad y rendimiento
• Dificultad con nombres comunes

Enfoque en desarrollo

Enfoque híbrido para identificación de embarcaciones

El enfoque híbrido integra algoritmos de similitud (fonética, morfológica y semántica) con análisis contextual de variables técnicas y operativas de las embarcaciones. Al considerar simultáneamente el nombre del barco junto con características físicas, datos operativos e información temporal, el sistema establece coincidencias más precisas y confiables. Esta aproximación holística mejora la precisión en la identificación y proporciona mayor resistencia ante datos incompletos, adaptándose dinámicamente a diferentes contextos.

Resultados esperados I

Datos crudos

Resultados esperados II

Datos crudos

Resultados esperados III

Datos crudos

Información cruda en formato plano

De Alcudia en 3 d. laud S. Antonio, de 39 t., p. A. Masot, con 500 qq. carbon 15 de enea.

De id. en 2 d. laud Cármen, de 25 t., p. A. Bombi, con 400 qq. algarrobas á la órden.

De Cardiff en 20 d. polacra Catalina, de 211 t., c. A. Ansaldi, con 280 t. carbon de piedra á la órden.

De Cádiz en 22 d. laud Salvador, de 60 t., p. 0. Poch, con 150 langotes estaño á Don M. Llobet, 5 cajas y 5 fardos cobre viejo à D. P. Fosas, 4 cajas, 5 fardos id. y 50 sacos cacao á D. B. Vidal, 150 id. à D. J. M. Serra, 50 de garbanzos á D. L. Coca y hermano, 50 balas algodon y 150 cajas azúcar á la órden y 40 @ coclunilla á D. A. Aguilera y Soler.

Datos crudos en formato tabular

dep_date arr_date ship_type ship_name ship_tons ship_flag master_name
1870-12-04 1870-12-29 goleta francesa Adele Catherine 142t. estranjeras. Peillac
1870-12-05 1870-12-29 corbeta inglesa James 360t. estranjeras. Gittens
1870-12-05 1870-12-29 goleta D. Manuel 120t. españ Pedro Serrat
1870-12-08 1870-12-29 bergantin-goleta Dolores 154t. españ Salvador Gelpi
1870-12-28 1870-12-29 pailebot Cármen 53t. españ JosÃ
1870-12-15 1870-12-28 laud Tres Hermanos 57t. españolas. JosÃ
1870-12-23 1870-12-28 laud Eolo 32t. españolas. Joaquin Roca
1870-12-02 1870-12-28 corbeta austriaca Moise Montefiore 350t. españolas. Mathurich
1870-12-13 1870-12-25 polacra Emilia 140t. españloas.m 3006 Ginesta
1870-12-21 1870-12-25 laud Santiago 40t. españloas.m 3006 Chofre
1870-12-23 1870-12-25 daud Remedio 19t. españloas.m 3006 Gaspar Bayarri
1870-12-17 1870-12-25 vapor Genil 307t. españloas.m 3006 M. Rodriguez
1870-10-16 1870-12-25 bergantin noruego Vidar
estranjeras. Johansen
1870-10-21 1870-12-25 corbeta danesa Josephina 288t. estranjeras. Arnesen
1870-11-16 1870-12-22 bergantin-goleta sueca Emili 116t. .anjera. Lindestron
1870-11-30 1870-12-20 polacra goleta Cármen 10t. españolas. Antonio Gonzalez
1870-12-18 1870-12-20 laud Santo Tomás 7t,, españolas. Pujol
1870-11-15 1870-12-19 corbeta inglesa Wonoas 137t. estranjera. Freet
1870-12-15 1870-12-19 laud San Juan
españ Vicente Jover
1870-12-15 1870-12-18 laud Pilar 38t. españ Vicente Rams

Datos curados en formato tabular

dep_date arr_date ship_type ship_name ship_tons ship_flag master_name
1870-12-08 1870-12-29 bergantin goleta Dolores 154 española Salvador Gelpi
1870-12-23 1870-12-28 laud Eolo 32 española Joaquin Roca
1870-12-17 1870-12-25 vapor Genil 307 española M. Rodriguez
1870-11-30 1870-12-20 polacra goleta Carmen 10 española Antonio Gonzalez
1870-12-15 1870-12-19 laud San Juan 201 española Vicente Jover
1870-09-09 1870-12-18 bergantin goleta San Juan 118 española Pedro Lopez
1870-12-07 1870-12-15 goleta San Juan 70 española Miguel Martinez
1870-12-11 1870-12-13 laud Francisca 19 española Ramon Guaroh
1870-12-09 1870-12-13 laud Silvina 50 española Bautista Martinez
1870-12-10 1870-12-13 laud Encarnacion 48 española Antonio Barbera
1870-12-10 1870-12-13 laud Virgen de los Remedios 22 española Joaquin Liso
1870-12-06 1870-12-10 laud Cisne 45 española Ignacio Mensua
1870-10-20 1870-12-01 corbeta Teresa Cubana 320 española Rafael Soler
1870-10-22 1870-12-01 polacra India 170 española Juan Pla
1870-10-22 1870-11-30 polacra goleta Maria Luisa 110 española Luis Maristany
1870-11-22 1870-11-23 corbeta Olimpia 340 española Rafael Pons
1870-09-22 1870-11-23 bergantin goleta Tremp 130 española Marcos Mari
1870-10-07 1870-11-22 bergantin Vencedor 280 española Salvador Sureda
1870-07-17 1870-09-22 polacra goleta Vestal 113 española Pantaleon Marti
1870-07-22 1870-09-19 bergantin Nueva Sabina 207 española Jaime Barrau

Datos curados y curados en formato tabular

ship_type_raw ship_type ship_name_raw ship_name ship_flag_raw ship_flag
bergantin-goleta bergantin goleta Dolores Dolores españ española
laud laud Eolo Eolo españolas. española
vapor vapor Genil Genil españloas.m 3006 española
polacra goleta polacra goleta Cármen Carmen españolas. española
laud laud San Juan San Juan españ española
bergantin-goleta bergantin goleta San Juan San Juan españ española
goleta goleta San Juan San Juan españolas. española
laud laud Francisca Francisca españ española
laud laud Silvina Silvina españ española
laud laud Encarnacion Encarnacion españ española
laud laud Virgen de los Remedios, Virgen de los Remedios españ española
laud laud Cisne Cisne españ española
corbeta corbeta Teresa Cubana Teresa Cubana españ española
polacra polacra India India españ española
polacra goleta polacra goleta Maria Luisa. Maria Luisa españ española
corbeta corbeta Olimpia Olimpia españ española
bergantin goleta bergantin goleta Tremp Tremp españ española
bergantin bergantin Vencedor Vencedor españ española
polacra-goleta polacra goleta Vestal Vestal española. española
bergantin bergantin Nueva Sabina Nueva Sabina españ española

Resultados del cálculo de similitudes (umbral del 90%)

Visualización

Resultados del cálculo de similitudes para la goleta Zoe

similarity master_p1 master_p2 master_a1 master_a2 ship1 type1 flag1 tons1 tons2
98.82557 Giuseppe Guiseppe Schiaffino Schiafino Zoe goleta toscana 102 98
90.64105 Giuseppe Joseppe Schiaffino Schiafino Zoe goleta toscana 102 98
91.52612 Guiseppe Joseppe Schiafino Schiafino Zoe goleta toscana 98 98

Resultados del cálculo de similitudes para el laúd Juanita

similarity master_p1 master_p2 master_a1 master_a2 ship1 type1 flag1 tons1 tons2
91.13757 Cayetano Cayetano Trilla Trillas Juanito laud española 32 32
90.42108 Cayetano Cayetano Trilla Trilles Juanito laud española 32 32
93.58974 Cayetano Cayetano Trillas Trillas Juanita laud española 52 32
96.15385 Cayetano Cayetano Trillas Trillas Juanita laud española 52 40
92.14616 Cayetano Cayetano Trillas Trillers Juanita laud española 52 52
92.92837 Cayetano Cayetano Trillas Trilles Juanita laud española 52 32
98.41270 Cayetano Cayetano Trillas Trillas Juanita laud española 52 52
96.66667 Cayetano Cayetano Trillas Trillas Juanita laud española 32 40
99.33862 Cayetano Cayetano Trillas Trilles Juanita laud española 32 32
92.00244 Cayetano Cayetano Trillas Trillas Juanita laud española 32 52
96.00529 Cayetano Cayetano Trillas Trilles Juanita laud española 40 32
94.56654 Cayetano Cayetano Trillas Trillas Juanita laud española 40 52
90.55886 Cayetano Cayetano Trillers Trillas Juanita laud española 52 52
91.34107 Cayetano Cayetano Trilles Trillas Juanita laud española 32 52

Recursos y referencias

¡GRACIAS!

Seminario Internacional PortADa

Departamento de Historia y Arqueología

Universidad de Barcelona

Dr. Agustín Nieto (INHUS-CONICET/UNMdP)

| @agusnieto77

3 y 4 de marzo de 2025