Avance 2 del Proyecto

Asignatura: Probabilidad y Estadística

Docente: Jennyfer Portilla Yela


1. Introducción

Este estudio tiene como objetivo analizar la influencia de factores geográficos y temporales en la duración de los avistamientos de OVNIs mediante un enfoque descriptivo y exploratorio, considerando variables como la ubicación geográfica (ciudad, estado, país), la hora del día y la estacionalidad.


2. Planteamiento del Problema

Se busca responder a la pregunta de si existen patrones o factores que influyen en la duración de los avistamientos de OVNIs. Para lograrlo, se realiza una limpieza cuidadosa del conjunto de datos, eliminando variables redundantes o poco relevantes como comentarios subjetivos y duraciones en formatos no numéricos. Esta limpieza es clave para asegurar la calidad y precisión de los análisis estadísticos posteriores, permitiendo una evaluación rigurosa de las variables espaciales y temporales.


3. Objetivos del Estudio

Objetivo General

  • Analizar la influencia de factores espaciales y temporales en la duración de los avistamientos de OVNIs mediante técnicas de estadística descriptiva y visualización de datos.

Objetivos Específicos

  1. Determinar si la duración del avistamiento varía significativamente según la ciudad o el país.
  2. Evaluar la influencia de la hora del día y la estación del año en la duración de los avistamientos.
  3. Identificar patrones espaciales en la frecuencia y duración de los avistamientos mediante mapas.

4. Datos Utilizados

Variables Cuantitativas

  • Duración (segundos): Analiza la variabilidad en el tiempo de observación del fenómeno.
  • Latitud y Longitud: Ubicación geográfica precisa.

Variables Cualitativas

  • Fecha y hora: Permiten analizar estacionalidad y patrones horarios.
  • Ubicación (ciudad, estado, país): Para evaluar diferencias regionales.
  • Forma del avistamiento (shape): Clasificación visual del objeto reportado, la cual puede ser agrupada en categorías generales como luces, esferas, triángulos, etc.

Variables Eliminadas

  • Duración en horas/minutos: Redundante con la duración en segundos.
  • Comentarios: Subjetivos y difíciles de cuantificar.
  • Fecha de documentación: No aporta al análisis del evento.

5. Análisis por Objetivo Específico

Objetivo 1: Determinar si la duración del avistamiento varía significativamente según la ciudad o el país.

Tabla 1. Estadísticas descriptivas de duración por país
country prom_duracion mediana max min cantidad
us 5372.914 120 66276000 0 70290
ca 26508.975 120 82800000 0 3266
gb 61388.691 120 97836000 0 2050
au 3453.424 120 1209600 0 593
de 22739.982 120 1814400 0 112

Interpretación de la Tabla 1

  • Mediana uniforme: En todos los países analizados, la mediana de la duración de los avistamientos es de 120 segundos, lo que sugiere que la mayoría de los reportes coinciden en una duración breve y similar. Esto puede deberse a un patrón común en los reportes o a un redondeo frecuente de tiempos.

  • Alta dispersión del promedio: A pesar de tener la misma mediana, los promedios varían significativamente. Países como Reino Unido (GB) y Canadá (CA) presentan promedios superiores a 26,000 segundos (~7 horas), indicando la existencia de valores atípicos muy altos que elevan la media.

  • Valores máximos extremos: Los registros máximos en cada país son extremadamente altos (por ejemplo, más de 97 millones de segundos en GB, equivalente a más de 3 años), lo que probablemente refleja errores de digitación o confusión al reportar unidades de tiempo.

  • Estados Unidos (US) domina en cantidad de casos: Con más de 70,000 avistamientos, EE. UU. representa la gran mayoría de los registros. Esto puede reflejar una mayor cultura de reporte del fenómeno OVNI, mayor acceso a plataformas de registro o simplemente una mayor población.

  • Relación con el objetivo:
    Esta tabla permite comparar cuantitativamente la duración de los eventos entre países, cumpliendo el objetivo de identificar diferencias por ubicación geográfica en este caso por país.

Descripción del Gráfico 1:

El gráfico presenta diagramas de caja (boxplots) que muestran la distribución de la duración de los avistamientos de OVNIs en segundos, agrupados por país. La escala es logarítmica para una mejor visualización de los datos extremos. Se observa que, aunque la mediana de duración se mantiene constante en aproximadamente 120 segundos para todos los países, existen valores atípicos (outliers) muy elevados que afectan el promedio, especialmente en países como Estados Unidos (us), Reino Unido (gb) y Canadá (ca).

Estas diferencias sugieren que en algunos países se reportan eventos significativamente más largos, aunque son poco frecuentes. La presencia de múltiples valores extremos también indica una gran variabilidad en la duración de los avistamientos entre y dentro de los países.

Relación con el objetivo:
Este gráfico visualiza la distribución de los datos por país, evidenciando la variabilidad interna y apoyando el análisis del objetivo específico sobre diferencias en duración por país.

Objetivo 2: Duración por Hora y Estación del Año

Tabla 2. Estadísticas descriptivas por estación del año
estacion prom mediana sd cantidad
Invierno 3842.642 120 122255.2 15247
Otoño 9444.663 120 818276.9 20894
Primavera 3548.912 120 122820.4 15499
Verano 11501.432 180 733451.5 24671

Interpretación de la Tabla 2

  • Mediana estable pero con una excepción: En tres de las estaciones del año (invierno, primavera y otoño), la mediana de duración de los avistamientos es de 120 segundos, mientras que en verano aumenta ligeramente a 180 segundos. Esto sugiere que durante el verano hay una tendencia a reportar avistamientos un poco más prolongados.

  • Promedios muy influenciados por valores extremos: El promedio más alto se presenta en verano (11,501 segundos) y otoño (9,444 segundos), lo que indica una mayor presencia de outliers o reportes con duraciones inusualmente largas durante esas estaciones. A pesar de la mediana constante, los promedios se ven inflados por pocos valores extremadamente altos.

  • Desviación estándar elevada: La alta desviación estándar en todas las estaciones (especialmente en otoño y verano) confirma la alta dispersión en las duraciones reportadas, lo que refuerza la necesidad de considerar la mediana como medida más representativa que el promedio.

  • Mayor cantidad de reportes en verano y otoño: La mayor cantidad de avistamientos se da en verano (24,671), seguido por otoño (20,894). Esto podría estar relacionado con mejores condiciones climáticas, mayor actividad al aire libre o una mayor disposición a observar el cielo.

  • Conclusión preliminar: Aunque los valores centrales se mantienen estables, verano y otoño parecen estar asociados a una mayor duración y frecuencia de avistamientos, lo que podría merecer un análisis más específico por año o región.

  • Relación con el objetivo:
    Esta tabla permite identificar tendencias estacionales en los reportes de OVNIs, abordando directamente el objetivo de estudiar la influencia del tiempo del año en la duración de los eventos.

Descripción del Gráfico 2:

El gráfico muestra la distribución de la duración de los avistamientos de OVNIs según la estación del año: invierno, otoño, primavera y verano. La escala del eje y es logarítmica para facilitar la visualización de los valores extremos.

Aunque las medianas se mantienen cercanas a los 120 segundos, se observa que durante el verano y el otoño hay una mayor dispersión y más valores atípicos (outliers) con duraciones más prolongadas, lo que podría explicar los promedios más altos en estas estaciones. En contraste, invierno y primavera presentan menos variabilidad en comparación.

Esto sugiere que, aunque la mayoría de los eventos tienen duraciones similares en todas las estaciones, durante el verano y el otoño podrían estar ocurriendo eventos extraordinariamente largos con mayor frecuencia, lo cual podría estar relacionado con factores como mayor tiempo al aire libre o condiciones climáticas.

Relación con el objetivo:
Refuerza visualmente el análisis estacional al mostrar cómo se distribuyen los datos por estación del año, complementando la tabla anterior y cumpliendo el objetivo de observar diferencias según la época del año.

Tabla 2.1: Estadísticas descriptivas de duración por rango horario

Tabla 2.1. Estadísticas descriptivas de duración por rango horario
rango_horario prom_duracion mediana sd cantidad
Madrugada 8793.975 120 458103.14 14831
Mañana 2356.588 120 57049.41 5997
Tarde 13219.667 120 1026452.71 9110
Noche 7109.631 150 568627.83 46373

Interpretación de la Tabla 2.1

  • Duración promedio más alta en la tarde: Aunque todos los rangos tienen una mediana cercana a los 120 segundos, la tarde presenta el promedio más alto de duración (13,219 segundos), lo cual indica la presencia de reportes con duraciones excepcionalmente largas que están influyendo en la media.

  • Mayor cantidad de reportes en la noche: El mayor número de avistamientos (46,373 casos) ocurre durante la noche, lo que es coherente con la menor contaminación lumínica y una mayor atención visual al cielo en ese horario.

  • Madrugada con duraciones altas: A pesar de tener menos reportes que la noche, los eventos reportados durante la madrugada también muestran una duración promedio considerablemente alta (8,794 segundos), lo que sugiere que los casos observados en esta franja horaria tienden a ser más prolongados.

  • Variabilidad alta en todos los rangos: Las desviaciones estándar son elevadas, especialmente en la tarde, lo que confirma que hay una gran dispersión en los tiempos de duración registrados, con muchos valores extremos que influyen en los promedios.

Relación con el objetivo:
Esta tabla permite analizar la influencia de la hora del día sobre la duración de los avistamientos, cumpliendo con el segundo objetivo específico del estudio, al identificar patrones y diferencias relevantes entre rangos horarios.

Objetivo 3: Patrones Espaciales de Avistamientos

Interpretación:

El mapa global muestra una alta concentración de reportes de avistamientos en Estados Unidos, lo cual coincide con el hecho de que gran parte de los datos provienen de este país. También se observan agrupamientos notables en Canadá, Reino Unido y Australia, lo que sugiere una participación activa en el reporte de este tipo de eventos.

Europa presenta algunos focos de actividad, especialmente en Alemania y países del norte, pero con menor densidad. En otras regiones del mundo, como Sudamérica, Asia y África, los reportes son escasos o inexistentes, lo que puede deberse a diferencias en el acceso a plataformas de reporte, interés cultural o disponibilidad de datos.

En general, este gráfico confirma que la distribución geográfica de los avistamientos no es homogénea, y que la cobertura del conjunto de datos se concentra principalmente en países de habla inglesa, especialmente en el hemisferio occidental.

Relación con el objetivo:
Este mapa cumple el objetivo al mostrar visualmente la distribución espacial de los reportes, facilitando la identificación de regiones con mayor actividad reportada.

Gráfico 3.1: Mapa de duración por avistamiento en EE.UU.

Interpretación del Gráfico 3.1

Este gráfico muestra los avistamientos de OVNIs registrados en Estados Unidos, donde cada punto representa un evento individual y su color indica la duración del avistamiento en segundos (usando una escala logarítmica y el gradiente de colores “viridis”, de azul a amarillo).

  • Los colores más oscuros (violeta/azul) representan eventos con duraciones más cortas, mientras que los colores más cálidos (naranja/amarillo) indican duraciones excepcionalmente largas.
  • Se observa una alta densidad de reportes en la costa este y oeste, con puntos distribuidos por todo el país.
  • Aunque los eventos con duraciones más largas (amarillos) son menos frecuentes, pueden detectarse de forma dispersa en zonas específicas, especialmente en algunas áreas del centro-sur y del noreste del país.
  • La mayoría de los avistamientos tienen duraciones relativamente cortas, lo cual se refleja en la dominancia de colores fríos.

Relación con el objetivo:
Este gráfico complementa el análisis del objetivo 3 al integrar la variable duración dentro del mapa espacial, permitiendo visualizar no solo dónde ocurren los avistamientos, sino también qué tan extensos son en cada ubicación.

Conclusiones

A partir del análisis estadístico y visual de la base de datos de avistamientos OVNI, se obtienen las siguientes conclusiones relevantes:

  1. Duración por país: Aunque la mediana de duración de los avistamientos es consistente (120 segundos) en todos los países analizados, los promedios varían considerablemente. Países como Reino Unido (GB) y Canadá (CA) presentan promedios significativamente más altos, posiblemente influenciados por valores atípicos con duraciones extremas. Esto sugiere la presencia de eventos anómalos o problemas en la captura de datos en ciertos países.

  2. Duración por estación del año: Las estaciones con mayor número de eventos (verano y otoño) también presentan las duraciones promedio más altas. Aunque la mediana sigue siendo constante, se observa una mayor variabilidad y presencia de valores extremos durante estas épocas, lo que podría estar relacionado con factores ambientales o patrones de observación.

  3. Distribución geográfica de avistamientos: El mapa global muestra una alta concentración de reportes en Estados Unidos, seguido por Canadá, Reino Unido, Australia y Alemania. Esta concentración puede deberse tanto a factores culturales (como mayor interés público en el tema) como a factores logísticos (plataformas de registro en inglés, mayor conectividad).

  4. Forma de los avistamientos: La variable cualitativa “shape” muestra una gran diversidad, lo cual sugiere múltiples interpretaciones visuales de los objetos observados. Agrupar estas formas en categorías más generales puede facilitar el análisis de patrones entre tipo de forma, ubicación, duración y tiempo del evento.


Implicaciones para futuras investigaciones

  • Es necesario realizar una limpieza más profunda de outliers extremos en la variable de duración, posiblemente excluyendo duraciones no realistas (de semanas o meses).
  • Futuras investigaciones podrían analizar cómo las condiciones climáticas, eventos astronómicos o fenómenos culturales (como películas, noticias o redes sociales) afectan la frecuencia y características de los reportes.
  • También sería interesante integrar otras variables no presentes en esta base (como número de testigos o ubicación rural/urbana).

Posibles sesgos del conjunto de datos

  • Existe un claro sesgo geográfico: la mayoría de los reportes provienen de países angloparlantes, especialmente EE.UU., lo que puede limitar la generalización de los resultados a nivel mundial.
  • Puede haber sesgo de acceso y autoselección, ya que las personas que reportan suelen hacerlo voluntariamente y por internet, lo que excluye a quienes no tienen acceso a tecnología o no están motivados a compartir su experiencia.
  • Las duraciones extremadamente largas podrían ser producto de errores de digitación, interpretaciones subjetivas del tiempo o confusión de unidades.

En conjunto, este estudio proporciona una base sólida para describir el fenómeno desde un enfoque estadístico, y plantea nuevas preguntas que pueden abordarse en investigaciones futuras con datos más controlados o complementarios.