Abstract
En el presente informe se realiza un análisis del impacto de los valores atípicos y la incertidumbre estadística en las estimaciones del consumo global de alcohol (2015-2019). Se examina la robustez del promedio frente a la mediana y se evalúa la precisión de los intervalos de confianza mediante el análisis de solapamiento regional, aplicando técnicas de limpieza de datoS, truncamiento por percentiles y visualización de densidades con R.
El análisis de las tendencias globales de salud ha cobrado una relevancia sin precedentes en el diseño de políticas públicas, donde el consumo de alcohol se posiciona como una de las variables más críticas debido a su impacto directo en la carga de morbilidad y la estabilidad socioeconómica de las naciones. Sin embargo, detrás de los reportes anuales, la medición del consumo per cápita se caracteriza por una alta incertidumbre aleatoria: la ingesta registrada no es una cifra estática, sino el resultado de una compleja interacción entre factores culturales, marcos regulatorios y la calidad de los sistemas de recolección de datos de cada país.
Para el profesional en Estadística, este escenario presenta un desafío metodológico fundamental: ¿Cómo influyen los valores atípicos y el sesgo de la muestra en la representatividad de los promedios globales? ¿Es posible confiar en las estimaciones puntuales cuando la varianza regional es tan pronunciada?
El presente trabajo de investigación tiene como propósito realizar un análisis estadístico exhaustivo sobre el conjunto de datos de consumo global de alcohol (2015-2019). A través del uso de herramientas computacionales avanzadas en R y técnicas de visualización de densidades, se busca evaluar el impacto de los outliers sobre el promedio y los intervalos de confianza. El estudio aplica protocolos de limpieza de datos y algoritmos de truncamiento por percentiles (P90) como una herramienta de análisis de sensibilidad. Este procedimiento permite cuantificar el impacto específico de los valores extremos sobre la media global, evidenciando cómo el 10% de las observaciones con mayor consumo desplaza el centro de la distribución. Al contrastar la muestra íntegra con la truncada, se logra descomponer la variabilidad y ofrecer una interpretación más técnica de la incertidumbre, reconociendo el peso que tienen los outliers en la representatividad de los indicadores de salud global.
Este documento técnico se encuentra estructurado en cinco capítulos fundamentales que guían el análisis desde la formulación teórica hasta la resolución computacional:
Este reporte no solo ofrece una radiografía del consumo global de alcohol, sino que propone una metodología reproducible para el tratamiento de datos atípicos en investigaciones sociodemográficas complejas.
Cuando se habla del consumo de alcohol al nivel mundial, los resultados de un análisis generalmente son presentados según qué tan por encima o por debajo esté el promedio de cierta población estudiada en relación con el indicador transversal utilizado por la Organización Mundial de la Salud (OMS). El consumo de alcohol per cápita es un tema en el que se evalúa el riesgo y el punto donde el consumo se categoriza como un tema crítico para la salud pública, al momento de determinarlo se choca directamento con el reduccionismo estadístico, el cual hace referencia al como la interpretación de los datos viene presentada bajo indicadores estadísticos que buscan reducir la realidad objetiva de poblaciones enteras a un simple promedio (World Health Organization 2018).
Entes oficiales de salud pública como la OMS o la Organización Panamericana de la Salud (OPS) usan herramientas estadísticas para la recolección, interpretación y presentación de los datos; la OMS establece una medida estándar para el análisis global del consumo de alcohol que define de la siguiente manera:
El consumo total de alcohol per cápita (APC) se define como la cantidad total (suma del promedio de tres añoS registrado y el promedio de tres años de APC no registrado, ajustado por el consumo turístico promedio de tres años) de alcohol consumido por adulto (15+ años) durante un año calendario, en litros de alcohol puro. (OMS, 2018, p. 411)
Esta definición revela la complejidad que puede esconderse detrás de un solo numero. Al involucrar tantas variables el APC pasa de ser solo un promedio a convertirse mas en una estimación sujeta a un gran margen de error. Sin embargo, en el discurso público, esta cifra suele presentarse como una verdad absoluta, ignorando que el promedio es una medida extremadamente sensible a valores atípicos, extremos y faltantes. Un promedio suele ser una medida muy débil al momento de trabajar con datos que contienen mayor dispersión.Aunque las bases de datos recientes han mejorado su completitud, históricamente la ausencia de registros ha sido un peligro (GBD 2016 Alcohol Collaborators 2018).
Al hablar del consumo de alcohol generalmente se encuentra un sesgo muy grande entre los datos: si un grupo pequeño consume de forma masiva, el promedio subirá, estigmatizando a toda una población por el comportamiento de una minoría, alejandose de la realidad (Huber 1981) o peor aún, se asume que el riesgo está distribuido de forma equitativa cuando en realidad está concentrado en sectores específicos que el promedio no logra mostrar. En ciertos casos la mediana suele ser más representativa pero los entes políticos prefieren el promedio por ser este más manipulable. Si un país no registra bien sus datos, el promedio simplemente ignora esos vacíos, esto genera un sesgo de selección (Little and Rubin 2019), el promedio parece saludable solo porque no se esta contando los datos que no se puden medir. Entonces esto dice que “lo que no se mide, no existe”.
Siendo los valores faltantes un peligro. Muchas veces, los países con las crisis de consumo más graves tienen los sistemas de registro más deficientes. Cuando un reporte ignora estos huecos de información, el promedio nacional se ve “limpio”, permitiendo que se construyan narrativas basadas en un sesgo de selección. Al final, exponer estos datos sin explicar la variabilidad técnica (como el ancho de los intervalos de confianza) convierte la estadística en una herramienta que oculta las verdaderas crisis de salud detrás de una falsa sensación de precisión (Van der Bles et al. 2019).
A todo lo antes expuesto le queda la frase popular conocida en la estadística; “No cruces un río que tiene un promedio de un metro de profundidad, porque podrías ahogarte en la parte que mide tres metros”. Esta metáfora ilustra el peligro de ignorar la varianza en la gestión de riesgos sistémicos (Taleb 2012).
El promedio es la medida que los gobiernos suelen usar para decir si un país tiene un elevado consumo de alcohol en comparación con el promedio mundial de la OMS. También se utiliza la Prevalencia de Consumo, que mide qué porcentaje de la población bebió en el último año, y un indicador más técnico llamado DALY, que estima cuántos años de vida saludable pierde una comunidad por problemas con la bebida. El detalle está cuando estas cifras se presentan de forma distinta a lo que son, estimaciones. Al enfocarse solo en estos números finales, se deja de lado la incertidumbre y el error que hay detrás de cada dato (Murray and Lopez 2002), permitiendo que se construyan discursos donde un promedio bajo oculte una crisis de salud real en sectores específicos.
Como dicta la conocida paradoja estadística: si una persona se come un pollo entero y otra no come nada, el promedio indicará que cada una consumió medio pollo. Este uso intencionado del promedio para ocultar la desigualdad en la distribución es una técnica clásica de distorsión informativa (Huff 1954). En la práctica, este sesgo puede ser utilizado políticamente para proyectar una falsa sensación de éxito o estabilidad, permitiendo que un gobierno declare un bajo consumo en su región mientras ignora deliberadamente a los sectores con consumos explosivos o problemáticos que quedan ocultos tras la cifra central.
Esta “mentira estadística” sustenta los factores críticos que afectan la veracidad de los datos recolectados:
Un promedio carece de valor científico si no se analiza su margen de error.
Una región puede reportar un consumo bajo, pero si el ancho de su intervalo de confianza es excesivamente grande, esto no refleja un comportamiento social claro, sino una deficiencia en la calidad de la recolección de los datos o una variabilidad inmanejable (Cumming 2014).
El error más común en la comparación internacional es asumir que distintos promedios implican distintas realidades. Si al comparar dos naciones sus intervalos de confianza se solapan significativamente, estadísticamente no existe evidencia suficiente para afirmar que una consume más que la otra. El solapamiento es la prueba de que el promedio, por sí solo, es insuficiente para establecer jerarquías de consumo (Schenker and Gentleman 2001).
La ausencia de registros en ciertos periodos o sectores poblacionales desplaza el promedio hacia valores que no representan la realidad. El uso de bases de datos con vacíos informativos permite construir narrativas que benefician agendas institucionales en lugar de reflejar la salud pública real (Little and Rubin 2019).
Un caso real que ilustra esta problemática se observa en los reportes globales de la Organización Mundial de la Salud (OMS). En regiones con sistemas de vigilancia débiles, se reportan promedios nacionales que subestiman el riesgo real debido a que la incertidumbre de la medición es tan alta que el dato central deja de ser representativo (GBD 2016 Alcohol Collaborators 2018). De igual forma, comparaciones clásicas entre Europa del Este y Europa Occidental a menudo revelan que, aunque los titulares de prensa resalten diferencias en los promedios, los intervalos de confianza de estos países suelen solaparse, indicando que las diferencias podrían no ser afirmadas con claridad estadística a partir de esta comparación visual (Gelman and Stern 2006).
Esto responde a que la variabilidad del consumo no es constante ni uniforme entre las naciones.Por lo tanto, este trabajo de investigación se propone cuestionar la validez de las comparaciones tradicionales de consumo de alcohol. El problema no radica solo en la cantidad consumida, sino en la incertidumbre estadística que se desprende de los datos. El desafío es, entonces la implementación de algoritmos que permitan una gestión rigurosa de los datos faltantes (missing data), entendiendo que su ausencia no es aleatoria, sino un indicador de la debilidad de los sistemas de vigilancia. Más allá de la implementación de medidas de tendencia central, este trabajo se enfoca en la visualización de densidades de probabilidad y el procesamiento de intervalos de confianza (Wilke 2019). El objetivo es demostrar mediante el análisis de datos que, ante una alta varianza y un solapamiento significativo de las distribuciones, el promedio pierde su capacidad explicativa. Actuando en colaboración con la ciencia computacional: se requiere procesar y visualizar estos niveles de solapamiento y dispersión para demostrar que, sin un análisis riguroso de la incertidumbre, la estadística deja de ser una herramienta de precisión para convertirse en una narrativa que oculta las verdaderas crisis de consumo.
Debido a esto, se plantea las siguientes preguntas de investigación:
¿Cómo influyen los valores atípicos y los datos faltantes en la representatividad del promedio del consumo de alcohol?
¿Qué tan confiables son los promedios globales si consideramos que los márgenes de error varían drásticamente entre regiones, y cómo afecta esta diferencia la precisión de lo que se reporta?
¿En qué medida el solapamiento de los intervalos de confianza invalida las comparaciones y jerarquías de consumo tradicionales?
La presente investigación se fundamenta en la necesidad de pasar de una estadística descriptiva básica hacia un análisis de datos crítico que integre la incertidumbre como una variable fundamental para ser presentada a la sociedad. En el ámbito académico de la Escuela de Estadística y Ciencias Actuariales (EECA), es necesario demostrar que el rol del analista no es simplemente procesar cifras, sino cuestionar la representatividad de la información que sustenta las políticas públicas globales.
La importancia de este análisis radica en desmontar el uso político de las medidas de tendencia central. Un gobierno puede declarar una gestión exitosa basándose en la reducción de un promedio, ignorando deliberadamente que dicha cifra puede ser el resultado de datos altamente sesgados o con una incertidumbre tan elevada que la comparación pierde validez científica. Al estudiar el solapamiento de los intervalos, esta investigación busca devolverle la rigurosidad a la interpretación de los datos, demostrando que la estadística no debe servir para simplificar la realidad, sino para revelar su complejidad.
Relevancia Técnica y Delimitación del Alcance Desde una perspectiva teórica, el trabajo contribuye al campo de la estadística social al demostrar que el promedio, como medida de tendencia central única, es insuficiente para caracterizar el consumo de alcohol. Al introducir conceptos como el solapamiento de intervalos de confianza y la variabilidad, esta investigación enriquece el debate académico sobre cómo deben compararse las realidades de distintas naciones, evitando conclusiones apresuradas que ignoran la dispersión de los datos.
Desde el punto de vista computacional, este proyecto se justifica al utilizar herramientas de programación (R y Python) para extraer y tratar la incertidumbre declarada en los reportes oficiales. Dado que la investigación se desarrolla en una etapa inicial de la formación académica, el enfoque no pretende realizar estimaciones propias ni modelos de regresión, sino centrarse exclusivamente en el procesamiento y visualización del solapamiento de los intervalos de confianza ya proporcionados en el dataset, valores atípicos (outliers) y el contraste entre las medidas de tendencia central. Esta delimitación es clave: el valor agregado de este trabajo radica en la capacidad de convertir tablas de datos crudos en visualizaciones de densidades de probabilidad que evidencien visualmente cuándo una diferencia entre países es estadísticamente significativa y cuándo es simplemente producto de la variabilidad del indicador transversal.
Relevancia Social y Ética Socialmente, el trabajo se justifica al exponer cómo el reduccionismo estadístico puede ser utilizado para construir narrativas que ocultan crisis sanitarias reales. Al procesar los intervalos de confianza, valores atípicos y los datos faltantes presentes en el dataset, se busca demostrar que un promedio nacional “limpio” puede ser el resultado de sistemas de registro deficientes, permitiendo que se ignore deliberadamente a los sectores con consumos problemáticos. Identificar vulnerabilidades ocultas, a la hora de tomar decisiones y entender el ancho de la incertidumbre permite reconocer en qué regiones la recolección de datos es deficiente o dónde el consumo es tan dispar que un promedio bajo no garantiza la ausencia de riesgos. Esto permite transitar de una política basada en cifras generales a una basada en la realidad de los intervalos, protegiendo así a los sectores poblacionales que quedan invisibilizados en los reportes tradicionales.
Así la presente investigación se plantea por la necesidad imperativa de dotar a la salud pública de herramientas de análisis que trasciendan la interpretación superficial de los datos. En un contexto global donde la información estadística es utilizada con frecuencia para validar narrativas políticas, este estudio aporta un marco crítico que devuelve la importancia a la variabilidad e incertidumbre como componentes esenciales de la verdad científica.
Aporte Académico Finalmente, la justificación metodológica se sustenta en el uso de herramientas computacionales de vanguardia. La complejidad de procesar un conjunto de datos extenso, que abarca múltiples años y regiones con valores faltantes, hace que el uso de Python o R no sea opcional, sino un requisito técnico. El manejo de estructuras de datos y la generación de visualizaciones avanzadas permiten exponer visualmente el solapamiento que los métodos manuales no logran captar. Así, este proyecto no solo cumple con una exigencia académica, sino que demuestra cómo la computación aplicada a la estadística es el único camino para desarticular las “mentiras” que surgen de un análisis de datos incompleto.
Este proyecto contribuye al repositorio “Análisis de consumo de alcohol e incertidumbre (Computación 1 - UCV)”. Aporta un modelo de análisis que no solo lee cifras, sino que evalúa la veracidad de las comparaciones internacionales mediante el rigor computacional, rescatando la hipótesis de que la estadística debe servir para revelar realidades, no para ocultarlas tras una falsa sensación de precisión.
La cobertura horizontal del presente estudio abarca las características intrínsecas del consumo de alcohol registradas en la base de datos alcohol_data.csv. Se consideran las dimensiones descriptivas del registro (país (country), código iso3, y año (year)).Adicionalmente, se incorporará una variable derivada para agrupar los países en regiones geográficas, facilitando un análisis comparativo a mayor escala. Se incluyen las métricas de tendencia central, específicamente el consumo de alcohol per cápita en litros (alcohol_liters_per_capita).Finalmente, se integran las variables de incertidumbre técnica, analizando el límite inferior (lower_ci), el límite superior (upper_ci) y el ancho del intervalo de confianza (ci_width) para cuestionar la precisión de los reportes globales.
La cobertura vertical del trabajo de investigación comprende un total de 940 observaciones (registros). Cada fila representa un dato anual de consumo por país. Para efectos de esta investigación, se realizó una delimitación poblacional filtrando únicamente los registros correspondientes a “Ambos sexos” (Both sexes). El alcance temporal de los datos es longitudinal, abarcando desde el año 2015 hasta el año 2019. Esta delimitación permite un análisis comparativo y evolutivo para observar las variaciones en los reportes de salud pública a lo largo de estos cinco años.
Para la presente investigación, el periodo de referencia efectivo
para el análisis descriptivo y de incertidumbre técnica se estableció en
el intervalo 2015-2019. Este rango de cinco años fue
seleccionado estratégicamente debido a que presenta la mayor
consistencia y precisión en los reportes de salud
global sobre consumo de alcohol per cápita. A partir del año 2000, los
métodos de recopilación de datos y los modelos de estimación de
intervalos de confianza fueron estandarizados, lo que reduce los
márgenes de error (ci_width) y permite una comparación
longitudinal más robusta entre países y regiones.El procesamiento de la
información se realizó con corte a Abril de 2026
La variable principal en estudio (Variable
Dependiente/Objetivo) es el consumo
(alcohol\_liters\_per\_capita), que representa el
promedio de litros de alcohol puro consumidos por persona al año en la
población de Ambos sexos (Both sexes). Esta métrica de
tendencia central es fundamental para evaluar las tendencias globales de
salud pública.
Como variables explicativas o independientes se analizan:
year): Año del reporte
(2000-2019).country): Nombre del país
reportado.iso3): Código
estandarizado de tres letras del país.lower\_ci) y superior
(upper\_ci) que delimitan el rango de la estimación.ci\_width):
Medida de la precisión técnica, calculada como la diferencia entre los
límites superior e inferior. Un ancho mayor indica una menor
consistencia en el reporte global.El presente capítulo establece los fundamentos estadísticos necesarios para el análisis del consumo de alcohol a nivel global y la cuantificación de su incertidumbre. Todo el marco conceptual se ajusta estrictamente a las variables observadas en la base de datos objeto de este estudio.
El indicador principal de este estudio es el Consumo de Alcohol Total Per Cápita (APC), representado en el conjunto de datos por la variable . Técnicamente, se define como la cantidad total (en litros) de alcohol puro consumido por la población en un país durante un año específico.
Desde la perspectiva estadístico-actuarial, el valor reportado como APC es un de la media poblacional (\(\mu\)). Dado que es imposible conocer el consumo exacto y absoluto de cada individuo en una nación (debido a la existencia de consumo no registrado, como la producción artesanal o el mercado ilícito), este valor se construye a partir de modelos de estimación que combinan fuentes determinísticas y estocásticas.
Debido a que el APC incluye datos que no se miden de forma directa y oficial, no puede considerarse un valor determinístico perfecto. Por ello, el análisis requiere el uso de para cuantificar el riesgo de error en la medición.
Para cada estimación del APC (\(\hat{\theta}\)), la base de datos proporciona un límite inferior () y un límite superior (), definiendo el intervalo para cada observación:
\[IC = [\hat{\theta}_{lower}, \hat{\theta}_{upper}]\]
La diferencia entre el límite superior y el inferior se define como la (representada por la variable ):
\[ci\_width = \hat{\theta}_{upper} - \hat{\theta}_{lower}\]
Esta amplitud es la medida directa de la . Un valor elevado de indica una mayor variabilidad y menor precisión en los datos reportados por ese país, lo cual constituye el núcleo analítico de la presente investigación.
Para evaluar el comportamiento del consumo a nivel agregado, es fundamental analizar la forma de su distribución. Para ello, se contrastará la (\(\bar{x}\)) con la (\(\tilde{x}\)) de la variable .
La relación entre ambas medidas permite identificar sesgos distribucionales. Si \(\bar{x} > \tilde{x}\), existe una asimetría positiva, lo que indicaría que un grupo reducido de países con consumos extremos eleva el promedio general, alejándolo del comportamiento típico de la mayoría de las naciones.
Para determinar estocásticamente si el consumo entre dos países, o entre dos años distintos, presenta diferencias estadísticamente significativas, se empleará el análisis del solapamiento de los intervalos de confianza ( y ).
Se establecen los siguientes criterios:En el análisis de datos sobre consumo de alcohol, la se define como la propiedad de un estadístico de permanecer inalterado o mínimamente afectado ante la presencia de valores atípicos () o errores de medida en la muestra.
En esta investigación, la robustez es el criterio principal para preferir la sobre la al momento de describir el comportamiento típico de una región. Mientras que la media se desplaza hacia los extremos cuando existen países con consumos desproporcionadamente altos, la mediana mantiene su posición central, proporcionando una visión más estable del fenómeno ante la incertidumbre de los datos.
El sesgo en este contexto se refiere a la distorsión de la medida central respecto a la realidad de la mayoría de la población. Dado que el dataset incluye el componente de incertidumbre (), es necesario definir dos conceptos clave para el análisis de resultados:
En esta sección se presentan las metodologías, procedimientos
algorítmicos y pruebas estadísticas implementadas para validar las
hipótesis planteadas en el capítulo anterior. Se detalla el tratamiento
de la fuente de datos alcohol_data.csv, las técnicas de
limpieza de datos (Data Wrangling) y los métodos de comparación de
intervalos utilizados para determinar la significancia estadística de
las variaciones en el consumo.
Un aspecto fundamental de este diseño es la estratificación de los datos por regiones geográficas, lo que permite identificar patrones de consumo y niveles de incertidumbre diferenciados. Asimismo, con el objetivo de garantizar la estabilidad de las comparaciones y evitar sesgos coyunturales derivados de la crisis sanitaria global, la investigación toma como ventana de observación los últimos cinco años previos al fenómeno de la pandemia (2015-2019). Esta delimitación temporal permite analizar el comportamiento del APC en un contexto de normalidad socioeconómica, asegurando que la incertidumbre detectada responda a deficiencias estructurales en los registros y no a las alteraciones atípicas en el consumo y la vigilancia epidemiológica ocurridas durante el periodo del COVID-19.
El análisis se ha realizado utilizando el lenguaje de programación R bajo el entorno de desarrollo RStudio, empleando el paradigma “Tidyverse” para la manipulación eficiente de datos y la librería “ggplot2” para la visualización de los intervalos de confianza, facilitando así el estudio del comportamiento estocástico del consumo de alcohol a nivel regional y global.De igual manera se utilizara el lenguaje Python, mediante la Streamlit, para el desarrollo de un dashboard interactivo. Esta herramienta permite la visualización dinámica de los intervalos de confianza y el consumo por regiones, facilitando así el estudio del comportamiento de los datos.
La presente investigación es de tipo descriptiva. Su objetivo central
es caracterizar el fenómeno del consumo de alcohol per cápita y,
fundamentalmente, describir la evolución de la incertidumbre técnica
asociada a estos reportes globales entre los años 2015 y 2019. No se
busca establecer relaciones de causa y efecto, sino realizar una
“radiografía” precisa de la consistencia de los datos a través del
análisis de medidas de tendencia central (media) y dispersión
(desviación estándar, ancho del intervalo de confianza
ci\_width).
El diseño de la investigación es longitudinal, específicamente un análisis de datos de panel. Esto se debe a que se analizan las mismas variables (consumo e incertidumbre) para las mismas unidades de observación (países) a lo largo de un periodo de tiempo continuo (2015-2019). Este diseño permite observar no solo el estado actual, sino los cambios y la evolución temporal de la precisión en los reportes de salud pública.
Dado que la investigación se basa exclusivamente en el análisis de
una base de datos preexistente (alcohol\_data.csv), se
clasifica como una investigación documental o basada en fuentes
secundarias. No hubo recolección directa de datos primarios en campo; el
trabajo consistió en el procesamiento, limpieza y análisis estadístico
de información ya recopilada.
En esta sección se detallan los procedimientos algorítmicos y las técnicas estadísticas que constituyen el sustento operativo de la investigación, ejecutados secuencialmente para alcanzar los objetivos planteados
El tratamiento de la fuente de datos alcohol\_data.csv
se realizó siguiendo el paradigma “Tidyverse” en R, estructurado en las
siguientes fases operativas:
read_csv() y str().filter() de la
librería dplyr para seleccionar exclusivamente los
registros de “Both sexes” (Ambos sexos) y acotar el análisis a la
ventana de observación efectiva (2015-2019).select() para conservar únicamente las variables críticas
para el estudio: country, iso3,
year, alcohol\_liters\_per\_capita,
lower\_ci, upper\_ci y ci\_width,
y aplicación de drop_na() para asegurar la integridad
estadística al eliminar registros con valores faltantes.mutate() y case_when()) para asignar
a cada país su respectiva región geográfica (ej: “América Latina y el
Caribe”, “América del Norte”, “Asia”, “Europa”, “África” y
“Otras/Oceanía”), conveniente para el estudio.| Country | Iso3 | Year | Region | Alcohol Liters Per Capita | Ci Width |
|---|---|---|---|---|---|
| Cyprus | CYP | 2017 | Asia | 6.1171520 | 3.1708194 |
| Sierra Leone | SLE | 2019 | África | 0.2532283 | 0.4665830 |
| Philippines | PHL | 2017 | Asia | 6.0238746 | 2.8549122 |
| Pakistan | PAK | 2018 | Asia | 0.1040811 | 0.3036760 |
| Cameroon | CMR | 2018 | África | 7.1954116 | 3.6857639 |
| Slovakia | SVK | 2016 | Europa | 11.0927287 | 3.4002494 |
| Mauritania | MRT | 2018 | África | 0.0178672 | 0.1289069 |
| Türkiye | TUR | 2018 | Asia | 2.1147794 | 1.6907940 |
| United Kingdom | GBR | 2018 | Europa | 10.7675103 | 3.4127545 |
| Russian Federation | RUS | 2019 | Europa | 10.6723454 | 3.9259426 |
En concordancia con el Objetivo 1 de la investigación, y siguiendo la rigurosidad metodológica de estudios descriptivos previos, se realizó un análisis comparativo para evaluar estadísticamente el impacto del proceso de Limpieza y Carga sobre el conjunto de datos. No se debe proceder a la eliminación ciega de registros sin comprender la naturaleza y el sesgo potencial que esto introduce en la muestra final.
El procedimiento metodológico consistió en:
Cuantificación de Pérdida de Registros: Se
comparó el número de observaciones nativas
(raw\_data\_alcohol) con el número de observaciones en el
data frame depurado (clean\_data\_alcohol), determinando el
porcentaje de datos perdidos durante la limpieza.
Análisis de Tendencia Central (Pre vs. Post
Limpieza): Se calcularon las medidas de tendencia central
robustas (media aritmética y mediana) para la variable principal de
consumo (alcohol\_liters\_per\_capita) tanto en la base de
datos nativa como en la limpia.
Evaluación de Sesgo: La comparación de la media
y la mediana pre y post limpieza permite identificar si la eliminación
de registros con valores nulos (NA) generó un cambio
significativo en el promedio reportado, sugiriendo un sesgo sistemático
en la recolección o reporte de datos a nivel global.
| Estado | Muestra | Media | Mediana | Sesgo Absoluto |
|---|---|---|---|---|
| Original (Pre-Limpieza) | 940 | 5.49675 | 5.011499 | 0.4852515 |
| Depurado (Post-Limpieza) | 940 | 5.49675 | 5.011499 | 0.4852515 |
No se encontraron valores faltantes en la muestra seleccionada
Debido a la alta integridad de la fuente secundaria en el periodo 2015-2019, se realizó un experimento de control para validar la capacidad de respuesta del protocolo de limpieza. Este procedimiento consistió en inyectar artificialmente un 10% de ruido (valores NA) en una réplica de la muestra original.
El objetivo es demostrar, mediante una prueba de estrés, que el algoritmo de depuración identifica y elimina correctamente las inconsistencias, garantizando que los resultados finales de la investigación no se vean alterados por fallos en el reporte de origen.
| Fase | N Total | Valores Na |
|---|---|---|
| Muestra Contaminada | 940 | 93 |
| Muestra Recuperada | 801 | 0 |
Una vez generada la muestra con inconsistencias, se aplicó el algoritmo de depuración definido en el Objetivo 1. El proceso consiste en la identificación y eliminación automática de las filas contaminadas, garantizando que la base de datos resultante sea apta para el cálculo de solapamientos de intervalos de confianza.
| Estado | Registros.totales | Valores.na.restantes | Media |
|---|---|---|---|
| Muestra Contaminada | 940 | 139 | 5.468782 |
| Muestra Recuperada | 801 | 0 | 5.485767 |
Una vez validada la integridad del protocolo de procesamiento mediante la prueba de estrés, se procedió a la ejecución del Análisis Descriptivo y de Tendencia Central sobre la muestra definitiva (2015-2019). Esta fase es fundamental para establecer la línea base comparativa de la investigación, permitiendo transformar los microdatos nacionales en métricas agregadas que caracterizan el comportamiento del consumo y su precisión técnica a nivel global.
El tratamiento estadístico se centró en la reducción de datos para obtener la Media Aritmética (APC) y la Desviación Estándar, junto con el análisis del Ancho del Intervalo de Confianza (ci_width) como métrica de calidad.
| Region | Consumo Medio | Mediana Consumo | Desviación Std |
|---|---|---|---|
| Europa | 10.047752 | 10.711757 | 2.7974409 |
| América del Norte | 9.678899 | 9.725894 | 0.3617484 |
| Otras/Oceanía | 8.787730 | 8.789957 | 2.0075821 |
| América Latina y el Caribe | 6.078153 | 6.118551 | 2.3200247 |
| África | 3.811181 | 3.031274 | 3.4244870 |
| Asia | 2.957892 | 1.966896 | 2.9230820 |
| Region | Incertidumbre Promedio |
|---|---|
| África | 2.008364 |
| América del Norte | 3.414951 |
| América Latina y el Caribe | 2.624600 |
| Asia | 1.717345 |
| Europa | 3.550150 |
| Otras/Oceanía | 3.131393 |
| Region | Consumo Medio | Mediana Consumo | Desviación Std |
|---|---|---|---|
| TOTAL GLOBAL | 5.49675 | 5.011499 | 4.043374 |
| Region | Incertidumbre Promedio |
|---|---|
| TOTAL GLOBAL | 2.4094 |
Debido a la naturaleza heterogénea del consumo de alcohol a nivel
global, se incorporó un análisis de robustez comparando la Media
Aritmética frente a la Mediana por cada macro-región. Este procedimiento
tiene como objetivo detectar posibles sesgos causados por valores
atípicos (outliers) países con consumos excepcionalmente
altos o bajos— que pudieran desplazar el promedio y, por ende,
distorsionar la interpretación del ancho de los intervalos de confianza
(ci_width).
Una divergencia mínima entre ambas medidas (Sesgo Relativo < 10%) validará el uso de la media como estimador central representativo para la posterior comparación de intervalos. Para este cálculo se utilizó el siguiente algoritmo:
| Region | Media | Mediana | Sesgo Relativo Pct |
|---|---|---|---|
| África | 3.811181 | 3.031274 | 25.7286836 |
| América del Norte | 9.678899 | 9.725894 | -0.4831944 |
| América Latina y el Caribe | 6.078153 | 6.118551 | -0.6602509 |
| Asia | 2.957892 | 1.966896 | 50.3837118 |
| Europa | 10.047752 | 10.711757 | -6.1988414 |
| Otras/Oceanía | 8.787730 | 8.789957 | -0.0253374 |
Con el fin de garantizar la robustez de los modelos estadísticos y mitigar el sesgo provocado por la asimetría de la distribución del consumo de alcohol, se aplicó un procedimiento de truncamiento técnico sobre la base de datos original.
Este proceso se fundamentó en un algoritmo de filtrado por percentiles, seleccionando el Percentil 90 (P90) como umbral crítico de corte. La elección de este método responde a la necesidad de estabilizar la varianza y asegurar que los estimadores de tendencia central no se vean distorsionados por observaciones extremas situadas en la cola superior de la distribución.
El procedimiento metodológico se ejecutó bajo los siguientes pasos:
Identificación del Umbral: Cálculo del valor correspondiente al P90 en la variable de consumo per cápita.
Criterio de Exclusión: Eliminación sistemática de las observaciones cuyo valor superara dicho límite, aislando así el 10% de la muestra con mayor volatilidad.
Validación de la Muestra Depurada: Comparación de los estadísticos descriptivos (media, desviación estándar y valores máximos) para verificar la ganancia en homogeneidad.
Como se detalla en la tabla adjunta, este ajuste metodológico permitió transitar de una muestra con alta dispersión a una muestra truncada (depurada).
| Indicador | Muestra Completa | Muestra Truncada |
|---|---|---|
| Nro.Países | 940.00 | 846.00 |
| Media (Litros) | 5.50 | 4.71 |
| Desv.Estándar | 4.04 | 3.42 |
| Valor Máx | 17.22 | 11.25 |
Para la ejecución de la técnica de comparación de intervalos, se desarrolló un algoritmo capaz de contrastar el límite superior de una región frente al límite inferior de otra. Esta metodología, fundamentada en la inferencia visual, permite dictaminar la existencia de brechas significativas en el consumo de alcohol sin las limitaciones de normalidad que exigen las prueba paramétricas tradicionales. A continuación, se detalla el procesamiento de los datos para la construcción de los indicadores de superposición regional:
| Region | Paises | Media | Lim. Inf | Lim. Sup | Marg Error |
|---|---|---|---|---|---|
| Europa | 215 | 10.05 | 8.31 | 11.86 | 1.78 |
| América del Norte | 10 | 9.68 | 7.99 | 11.40 | 1.71 |
| Otras/Oceanía | 10 | 8.79 | 7.23 | 10.36 | 1.57 |
| América Latina y el Caribe | 165 | 6.08 | 4.81 | 7.43 | 1.31 |
| África | 260 | 3.81 | 2.85 | 4.85 | 1.00 |
| Asia | 280 | 2.96 | 2.15 | 3.87 | 0.86 |
{En este capítulo se presentan los hallazgos derivados de la
aplicación de los métodos estadísticos descritos previamente sobre el
conjunto de datos alcohol_data.csv. El análisis se
estructura en tres fases fundamentales: la evaluación de la calidad y
robustez de los datos post-limpieza, la caracterización descriptiva del
consumo y la incertidumbre por macro-regiones, y finalmente, la
contrastación de significancia mediante la superposición de intervalos
de confianza.}
Previo al análisis comparativo, resulta imperativo confirmar que el estimador central seleccionado (media aritmética) es representativo de cada región y no está severamente sesgado por valores extremos (\(outliers\)). La siguiente tabla expone la divergencia porcentual entre la media y la mediana.
La herramienta visual empleada es un gráfico de densidad de probabilidad (Kernel Density Plot) facetado por región. Este enfoque es superior a un histograma tradicional, ya que permite visualizar la forma continua de la distribución. Además, el gráfico incorpora un contraste de robustez mediante dos medidas de tendencia central: Media Aritmética (Línea azul discontinua) Mediana (Línea roja continua)
La relación entre ambas medidas nos permite diagnosticar el sesgo
(asimetría) de la distribución en cada región.
Análisis Descriptivo por Región:
A continuación, se detalla el comportamiento estadístico de cada bloque regional:
África y Asia (Distribuciones con Asimetría Positiva)
Ambas regiones presentan una clara asimetría hacia la derecha (sesgo positivo). La mayor densidad probabilística se concentra en los niveles bajos de consumo (entre 0 y 5 litros).
En ambos gráficos, la Media > Mediana. Esto indica empíricamente que, aunque la mayoría de los países en estas regiones tienen un consumo bajo (reflejado por la mediana), existen algunos países con consumos atípicamente altos (la “cola” derecha) que arrastran el promedio aritmético hacia arriba.
Europa (Distribución con Asimetría Negativa)
Contrario a África y Asia, Europa muestra un sesgo hacia la izquierda (asimetría negativa). El pico de densidad (la moda) se encuentra en niveles de consumo significativamente altos, alrededor de los 10-12 litros per cápita.
Se observa que la Media < Mediana. La mayoría de los países europeos tienen un alto consumo de alcohol, pero unos pocos países con consumos menores arrastran el promedio general hacia abajo. Es la región con el nivel base de consumo más alto.
América Latina y el Caribe, y Otras/Oceanía (Distribuciones Bimodales)
Estas regiones exhiben un comportamiento particular: la bimodalidad. Presentan dos picos de densidad distintos. En América Latina, los picos rondan los 4 y 7 litros; en Oceanía, rondan los 7 y 11 litros. Esto sugiere la existencia de dos subgrupos o conglomerados de países con comportamientos de consumo marcadamente diferentes dentro de la misma región.
En ambos casos, la media y la mediana son prácticamente idénticas y se ubican en el “valle” entre los dos picos.
América del Norte (Distribución Altamente Leptocúrtica)
Presenta un pico único, extremadamente estrecho y alto, con colas inexistentes. Contraste Media vs. Mediana: La media y la mediana coinciden perfectamente alrededor de los 8-9 litros.
Esta forma indica una varianza casi nula. Estadísticamente, esto sugiere fuertemente que la muestra para “América del Norte” en este conjunto de datos está compuesta por muy pocos países, cuyos promedios de consumo son estadísticamente idénticos para el período analizado.
Se procedió a calcular las métricas agregadas considerando el
promedio de litros de alcohol puro (APC) y la precisión técnica de los
reportes globales, medida a través de la amplitud del intervalo de
confianza (ci_width). A continuación, se presenta la tabla
maestra que unifica estas variables, incluyendo el total globalizado.
El gráfico representa las medias muestrales de cada región mediante
puntos, complementadas con barras de error que indican los Intervalos de
Confianza (IC) al 95%. Adicionalmente, se emplea una escala de color
divergente (de azul a rojo) que actúa como un refuerzo visual de la
magnitud de la variable continua (nivel de consumo).
La inspección de las estimaciones puntuales (medias) revela una clara jerarquía en el consumo de alcohol a nivel global: Segmento de Alto Consumo: Liderado por Europa con la media más alta de 10.05 litros per cápita, seguida de cerca por América del Norte (9.68 litros) y Otras/Oceanía (8.79 litros).
América Latina y el Caribe se sitúa en una posición intermedia y aislada con una media de 6.08 litros.
Las regiones con menor ingesta reportada son África (3.81 litros) y Asia (2.96 litros).
El valor estadístico real de esta visualización reside en los Intervalos de Confianza (IC) del 95%, los cuales nos permiten hacer inferencias sobre las poblaciones y evaluar la significancia estadística de las diferencias entre regiones mediante la observación del traslape (solapamiento) de dichos intervalos:
Agrupación Superior (Sin diferencias significativas internas): Se observa un traslape sustancial entre los intervalos de confianza de Europa, América del Norte y Otras/Oceanía. Estadísticamente, esto sugiere que no existe evidencia suficiente para afirmar que hay una diferencia significativa en el consumo promedio de alcohol entre estas tres macro-regiones al nivel de confianza del 95%. Constituyen un bloque estadísticamente homogéneo de alto consumo.
Aislamiento de América Latina y el Caribe: El intervalo de confianza para esta región (con centro en 6.08) no se solapa de manera evidente ni con el bloque superior (Oceanía/Norteamérica/Europa) ni con el bloque inferior (África/Asia). Esto indica que el consumo en América Latina es significativamente menor que en el mundo desarrollado/occidental, pero significativamente mayor que en los continentes africano y asiático.
Agrupación Inferior (Sin diferencias significativas internas): De manera similar al bloque superior, los intervalos de confianza de África y Asia presentan un claro solapamiento. Por lo tanto, la diferencia observada entre sus medias (3.81 vs. 2.96) no es estadísticamente significativa; ambas regiones conforman un grupo homogéneo de bajo consumo.
Para profundizar en el análisis de consistencia, se presenta a
continuación un gráfico de dispersión que evalúa la asociación entre el
consumo per cápita y la incertidumbre de la medición
(ci_width), estratificado por macro-regiones. Dado que los
datos presentan una distribución asimétrica, se optó por el Coeficiente
de Spearman, el cual resulta más robusto ante valores atípicos y
relaciones no lineales. Esta visualización permite identificar la
tendencia monótona global, así como los comportamientos diferenciales y
la concentración de datos en grupos específicos de países
El gráfico presenta un diagrama de dispersión que evalúa la asociación
monótona entre el volumen de consumo y la incertidumbre del reporte.
Coeficiente de Spearman (p=0.969): Este valor indica una asociación positiva casi perfecta. Al utilizar Spearman en lugar de Pearson, se valida que existe una relación jerárquica robusta: conforme aumenta el consumo, la incertidumbre crece de manera sistemática, incluso si esta relación no sigue una línea recta exacta o presenta una varianza no constante (heterocedasticidad).
Distribución por Macro-Regiones: Se observa una clara segmentación geográfica. Europa domina el cuadrante de alta incertidumbre y alto consumo, mientras que África y Asia muestran una mayor precisión estadística asociada a menores niveles de ingesta.
Análisis de la Variabilidad: El gráfico revela que la precisión del dato no es uniforme. La dispersión aumenta en los niveles altos de consumo, lo que justifica el uso de métodos no paramétricos (como Spearman), ya que Pearson habría subestimado la fuerza de la asociación al verse afectado por la mayor variabilidad en los extremos.
Conclusión Técnica: El valor de 0.969 confirma que la incertidumbre es una función intrínseca del volumen reportado. Esta consistencia tan alta sugiere que el error de medición es sistémico y no aleatorio, lo que refuerza la necesidad de tratar los datos de alto consumo con los ajustes de incertidumbre propuestos en este estudio.
Dado que las macro-regiones están compuestas por países con realidades socioeconómicas diversas, es imperativo evaluar cómo los valores atípicos influyen en los estadísticos de tendencia central. El uso de promedios simples puede verse distorsionado por naciones cuyo consumo per cápita es excepcionalmente alto o bajo en comparación con sus pares regionales. Para identificar estas asimetrías, se emplea un diagrama de caja y bigotes (Boxplot), que permite visualizar la mediana y los cuartiles, aislando los valores que se alejan significativamente del comportamiento grupal.
Análisis de Asimetría y Valores Atípicos Regionales
El gráfico presenta la distribución del consumo per cápita de alcohol por macro-región, destacando la relación entre la mediana (línea horizontal) y el promedio (diamante rojo), lo cual es el principal indicador de sesgo estadístico en la muestra.
La distancia entre el diamante (media) y la línea interna de la caja (mediana) indica qué tan “engañoso” puede ser un reporte basado solo en promedios:
África y Asia (Sesgo Positivo Extremo): En estas regiones, el diamante está significativamente por encima de la mediana. Esto ocurre porque la gran mayoría de los países tienen consumos muy bajos (cerca de 0-2 litros), pero existen unos pocos “outliers” con consumos altísimos (puntos granates de 12-16 litros) que arrastran el promedio hacia arriba.
América del Norte y Europa (Simetría y Alta Densidad): En América del Norte, el promedio y la mediana casi coinciden, lo que indica una distribución uniforme. En Europa, el consumo es alto de forma generalizada; sin embargo, es la única región con outliers inferiores (puntos azules por debajo de la caja), lo que sugiere que hay un grupo pequeño de países europeos con políticas o culturas de consumo radicalmente distintas al resto del continente.
Europa: Presenta la caja más alta en el eje Y, confirmando que es la región con el consumo base más elevado del mundo (el 75% de sus países consumen por encima de los 7 litros).
América Latina y el Caribe: Muestra una dispersión moderada pero constante. Su caja es más compacta, lo que indica que, a pesar de las diferencias culturales, los niveles de consumo son relativamente similares entre sus países integrantes.
África: Es la región con la mayor amplitud total (desde casi 0 hasta 16 litros), lo que demuestra que es la zona con mayor desigualdad estadística en sus hábitos de consumo.
El truncamiento al P90 no se propone como un reemplazo de la muestra original, sino como un diagnóstico de sensibilidad. La variación observada al excluir solo el 10% superior confirma que la media aritmética es un estimador ineficiente para esta distribución, validando así la necesidad de utilizar la mediana o métodos no paramétricos para el análisis regional.
Este gráfico permite visualizar el éxito de la limpieza de datos. En la
muestra original, la “cola” de la distribución se extendía demasiado
hacia arriba, lo que hacía que el promedio (la media) se situara en 5.50
litros, una cifra que no representaba a la mayoría de los países. Al
aplicar el truncamiento del 10% superior, logramos una distribución más
equilibrada donde la media bajó a 4.71 litros.
La limpieza eliminó el “ruido” de los países con consumos extremos, permitiendo que el promedio ahora sí sea un reflejo fiel de la realidad global.
Impacto del Truncamiento en la Tendencia Central El primer gráfico
(Boxplot comparativo) es una prueba clara de la sensibilidad de la media
aritmética ante valores extremos. Reducción del Sesgo: Al eliminar el
10% de los países con mayor consumo (pasando de n=940 a n=846), la media
descendió de 5.50 a 4.71 litros per cápita. Esta diferencia de 0.79
litros parece pequeña, pero a escala poblacional representa una magnitud
masiva de alcohol no consumido por el ciudadano “promedio”.
Contracción de la Variabilidad: La “cola” superior se redujo drásticamente (de casi 18 litros a 12 litros). Esto indica que el modelo original estaba siendo “arrastrado” hacia arriba por un grupo pequeño de países con consumos hiper-elevados, lo que generaba una falsa percepción de la normalidad global.
Convergencia Media-Mediana: En la muestra truncada, el diamante (media) se acerca mucho más a la línea central de la caja (mediana). Esto es un indicador de que la distribución, aunque sigue siendo asimétrica, es ahora mucho más manejable y menos errática para realizar inferencias.
El segundo gráfico combina diagramas de caja con “jitter” (puntos individuales), permitiéndonos ver la densidad real de los datos tras la limpieza.
El “Espejismo” de la Normalidad: A pesar del truncamiento, el gráfico confirma que el consumo de alcohol no sigue una distribución normal en casi ninguna región.
Heterogeneidad Regional Extrema: Europa y Otras/Oceanía: Muestran cajas situadas en la parte alta del eje Y (consumo masivo). En Europa, incluso tras quitar el P90, la mayoría de los países consumen entre 7 y 10 litros. África y Asia: Presentan una base muy ancha en los niveles bajos (puntos azules cerca del cero), pero con “colas” largas hacia arriba. Aquí, la media (diamante) está notablemente por encima de la mediana, lo que indica que una minoría de países en estas regiones consume mucho más que el resto.
América del Norte: Presenta una dispersión casi nula en este gráfico, lo que sugiere que los datos para esta región están muy concentrados o que el número de unidades de observación tras el truncamiento es muy bajo, actuando casi como una constante.
El consumo de alcohol no sigue una distribución normal (Gaussiana) a nivel global ni en la mayoría de las regiones. Tratar los datos asumiendo normalidad llevaría a errores inferenciales.
Europa lidera el consumo, siendo la única región donde la distribución masiva de los datos se agrupa en el extremo superior de la escala de consumo.
Dado el fuerte sesgo en Asia, África y Europa, la Mediana es el indicador estadístico más robusto y representativo para comparar la tendencia central típica entre estas regiones, ya que no se ve afectada por los valores extremos observados en las colas de densidad.
No se acosenja utilizar la “Media” para describir a América Latina y el Caribe u Oceanía en reportes ejecutivos. Al ser bimodales, afirmar que el país promedio consume “X” litros es una falacia ecológica; es mejor reportar que existen dos perfiles de consumo distintos en dichas zonas.
El análisis de los datos del período 2015-2019 permite segmentar el mundo en tres grupos estadísticamente diferenciados respecto a su consumo per cápita de alcohol puro: un grupo de alto consumo (Europa, América del Norte y Oceanía), un grupo de consumo moderado (América Latina y el Caribe) y un grupo de bajo consumo (África y Asia). Las variaciones dentro de cada grupo se consideran producto de la variabilidad muestral o aleatoria, mientras que las variaciones entre los grupos representan diferencias poblacionales reales y significativas
1. Estratificación de Políticas por Grupo Regional
Se recomienda que las organizaciones globales de salud (como la OMS/OPS) no apliquen estrategias genéricas de control de consumo.
Para el Grupo de Alto Consumo (Europa, Norteamérica, Oceanía): Dado que la diferencia entre sus medias no es significativa, se pueden estandarizar campañas transnacionales centradas en la reducción de daños crónicos, ya que el comportamiento de consumo es homogéneo y estructuralmente elevado.
Para el Grupo de Bajo Consumo (África, Asia): El enfoque debe ser preventivo para evitar el desplazamiento de la media hacia niveles superiores debido a la apertura de mercados y cambios demográficos.
Dada la posición aislada de América Latina y el Caribe en la escala global, se recomienda fortalecer los sistemas de vigilancia epidemiológica locales.
Es vital reducir el ancho de los intervalos de confianza (ci_width) en esta región, ya que su bimodalidad (detectada en el análisis de densidad) sugiere que los promedios regionales podrían estar ocultando realidades críticas en países específicos que no se ajustan al “grupo moderado”.
Una recomendación metodológica clave es incentivar la transición de reportes basados en estimaciones a reportes basados en registros administrativos reales.
Se observa que las regiones con mayor sesgo (como Asia) suelen coincidir con una mayor variabilidad en la precisión de los datos. Reducir la incertidumbre técnica permitirá que los grupos identificados en este estudio sean aún más precisos en futuras investigaciones.
Para futuros análisis de estos mismos datos, se recomienda adoptar la Mediana como indicador oficial de comparación para los grupos de África y Asia.
Debido al sesgo positivo detectado, el uso de la media sobreestima el consumo del “país típico” en esas zonas, lo que podría llevar a una asignación ineficiente de recursos para la salud.
Europa no solo lidera el consumo, sino que es la región que define la pendiente de la incertidumbre global en este estudio.
Se recomienda investigar los puntos que se alejan significativamente de la media (especialmente en el rango de 8 a 12 litros) para entender por qué algunos países tienen mucha más incertidumbre que otros con el mismo nivel de consumo.
Se debe mejorar la precisión de los sistemas de registro en Europa y América del Norte, ya que la alta incertidumbre (ci_width elevado) puede estar ocultando picos de consumo aún mayores o subestimando el impacto real.
No aplicar una métrica global única. Las estrategias para la “Agrupación Inferior” (África/Asia) deben enfocarse en mantener los niveles bajos, mientras que en la “Agrupación Superior” se requiere una intervención urgente para reducir tanto el consumo como el margen de error en los datos.
Correlación entre Consumo e Incertidumbre: Se evidencia que la precisión de las estimaciones es inversamente proporcional al volumen de consumo. El análisis de los intervalos de confianza (\(ci\_width\)) confirma la presencia de heterocedasticidad: a mayor consumo per cápita, mayor es la varianza residual. Esto implica que los datos en regiones de alta ingesta presentan una volatilidad estructural que los indicadores puntuales no logran capturar.
El Impacto de los Valores Atípicos: La aplicación de la media truncada al 90% reveló que el “ruido” estadístico en las colas de la distribución no es despreciable. Mientras que el truncamiento estabiliza la varianza y facilita la comparación entre regiones, la persistencia de estos outliers en Europa sugiere que existen factores socioculturales que desafían los modelos de predicción lineal estándar, requiriendo un enfoque de estadística robusta.
Comunicación de la Incertidumbre: Se sugiere que en las presentaciones de resultados para entes de salud pública, no se utilicen gráficos de barras simples. En su lugar, es imperativo el uso de gráficos de densidad o de violín que incluyan el reporte explícito de los intervalos de confianza, evitando así la “falacia de la precisión” y reconociendo el margen de error inherente al dato epidemiológico.
Para evidenciar estadísticamente la presencia de valores atípicos que distorsionan el promedio regional, se presenta como anexo un modelo de regresión de la incertidumbre. El gráfico de Residuos vs Ajustados permite identificar a aquellos países (outliers) que se alejan de la varianza normal.
\[ \text{ci\_width} = \beta_0 +
\beta_1(\text{Consumo\_Per\_Capita}) + \epsilon \]
En este anexo se presenta el listado desglosado de los 20 países que presentan los mayores niveles de incertidumbre en la estimación del consumo (ci_width), permitiendo auditar los valores atípicos (“Outliers”) que definen la dispersión observada en el análisis regional.
| Country | Region | Alcohol Liters Per Capita | Ci Width |
|---|---|---|---|
| Estonia | Europa | 10.179834 | 5.937995 |
| Estonia | Europa | 11.028379 | 5.880120 |
| Romania | Europa | 16.851680 | 5.492574 |
| Georgia | Europa | 15.565873 | 5.476037 |
| Estonia | Europa | 8.982530 | 5.437651 |
| Romania | Europa | 17.095882 | 5.359297 |
| Romania | Europa | 17.109261 | 5.336922 |
| Latvia | Europa | 13.637683 | 5.196733 |
| Romania | Europa | 16.891994 | 5.182309 |
| Latvia | Europa | 12.532770 | 5.159975 |
| Georgia | Europa | 15.022253 | 5.149384 |
| Georgia | Europa | 14.931050 | 5.116764 |
| Latvia | Europa | 13.232896 | 5.104762 |
| Estonia | Europa | 8.173949 | 5.095574 |
| Latvia | Europa | 12.905054 | 5.094808 |
| Romania | Europa | 17.217582 | 5.087468 |
| Georgia | Europa | 14.647707 | 5.054501 |
| Viet Nam | Asia | 10.713693 | 5.013090 |
| Burkina Faso | África | 16.248400 | 4.993751 |
| Georgia | Europa | 14.634404 | 4.974746 |
Para complementar el análisis de consistencia técnica, se presenta un mapa de calor que cruza la Región Geográfica con los niveles de consumo. La intensidad del color representa la densidad de países en cada segmento, facilitando la identificación de los grupos de bajo y alto consumo.
Con el objetivo de profundizar en la transparencia del tratamiento de datos, este anexo presenta el listado detallado de las naciones que fueron excluidas de la muestra final tras la aplicación del algoritmo de truncamiento por el percentil 90 (P90).
Estas observaciones representan el 10% de la muestra con mayores niveles de ingesta de alcohol per cápita (valores superiores a 11.25 litros). La tabla permite identificar que el sesgo original de la media (situada inicialmente en 5.50 litros) era producto de estos casos atípicos, cuya dispersión afectaba la representatividad del análisis regional. A continuación, se detallan los países, su región y el valor exacto de consumo registrado:
| Región | País | Consumo (L/Cápita) |
|---|---|---|
| Europa | Romania | 17.21758 |
| Europa | Romania | 17.10926 |
| Europa | Romania | 17.09588 |
| Europa | Romania | 16.89199 |
| Europa | Romania | 16.85168 |
| Europa | Georgia | 15.56587 |
| Europa | Georgia | 15.02225 |
| Europa | Georgia | 14.93105 |
| Europa | Georgia | 14.64771 |
| Europa | Georgia | 14.63440 |
| Europa | Latvia | 14.09953 |
| Europa | Czechia | 13.77042 |
| Europa | Czechia | 13.74933 |
| Europa | Czechia | 13.72884 |
| África | Seychelles | 13.70705 |
| Europa | Czechia | 13.67546 |
| Europa | Czechia | 13.66449 |
| Europa | Latvia | 13.63768 |
| Europa | Lithuania | 13.55917 |
| Europa | Latvia | 13.23290 |
| África | Seychelles | 13.22907 |
| África | Seychelles | 13.09712 |
| Europa | Latvia | 12.90505 |
| África | Seychelles | 12.61723 |
| Europa | Latvia | 12.53277 |
| Europa | France | 12.50219 |
| Europa | Lithuania | 12.48473 |
| África | Namibia | 12.47807 |
| Europa | France | 12.40636 |
| África | Namibia | 12.39456 |
| Europa | Moldova, Republic of | 12.32051 |
| Europa | France | 12.29844 |
| Europa | France | 12.18757 |
| Europa | Poland | 12.03592 |
| Europa | Germany | 12.00424 |
| Europa | Poland | 11.96939 |
| Europa | Germany | 11.93218 |
| Europa | Austria | 11.92800 |
| Europa | Germany | 11.92123 |
| Europa | Moldova, Republic of | 11.88295 |
| Europa | Hungary | 11.87263 |
| Europa | Austria | 11.84543 |
| Europa | Poland | 11.83222 |
| Europa | Lithuania | 11.83054 |
| Europa | Austria | 11.82784 |
| Europa | Hungary | 11.81310 |
| Europa | Poland | 11.81251 |
| Europa | Poland | 11.80420 |
| Europa | Austria | 11.76883 |
| Europa | France | 11.76477 |
| Europa | Germany | 11.76339 |
| África | Namibia | 11.76234 |
| Europa | Hungary | 11.76124 |
| África | Seychelles | 11.72825 |
| Europa | Austria | 11.70255 |
| Europa | Moldova, Republic of | 11.69958 |
| Europa | Hungary | 11.67281 |
| Europa | Germany | 11.56731 |
| Europa | Hungary | 11.55134 |
| África | Namibia | 11.50190 |
| Europa | Lithuania | 11.42876 |
| Europa | Moldova, Republic of | 11.41506 |
| Europa | Lithuania | 11.40328 |
| Europa | Moldova, Republic of | 11.36312 |
| África | Namibia | 11.33669 |