Impacto de los valores atípicos e incertidumbre estadística en el análisis del consumo global de alcohol (2015-2019)

Andrea Figuera

Eduardo Espinoza

Abril 2026

Abstract

En el presente informe se realiza un análisis del impacto de los valores atípicos y la incertidumbre estadística en las estimaciones del consumo global de alcohol (2015-2019). Se examina la robustez del promedio frente a la mediana y se evalúa la precisión de los intervalos de confianza mediante el análisis de solapamiento regional, aplicando técnicas de limpieza de datoS, truncamiento por percentiles y visualización de densidades con R.

El análisis de las tendencias globales de salud ha cobrado una relevancia sin precedentes en el diseño de políticas públicas, donde el consumo de alcohol se posiciona como una de las variables más críticas debido a su impacto directo en la carga de morbilidad y la estabilidad socioeconómica de las naciones. Sin embargo, detrás de los reportes anuales, la medición del consumo per cápita se caracteriza por una alta incertidumbre aleatoria: la ingesta registrada no es una cifra estática, sino el resultado de una compleja interacción entre factores culturales, marcos regulatorios y la calidad de los sistemas de recolección de datos de cada país.

Para el profesional en Estadística, este escenario presenta un desafío metodológico fundamental: ¿Cómo influyen los valores atípicos y el sesgo de la muestra en la representatividad de los promedios globales? ¿Es posible confiar en las estimaciones puntuales cuando la varianza regional es tan pronunciada?

El presente trabajo de investigación tiene como propósito realizar un análisis estadístico exhaustivo sobre el conjunto de datos de consumo global de alcohol (2015-2019). A través del uso de herramientas computacionales avanzadas en R y técnicas de visualización de densidades, se busca evaluar el impacto de los outliers sobre el promedio y los intervalos de confianza. El estudio aplica protocolos de limpieza de datos y algoritmos de truncamiento por percentiles (P90) como una herramienta de análisis de sensibilidad. Este procedimiento permite cuantificar el impacto específico de los valores extremos sobre la media global, evidenciando cómo el 10% de las observaciones con mayor consumo desplaza el centro de la distribución. Al contrastar la muestra íntegra con la truncada, se logra descomponer la variabilidad y ofrecer una interpretación más técnica de la incertidumbre, reconociendo el peso que tienen los outliers en la representatividad de los indicadores de salud global.

Este documento técnico se encuentra estructurado en cinco capítulos fundamentales que guían el análisis desde la formulación teórica hasta la resolución computacional:

Este reporte no solo ofrece una radiografía del consumo global de alcohol, sino que propone una metodología reproducible para el tratamiento de datos atípicos en investigaciones sociodemográficas complejas.

Cuando se habla del consumo de alcohol al nivel mundial, los resultados de un análisis generalmente son presentados según qué tan por encima o por debajo esté el promedio de cierta población estudiada en relación con el indicador transversal utilizado por la Organización Mundial de la Salud (OMS). El consumo de alcohol per cápita es un tema en el que se evalúa el riesgo y el punto donde el consumo se categoriza como un tema crítico para la salud pública, al momento de determinarlo se choca directamento con el reduccionismo estadístico, el cual hace referencia al como la interpretación de los datos viene presentada bajo indicadores estadísticos que buscan reducir la realidad objetiva de poblaciones enteras a un simple promedio (World Health Organization 2018).

Entes oficiales de salud pública como la OMS o la Organización Panamericana de la Salud (OPS) usan herramientas estadísticas para la recolección, interpretación y presentación de los datos; la OMS establece una medida estándar para el análisis global del consumo de alcohol que define de la siguiente manera:

El consumo total de alcohol per cápita (APC) se define como la cantidad total (suma del promedio de tres añoS registrado y el promedio de tres años de APC no registrado, ajustado por el consumo turístico promedio de tres años) de alcohol consumido por adulto (15+ años) durante un año calendario, en litros de alcohol puro. (OMS, 2018, p. 411)

Esta definición revela la complejidad que puede esconderse detrás de un solo numero. Al involucrar tantas variables el APC pasa de ser solo un promedio a convertirse mas en una estimación sujeta a un gran margen de error. Sin embargo, en el discurso público, esta cifra suele presentarse como una verdad absoluta, ignorando que el promedio es una medida extremadamente sensible a valores atípicos, extremos y faltantes. Un promedio suele ser una medida muy débil al momento de trabajar con datos que contienen mayor dispersión.Aunque las bases de datos recientes han mejorado su completitud, históricamente la ausencia de registros ha sido un peligro (GBD 2016 Alcohol Collaborators 2018).

Al hablar del consumo de alcohol generalmente se encuentra un sesgo muy grande entre los datos: si un grupo pequeño consume de forma masiva, el promedio subirá, estigmatizando a toda una población por el comportamiento de una minoría, alejandose de la realidad (Huber 1981) o peor aún, se asume que el riesgo está distribuido de forma equitativa cuando en realidad está concentrado en sectores específicos que el promedio no logra mostrar. En ciertos casos la mediana suele ser más representativa pero los entes políticos prefieren el promedio por ser este más manipulable. Si un país no registra bien sus datos, el promedio simplemente ignora esos vacíos, esto genera un sesgo de selección (Little and Rubin 2019), el promedio parece saludable solo porque no se esta contando los datos que no se puden medir. Entonces esto dice que “lo que no se mide, no existe”.

Siendo los valores faltantes un peligro. Muchas veces, los países con las crisis de consumo más graves tienen los sistemas de registro más deficientes. Cuando un reporte ignora estos huecos de información, el promedio nacional se ve “limpio”, permitiendo que se construyan narrativas basadas en un sesgo de selección. Al final, exponer estos datos sin explicar la variabilidad técnica (como el ancho de los intervalos de confianza) convierte la estadística en una herramienta que oculta las verdaderas crisis de salud detrás de una falsa sensación de precisión (Van der Bles et al. 2019).

A todo lo antes expuesto le queda la frase popular conocida en la estadística; “No cruces un río que tiene un promedio de un metro de profundidad, porque podrías ahogarte en la parte que mide tres metros”. Esta metáfora ilustra el peligro de ignorar la varianza en la gestión de riesgos sistémicos (Taleb 2012).

El promedio es la medida que los gobiernos suelen usar para decir si un país tiene un elevado consumo de alcohol en comparación con el promedio mundial de la OMS. También se utiliza la Prevalencia de Consumo, que mide qué porcentaje de la población bebió en el último año, y un indicador más técnico llamado DALY, que estima cuántos años de vida saludable pierde una comunidad por problemas con la bebida. El detalle está cuando estas cifras se presentan de forma distinta a lo que son, estimaciones. Al enfocarse solo en estos números finales, se deja de lado la incertidumbre y el error que hay detrás de cada dato (Murray and Lopez 2002), permitiendo que se construyan discursos donde un promedio bajo oculte una crisis de salud real en sectores específicos.

Como dicta la conocida paradoja estadística: si una persona se come un pollo entero y otra no come nada, el promedio indicará que cada una consumió medio pollo. Este uso intencionado del promedio para ocultar la desigualdad en la distribución es una técnica clásica de distorsión informativa (Huff 1954). En la práctica, este sesgo puede ser utilizado políticamente para proyectar una falsa sensación de éxito o estabilidad, permitiendo que un gobierno declare un bajo consumo en su región mientras ignora deliberadamente a los sectores con consumos explosivos o problemáticos que quedan ocultos tras la cifra central.

Esta “mentira estadística” sustenta los factores críticos que afectan la veracidad de los datos recolectados:

Un promedio carece de valor científico si no se analiza su margen de error.

Una región puede reportar un consumo bajo, pero si el ancho de su intervalo de confianza es excesivamente grande, esto no refleja un comportamiento social claro, sino una deficiencia en la calidad de la recolección de los datos o una variabilidad inmanejable (Cumming 2014).

El error más común en la comparación internacional es asumir que distintos promedios implican distintas realidades. Si al comparar dos naciones sus intervalos de confianza se solapan significativamente, estadísticamente no existe evidencia suficiente para afirmar que una consume más que la otra. El solapamiento es la prueba de que el promedio, por sí solo, es insuficiente para establecer jerarquías de consumo (Schenker and Gentleman 2001).

La ausencia de registros en ciertos periodos o sectores poblacionales desplaza el promedio hacia valores que no representan la realidad. El uso de bases de datos con vacíos informativos permite construir narrativas que benefician agendas institucionales en lugar de reflejar la salud pública real (Little and Rubin 2019).

Un caso real que ilustra esta problemática se observa en los reportes globales de la Organización Mundial de la Salud (OMS). En regiones con sistemas de vigilancia débiles, se reportan promedios nacionales que subestiman el riesgo real debido a que la incertidumbre de la medición es tan alta que el dato central deja de ser representativo (GBD 2016 Alcohol Collaborators 2018). De igual forma, comparaciones clásicas entre Europa del Este y Europa Occidental a menudo revelan que, aunque los titulares de prensa resalten diferencias en los promedios, los intervalos de confianza de estos países suelen solaparse, indicando que las diferencias podrían no ser afirmadas con claridad estadística a partir de esta comparación visual (Gelman and Stern 2006).

Esto responde a que la variabilidad del consumo no es constante ni uniforme entre las naciones.Por lo tanto, este trabajo de investigación se propone cuestionar la validez de las comparaciones tradicionales de consumo de alcohol. El problema no radica solo en la cantidad consumida, sino en la incertidumbre estadística que se desprende de los datos. El desafío es, entonces la implementación de algoritmos que permitan una gestión rigurosa de los datos faltantes (missing data), entendiendo que su ausencia no es aleatoria, sino un indicador de la debilidad de los sistemas de vigilancia. Más allá de la implementación de medidas de tendencia central, este trabajo se enfoca en la visualización de densidades de probabilidad y el procesamiento de intervalos de confianza (Wilke 2019). El objetivo es demostrar mediante el análisis de datos que, ante una alta varianza y un solapamiento significativo de las distribuciones, el promedio pierde su capacidad explicativa. Actuando en colaboración con la ciencia computacional: se requiere procesar y visualizar estos niveles de solapamiento y dispersión para demostrar que, sin un análisis riguroso de la incertidumbre, la estadística deja de ser una herramienta de precisión para convertirse en una narrativa que oculta las verdaderas crisis de consumo.

Debido a esto, se plantea las siguientes preguntas de investigación:

¿Cómo influyen los valores atípicos y los datos faltantes en la representatividad del promedio del consumo de alcohol?

¿Qué tan confiables son los promedios globales si consideramos que los márgenes de error varían drásticamente entre regiones, y cómo afecta esta diferencia la precisión de lo que se reporta?

¿En qué medida el solapamiento de los intervalos de confianza invalida las comparaciones y jerarquías de consumo tradicionales?

La presente investigación se fundamenta en la necesidad de pasar de una estadística descriptiva básica hacia un análisis de datos crítico que integre la incertidumbre como una variable fundamental para ser presentada a la sociedad. En el ámbito académico de la Escuela de Estadística y Ciencias Actuariales (EECA), es necesario demostrar que el rol del analista no es simplemente procesar cifras, sino cuestionar la representatividad de la información que sustenta las políticas públicas globales.

La importancia de este análisis radica en desmontar el uso político de las medidas de tendencia central. Un gobierno puede declarar una gestión exitosa basándose en la reducción de un promedio, ignorando deliberadamente que dicha cifra puede ser el resultado de datos altamente sesgados o con una incertidumbre tan elevada que la comparación pierde validez científica. Al estudiar el solapamiento de los intervalos, esta investigación busca devolverle la rigurosidad a la interpretación de los datos, demostrando que la estadística no debe servir para simplificar la realidad, sino para revelar su complejidad.

Relevancia Técnica y Delimitación del Alcance Desde una perspectiva teórica, el trabajo contribuye al campo de la estadística social al demostrar que el promedio, como medida de tendencia central única, es insuficiente para caracterizar el consumo de alcohol. Al introducir conceptos como el solapamiento de intervalos de confianza y la variabilidad, esta investigación enriquece el debate académico sobre cómo deben compararse las realidades de distintas naciones, evitando conclusiones apresuradas que ignoran la dispersión de los datos.

Desde el punto de vista computacional, este proyecto se justifica al utilizar herramientas de programación (R y Python) para extraer y tratar la incertidumbre declarada en los reportes oficiales. Dado que la investigación se desarrolla en una etapa inicial de la formación académica, el enfoque no pretende realizar estimaciones propias ni modelos de regresión, sino centrarse exclusivamente en el procesamiento y visualización del solapamiento de los intervalos de confianza ya proporcionados en el dataset, valores atípicos (outliers) y el contraste entre las medidas de tendencia central. Esta delimitación es clave: el valor agregado de este trabajo radica en la capacidad de convertir tablas de datos crudos en visualizaciones de densidades de probabilidad que evidencien visualmente cuándo una diferencia entre países es estadísticamente significativa y cuándo es simplemente producto de la variabilidad del indicador transversal.

Relevancia Social y Ética Socialmente, el trabajo se justifica al exponer cómo el reduccionismo estadístico puede ser utilizado para construir narrativas que ocultan crisis sanitarias reales. Al procesar los intervalos de confianza, valores atípicos y los datos faltantes presentes en el dataset, se busca demostrar que un promedio nacional “limpio” puede ser el resultado de sistemas de registro deficientes, permitiendo que se ignore deliberadamente a los sectores con consumos problemáticos. Identificar vulnerabilidades ocultas, a la hora de tomar decisiones y entender el ancho de la incertidumbre permite reconocer en qué regiones la recolección de datos es deficiente o dónde el consumo es tan dispar que un promedio bajo no garantiza la ausencia de riesgos. Esto permite transitar de una política basada en cifras generales a una basada en la realidad de los intervalos, protegiendo así a los sectores poblacionales que quedan invisibilizados en los reportes tradicionales.

Así la presente investigación se plantea por la necesidad imperativa de dotar a la salud pública de herramientas de análisis que trasciendan la interpretación superficial de los datos. En un contexto global donde la información estadística es utilizada con frecuencia para validar narrativas políticas, este estudio aporta un marco crítico que devuelve la importancia a la variabilidad e incertidumbre como componentes esenciales de la verdad científica.

Aporte Académico Finalmente, la justificación metodológica se sustenta en el uso de herramientas computacionales de vanguardia. La complejidad de procesar un conjunto de datos extenso, que abarca múltiples años y regiones con valores faltantes, hace que el uso de Python o R no sea opcional, sino un requisito técnico. El manejo de estructuras de datos y la generación de visualizaciones avanzadas permiten exponer visualmente el solapamiento que los métodos manuales no logran captar. Así, este proyecto no solo cumple con una exigencia académica, sino que demuestra cómo la computación aplicada a la estadística es el único camino para desarticular las “mentiras” que surgen de un análisis de datos incompleto.

Este proyecto contribuye al repositorio “Análisis de consumo de alcohol e incertidumbre (Computación 1 - UCV)”. Aporta un modelo de análisis que no solo lee cifras, sino que evalúa la veracidad de las comparaciones internacionales mediante el rigor computacional, rescatando la hipótesis de que la estadística debe servir para revelar realidades, no para ocultarlas tras una falsa sensación de precisión.

La cobertura horizontal del presente estudio abarca las características intrínsecas del consumo de alcohol registradas en la base de datos alcohol_data.csv. Se consideran las dimensiones descriptivas del registro (país (country), código iso3, y año (year)).Adicionalmente, se incorporará una variable derivada para agrupar los países en regiones geográficas, facilitando un análisis comparativo a mayor escala. Se incluyen las métricas de tendencia central, específicamente el consumo de alcohol per cápita en litros (alcohol_liters_per_capita).Finalmente, se integran las variables de incertidumbre técnica, analizando el límite inferior (lower_ci), el límite superior (upper_ci) y el ancho del intervalo de confianza (ci_width) para cuestionar la precisión de los reportes globales.

La cobertura vertical del trabajo de investigación comprende un total de 940 observaciones (registros). Cada fila representa un dato anual de consumo por país. Para efectos de esta investigación, se realizó una delimitación poblacional filtrando únicamente los registros correspondientes a “Ambos sexos” (Both sexes). El alcance temporal de los datos es longitudinal, abarcando desde el año 2015 hasta el año 2019. Esta delimitación permite un análisis comparativo y evolutivo para observar las variaciones en los reportes de salud pública a lo largo de estos cinco años.

Para la presente investigación, el periodo de referencia efectivo para el análisis descriptivo y de incertidumbre técnica se estableció en el intervalo 2015-2019. Este rango de cinco años fue seleccionado estratégicamente debido a que presenta la mayor consistencia y precisión en los reportes de salud global sobre consumo de alcohol per cápita. A partir del año 2000, los métodos de recopilación de datos y los modelos de estimación de intervalos de confianza fueron estandarizados, lo que reduce los márgenes de error (ci_width) y permite una comparación longitudinal más robusta entre países y regiones.El procesamiento de la información se realizó con corte a Abril de 2026

La variable principal en estudio (Variable Dependiente/Objetivo) es el consumo (alcohol\_liters\_per\_capita), que representa el promedio de litros de alcohol puro consumidos por persona al año en la población de Ambos sexos (Both sexes). Esta métrica de tendencia central es fundamental para evaluar las tendencias globales de salud pública.

Como variables explicativas o independientes se analizan:

Variables Temporales y Geográficas:
- Año (year): Año del reporte (2000-2019).
- País (country): Nombre del país reportado.
- Código ISO3 (iso3): Código estandarizado de tres letras del país.
Variable Geográfica Derivada:
- Región (derivada): Agrupación geográfica de países creada para este análisis, teniendo America sur, paises de habla hispana y el Caribe (incluye Brazil y Mexico) America del Norte (Canada y Estados Unidos) Asia, Africa , Europa y Otros juntos con Oceania. Esta variable permite un análisis comparativo y de consistencia a una escala mayor, facilitando la identificación de patrones regionales de incertidumbre técnica.
Variables de Incertidumbre Técnica:
- Intervalo de Confianza (Lower CI / Upper CI): Límites inferior (lower\_ci) y superior (upper\_ci) que delimitan el rango de la estimación.
- Ancho del Intervalo (ci\_width): Medida de la precisión técnica, calculada como la diferencia entre los límites superior e inferior. Un ancho mayor indica una menor consistencia en el reporte global.

El presente capítulo establece los fundamentos estadísticos necesarios para el análisis del consumo de alcohol a nivel global y la cuantificación de su incertidumbre. Todo el marco conceptual se ajusta estrictamente a las variables observadas en la base de datos objeto de este estudio.

El indicador principal de este estudio es el Consumo de Alcohol Total Per Cápita (APC), representado en el conjunto de datos por la variable . Técnicamente, se define como la cantidad total (en litros) de alcohol puro consumido por la población en un país durante un año específico.

Desde la perspectiva estadístico-actuarial, el valor reportado como APC es un de la media poblacional (\(\mu\)). Dado que es imposible conocer el consumo exacto y absoluto de cada individuo en una nación (debido a la existencia de consumo no registrado, como la producción artesanal o el mercado ilícito), este valor se construye a partir de modelos de estimación que combinan fuentes determinísticas y estocásticas.

Debido a que el APC incluye datos que no se miden de forma directa y oficial, no puede considerarse un valor determinístico perfecto. Por ello, el análisis requiere el uso de para cuantificar el riesgo de error en la medición.

Para cada estimación del APC (\(\hat{\theta}\)), la base de datos proporciona un límite inferior () y un límite superior (), definiendo el intervalo para cada observación:

\[IC = [\hat{\theta}_{lower}, \hat{\theta}_{upper}]\]

La diferencia entre el límite superior y el inferior se define como la (representada por la variable ):

\[ci\_width = \hat{\theta}_{upper} - \hat{\theta}_{lower}\]

Esta amplitud es la medida directa de la . Un valor elevado de indica una mayor variabilidad y menor precisión en los datos reportados por ese país, lo cual constituye el núcleo analítico de la presente investigación.

Para evaluar el comportamiento del consumo a nivel agregado, es fundamental analizar la forma de su distribución. Para ello, se contrastará la (\(\bar{x}\)) con la (\(\tilde{x}\)) de la variable .

Representa el centro de gravedad o equilibrio de la distribución de los datos. Matemáticamente, se define como la suma de todos los valores observados dividida entre el tamaño de la muestra (n). Es una medida altamente sensible a valores extremos. \[\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\]
Es el valor posicional que divide la serie de datos ordenados exactamente en dos partes iguales (50% superior y 50% inferior). A diferencia de la media, es una medida robusta, lo que significa que no se ve afectada por valores atípicos (outliers) de consumo extremo.

La relación entre ambas medidas permite identificar sesgos distribucionales. Si \(\bar{x} > \tilde{x}\), existe una asimetría positiva, lo que indicaría que un grupo reducido de países con consumos extremos eleva el promedio general, alejándolo del comportamiento típico de la mayoría de las naciones.

Para determinar estocásticamente si el consumo entre dos países, o entre dos años distintos, presenta diferencias estadísticamente significativas, se empleará el análisis del solapamiento de los intervalos de confianza ( y ).

Se establecen los siguientes criterios:

En el análisis de datos sobre consumo de alcohol, la se define como la propiedad de un estadístico de permanecer inalterado o mínimamente afectado ante la presencia de valores atípicos () o errores de medida en la muestra.

En esta investigación, la robustez es el criterio principal para preferir la sobre la al momento de describir el comportamiento típico de una región. Mientras que la media se desplaza hacia los extremos cuando existen países con consumos desproporcionadamente altos, la mediana mantiene su posición central, proporcionando una visión más estable del fenómeno ante la incertidumbre de los datos.

El sesgo en este contexto se refiere a la distorsión de la medida central respecto a la realidad de la mayoría de la población. Dado que el dataset incluye el componente de incertidumbre (), es necesario definir dos conceptos clave para el análisis de resultados:

En esta sección se presentan las metodologías, procedimientos algorítmicos y pruebas estadísticas implementadas para validar las hipótesis planteadas en el capítulo anterior. Se detalla el tratamiento de la fuente de datos alcohol_data.csv, las técnicas de limpieza de datos (Data Wrangling) y los métodos de comparación de intervalos utilizados para determinar la significancia estadística de las variaciones en el consumo.

Un aspecto fundamental de este diseño es la estratificación de los datos por regiones geográficas, lo que permite identificar patrones de consumo y niveles de incertidumbre diferenciados. Asimismo, con el objetivo de garantizar la estabilidad de las comparaciones y evitar sesgos coyunturales derivados de la crisis sanitaria global, la investigación toma como ventana de observación los últimos cinco años previos al fenómeno de la pandemia (2015-2019). Esta delimitación temporal permite analizar el comportamiento del APC en un contexto de normalidad socioeconómica, asegurando que la incertidumbre detectada responda a deficiencias estructurales en los registros y no a las alteraciones atípicas en el consumo y la vigilancia epidemiológica ocurridas durante el periodo del COVID-19.

El análisis se ha realizado utilizando el lenguaje de programación R bajo el entorno de desarrollo RStudio, empleando el paradigma “Tidyverse” para la manipulación eficiente de datos y la librería “ggplot2” para la visualización de los intervalos de confianza, facilitando así el estudio del comportamiento estocástico del consumo de alcohol a nivel regional y global.De igual manera se utilizara el lenguaje Python, mediante la Streamlit, para el desarrollo de un dashboard interactivo. Esta herramienta permite la visualización dinámica de los intervalos de confianza y el consumo por regiones, facilitando así el estudio del comportamiento de los datos.

La presente investigación es de tipo descriptiva. Su objetivo central es caracterizar el fenómeno del consumo de alcohol per cápita y, fundamentalmente, describir la evolución de la incertidumbre técnica asociada a estos reportes globales entre los años 2015 y 2019. No se busca establecer relaciones de causa y efecto, sino realizar una “radiografía” precisa de la consistencia de los datos a través del análisis de medidas de tendencia central (media) y dispersión (desviación estándar, ancho del intervalo de confianza ci\_width).

El diseño de la investigación es longitudinal, específicamente un análisis de datos de panel. Esto se debe a que se analizan las mismas variables (consumo e incertidumbre) para las mismas unidades de observación (países) a lo largo de un periodo de tiempo continuo (2015-2019). Este diseño permite observar no solo el estado actual, sino los cambios y la evolución temporal de la precisión en los reportes de salud pública.

Dado que la investigación se basa exclusivamente en el análisis de una base de datos preexistente (alcohol\_data.csv), se clasifica como una investigación documental o basada en fuentes secundarias. No hubo recolección directa de datos primarios en campo; el trabajo consistió en el procesamiento, limpieza y análisis estadístico de información ya recopilada.

En esta sección se detallan los procedimientos algorítmicos y las técnicas estadísticas que constituyen el sustento operativo de la investigación, ejecutados secuencialmente para alcanzar los objetivos planteados

El tratamiento de la fuente de datos alcohol\_data.csv se realizó siguiendo el paradigma “Tidyverse” en R, estructurado en las siguientes fases operativas:

Carga y Validación de Estructura: Importación del conjunto de datos y verificación de tipos de variables (categóricas y numéricas continua/entera) mediante las funciones read_csv() y str().
Delimitación Poblacional y Temporal: Implementación de filtros algorítmicos con la función filter() de la librería dplyr para seleccionar exclusivamente los registros de “Both sexes” (Ambos sexos) y acotar el análisis a la ventana de observación efectiva (2015-2019).
Selección de Atributos: Uso de select() para conservar únicamente las variables críticas para el estudio: country, iso3, year, alcohol\_liters\_per\_capita, lower\_ci, upper\_ci y ci\_width, y aplicación de drop_na() para asegurar la integridad estadística al eliminar registros con valores faltantes.
Estratificación Geográfica (Creación de Variable Derivada): Desarrollo de un algoritmo de recodificación (mediante mutate() y case_when()) para asignar a cada país su respectiva región geográfica (ej: “América Latina y el Caribe”, “América del Norte”, “Asia”, “Europa”, “África” y “Otras/Oceanía”), conveniente para el estudio.

Muestra de los Datos de Consumo Procesados
Country	Iso3	Year	Region	Alcohol Liters Per Capita	Ci Width
Cyprus	CYP	2017	Asia	6.1171520	3.1708194
Sierra Leone	SLE	2019	África	0.2532283	0.4665830
Philippines	PHL	2017	Asia	6.0238746	2.8549122
Pakistan	PAK	2018	Asia	0.1040811	0.3036760
Cameroon	CMR	2018	África	7.1954116	3.6857639
Slovakia	SVK	2016	Europa	11.0927287	3.4002494
Mauritania	MRT	2018	África	0.0178672	0.1289069
Türkiye	TUR	2018	Asia	2.1147794	1.6907940
United Kingdom	GBR	2018	Europa	10.7675103	3.4127545
Russian Federation	RUS	2019	Europa	10.6723454	3.9259426

En concordancia con el Objetivo 1 de la investigación, y siguiendo la rigurosidad metodológica de estudios descriptivos previos, se realizó un análisis comparativo para evaluar estadísticamente el impacto del proceso de Limpieza y Carga sobre el conjunto de datos. No se debe proceder a la eliminación ciega de registros sin comprender la naturaleza y el sesgo potencial que esto introduce en la muestra final.

El procedimiento metodológico consistió en:

Cuantificación de Pérdida de Registros: Se comparó el número de observaciones nativas (raw\_data\_alcohol) con el número de observaciones en el data frame depurado (clean\_data\_alcohol), determinando el porcentaje de datos perdidos durante la limpieza.
Análisis de Tendencia Central (Pre vs. Post Limpieza): Se calcularon las medidas de tendencia central robustas (media aritmética y mediana) para la variable principal de consumo (alcohol\_liters\_per\_capita) tanto en la base de datos nativa como en la limpia.
Evaluación de Sesgo: La comparación de la media y la mediana pre y post limpieza permite identificar si la eliminación de registros con valores nulos (NA) generó un cambio significativo en el promedio reportado, sugiriendo un sesgo sistemático en la recolección o reporte de datos a nivel global.

Comparación post-limpieza de los datos
Estado	Muestra	Media	Mediana	Sesgo Absoluto
Original (Pre-Limpieza)	940	5.49675	5.011499	0.4852515
Depurado (Post-Limpieza)	940	5.49675	5.011499	0.4852515

No se encontraron valores faltantes en la muestra seleccionada

Debido a la alta integridad de la fuente secundaria en el periodo 2015-2019, se realizó un experimento de control para validar la capacidad de respuesta del protocolo de limpieza. Este procedimiento consistió en inyectar artificialmente un 10% de ruido (valores NA) en una réplica de la muestra original.

El objetivo es demostrar, mediante una prueba de estrés, que el algoritmo de depuración identifica y elimina correctamente las inconsistencias, garantizando que los resultados finales de la investigación no se vean alterados por fallos en el reporte de origen.

Prueba de Estrés: Validación del Algoritmo de Depuración
Fase	N Total	Valores Na
Muestra Contaminada	940	93
Muestra Recuperada	801	0

Una vez generada la muestra con inconsistencias, se aplicó el algoritmo de depuración definido en el Objetivo 1. El proceso consiste en la identificación y eliminación automática de las filas contaminadas, garantizando que la base de datos resultante sea apta para el cálculo de solapamientos de intervalos de confianza.

Validación de la eficacia del algoritmo de limpieza de datos
Estado	Registros.totales	Valores.na.restantes	Media
Muestra Contaminada	940	139	5.468782
Muestra Recuperada	801	0	5.485767

Una vez validada la integridad del protocolo de procesamiento mediante la prueba de estrés, se procedió a la ejecución del Análisis Descriptivo y de Tendencia Central sobre la muestra definitiva (2015-2019). Esta fase es fundamental para establecer la línea base comparativa de la investigación, permitiendo transformar los microdatos nacionales en métricas agregadas que caracterizan el comportamiento del consumo y su precisión técnica a nivel global.

El tratamiento estadístico se centró en la reducción de datos para obtener la Media Aritmética (APC) y la Desviación Estándar, junto con el análisis del Ancho del Intervalo de Confianza (ci_width) como métrica de calidad.

Métricas de Tendencia Central y Calidad de Datos
Region	Consumo Medio	Mediana Consumo	Desviación Std
Europa	10.047752	10.711757	2.7974409
América del Norte	9.678899	9.725894	0.3617484
Otras/Oceanía	8.787730	8.789957	2.0075821
América Latina y el Caribe	6.078153	6.118551	2.3200247
África	3.811181	3.031274	3.4244870
Asia	2.957892	1.966896	2.9230820

Intervalo de confianza regional
Region	Incertidumbre Promedio
África	2.008364
América del Norte	3.414951
América Latina y el Caribe	2.624600
Asia	1.717345
Europa	3.550150
Otras/Oceanía	3.131393

Métricas de Tendencia Central a Nivel Global
Region	Consumo Medio	Mediana Consumo	Desviación Std
TOTAL GLOBAL	5.49675	5.011499	4.043374

Intervalo de Confianza a Nivel Global
Region	Incertidumbre Promedio
TOTAL GLOBAL	2.4094

Debido a la naturaleza heterogénea del consumo de alcohol a nivel global, se incorporó un análisis de robustez comparando la Media Aritmética frente a la Mediana por cada macro-región. Este procedimiento tiene como objetivo detectar posibles sesgos causados por valores atípicos (outliers) países con consumos excepcionalmente altos o bajos— que pudieran desplazar el promedio y, por ende, distorsionar la interpretación del ancho de los intervalos de confianza (ci_width).

Una divergencia mínima entre ambas medidas (Sesgo Relativo < 10%) validará el uso de la media como estimador central representativo para la posterior comparación de intervalos. Para este cálculo se utilizó el siguiente algoritmo:

Contraste entre la media y la meidana
Region	Media	Mediana	Sesgo Relativo Pct
África	3.811181	3.031274	25.7286836
América del Norte	9.678899	9.725894	-0.4831944
América Latina y el Caribe	6.078153	6.118551	-0.6602509
Asia	2.957892	1.966896	50.3837118
Europa	10.047752	10.711757	-6.1988414
Otras/Oceanía	8.787730	8.789957	-0.0253374

Con el fin de garantizar la robustez de los modelos estadísticos y mitigar el sesgo provocado por la asimetría de la distribución del consumo de alcohol, se aplicó un procedimiento de truncamiento técnico sobre la base de datos original.

Este proceso se fundamentó en un algoritmo de filtrado por percentiles, seleccionando el Percentil 90 (P90) como umbral crítico de corte. La elección de este método responde a la necesidad de estabilizar la varianza y asegurar que los estimadores de tendencia central no se vean distorsionados por observaciones extremas situadas en la cola superior de la distribución.

El procedimiento metodológico se ejecutó bajo los siguientes pasos:

Identificación del Umbral: Cálculo del valor correspondiente al P90 en la variable de consumo per cápita.

Criterio de Exclusión: Eliminación sistemática de las observaciones cuyo valor superara dicho límite, aislando así el 10% de la muestra con mayor volatilidad.

Validación de la Muestra Depurada: Comparación de los estadísticos descriptivos (media, desviación estándar y valores máximos) para verificar la ganancia en homogeneidad.

Como se detalla en la tabla adjunta, este ajuste metodológico permitió transitar de una muestra con alta dispersión a una muestra truncada (depurada).

Muestra Completa vs. Muestra Truncada (P90)
Indicador	Muestra Completa	Muestra Truncada
Nro.Países	940.00	846.00
Media (Litros)	5.50	4.71
Desv.Estándar	4.04	3.42
Valor Máx	17.22	11.25

Para la ejecución de la técnica de comparación de intervalos, se desarrolló un algoritmo capaz de contrastar el límite superior de una región frente al límite inferior de otra. Esta metodología, fundamentada en la inferencia visual, permite dictaminar la existencia de brechas significativas en el consumo de alcohol sin las limitaciones de normalidad que exigen las prueba paramétricas tradicionales. A continuación, se detalla el procesamiento de los datos para la construcción de los indicadores de superposición regional:

Estimación del Consumo por Región (IC 95)
Region	Paises	Media	Lim. Inf	Lim. Sup	Marg Error
Europa	215	10.05	8.31	11.86	1.78
América del Norte	10	9.68	7.99	11.40	1.71
Otras/Oceanía	10	8.79	7.23	10.36	1.57
América Latina y el Caribe	165	6.08	4.81	7.43	1.31
África	260	3.81	2.85	4.85	1.00
Asia	280	2.96	2.15	3.87	0.86

{En este capítulo se presentan los hallazgos derivados de la aplicación de los métodos estadísticos descritos previamente sobre el conjunto de datos alcohol_data.csv. El análisis se estructura en tres fases fundamentales: la evaluación de la calidad y robustez de los datos post-limpieza, la caracterización descriptiva del consumo y la incertidumbre por macro-regiones, y finalmente, la contrastación de significancia mediante la superposición de intervalos de confianza.}

Previo al análisis comparativo, resulta imperativo confirmar que el estimador central seleccionado (media aritmética) es representativo de cada región y no está severamente sesgado por valores extremos (\(outliers\)). La siguiente tabla expone la divergencia porcentual entre la media y la mediana.

La herramienta visual empleada es un gráfico de densidad de probabilidad (Kernel Density Plot) facetado por región. Este enfoque es superior a un histograma tradicional, ya que permite visualizar la forma continua de la distribución. Además, el gráfico incorpora un contraste de robustez mediante dos medidas de tendencia central: Media Aritmética (Línea azul discontinua) Mediana (Línea roja continua)

La relación entre ambas medidas nos permite diagnosticar el sesgo (asimetría) de la distribución en cada región. Análisis Descriptivo por Región:

A continuación, se detalla el comportamiento estadístico de cada bloque regional:

África y Asia (Distribuciones con Asimetría Positiva)

Ambas regiones presentan una clara asimetría hacia la derecha (sesgo positivo). La mayor densidad probabilística se concentra en los niveles bajos de consumo (entre 0 y 5 litros).

En ambos gráficos, la Media > Mediana. Esto indica empíricamente que, aunque la mayoría de los países en estas regiones tienen un consumo bajo (reflejado por la mediana), existen algunos países con consumos atípicamente altos (la “cola” derecha) que arrastran el promedio aritmético hacia arriba.

Europa (Distribución con Asimetría Negativa)

Contrario a África y Asia, Europa muestra un sesgo hacia la izquierda (asimetría negativa). El pico de densidad (la moda) se encuentra en niveles de consumo significativamente altos, alrededor de los 10-12 litros per cápita.

Se observa que la Media < Mediana. La mayoría de los países europeos tienen un alto consumo de alcohol, pero unos pocos países con consumos menores arrastran el promedio general hacia abajo. Es la región con el nivel base de consumo más alto.

América Latina y el Caribe, y Otras/Oceanía (Distribuciones Bimodales)

Estas regiones exhiben un comportamiento particular: la bimodalidad. Presentan dos picos de densidad distintos. En América Latina, los picos rondan los 4 y 7 litros; en Oceanía, rondan los 7 y 11 litros. Esto sugiere la existencia de dos subgrupos o conglomerados de países con comportamientos de consumo marcadamente diferentes dentro de la misma región.

En ambos casos, la media y la mediana son prácticamente idénticas y se ubican en el “valle” entre los dos picos.

América del Norte (Distribución Altamente Leptocúrtica)

Presenta un pico único, extremadamente estrecho y alto, con colas inexistentes. Contraste Media vs. Mediana: La media y la mediana coinciden perfectamente alrededor de los 8-9 litros.

Esta forma indica una varianza casi nula. Estadísticamente, esto sugiere fuertemente que la muestra para “América del Norte” en este conjunto de datos está compuesta por muy pocos países, cuyos promedios de consumo son estadísticamente idénticos para el período analizado.

Se procedió a calcular las métricas agregadas considerando el promedio de litros de alcohol puro (APC) y la precisión técnica de los reportes globales, medida a través de la amplitud del intervalo de confianza (ci_width). A continuación, se presenta la tabla maestra que unifica estas variables, incluyendo el total globalizado. El gráfico representa las medias muestrales de cada región mediante puntos, complementadas con barras de error que indican los Intervalos de Confianza (IC) al 95%. Adicionalmente, se emplea una escala de color divergente (de azul a rojo) que actúa como un refuerzo visual de la magnitud de la variable continua (nivel de consumo).

La inspección de las estimaciones puntuales (medias) revela una clara jerarquía en el consumo de alcohol a nivel global: Segmento de Alto Consumo: Liderado por Europa con la media más alta de 10.05 litros per cápita, seguida de cerca por América del Norte (9.68 litros) y Otras/Oceanía (8.79 litros).

América Latina y el Caribe se sitúa en una posición intermedia y aislada con una media de 6.08 litros.

Las regiones con menor ingesta reportada son África (3.81 litros) y Asia (2.96 litros).

El valor estadístico real de esta visualización reside en los Intervalos de Confianza (IC) del 95%, los cuales nos permiten hacer inferencias sobre las poblaciones y evaluar la significancia estadística de las diferencias entre regiones mediante la observación del traslape (solapamiento) de dichos intervalos:

Agrupación Superior (Sin diferencias significativas internas): Se observa un traslape sustancial entre los intervalos de confianza de Europa, América del Norte y Otras/Oceanía. Estadísticamente, esto sugiere que no existe evidencia suficiente para afirmar que hay una diferencia significativa en el consumo promedio de alcohol entre estas tres macro-regiones al nivel de confianza del 95%. Constituyen un bloque estadísticamente homogéneo de alto consumo.

Aislamiento de América Latina y el Caribe: El intervalo de confianza para esta región (con centro en 6.08) no se solapa de manera evidente ni con el bloque superior (Oceanía/Norteamérica/Europa) ni con el bloque inferior (África/Asia). Esto indica que el consumo en América Latina es significativamente menor que en el mundo desarrollado/occidental, pero significativamente mayor que en los continentes africano y asiático.

Agrupación Inferior (Sin diferencias significativas internas): De manera similar al bloque superior, los intervalos de confianza de África y Asia presentan un claro solapamiento. Por lo tanto, la diferencia observada entre sus medias (3.81 vs. 2.96) no es estadísticamente significativa; ambas regiones conforman un grupo homogéneo de bajo consumo.

Para profundizar en el análisis de consistencia, se presenta a continuación un gráfico de dispersión que evalúa la asociación entre el consumo per cápita y la incertidumbre de la medición (ci_width), estratificado por macro-regiones. Dado que los datos presentan una distribución asimétrica, se optó por el Coeficiente de Spearman, el cual resulta más robusto ante valores atípicos y relaciones no lineales. Esta visualización permite identificar la tendencia monótona global, así como los comportamientos diferenciales y la concentración de datos en grupos específicos de países

El gráfico presenta un diagrama de dispersión que evalúa la asociación monótona entre el volumen de consumo y la incertidumbre del reporte.

Coeficiente de Spearman (p=0.969): Este valor indica una asociación positiva casi perfecta. Al utilizar Spearman en lugar de Pearson, se valida que existe una relación jerárquica robusta: conforme aumenta el consumo, la incertidumbre crece de manera sistemática, incluso si esta relación no sigue una línea recta exacta o presenta una varianza no constante (heterocedasticidad).

Distribución por Macro-Regiones: Se observa una clara segmentación geográfica. Europa domina el cuadrante de alta incertidumbre y alto consumo, mientras que África y Asia muestran una mayor precisión estadística asociada a menores niveles de ingesta.

Análisis de la Variabilidad: El gráfico revela que la precisión del dato no es uniforme. La dispersión aumenta en los niveles altos de consumo, lo que justifica el uso de métodos no paramétricos (como Spearman), ya que Pearson habría subestimado la fuerza de la asociación al verse afectado por la mayor variabilidad en los extremos.

Conclusión Técnica: El valor de 0.969 confirma que la incertidumbre es una función intrínseca del volumen reportado. Esta consistencia tan alta sugiere que el error de medición es sistémico y no aleatorio, lo que refuerza la necesidad de tratar los datos de alto consumo con los ajustes de incertidumbre propuestos en este estudio.

Dado que las macro-regiones están compuestas por países con realidades socioeconómicas diversas, es imperativo evaluar cómo los valores atípicos influyen en los estadísticos de tendencia central. El uso de promedios simples puede verse distorsionado por naciones cuyo consumo per cápita es excepcionalmente alto o bajo en comparación con sus pares regionales. Para identificar estas asimetrías, se emplea un diagrama de caja y bigotes (Boxplot), que permite visualizar la mediana y los cuartiles, aislando los valores que se alejan significativamente del comportamiento grupal.

Análisis de Asimetría y Valores Atípicos Regionales

El gráfico presenta la distribución del consumo per cápita de alcohol por macro-región, destacando la relación entre la mediana (línea horizontal) y el promedio (diamante rojo), lo cual es el principal indicador de sesgo estadístico en la muestra.

La distancia entre el diamante (media) y la línea interna de la caja (mediana) indica qué tan “engañoso” puede ser un reporte basado solo en promedios:

África y Asia (Sesgo Positivo Extremo): En estas regiones, el diamante está significativamente por encima de la mediana. Esto ocurre porque la gran mayoría de los países tienen consumos muy bajos (cerca de 0-2 litros), pero existen unos pocos “outliers” con consumos altísimos (puntos granates de 12-16 litros) que arrastran el promedio hacia arriba.

América del Norte y Europa (Simetría y Alta Densidad): En América del Norte, el promedio y la mediana casi coinciden, lo que indica una distribución uniforme. En Europa, el consumo es alto de forma generalizada; sin embargo, es la única región con outliers inferiores (puntos azules por debajo de la caja), lo que sugiere que hay un grupo pequeño de países europeos con políticas o culturas de consumo radicalmente distintas al resto del continente.

Europa: Presenta la caja más alta en el eje Y, confirmando que es la región con el consumo base más elevado del mundo (el 75% de sus países consumen por encima de los 7 litros).

América Latina y el Caribe: Muestra una dispersión moderada pero constante. Su caja es más compacta, lo que indica que, a pesar de las diferencias culturales, los niveles de consumo son relativamente similares entre sus países integrantes.

África: Es la región con la mayor amplitud total (desde casi 0 hasta 16 litros), lo que demuestra que es la zona con mayor desigualdad estadística en sus hábitos de consumo.

El truncamiento al P90 no se propone como un reemplazo de la muestra original, sino como un diagnóstico de sensibilidad. La variación observada al excluir solo el 10% superior confirma que la media aritmética es un estimador ineficiente para esta distribución, validando así la necesidad de utilizar la mediana o métodos no paramétricos para el análisis regional.

Este gráfico permite visualizar el éxito de la limpieza de datos. En la muestra original, la “cola” de la distribución se extendía demasiado hacia arriba, lo que hacía que el promedio (la media) se situara en 5.50 litros, una cifra que no representaba a la mayoría de los países. Al aplicar el truncamiento del 10% superior, logramos una distribución más equilibrada donde la media bajó a 4.71 litros.

La limpieza eliminó el “ruido” de los países con consumos extremos, permitiendo que el promedio ahora sí sea un reflejo fiel de la realidad global.

Impacto del Truncamiento en la Tendencia Central El primer gráfico (Boxplot comparativo) es una prueba clara de la sensibilidad de la media aritmética ante valores extremos. Reducción del Sesgo: Al eliminar el 10% de los países con mayor consumo (pasando de n=940 a n=846), la media descendió de 5.50 a 4.71 litros per cápita. Esta diferencia de 0.79 litros parece pequeña, pero a escala poblacional representa una magnitud masiva de alcohol no consumido por el ciudadano “promedio”.

Contracción de la Variabilidad: La “cola” superior se redujo drásticamente (de casi 18 litros a 12 litros). Esto indica que el modelo original estaba siendo “arrastrado” hacia arriba por un grupo pequeño de países con consumos hiper-elevados, lo que generaba una falsa percepción de la normalidad global.

Convergencia Media-Mediana: En la muestra truncada, el diamante (media) se acerca mucho más a la línea central de la caja (mediana). Esto es un indicador de que la distribución, aunque sigue siendo asimétrica, es ahora mucho más manejable y menos errática para realizar inferencias.

Distribución Regional (Muestra Depurada P90)

El segundo gráfico combina diagramas de caja con “jitter” (puntos individuales), permitiéndonos ver la densidad real de los datos tras la limpieza.

El “Espejismo” de la Normalidad: A pesar del truncamiento, el gráfico confirma que el consumo de alcohol no sigue una distribución normal en casi ninguna región.

Heterogeneidad Regional Extrema: Europa y Otras/Oceanía: Muestran cajas situadas en la parte alta del eje Y (consumo masivo). En Europa, incluso tras quitar el P90, la mayoría de los países consumen entre 7 y 10 litros. África y Asia: Presentan una base muy ancha en los niveles bajos (puntos azules cerca del cero), pero con “colas” largas hacia arriba. Aquí, la media (diamante) está notablemente por encima de la mediana, lo que indica que una minoría de países en estas regiones consume mucho más que el resto.

América del Norte: Presenta una dispersión casi nula en este gráfico, lo que sugiere que los datos para esta región están muy concentrados o que el número de unidades de observación tras el truncamiento es muy bajo, actuando casi como una constante.

El consumo de alcohol no sigue una distribución normal (Gaussiana) a nivel global ni en la mayoría de las regiones. Tratar los datos asumiendo normalidad llevaría a errores inferenciales.

Europa lidera el consumo, siendo la única región donde la distribución masiva de los datos se agrupa en el extremo superior de la escala de consumo.

Dado el fuerte sesgo en Asia, África y Europa, la Mediana es el indicador estadístico más robusto y representativo para comparar la tendencia central típica entre estas regiones, ya que no se ve afectada por los valores extremos observados en las colas de densidad.

No se acosenja utilizar la “Media” para describir a América Latina y el Caribe u Oceanía en reportes ejecutivos. Al ser bimodales, afirmar que el país promedio consume “X” litros es una falacia ecológica; es mejor reportar que existen dos perfiles de consumo distintos en dichas zonas.

El análisis de los datos del período 2015-2019 permite segmentar el mundo en tres grupos estadísticamente diferenciados respecto a su consumo per cápita de alcohol puro: un grupo de alto consumo (Europa, América del Norte y Oceanía), un grupo de consumo moderado (América Latina y el Caribe) y un grupo de bajo consumo (África y Asia). Las variaciones dentro de cada grupo se consideran producto de la variabilidad muestral o aleatoria, mientras que las variaciones entre los grupos representan diferencias poblacionales reales y significativas

1. Estratificación de Políticas por Grupo Regional

Se recomienda que las organizaciones globales de salud (como la OMS/OPS) no apliquen estrategias genéricas de control de consumo.

Para el Grupo de Alto Consumo (Europa, Norteamérica, Oceanía): Dado que la diferencia entre sus medias no es significativa, se pueden estandarizar campañas transnacionales centradas en la reducción de daños crónicos, ya que el comportamiento de consumo es homogéneo y estructuralmente elevado.

Para el Grupo de Bajo Consumo (África, Asia): El enfoque debe ser preventivo para evitar el desplazamiento de la media hacia niveles superiores debido a la apertura de mercados y cambios demográficos.

Monitoreo Especial de la Incertidumbre en LATAM

Dada la posición aislada de América Latina y el Caribe en la escala global, se recomienda fortalecer los sistemas de vigilancia epidemiológica locales.

Es vital reducir el ancho de los intervalos de confianza (ci_width) en esta región, ya que su bimodalidad (detectada en el análisis de densidad) sugiere que los promedios regionales podrían estar ocultando realidades críticas en países específicos que no se ajustan al “grupo moderado”.

Mejora en la Precisión de Reportes (Incertidumbre Técnica)

Una recomendación metodológica clave es incentivar la transición de reportes basados en estimaciones a reportes basados en registros administrativos reales.

Se observa que las regiones con mayor sesgo (como Asia) suelen coincidir con una mayor variabilidad en la precisión de los datos. Reducir la incertidumbre técnica permitirá que los grupos identificados en este estudio sean aún más precisos en futuras investigaciones.

Uso de la Mediana como Indicador de Seguimiento

Para futuros análisis de estos mismos datos, se recomienda adoptar la Mediana como indicador oficial de comparación para los grupos de África y Asia.

Debido al sesgo positivo detectado, el uso de la media sobreestima el consumo del “país típico” en esas zonas, lo que podría llevar a una asignación ineficiente de recursos para la salud.

Europa no solo lidera el consumo, sino que es la región que define la pendiente de la incertidumbre global en este estudio.

Se recomienda investigar los puntos que se alejan significativamente de la media (especialmente en el rango de 8 a 12 litros) para entender por qué algunos países tienen mucha más incertidumbre que otros con el mismo nivel de consumo.

Se debe mejorar la precisión de los sistemas de registro en Europa y América del Norte, ya que la alta incertidumbre (ci_width elevado) puede estar ocultando picos de consumo aún mayores o subestimando el impacto real.

No aplicar una métrica global única. Las estrategias para la “Agrupación Inferior” (África/Asia) deben enfocarse en mantener los niveles bajos, mientras que en la “Agrupación Superior” se requiere una intervención urgente para reducir tanto el consumo como el margen de error en los datos.

Correlación entre Consumo e Incertidumbre: Se evidencia que la precisión de las estimaciones es inversamente proporcional al volumen de consumo. El análisis de los intervalos de confianza (\(ci\_width\)) confirma la presencia de heterocedasticidad: a mayor consumo per cápita, mayor es la varianza residual. Esto implica que los datos en regiones de alta ingesta presentan una volatilidad estructural que los indicadores puntuales no logran capturar.

El Impacto de los Valores Atípicos: La aplicación de la media truncada al 90% reveló que el “ruido” estadístico en las colas de la distribución no es despreciable. Mientras que el truncamiento estabiliza la varianza y facilita la comparación entre regiones, la persistencia de estos outliers en Europa sugiere que existen factores socioculturales que desafían los modelos de predicción lineal estándar, requiriendo un enfoque de estadística robusta.

Comunicación de la Incertidumbre: Se sugiere que en las presentaciones de resultados para entes de salud pública, no se utilicen gráficos de barras simples. En su lugar, es imperativo el uso de gráficos de densidad o de violín que incluyan el reporte explícito de los intervalos de confianza, evitando así la “falacia de la precisión” y reconociendo el margen de error inherente al dato epidemiológico.

Para evidenciar estadísticamente la presencia de valores atípicos que distorsionan el promedio regional, se presenta como anexo un modelo de regresión de la incertidumbre. El gráfico de Residuos vs Ajustados permite identificar a aquellos países (outliers) que se alejan de la varianza normal.

\[ \text{ci\_width} = \beta_0 + \beta_1(\text{Consumo\_Per\_Capita}) + \epsilon \]

En este anexo se presenta el listado desglosado de los 20 países que presentan los mayores niveles de incertidumbre en la estimación del consumo (ci_width), permitiendo auditar los valores atípicos (“Outliers”) que definen la dispersión observada en el análisis regional.

Top 20 Países con Mayor Incertidumbre Estadística
Country	Region	Alcohol Liters Per Capita	Ci Width
Estonia	Europa	10.179834	5.937995
Estonia	Europa	11.028379	5.880120
Romania	Europa	16.851680	5.492574
Georgia	Europa	15.565873	5.476037
Estonia	Europa	8.982530	5.437651
Romania	Europa	17.095882	5.359297
Romania	Europa	17.109261	5.336922
Latvia	Europa	13.637683	5.196733
Romania	Europa	16.891994	5.182309
Latvia	Europa	12.532770	5.159975
Georgia	Europa	15.022253	5.149384
Georgia	Europa	14.931050	5.116764
Latvia	Europa	13.232896	5.104762
Estonia	Europa	8.173949	5.095574
Latvia	Europa	12.905054	5.094808
Romania	Europa	17.217582	5.087468
Georgia	Europa	14.647707	5.054501
Viet Nam	Asia	10.713693	5.013090
Burkina Faso	África	16.248400	4.993751
Georgia	Europa	14.634404	4.974746

Para complementar el análisis de consistencia técnica, se presenta un mapa de calor que cruza la Región Geográfica con los niveles de consumo. La intensidad del color representa la densidad de países en cada segmento, facilitando la identificación de los grupos de bajo y alto consumo.

Con el objetivo de profundizar en la transparencia del tratamiento de datos, este anexo presenta el listado detallado de las naciones que fueron excluidas de la muestra final tras la aplicación del algoritmo de truncamiento por el percentil 90 (P90).

Estas observaciones representan el 10% de la muestra con mayores niveles de ingesta de alcohol per cápita (valores superiores a 11.25 litros). La tabla permite identificar que el sesgo original de la media (situada inicialmente en 5.50 litros) era producto de estos casos atípicos, cuya dispersión afectaba la representatividad del análisis regional. A continuación, se detallan los países, su región y el valor exacto de consumo registrado:

Países Excluidos del Análisis por Consumo Extremo
Región	País	Consumo (L/Cápita)
Europa	Romania	17.21758
Europa	Romania	17.10926
Europa	Romania	17.09588
Europa	Romania	16.89199
Europa	Romania	16.85168
Europa	Georgia	15.56587
Europa	Georgia	15.02225
Europa	Georgia	14.93105
Europa	Georgia	14.64771
Europa	Georgia	14.63440
Europa	Latvia	14.09953
Europa	Czechia	13.77042
Europa	Czechia	13.74933
Europa	Czechia	13.72884
África	Seychelles	13.70705
Europa	Czechia	13.67546
Europa	Czechia	13.66449
Europa	Latvia	13.63768
Europa	Lithuania	13.55917
Europa	Latvia	13.23290
África	Seychelles	13.22907
África	Seychelles	13.09712
Europa	Latvia	12.90505
África	Seychelles	12.61723
Europa	Latvia	12.53277
Europa	France	12.50219
Europa	Lithuania	12.48473
África	Namibia	12.47807
Europa	France	12.40636
África	Namibia	12.39456
Europa	Moldova, Republic of	12.32051
Europa	France	12.29844
Europa	France	12.18757
Europa	Poland	12.03592
Europa	Germany	12.00424
Europa	Poland	11.96939
Europa	Germany	11.93218
Europa	Austria	11.92800
Europa	Germany	11.92123
Europa	Moldova, Republic of	11.88295
Europa	Hungary	11.87263
Europa	Austria	11.84543
Europa	Poland	11.83222
Europa	Lithuania	11.83054
Europa	Austria	11.82784
Europa	Hungary	11.81310
Europa	Poland	11.81251
Europa	Poland	11.80420
Europa	Austria	11.76883
Europa	France	11.76477
Europa	Germany	11.76339
África	Namibia	11.76234
Europa	Hungary	11.76124
África	Seychelles	11.72825
Europa	Austria	11.70255
Europa	Moldova, Republic of	11.69958
Europa	Hungary	11.67281
Europa	Germany	11.56731
Europa	Hungary	11.55134
África	Namibia	11.50190
Europa	Lithuania	11.42876
Europa	Moldova, Republic of	11.41506
Europa	Lithuania	11.40328
Europa	Moldova, Republic of	11.36312
África	Namibia	11.33669

Cumming, Geoff. 2014. “The New Statistics: Why and How.” Psychological Science 25 (1): 7–29.

GBD 2016 Alcohol Collaborators. 2018. “Alcohol Use and Burden for 195 Countries and Territories, 1990–2016: A Systematic Analysis for the Global Burden of Disease Study 2016.” The Lancet 392 (10152): 1015–35. https://doi.org/10.1016/S0140-6736(18)31310-2.

Gelman, Andrew, and Hal Stern. 2006. “The Difference Between "Significant" and "Not Significant" Is Not Itself Statistically Significant.” The American Statistician 60 (4): 328–31.

Huber, Peter J. 1981. Robust Statistics. New York: John Wiley & Sons.

Huff, Darrell. 1954. How to Lie with Statistics. New York: W. W. Norton & Company.

Little, Roderick J. A., and Donald B. Rubin. 2019. Statistical Analysis with Missing Data. 3rd ed. Hoboken, NJ: John Wiley & Sons.

Murray, Christopher J. L., and Alan D. Lopez. 2002. “Alcohol as a Risk Factor for Global Burden of Disease.” The Lancet 359 (9312): 1147–53.

Schenker, Nathaniel, and Jane F. Gentleman. 2001. “On Judging the Significance of Differences by Examining the Overlap Between Confidence Intervals.” The American Statistician 55 (3): 182–86.

Taleb, Nassim Nicholas. 2012. Antifragile: Things That Gain from Disorder. New York: Random House.

Van der Bles, Anne Marthe, Sander van der Linden, Alexandra L. J. Freeman, James Mitchell, Ana B. Weaver, and David J. Spiegelhalter. 2019. “Communicating Uncertainty about Facts, Numbers and Science.” Royal Society Open Science 6 (5): 181870. https://doi.org/10.1098/rsos.181870.

Wilke, Claus O. 2019. Fundamentals of Data Visualization: A Primer on Making Informative and Compelling Figures. Sebastopol, CA: O’Reilly Media.

World Health Organization. 2018. Global Status Report on Alcohol and Health 2018. Geneva: World Health Organization. https://apps.who.int/iris/handle/10665/274603.