Mariana Álvarez, Nicolás González, Carlos Salinas.
Teoría de Probabilidades.
Noviembre, 2023.
Resumen
Partiendo del reconocer que no existen dos países iguales en el
mundo, y que las diferencias entre ellos pueden llegar a ser tan amplias
como agudas, se plantea ejecutar mediante este proyecto acciones de
caracterización, análisis y comparación entre las condiciones de vida
(entendidas bajo la medición de un conjunto representativo de variables)
que registran 164 países de todas las regiones del mundo, con corte al
cierre del año 2022. A lo largo del informe, con la ayuda de diferentes
gráficos y diagramas, desarrollaremos cuál es el comportamiento y las
tendencias que se marcarán en los distintos continentes para nuestra
selección de variables, propendiendo a entender cómo éstas pueden
influir en el bienestar y la calidad de vida de las personas que residen
en los distintos países alrededor del globo.
Introducción
Si tratásemos de dar solución a las principales problemáticas que aquejan a los diferentes países, veríamos que casi ninguna de ellas se reduce a situaciones aisladas y de fácil tratamiento, pues suelen ser un entramado de cuestiones socioculturales, políticas, económicas e incluso, que cuentan con raíces geográficas. Considerando que no hay dos países iguales, sabemos que las realidades que en ellos se viven tampoco lo serán, y por ende, las soluciones a las situaciones que les aquejan distarán de seguir una fórmula perfecta y general para resolverlas.
Por ello, es necesario que para comprender una problemática de este ámbito, primero iniciemos el recorrido con las posibles causas que le subyacen y sus enlaces existentes. La base de datos que emplearemos, ‘Global Country Información Dataset 2023’ , recopila información sobre diversos sectores como salud, economía, empleo e incluso datos con respecto a la ocupación agrícola del territorio.
En orden de continuar con los objetivos planteados en el primer avance, y con el fin de realizar un estudio coherente y válido, hemos realizado una modificación en la muestra seleccionada. Los países considerados en esta ocasión cuentan con el compendio completo de datos en las variables empleadas: densidad poblacional, tasa de natalidad, tasa de desempleo y expectativa de vida.
Como resultado, se procederá a continuación a iniciar el análisis de las condiciones de vida dadas para 2022 en aquellos territorios agrupados en los cuatro continentes atendidos: América, con 30 países; Europa, con 39; Asia, con 45 y finalmente África, con 50.
Tabla 1. Indicadores por densidad poblacional (P/Km2).
| Moda | 4.00 |
| Media | 121.97 |
| Mediana (Q2) | 76.00 |
| Mínimo | 1.27 |
| Máximo | 668 |
| Rango | 666.74 |
| Desviación estándar | 139.35 |
| Coeficiente de variación de Pearson | 114.25% |
| Primer cuartil (Q1) | 26.00 |
| Tercer cuartil (Q3) | 137.25 |
| Coeficiente de asimetría | 1.93 |
| Curtosis | 6.56 |
Al analizar los datos de densidad poblacional registrados por los países considerados en el estudio, encontramos que pese a que se trate de una variable continua, donde encontrar una moda puede resultar imposible; cinco de los países tuvieron exactamente una densidad de cuatro (4) personas por kilómetro cuadrado aun cuando se ubican en continentes distintos: Botswana, Canadá, Guyana, Libia y Surinam. Sin embargo, aunque este resultado se repita en varias ocasiones, dista mucho de las otras aproximaciones de tendencia central que mediante la media o mediana podemos obtener. En el caso de la mediana, el 50% de los datos se ubican a partir de las 76 personas por kilómetro cuadrado, mientras que al calcular la media entre los países encontramos que en promedio cada uno tendría 121.97 habitantes en esta misma área.
Lo anterior empieza a darnos una idea bien sea de la dispersión o de la forma de nuestros datos. Por ejemplo, vemos que existe un rango muy amplio que considera los resultados de estos países, pues los datos inician desde Bangladesh con una densidad poblacional de poco más de una persona por km2 (1.27, aproximadamente), hasta Barbados con 668. Si continuamos, vemos que en promedio, los valores de densidad poblacional se desvían de la media en aproximadamente 139.35 habitantes por km2, que aunado a un coeficiente de Pearson de 114.25% sugiere que nos encontramos ante unos resultados altamente heterogéneos, es decir, que varían de una forma muy significativa entre sí.
Con respecto a la posición, hallamos una división de cuartiles que sugiere que un 25% de países presenta (con corte a 2022) una densidad poblacional de hasta 26 habitantes por km2, el 25% siguiente se ubica entre 26 y 76 (de modo que el 50% de los países concentran menos de 76 personas en dicho espacio). Por último, un 25% restante de los países registraron tener en promedio más de 137.25 habitantes por cada km2.
Finalmente, cerramos con unos datos que, como podríamos haber esperado, registran asimetría. Dada la forma hallada, esta es de tipo positivo, es decir, sus valores se concentran en mayor medida hacia los valores más bajos. En cuanto al grado de apuntamiento, encontramos que la forma que posee la densidad poblacional en este caso se corresponde con una distibución con características leptocúrticas, pues existe una concentración muy elevada en los valores centrales y muy baja en los extremos; gráficamente, se vería muy empinada hacia el centro.
Tabla 2. Indicadores por tasa de natalidad (número de nacimientos por cada 1.000 habitantes por año)
| Moda | 10.00 |
| Media | 20,38 |
| Mediana (Q2) | 18,12 |
| Mínimo | 6.40 |
| Máximo | 46.09 |
| Rango | 39.68 |
| Desviación estándar | 10.03 |
| Coeficiente de variación de Pearson | 49.21% |
| Primer cuartil (Q1) | 10.97 |
| Tercer cuartil (Q3) | 29.16 |
| Coeficiente de asimetría | 0.58 |
| Curtosis | 2.13 |
Tal como sucedió en el escenario de la densidad poblacional, ahora nos encontramos con coincidencias en el valor registrado por distintos países (en este caso tres) para la variable tasa de natalidad. Esta vez, la coincidencia se presenta en Latvia, Lituania y Suiza; que cerraron el año con una tasa de 10 nacimientos por cada mil habitantes. Adicionalmente, en promedio, el total de países considerados en este estudio tendrían cada uno poco más del doble de nacimientos dado en estos tres países previamente referidos (20,38), pero en cuanto a dispersión, los resultados suelen desviarse de dicha media en aproximadamente 10.03 nacimientos por cada mil habitantes.
Al proseguir nuestro análisis con respecto a la variabilidad de la tasa de natalidad para 2022 de los países considerados, vemos que se trata de datos significativamente heterogéneos entre sí, donde además encontramos tasas que pueden ir desde 6.40 hasta 46.09 (comprendiendo un rango de 39.68). Al desglosar por posición, tenemos que el 25% de los países presentan una tasa inferior a 10.97; un 25% más se sitúa en valores mayores a esta cifra pero menores a 18.12, y finalmente un último cuarto de los países superan una tasa de 29.16 nacimientos por cada mil habitantes.
En este caso, tenemos una variable cuya forma de los datos nos sugiere la existencia de asimetría en ella. Al profundizar, hallamos que esta asimetría es de tipo negativa, concentrando los datos hacia valores mayores al promedio. Además, nos encontramos ante una concentración platicúrtica, donde el pico central de los datos es más bajo y ancho que en una distribución normal. Los datos se concentran hacia el centro, con una menor proporción.
Figura 2. Tasa de natalidad (nacimientos por 1.000 habitantes)
por país.
hist(base_teoria_p$`Birth Rate`, xlab = "Tasa de natalidad", xlim = c(0,55), ylab = "Frecuencia absoluta", main = "Tasa de natalidad por país", col = c("cadetblue"))
En concordancia con el análisis de la tasa de natalidad, en el histograma de la figura 2 se pueden distinguir 9 intervalos, los cuales representan la cantidad de nacidos al año por cada mil habitantes, cada contenedor con una amplitud de 5 e iniciando desde [0, 5) hasta el [45, 50]. Como resultado de graficar esta variable se presenta un sesgo positivo en los datos, dado que hay una marcada concentración en la zona baja de los valores, lo que sugiere que la mayoría de los países al cierre del año 2022 reflejaron tener tasas de natalidad menores a 25 nacidos por cada mil habitantes.
En consecuencia a lo anterior, se obtiene que el intervalo de [10,
15) es el más frecuentado por las naciones consideradas en este
comparativo. Por otro lado, se aprecia que en menor proporción están los
países que manifiestan tener altas tasas de natalidad. En resumen, se
evidencia lo que podría ser una de las explicaciones de
envejecimiento de la población mundial y una eventual
muestra de aquello que recientemente tanto escuchamos de que las
pirámides poblacionales se empiezan a invertir (o incluso, ya lo
están).
Tabla 3. Indicadores por expectativa de vida (años).
| Moda | 76.5 |
| Media | 72.23 |
| Mediana (Q2) | 74.00 |
| Mínimo | 52.80 |
| Máximo | 84.20 |
| Rango | 31.4 |
| Desviación estándar | 7.60 |
| Coeficiente de variación de Pearson | 10.52% |
| Primer cuartil (Q1) | 66.53 |
| Tercer cuartil (Q3) | 77.60 |
| Coeficiente de asimetría | -0.57 |
| Curtosis | 2.52 |
A través del análisis de la expectativa de vida de las personas a lo largo de los 164 países considerados, se logra observar que, si bien las medidas de tendencia central no son iguales, estas resultan no estar tan alejadas unas de otras. En este sentido, se encontró que Argentina, Irán, Marruecos, Perú y Túnez presentaron la misma expectativa de vida (76.5 años); naciones que, al contrastar con las demás variables, también reflejan tasas de natalidad similares (17.02, 18.78, 18.94, 17.95 y 17.56, respectivamente). Continuando con el estudio, se obtiene que la mitad de la población analizada presenta una expectativa de vida inferior a 74 años (cifra figura como la mediana en esta ocasión) y la población restante con valores que oscilan entre los 74 y 84.2 años. Sin embargo, llama nuestra atención que un cuarto de los países de nuestra muestra tengan expectativas de vida por debajo de los 66.53 años, edad que en Colombia, resultaría sorprendente puesto que se ubica casi diez años por debajo de la registrada por nuestro país (77.10). Asimismo, se encuentra que la expectativa de vida media es de 72.23 años, siendo así bastante cercana a la mediana y moda anteriormente referidas.
Teniendo en cuenta la similitud que existe entre los datos de medidas de tendencia central, se puede empezar a tejer enlaces entre esta cercanía con diversos motivos, uno de ellos es que su rango no supera las 32 unidades; iniciando y terminando con los datos mencionados de forma previa. Por otro lado, y teniendo en cuenta que la medida del rango no asegura la homogeneidad de los datos, se hace necesario revisar los indicadores de dispersión para corroborarlo. El resultado de estas medidas de dispersión presenta que los valores tienden a situarse relativamente cerca, gracias a que los datos exponen una desviación estándar de 7.6, es decir, en promedio se desvían en este número de años de su media. Asimismo, su coeficiente de variación de Pearson de 10.52% demuestra que existe una característica de homogeneidad entre los niveles de expectativa de vida registrados por los 164 países.
Tal como sucede en el caso de la tasa de natalidad, encontramos que
respecto a la expectativa de vida de los habitantes, los datos no
presentan un grado de apuntamiento tan elevado en el centro, sino que la
distribución de ellos obedece a una forma más plana (baja y ancha en el
centro), sugiriendo un estilo mesocúrtico. Además,
sabemos que el grado de asimetría reflejado es bajo pero negativo, lo
que indica que la mayor concentración de datos se da en valores
superiores a su promedio.
Figura 3. Expectativa de vida (en años) por país.
hist(base_teoria_p$`Life expectancy`, xlab = "Expectativa de vida (años)", ylab = "Frecuencia absoluta", main = "Expectativa de vida (en años) por país", col = c("cadetblue"))
En aras de continuar con nuestro estudio de las variables de calidad de vida de los países y entender sus problemáticas sociales, en el histograma de la figura 3 se presenta la frecuencia absoluta de la expectativa de vida en las diferentes naciones tenidas en consideración. Para este análisis los intervalos se conforman con edades que abarcan desde los 50 años hasta los 85; siendo entonces [50, 55] el primero, y [80, 85] el último. En este gráfico, a diferencia del lo observado en la figura 7, que representaba la tasa de natalidad, se puede observar un sesgo negativo. Esta asimetría negativa refleja que gran cantidad de los países cuentan con una expectativa de vida alta, que los sitúa entre los 70 y 85 años (p.e., entre ellas se encuentra la de nuestro país, Colombia, con 77.10 años), mientras que las tasas bajas de expectativa de vida resultan ser poco frecuentes. Esta distinción refuerza y comprueba, junto a la tasa de natalidad, que se está dando un envejecimiento en la población, problemática que contribuye a la inversión de la pirámide poblacional y puede derivar en dificultades con distintos servicios, como vemos en los debates actuales en torno a los sistemas de pensiones.
Figura 4. Densidad poblacional (P/Km2) de los países por
continente.
boxplot(base_teoria_p$Density~base_teoria_p$Continent, ylab = "Densidad poblacional (P/Km2)", main = "Densidad poblacional de los países por continente", xlab = "Ubicación continental", col= c("cadetblue"))
Teniendo en cuenta la división realizada de los países en sus respectivos continentes y la variable de densidad poblacional, la cual está presentada como cúantas personas en promedio habitarían un kilómetro cuadrado (P/Km2), se obtiene el boxplot presentado en la figura 4. Por medio de este, se puede apreciar primeramente que el continente americano es el único con un solo dato atípico para estas medidas, siendo este Barbados, el país con mayor hacinamiento de los 164 países (668 habitantes por Km2). En el caso de los otros tres continentes, para cada uno se presentan entre 3 y 4 datos anómalos.
Por otro lado, a simple vista se puede observar que en África,
América y Asia aparece un evidente sesgo positivo, pues vemos un desfase
en la mediana y cómo los datos se concentran en la parte superior de la
distibución. Entretanto, Europa muestra unos datos mayormente
concentrados. Adicionalmente a ello, dado que el RIC de Asia y América
tiene un tamaño notablemente mayor, se sugiere que existe mayor
dispersión entre las densidades de estos países, frente a las
registradas por África y Europa; quienes reflejan de este modo que la
mayoría de los valores se ubican cerca a la media.
Figura 5. Densidad poblacional (P/Km2) vs. Tasa de natalidad.
plot(base_teoria_p$Density,base_teoria_p$`Birth Rate`,ylab = "Tasa de natalidad", main= "Densidad poblacional (P/Km2) vs. Tasa de natalidad", xlab = "Densidad poblacional (P/Km2)", col=c("cadetblue"))
cor(base_teoria_p$Density, base_teoria_p$`Birth Rate`)
## [1] -0.1384506
Figura 6. Tasa de natalidad vs. Densidad poblacional
(P/Km2).
plot(base_teoria_p$`Birth Rate`, base_teoria_p$Density,xlab = "Tasa de natalidad", main= "Tasa de natalidad vs. Densidad poblacional (P/Km2)", ylab = "Densidad poblacional (P/Km2)", col=c("cadetblue"))
cor(base_teoria_p$`Birth Rate`, base_teoria_p$Density)
## [1] -0.1384506
Posteriormente, con el fin de seguir estudiando y caracterizando las condiciones sociales de los países, se relaciona en los diagramas de las figuras 5 a 6 la densidad poblacional y la tasa de natalidad (estableciendo la relación en ambos sentidospara analizar posibles efectos por cuenta de la asignación de variable independiente o dependiente). Al analizar el gráfico de dispersión, se nota con facilidad que en ambos escenarios no existe evidencia de una relación de tipo lineal fuerte entre las variables, de hecho, su coeficiente de correlación de Pearson es de 0.138, lo que demuestra una muy débil relación de este tipo entre ellas.
Por consiguiente, se aprecia que gran parte de los países se concentran en valores inferiores a las 200 personas por km2, y al mismo tiempo cuentan con tasas de natalidad variadas. Entre 3 y 45 personas nacidas por cada mil habitantes al año. Por otro lado, encontramos también que las naciones con mayor densidad poblacional (más de 200 P/km2), presentan en mayor medida tasas de natalidad por debajo de las 25 personas nacidas por cada mil habitantes.
Figura 7. Tasa de natalidad por nivel de desempleo del
país.
boxplot(base_teoria_p$`Birth Rate`~base_teoria_p$`Unemployment rate`, main= "Tasa de natalidad por nivel de desempleo del país", xlab = "Nivel de desempleo", ylab = "Tasa de natalidad (%)", col= c("cadetblue"))
Continuando con el análisis de la densidad poblacional de los países previamente seleccionados, en la figura 7 se puede revisar la relación de esta variable con el nivel de desempleo.En este sentido, se puede observar que en los niveles alto y bajo nos enfrentamos a un sesgo positivo, que además, registran medianas muy cercanas. En ambos casos, vemos que el 50% de sus datos se ubican por debajo (pero muy cerca) de tasas de natalidad de 20 nacimientos por cada mil habitantes. En contraparte, en países con nivel de desempleo muy alto vemos que la mediana se incrementa y se ubica casi en 25 nacimientos por mil habitantes, lo que en condiciones de pocas oportunidades (como las que se esperaría en naciones con niveles muy altos de desempleo) podría contribuir a perpetrar ciclos y trampas de pobreza, ocasionando un detrimento en los niveles de bienestar y calidad de vida percibidos.
Adicionalmente, se puede evidenciar que el nivel de desempleo ‘bajo’ cuenta con la mayor dispersión de valores, por ende, contiene países con mayor diversidad en densidad poblacional registrada a cierre del año pasado. Incluyendo el máximo, como el caso de Níger, cuya tasa de natalidad fue de 46.08 nacimientos por cada mil habitantes (elevada, pese a que su densidad poblacional sea de tan solo 19 personas por Km2).
Figura 8. Densidad poblacional por nivel de desempleo del
país.
boxplot(base_teoria_p$Density~base_teoria_p$`Unemployment rate`, main= "Densidad poblacional por nivel de desempleo del país", xlab = "Nivel de desempleo", ylab = "Densidad poblacional (P/Km2)", col=c("cadetblue"))
Continuando con el análisis de la densidad poblacional de los países previamente seleccionados, en la figura 6 se puede revisar la relación de esta variable con el nivel de desempleo. En este sentido se puede observar que en los niveles ‘bajo’ y ‘muy alto’ presenciamos notorios sesgos positivos (implicando concentración de los valores en la región inferior, de aproximadamente 100 habitantes por Km2).
Además, resaltamos la presencia de datos atípicos en tres de los cuatro niveles de desempleo (bajo, moderado y alto). Mientras tanto, en el escalón correspondiente a niveles muy altos de desempleo, todos los países del grupo se encuentran con valores que registran dentro de los límites de la caja y bigotes. Por úlrimo, se puede evidenciar que el nivel de desempleo ‘bajo’ cuenta con la mayor dispersión de valores, por ende, contiene países con mayor diversidad en cuanto a su densidad poblacional (algunos muy altos, algunos muy bajos); y en contraparte, los datos más concentrados en este caso son aquellos de los países con altas tasas de desempleo, pues 3/4 de ellos tienen densidad poblacional menor a 100 P/km2, y su rango considerado no atípico abarca tan solo hasta poco más de 200 P/km2.
Figura 9. Expectativa de vida (años) vs. Densidad poblacional
(P/Km2).
plot(base_teoria_p$Density,base_teoria_p$`Life expectancy`, main= "Expectativa de vida (años) vs. Densidad poblacional (P/Km2)", ylab = "Expectativa de vida", xlab = "Densidad poblacional (P/Km2)", col=c("cadetblue"))
cor(base_teoria_p$Density,base_teoria_p$`Life expectancy`)
## [1] 0.1491651
Finalmente, en el diagrama de dispersión de la figura 9 se relacionan
la densidad poblacional (P/Km2) y la expectativa de vida en años. Al
realizarse los cálculos pertinentes, se obtiene que el coeficiente de
correlación de Pearson es de 0.149, esto muestra que, nuevamente,
no se evidencia la existencia de una relación lineal fuerte
entre ambas variables. A pesar de ello, se rescata que el
diagrama sugiere cómo la mayoría de los países se encuentran ubicados en
índices de expectativa de vida altos sin la existencia necesaria de una
correlación notoria con la densidad poblacional. Cabe rescatar que en el
caso de los países con mayor hacinamiento, la mayoría de estos registran
expectativas de vida muy altas, por lo que resultaría interesante
ahondar en posibles motivos o determinantes que pudiesen explicar este
comportamiento.
Lista de referencias
[1] N. Elgiriyewithana, “Global Country Information Dataset 2023”. Kaggle, 2023. [En línea]. Disponible en: https://www.kaggle.com/datasets/nelgiriyewithana/countries-of-the-world-2023