El objetivo de este taller es aplicar la técnica de aprendizaje supervisado mediante el modelo K-Nearest Neighbors (KNN) para así poder clasificar estos países en las categorías de “desarrollados” o “no desarrollados”. Para ello, se utilizarán diversas variables socioeconómicas obtenidas de la base de datos World Development Indicators del Banco Mundial, las cuales ayudarán a identificar el nivel de desarrollo de cada territorio y así determinar el rendimiento del modelo. El aprendizaje supervisado es un enfoque de aprendizaje automático en la que se entrena a los modelos utilizando datos que ya tienen las respuestas correctas (es decir, están etiquetados). La idea es que el modelo aprenda a relacionar los datos de entrada con las salidas correctas, encontrando una función matemática que pueda hacerlo de forma precisa. Una vez entrenado, el modelo puede usar lo que aprendió para hacer predicciones cuando se le presentan datos nuevos. Se usa mucho en tareas como la clasificación y la regresión, y emplea algoritmos como la regresión lineal, los árboles de decisión o las redes neuronales.
Se eligieron 10 diferentes variables con las cuales se realizó la base de datos, estas variables están relacionadas con varios factores como economía, salud, educación, entre otros de los diferentes países para facilitar también la división entre desarrollados y no desarrollados de estos. Se eligieron las siguientes:
Access to electricity: (Access_to_electricity) Esta variable (acceso a la electricidad) evalúa el porcentaje de personas que tienen acceso a la electricidad. Se realizó la elección de esta debido a que refleja el nivel de infraestructura básica en un país. Por ejemplo, en general, en los países desarrollados la electricidad está disponible para la mayoría de la población, lo cual puede promover el desarrollo económico y el aumento del bienestar de las personas de este, sirviendo como una señal de progreso.
Life expectancy at birth: (Life_expectancy_at_birth) Esta variable (Esperanza de vida al nacer) hace referencia a la cantidad promedio de años que una persona pueda esperar vivir desde su nacimiento. Se consideró esta variable debido a que el aumento de la esperanza de vida puede reflejar en sistemas de salud, condiciones de vida y bienestar avanzados, característicos de los países desarrollados, siendo un factor distintivo entre países desarrollados y subdesarrollados.
Government expenditure on education, total (% of government expenditure): (education) Esta variable (educación) evalúa el porcentaje del presupuesto gubernamental que va dirigido a la educación. Se hizo la elección de esta debido a que la inversión en educación promueve una población mejor calificada y más competitiva, estimulando en parte al crecimiento económico,
People using at least basic drinking water services (% of
population):
Esta variable (Servicios básicos de agua potable) determina el
porcentaje de personas que usan al menos servicios básicos de agua
potable. Se seleccionó esta variable porque el acceso a servicios
básicos de agua potable es crucial para el desarrollo de un país, ya que
mejora la salud pública al reducir enfermedades, aumenta la
productividad económica debido a que una población saludable es más
productiva y contribuye al desarrollo infantil saludable. Además,
promueve la equidad social y la sostenibilidad, asegurando que las
comunidades marginadas tengan acceso a recursos esenciales.
Unemployment, total (%of total labor force)(modeled ILO estimate) El desempleo total, medido como porcentaje de la fuerza laboral por la Organización Internacional del Trabajo (OIT), impacta negativamente el desarrollo de un país al reducir la productividad económica, aumentar la pobreza y la desigualdad social además de generar mayores costos públicos por subsidios y programas sociales debido a que afecta negativamente la salud mental de las personas desempleadas. Asimismo, la falta de empleo prolongado en el tiempo disminuye el capital humano al hacer que los trabajadores pierdan habilidades y experiencia, lo que dificulta su reintegración en el mercado laboral. De esta manera entre menos desempleo haya en un país podemos determinar su nivel de desarrollo.
GDP (current US\() : El PIB en dólares corrientes (GDP, current US\)) es crucial para el desarrollo de un país, ya que muestra el valor total de lo que produce su economía. Un PIB es un indicador de que el país genera más bienes y servicios, lo que genera más empleos, aumenta los ingresos del estado y permite invertir más en diversas áreas tales como infraestructura, educación y salud. Esto conlleva a notarse más atractivo para inversiones extranjeras, mejora el nivel de vida de la población y fortalece la posición del país en el mercado global, impulsando su crecimiento Urban population (% of total population): Esta variable determina el porcentaje de personas que viven en áreas urbanas en comparación con las áreas rurales. Además de que es fundamental para la evaluación del desarrollo de un país, ya que está directamente relacionada con los factores económicos, sociales y su respectiva infraestructura, así como también determina su nivel económico y social.
CO2 emissions (kt): Las emisiones de CO2 están relacionadas con el desarrollo económico de un país, ya que aumentan a medida que se industrializa y crece la producción y el consumo de energía. Aunque estas emisiones pueden indicar un crecimiento económico, también tienen consecuencias negativas, como contribuir al cambio climático. Esto puede generar costos adicionales en áreas como salud, agricultura e infraestructura a causa de los desastres climáticos. Para poder lograr un desarrollo sostenible, es preciso que exista un balance entre el crecimiento económico y la disminución de las emisiones.
Individuals using the internet (% of population): El porcentaje de personas que usan Internet en un país influye positivamente en su desarrollo puesto que mejora el acceso a la información y la educación, lo cual potencializa a los ciudadanos y mejora las habilidades de la fuerza laboral. Por otra parte, facilita el crecimiento económico mediante la creación de nuevas empresas y el comercio electrónico, amplía los mercados y fomenta la innovación. Estas ventajas contribuyen a un desarrollo económico, social y humano más sólido y sostenible.
Current health expenditure (% of GDP): Se elige la variable del gasto corriente en salud ya que nos indica la cantidad de recursos que un país destina a los servicios de salud en relación con el producto interno bruto, este gasto incluye tanto en el sector público como privado. La salud es una variable determinante para el desarrollo de un país si tenemos en cuenta diferentes aspectos desde una perspectiva positiva: 1. Una población saludable es una población probablemente más productiva. 2. Una población saludable reduce los gastos en salud por parte del sistema, permitiendo así enfocar los recursos eficientemente. 3. Si la salud es integral, la parte mental estaría incluída, lo cuál influenciará positivamente la productividad y el gasto de los recursos. En contraste, si la salud es un tema con rasgos negativos, por ende ésta repercutirá en la productividad y el gasto de los recursos. Dicho de otro modo: a mayores problemas relacionados con la salud, menos fuerza laboral productiva y más desperdicio de los recursos con múltiples consecuencias.
Inicialmente se toma como referencia la base de datos del Banco Mundial (World Development Indicators con el objetivo principal de ajustarlo a un modelo Knn para clasificar los países según su estatus entre desarrollados y no desarrollados, así que se procede a cargar las librerías necesarias para realizar el modelo, posteriormente se escoge el año específico en este caso “2019”, se escogen 10 variables como características de clasificación en el modelo. Después de haber seleccionado las variables cuantitativas, se crea una base de datos para así aplicar el aprendizaje supervisado en la cual se genera una función de pronóstico a partir del entrenamiento previo sobre datos etiquetados.
Luego, se revisan y limpian los datos, eliminando valores faltantes o anormales que puedan afectar el desempeño del modelo. Como criterio de selección las variables se seleccionan con base en su relación potencial con del desarrollo de un país, pero para que este modelo Knn funcione correctamente es necesario que las variables escogidas están relacionadas con el output o variable objetivo (“desarrollado” o “no desarrollado”) y esto mejora la precisión del modelo. También a la hora de elegir las variables se tuvo en cuenta que estás representan factores críticos que influyen directamente en si un país es desarrollado o no.
En otras palabras, se aprende a partir de situaciones reales y se aplica ese conocimiento para predecir futuros casos. Este tipo de enfoque se considera un modelo de clasificación, ya que su objetivo es agrupar los datos en categorías con características similares, y la salida es la categoría en la que se cree que encaja el dato de entrada. Entre los algoritmos que utilizan este modelo se encuentra Knn (k-Nearest Neighbour Classification).
Cabe recalcar que es importante preparar los datos para el modelo Knn y al basarse en la proximidad entre puntos de datos, es necesario e importante normalizar o escalar las variables para que todas tengan el mismo rango y una variable con valores mayores no domine a otras.
Posteriormente se realiza un análisis descriptivo de las variables nombradas anteriormente, para calcular las medidas de tendencia central y dispersión, además de crear histogramas y diagramas de cajas para poder determinar posible patrones o valores anormales en los datos, por lo cual se dividen en dos conjuntos: entrenamiento y prueba. El modelo Knn será entrenado con el conjunto de entrenamiento y evaluado en el conjunto de prueba.
A continuación se determinará el valor óptimo de k, y se evalúa el rendimiento del modelo utilizando medidas como la precisión y la matriz de confusión y de esta manera se analizan los resultados del modelo, observando su precisión y los errores cometidos que en este caso se denomina como “falsos positivos y falsos negativos”. Con ayuda de este procedimiento se puede reflexionar sobre el impacto de cada variable en los resultados y las posibles causas por las cuales algunos países podrían haber sido mal clasificados.
Para crear la columna de clasificación entre países desarrollados y no desarrollados, nos basamos en la información proporcionada por el Banco Mundial, complementada con datos del Programa de las Naciones Unidas para el Desarrollo (PNUD). A continuación, se presenta un gráfico que muestra la distribución de 135 países incluidos en nuestro estudio, donde los países desarrollados se identifican en verde y los no desarrollados en morado. Aquellos países que aparecen como “NA” no están incluidos en nuestra base de datos y, por lo tanto, tampoco forman parte de nuestro modelo de predicción.
Para analizar las estadísticas descriptivas de las variables utilizadas en este estudio, se decidió dividir los cálculos en función de la clasificación de los países en Desarrollados y No Desarrollados. Esto nos permitirá presentar dos tablas que resumen las variables para cada categoría, facilitando la visualización de las diferencias en los valores y justificando la elección de estas variables en nuestro modelo.
A continuación, se presentan las dos tablas.
Variable | Media | Minimo | Maximo | Mediana | Cuartil_1 | Cuartil_3 | Desviacion_Estandar | |
---|---|---|---|---|---|---|---|---|
25% | Access_to_electricity | 99.87 | 93.90 | 100.00 | 100.00 | 100.00 | 100.00 | 0.87 |
25%1 | Life_expectancy_at_birth | 80.17 | 73.08 | 84.36 | 81.45 | 77.83 | 82.80 | 3.15 |
25%2 | Education | 12.45 | 8.05 | 19.14 | 12.02 | 10.19 | 14.49 | 2.88 |
25%3 | Water_services | 98.88 | 91.82 | 100.00 | 99.92 | 99.06 | 100.00 | 2.07 |
25%4 | Unemployment | 5.30 | 0.10 | 17.05 | 4.51 | 3.51 | 6.31 | 3.23 |
25%5 | GDP | 1135987812005.87 | 5726094799.38 | 21521395000000.00 | 346498737961.64 | 69721787500.00 | 761005946788.22 | 3155462113887.40 |
25%6 | Urban_population | 76.90 | 40.24 | 100.00 | 80.56 | 68.06 | 87.71 | 14.91 |
25%7 | CO2_emissions | 278514.39 | 1638.20 | 4817710.40 | 47261.80 | 29696.50 | 244882.00 | 730102.97 |
25%8 | Internet | 86.38 | 61.73 | 99.70 | 87.75 | 81.58 | 92.73 | 9.07 |
25%9 | Health | 8.05 | 2.79 | 16.67 | 8.47 | 6.46 | 10.14 | 2.72 |
Variable | Media | Minimo | Maximo | Mediana | Cuartil_1 | Cuartil_3 | Desviacion_Estandar | |
---|---|---|---|---|---|---|---|---|
25% | Access_to_electricity | 77.59 | 8.40 | 100.00 | 95.20 | 52.70 | 99.80 | 28.38 |
25%1 | Life_expectancy_at_birth | 69.30 | 53.26 | 81.40 | 70.89 | 64.38 | 74.08 | 6.47 |
25%2 | Education | 15.41 | 4.46 | 35.01 | 14.28 | 12.49 | 18.53 | 4.90 |
25%3 | Water_services | 83.65 | 38.21 | 100.00 | 90.85 | 72.63 | 96.10 | 16.12 |
25%4 | Unemployment | 6.99 | 0.12 | 29.05 | 4.77 | 2.98 | 10.21 | 5.86 |
25%5 | GDP | 302883319564.22 | 412976064.48 | 14279968506271.73 | 18189449314.73 | 9615781412.24 | 85999108733.34 | 1572982850455.24 |
25%6 | Urban_population | 51.82 | 13.37 | 91.20 | 51.53 | 36.54 | 66.65 | 20.16 |
25%7 | CO2_emissions | 207621.14 | 140.20 | 10762824.00 | 8657.95 | 2487.40 | 38250.18 | 1185829.19 |
25%8 | Internet | 49.59 | 6.02 | 90.69 | 50.91 | 29.74 | 68.68 | 23.26 |
25%9 | Health | 5.72 | 2.26 | 11.95 | 5.53 | 4.11 | 7.05 | 2.19 |
Además, para realizar un análisis más profundo de cada variable, hemos agrupado las variables en tres categorías según su naturaleza:
Variables prioritarias para el bienestar: Salud (Health), Educación (Education) y Esperanza de vida al nacer (Life expectancy at birth).
Variables de infraestructura básica: Acceso a la electricidad (Access to electricity), Internet, Servicios de agua (Water services) y Población urbana (Urban population).
Variables de indicadores económicos: Producto Interno Bruto (GDP), Tasa de desempleo (Unemployment) y Emisiones de CO2 (CO2 emissions).
A continuación se mostrarán gráficos que ayuden a analizar cada variable dentro de su grupo, completamentando el análisis generado desde los gráficos con la información brindada en las tablas de descriptivas.
Este gráfico permite observar cómo varía el presupuesto gubernamental a la educación, el gasto en salud y la esperanza de vida entre países desarrollados (Si) y no desarrollados (No). Se explicará brevemente cada una.
Education: Países no desarrollados (No): En estos países, la mediana del porcentaje del presupuesto gubernamental destinado a la educación es más alta que en los países desarrollados, encontrándose alrededor del 18%. Esto podría significar la necesidad de una mayor inversión en educación para cerrar las brechas de acceso y calidad educativa. Por otro lado, el rango intercuartílico es amplio, debido a que va de aproximadamente 14% a 20%, lo que indica una alta variabilidad en la inversión educativa entre los países no desarrollados. También hay presencia de valores atípicos más altos, lo que sugiere que ciertos países no desarrollados están realizando un esfuerzo significativo para mejorar su sistema educativo a través de mayores inversiones públicas.
Países desarrollados (Si):
Se esperaría que los países desarrollados destinen más recursos a educación, la mediana del presupuesto destinado a la educación es más baja,cerca al 13%. Esto puede significar que, a pesar de tener sistemas educativos mejores, estos países ya no necesitan dedicar una proporción tan grande de su presupuesto a educación, debido a un desarrollo educativo ya consolidado o debido a que no se encuentran muchos jóvenes en estos. El rango intercuartílico es menor, con valores entre 10% y 15%, lo que indica que la inversión en educación es más consistente en esta clasificación.
Health:
Países no desarrollados (No):
Los países no desarrollados tienen un gasto en salud mucho más bajo en comparación con los desarrollados, en este la mediana del porcentaje del PIB destinado a la salud es alrededor del 5%, lo que indica una poca inversión en comparación con las necesidades de estos países. El rango intercuartílico que va aproximadamente de 4% a 7%, muestra poca dispersión, lo que cual indica que la mayoría de los países no desarrollados invierten una proporción bastante consistente pero baja en sus sistemas de salud. Por otro lado, los valores atípicos en la parte superior indican que algunos países están realizando esfuerzos por incrementar la inversión en salud.
Países desarrollados (Sí):
Los países desarrollados destinan una proporción mayor de su PIB a los servicios de salud, con una mediana cercana al 8%, lo que indica un fuerte interés en el bienestar de sus poblaciones. El rango intercuartílico es más amplio, con valores que van entre el 6% y 10%, lo que indica que, aunque todos los países desarrollados invierten significativamente en salud, algunos destinan mucho más que otros.
Life_expectancy_at_birth:
Países no desarrollados (No):
La esperanza de vida en estos países es menor, con una mediana de 75 años, esto puede indicar que tengan dificultades en términos de salud y calidad de vida. La dispersión de los datos indica una variabilidad significativa entre los países no desarrollados. Algunos de estos países están en una situación más crítica, con una esperanza de vida por debajo de los 65 años, lo que puede deberse a altos índices de mortalidad infantil, enfermedades, conflictos, seguridad o sistemas de salud deficientes. Se puede observar que otros se acercan a los 80 años, lo que indica que, aunque pertenecen al grupo de no desarrollados, han hecho progresos significativos en la mejora de la salud y la calidad de vida.
Países desarrollados (Sí):
En los países desarrollados, la mediana de la esperanza de vida al nacer es mayor, de 80 años, lo que indica que la mayoría de las personas en estos países puede esperar vivir hasta una edad avanzada. Esto se debe a la disponibilidad y calidad de los servicios de salud y saneamiento. La variabilidad en la esperanza de vida es mucho menor en comparación con los países no desarrollados, con la mayoría de los países desarrollados situándose en un rango pequeño entre los 77 y 83 años. Los valores más altos de esperanza de vida en algunos países desarrollados, por encima de los 83 años, se deben a sistemas de salud buenos, políticas de prevención de enfermedades, y un entorno económico estable.
GDP
Como se observa en la tabla de estadísticas descriptivas, la media del PIB entre los países desarrollados (1.135.987.812.005,87) y No desarrollados (302.883.319.564,22), tiene una gran diferencia que indica que se podría asociar valores altos del PIB a países de desarrollados, sin embargo, a continuación se hará un análisis de del top de los 10 países con un mayor PIB.
Este gráfico muestra el Top 10 de países por PIB, y permite entender la dinámica económica global en términos de producción y poder económico. A continuación presentaremos una interpretación de por qué cada país ocupa su lugar en la lista.
Estados Unidos (United States): Ocupa el primer lugar, con un PIB notablemente mayor al resto de los 10 países, esto evidencia su posición como la economía más grande del mundo; esto debido a su diversidad económica, ser líder en diferentes sectores como la tecnología y finanzas.
China (China): China se encuentra en segundo lugar debido a ser conocida como “la fábrica del mundo”, debido a su gran capacidad de manufactura, además de tener un mercado interno que se expande y grandes inversiones en infraestructura. La clasificación “No”, indicando que no es desarrollada, es debido a desafíos que tiene el país en áreas como acceso a recursos, condiciones laborales o sostenibilidad ambiental; sin embargo, se encuentra por las razones inicialmente mencionadas.
Japón (Japan): Japón es una de las más grandes economías debido a su capacidad de alta tecnología, manufactura avanzada y por contar con un fuerte sistema financiero. Alemania (Germany): Es la mayor economía de Europa, y la cuarta en el Top; esta se basa en una sólida industria manufacturera, además de ser conocida por su enfoque en calidad e ingeniería de precisión, lo que la convierte en una potencia exportadora, por estos motivos obtiene el cuarto lugar.
Reino Unido (United Kingdom): Reino Unido es considerado como un centro financiero global, destacando en sectores como finanzas, tecnología y servicios, los cuales impulsan su economía y lo posiciona en quinto lugar.
India (India): Este país tiene un mercado interno grande y está impulsado por sectores como los tecnológicos, de manufactura y agricultura, lo que lo posiciona en este lugar. Sin embargo, India es clasificado como un país no desarrollado debido a que presenta grandes desigualdades, como la limitación a servicios básicos, atención de salud y la pobreza, además de enfrentar desafíos ambientales.
Francia (France): Es una de las economías más grandes de Europa debido a su fuerte sector industrial, agrícola y de servicios. Además de ser líder en industrias como la aeronáutica y el turismo; también por ser un exportador importante en la Unión Europea, ocupando el séptimo lugar. Italia (Italy): Este país se encuentra en este lugar debido a que cuenta con una gran economía a nivel de producción industrial, específicamente en la manufactura de máquinas, textiles y productos alimenticios. También es un exportador importante.
Brasil (Brazil): Este país tiene una mezcla de riqueza en recursos naturales y una gran industria agrícola; además de contar con sectores claves en minería, agricultura y energía. Sin embargo, esta es clasificada como no desarrollada debido a que, a pesar de que es la mayor economía de América Latina, presenta niveles significativos de desigualdad, presentando problemas políticos y desigual distribución de acceso a servicios básicos.
Canadá (Canada): La economía de este país es una de las más grandes debido a su abundancia en recursos naturales, principalmente en petróleo, gas y minerales. También cuenta con sectores fuertes en manufactura y servicios financieros, lo que le permite mantenerse entre las economías más grandes del mundo y cerrar este Top.
CO2 emissions
De la tabla de estadísticas descriptivas, se puede observar que en promedio, los países desarrollados tiene una mayor emisión de C02, con una media de 278.514,39, a comparación de los países no desarrollados con una media de 207.621,14, sin embargo a continuación se mostrará y analizará el top 10 de los países con más emisiones de CO2.
En este gráfico se puede observar el Top 10 países que cuentan con las mayores emisiones de CO2, daremos paso a explicar el por qué cada una toma un lugar en el Top: China (China): Es el mayor emisor de CO2 del mundo, esto debido a su industrialización masiva, la expansión de infraestructuras y el uso predominante del carbón como una fuente de energía contribuyen al aumento continuo de emisiones de carbono; al tener a una quinta parte de la población mundial, lo cual significa una demanda gigante de energía. Se puede relacionar a la categoría con que está asignado debido a que refleja la dependencia actual de combustibles fósiles, y sus altas emisiones actuales muestran la dificultad de reducirlas en corto plazo.
Estados Unidos (United States): Ocupando el segundo lugar, Estados Unidos cuenta con una gran infraestructura industrial, es dependiente del petróleo y gas y su estilo de vida se basa en un gran consumo de energía. Su clasificación “Si” probablemente indica que Estados Unidos está cumpliendo con compromisos internacionales y se observan esfuerzos en transición energética.
India (India): Ocupa el tercer lugar debido a su gran crecimiento económico y su gran población, la segunda más grande del mundo. La industrialización a gran escala y la dependencia a las energías a base de carbón son los que generan a gran escala estas emisiones. Su clasificación “No” podría indicar que India enfrenta desafíos significativos para reducir su huella de carbono en medio de sus prioridades de desarrollo.
Japón (Japan): A pesar de contar con políticas ambientales, como la implementación de tecnologías limpias y energías renovables, Japón sigue dependiendo de la energía térmica y fósil. Su categoría probablemente indique los esfuerzos que realiza el país por reducir las emisiones a largo plazo.
Alemania (Germany): Al ser una de las mayores economías del mundo, y el mayor emisor de CO2 en Europa, cuenta con un alto nivel de industrialización y depende en parte del carbón para la producción de energía.
Canadá (Canada): Contando con una amplia industria de recursos naturales, que incluye petróleo, gas y minería; Canadá se posiciona en el lugar número 6, ya que esto contribuye a sus emisiones de CO2. Ser clasificado como “Si”, podría sugerir que Canadá está cumpliendo compromisos internacionales y esté esforzándose por mejorar respecto al cambio climático, adoptando medidas como impuestos al carbono para incentivar la reducción de emisiones en varios sectores.
Brasil (Brazil): A pesar de que Brasil cuenta con una capacidad considerable de energía renovable, se presenta también un gran porcentaje de deforestación en la Amazonía y también en sectores como el de la agricultura y ganadería, siendo estos una fuente importante de emisiones de carbono. Su clasificación “No”, haciendo referencia a que no es desarrollado, indica que Brasil podría presentar dificultades para cumplir con compromisos climáticos, posiblemente por políticas ambientales menos estrictas.
Reino Unido (United Kingdom):
Italia (Italy): Aunque no es uno de los mayores emisores de CO2 en esta lista, sigue siendo un país importante en términos de emisiones dentro de la Unión Europea debido a su economía industrializada. Su clasificación indica que Italia está comprometida con reducir emisiones de CO2 en el marco de la Unión Europea.
Francia (France): Es uno de los países con emisiones de CO2 más bajas entre las principales economías desarrolladas, en parte debido a dependencia de energía nuclear, la cual no genera emisiones de carbono. Su clasificación “Si” refleja un compromiso con los objetivos climáticos internacionales, como lo fue el Acuerdo de París, del cual fue anfitrión.
Umenployment.
De la comparación de las estadísticas descriptivas, se puede observar que los países No desarrollados cuentan con una mayor tasa de desempleo, teniendo una media de 6,99 a comparación de los países desarrollados que cuentan con una media de tasa de desempleo de 5.30, a continuación se mostrará el top de los 10 países con una mayor tasa de desempleo.
Se observa que 9 de los 10 países en el Top son de la clasificación “No” (no desarrollados), indicando una tendencia de altos niveles de desempleo en estos países. Esto puede ser debido a economías dependientes de sectores primarios, una baja diversificación industrial, desigualdades socioeconómicas, y una poca inversión en infraestructura y educación. Se puede observar que Grecia es el único país desarrollado dentro de la lista, con una tasa de desempleo alta, aunque no alcanza los niveles extremos observados en algunos de los países no desarrollados. Esta resalta como un caso atípico entre los países desarrollados, que generalmente tienden a tener tasas más bajas. Con esto se puede evidenciar que incluso los países desarrollados pueden experimentar elevadas tasas de desempleo en posibles periodos de crisis.
Water services
Países desarrollados (Si): Los países desarrollados presentan un acceso casi total a los servicios de agua potable, con una media cercana al 100%. Esto nos indica que casi toda la población tiene acceso a agua potable o servicios de distribución de agua de calidad, esto podría indicar una alta inversión en infraestructura pública y buen manejo de recursos hídricos.
Países no desarrollados (No): En los países no desarrollados, el acceso promedio a los servicios de agua es del 75%, aunque esta cifra es relativamente alta, todavía existe una proporción de la población que carece de acceso adecuado a agua potable.
Access to electricity
Países desarrollados (Si): El acceso promedio a la electricidad en los países desarrollados también alcanza casi el 100%. Esto indica la disponibilidad generalizada de servicios eléctricos en áreas urbanas y rurales, impulsada por una buena infraestructura y políticas energéticas eficientes.
Países no desarrollados (No): El acceso promedio a la electricidad en los países no desarrollados es más bajo, alrededor del 75%. Esto indica una brecha importante en la infraestructura eléctrica, lo que puede significar que gran parte de la población rural no tiene acceso a la electricidad. Esto en muchas regiones también puede limitar el desarrollo económico y educativo.
Internet
Países desarrollados (Si): El acceso promedio a internet en los países desarrollados es alto, con una media de alrededor del 80%. Esto da a entender que la mayoría de la población de estos países tiene acceso a internet, lo que impulsa una mayor conectividad digital, acceso a información y educación en línea.
Países no desarrollados (No): En contraste, los países no desarrollados tienen un acceso mucho menor a internet, con una media de alrededor de 50%. Esto indica que una gran parte de la población no tiene acceso a la conectividad en línea, lo que limita las oportunidades económicas, educativas y de comunicación.
urban population Porcentaje de personas que viven en áreas urbanas, se evidencia que el mayor porcentaje urbano se encuentra en la categoría “sí” desarrollados, alcanzando un promedio del 80% , mientras que en la categoría “No” que clasifica los no desarrollados está por debajo del 50%. Esto se debe a que posiblemente porque lo largo del tiempo, los países desarrollados han experimentado una industrialización significativa, lo que ha llevado a la creación de empleos en áreas urbanas. Esto atrae a las personas del campo a las ciudades en busca de mejores oportunidades laborales.
El modelo tomó 102 muestras del conjunto de datos, 10 variables predictoras y dos clases “no” y “si”. El 75% de los datos se utilizaron para entrenar el modelo, y el 25% restante para probar el modelo. El valor que se utilizó en el modelo es K=40, esto quiere decir que se probaron 40 valores diferentes de k para encontrar el mejor valor y se evalúa el rendimiento del modelo. En nuestro caso el el valor más óptimo es k =7
A continuación se detalla la predicción del modelo Knn, clasificado en dos categorías “países desarrollados” y “Países no desarrollados”.
La matriz de confusión permite evaluar el rendimiento del modelo comparando los valores predichos con valores reales.
En la matriz de confusión la predicción se divide entre verdadero positivo , falso positivo, falso negativo y verdadero negativo.
Para nuestro modelo se observa que la clase positiva es “no” países no desarrollados y la clase negativa es “Si” países desarrollados.
Hace referencia a la exactitud del modelo. En nuestro caso, el modelo tiene un 84.85% de exactitud, lo que significa que predice correctamente el 84.85% de todos los países, tanto desarrollados como no desarrollados. Se mide como la proporción de predicciones correctas sobre el total de predicciones realizadas.
\[ \text{Exactitud} = \frac{\text{Predicciones Correctas}}{\text{Total de Observaciones}} = \frac{28}{33} = 0.8485 \]
El modelo muestra un nivel de confianza del 95%, con una precisión que oscila entre el 68.1% y el 94.89%. Eso quiere decir que si se repite varias veces el proceso de entrenamiento y evaluación del modelo entonces el 95% de los casos, la precisión del modelo caería dentro de ese rango.
Indica la capacidad del estimador para clasificar los casos positivos de los negativos. La sensibilidad es de 0.8571, lo que significa que el modelo logró identificar correctamente el 85.71% de los países no desarrollados. La sensibilidad se representa como la fracción de los verdaderos positivos.
\[ \text{Sensibilidad} = \frac{\text{Verdaderos Positivos (VP)}}{\text{Falsos Negativos (FN)} + \text{Verdaderos Positivos (VP)}} = \frac{18}{3 + 18} = 0.8571 \]
Se refiere a la capacidad de medir correctamente la tasa de verdaderos negativos, es decir los países “desarrollados”. La especificidad de 0.8333 (83.33%) significa que el modelo identificó correctamente el 81.33% de los países desarrollados como “Sí”.
\[ \text{Especificidad} = \frac{\text{Verdaderos Negativos (VN)}}{\text{Verdaderos Negativos (VN)} + \text{Falsos Positivos (FP)}} = \frac{10}{10 + 2} = 0.8333 \]
Esta característica evalúa la confiabilidad de las predicciones positivas realizadas por el modelo, es decir que probabilidad hay que un país realmente sea “no desarrollado”.
El Valor Predictivo Positivo es de 0.9000 (90%) significa que el 90% de los países que el modelo predijo como no desarrollados (“No”) realmente no son desarrollados. Es decir, el 90% de las veces que el modelo clasifica un país como “No”, esta clasificación es correcta, pero aún existe un 10% de error, donde países desarrollados son mal clasificados como “no desarrollados”. Este 10% restante se refiere a falsos positivos, sin embargo en términos de confiabilidad el valor predictivo positivo es bastante alto.
\[ \text{PPV} = \frac{\text{Verdaderos Positivos (VP)}}{\text{Falsos Positivos (FP)} + \text{Verdaderos Positivos (VP)}} = \frac{18}{2 + 18} = 0.9000 \]
Neg pred value:** Es una métrica que nos indica qué tan confiables son las predicciones negativas de un modelo, es decir, la probabilidad de que un país clasificado como “desarrollado” realmente pertenezca a esa categoría.
El Valor Predictivo Negativo de 0.7692 (76.92%) significa que el 76.92% de los países que el modelo predijo como desarrollados (“Sí”) realmente son desarrollados. Esto indica que el 76.92% de las veces que el modelo clasifica un país como “Sí”, esta clasificación es correcta. Por otro lado, un falso negativo ocurre cuando el modelo clasifica incorrectamente un país no desarrollado como desarrollado. En este caso, un 23.08% (100% - 76.92%) de las veces, el modelo comete este tipo de error. Esta proporción de falsos negativos es importante porque podría ser crítica si se quiere identificar correctamente solo los países desarrollados.
\[ \text{NPV} = \frac{\text{Verdaderos Negativos (VN)}}{\text{Falsos Negativos (FN)} + \text{Verdadero Negativo (VN)}} = \frac{10}{3 + 10} = 0.7692 \]
Es la proporción de casos positivos en el conjunto de datos, en este caso 0.6364 representa el 63.64% de que los datos reales son “no desarrollados”. Por otro lado, indica que los países “no desarrollados” son mayoría en el conjunto de datos. Esto afecta la forma en que el modelo aprende y predice, lo que puede generar un sesgo hacia la clase positiva. Sin embargo, el 36.36% de los países en el conjunto de datos pertenece a la categoría de “desarrollados”. Este valor es igualmente importante, ya que un modelo equilibrado debe tener en cuenta la predicción correcta de esta clase también.
\[ \text{Prevalencia} = \frac{\text{Total de positivos reales}}{\text{Total de observaciones}} = \frac{21}{33} = 0.6364 \]
La tasa de detección es la proporción de los casos positivos detectados por el modelo. Para esta situación es 0.5455, lo que significa que el modelo identifica correctamente el 54.55% de los casos “no desarrollados.” Sin embargo, se podría decir que es un porcentaje un poco bajo ya que hemos observado que la mayoría de países son no desarrollados.
El hecho de que el modelo solo detecte correctamente el 54.55% de los países “no desarrollados” implica que el modelo no reconoce todos los casos positivos. 46% de los países “no desarrollados” no son detectados, lo que representa un porcentaje significativo de casos que el modelo no clasifica correctamente. No obstante, esta métrica nos ha permitido intuir que esto puede estar pasando debido a la complejidad de los datos o las características de los países, es decir que algunas variables pueden ser difíciles de interpretar para separar entre países no desarrollados y desarrollados.
\[ \text{Tasa de detección} = \frac{\text{Número de verdaderos positivos}}{\text{Total de casos reales}} = \frac{18}{33} = 0.5455 \]
La prevalencia de detección del 60.61% nos dice que, de todas las predicciones realizadas por el modelo, un 60.61% fueron para clasificar a los países como “no desarrollados”. Este porcentaje incluye tanto verdaderos positivos (VP) como falsos positivos (FP), es decir, incluye tanto las predicciones correctas como aquellas en las que el modelo se equivocó al predecir que un país era “no desarrollado” cuando en realidad no lo era.
Además, la prevalencia real de países “no desarrollados” es de 63.64%, lo que está relativamente cerca de la prevalencia de detección del 60.61%. Esto nos da una idea de que el modelo está alineado con la proporción real de países “no desarrollados”
\[ \text{Prevalencia de detección} = \frac{\text{Número de predicciones positivas}}{\text{Total de predicciones}} = \frac{20}{33} = 0.6061 \]
Es la exactitud equilibrada, del promedio de la sensibilidad y la especificidad. Se utiliza cuando las clases están desbalanceadas, en otras palabras, hay más casos en una clase que en la otra.
Para este caso, se analiza que el modelo está equilibrado en su capacidad para predecir correctamente tanto casos de “No desarrollado” como los de “Sí desarrollado”, con un rendimiento promedio de 84.52% en ambas clases.
Al analizar esta métrica nos brinda confiabilidad en que al promediar la Sensibilidad y la Especificidad, ofrece una evaluación más justa del rendimiento del modelo y nos ayuda a comprender mejor que el modelo no está sesgado hacia una clase en particular como se creía anteriormente y tiene un rendimiento semejante en ambas clases.
\[ \text{Exactitud balanceada} = \frac{\text{Sensibilidad} + \text{Especificidad}}{2} = \frac{0.8571 + 0.8333}{2} = 0.8452 \]
Finalmente, tenemos ‘Positive’ class : No El modelo está indicando que la métrica principal es la clase del “No”, es decir que la clase positiva que el modelo evaluó fueron los “no desarrollados”.
Al elegir “no desarrollados” como la clase positiva, el enfoque del modelo está en minimizar los errores de clasificación relacionados con esta clase. Esto significa que el objetivo principal del modelo es asegurar que, cuando clasifique un país como “no desarrollado”, sea una predicción confiable, lo cual se refleja en métricas como la Sensibilidad y el Valor Predictivo Positivo
El modelo encontró que el valor más óptimo para k es k=7, la distancia entre los vecinos más cercanos para realizar predicciones, también se evidencio que la mayoría de estos vecinos son de la clase “no desarrollados”.
Los errores que presentó el modelo pudieron presentarse por la complejidad y variabilidad de los datos, similitudes entre países desarrollados y no desarrollados. Es posible que haya variables en el conjunto de datos que no logran capturar completamente las diferencias entre los países “desarrollados” y “no desarrollados”. Por ejemplo, algunas características económicas o sociales pueden ser similares en ambos tipos de países, lo que dificulta la clasificación precisa. Para este caso se econtro que la varibale GPD (PIB) los países con un PIB elevado pueden presentar deficiencias en otros indicadores clave, como acceso a servicios básicos o bienestar social y generar ruido en el modelo. En otras palabras, el modelo podría estar confundiendo el impacto del PIB en estos casos, asumiendo que un alto PIB se traduce automáticamente en un mayor desarrollo, cuando en realidad estos países son países no desarrollados.
Las variables utilizadas en el modelo pueden no ser lo suficientemente representativas, como por ejemplo CO2_emissions (Emisiones de CO2). Las emisiones de CO2 suelen ser más altas en los países desarrollados debido a su alto nivel de industrialización. No obstante, algunos países no desarrollados están atravesando procesos de rápida industrialización también pueden presentar niveles elevados de emisiones. Esto puede generar confusión en el modelo, ya que altos niveles de CO2 no siempre corresponden exclusivamente a países desarrollados, lo que dificulta la clasificación precisa en estos casos, aunque la variable es importante no suele ser tan representativa para los paises en nuestra base de datos.
Con base en las métricas del modelo, la sensibilidad del 85.71% indica una alta eficiencia para identificar correctamente los países no desarrollados, mientras que la especificidad del 83.33% demuestra un buen desempeño en la clasificación de los países desarrollados. Además, la exactitud general del 84.85% refleja que el modelo logra predecir de manera correcta una alta proporción de los casos en general, y la exactitud balanceada del 84.52% asegura un equilibrio en la capacidad del modelo para clasificar correctamente tanto a los países desarrollados como a los no desarrollados.
Al analizar más a fondo los errores de clasificación, se puede concluir que estos no se deben únicamente al funcionamiento del modelo, sino también a la distribución real de los datos y la naturaleza de las variables incluidas. Las métricas muestran una solidez en la predicción, pero los resultados indican que algunas variables podrían estar generando confusión para el modelo, justamente esto se debe por los datos atípicos encontrados en las estadísticas descriptivas, ahí se evidencia una fuerte tendencia de los países no desarrollados con un alto PIB que es donde el modelo puede estar confundiendo este tipo de variables con un país en desarrollo.
Tras analizar las gráficas y realizar una comparación con el modelo, concluimos que su desempeño fue satisfactorio. El modelo mostró una fuerte tendencia en predecir principalmente los países no desarrollados. Este enfoque nos permite inferir que la mayoría de estos países presenta carencias significativas que les impiden alcanzar las variables clave asociadas con el desarrollo. Por lo tanto, el modelo refleja de manera clara las dificultades que enfrentan estos países para acercarse a las condiciones de un país desarrollado.
En conclusión, considerando estas métricas, el modelo muestra un buen rendimiento, lo que permite afirmar que su desempeño es satisfactorio para el objetivo de clasificación,pero es importante reconocer la influencia de ciertos factores en los errores de clasificación. Esto sugiere las siguientes recomendaciones para el modelo.
Un modelo de KNN para la predicción puede ser muy sensible al ruido que causas algunas variables, especialmente cuando se presentan datos atípicos (outliers). Por esta razón, es ta importante el analisis de las variables y su distribución. En nuestro caso, varias variables presentaron datos atípicos que dificultan la buena precisión del modelo. Por ejemplo, la variable “GDP ($current)” (PIB en dólares corrientes) generalmente se asocia con países desarrollados, sin embargo, encontramos casos como China, Brasil e India, que, son considerados países no desarrollados, tienen un PIB elevado. Esto puede llevar al modelo a clasificar incorrectamente a estos países como desarrollados. Por lo cual, una recomendación sería eliminar variables que generen ruido debido a datos atípicos. En el gráfico de caja que se presenta a continuación, se pueden observar claramente estos datos atípicos en ambos grupos de países, desarrollados y No desarrollados.
Para probar esta recomendación, se ejecutó el modelo eliminando la variable “GDP”. Esta modificación resultó en un aumento significativo en la exactitud del modelo, que pasó del 84.85% al 93.94%.También, el modelo fue capaz de clasificar correctamente el 100% de los países desarrollados, lo que significa que no cometió errores en esta categoría.
Además, al eliminar la variable “GDP”, el modelo redujo el error al clasificar países no desarrollados. Anteriormente, el modelo había clasificado incorrectamente a 3 países como “desarrollados”, pero tras eliminar la variable problemática, el número de errores se redujo a solo 2. Esto sugiere que el modelo, al ser menos susceptible a la influencia de datos atípicos en la variable “GDP”, logró realizar predicciones más precisas y confiables.
Por lo tanto, se recomienda eliminar esta variable del modelo. Esta acción no solo optimizará su rendimiento general, sino que también contribuirá a una mejora significativa en la precisión de las predicciones, permitiendo al modelo clasificar de manera más efectiva tanto a los países desarrollados como a los no desarrollados.
Otra recomendación sería, añadir nuevas variables que tengan una relación más clara con los países desarrollados y no desarrollados, a medida que se elimine una variable considerada como problemática en el problema como podría ser en nuestro caso la variable GDP, pero también encontramos datos atipicos en variables como la de emisiones de CO2, aunque esta siendo en menor medida a comparación de del PIB, aun así, remplazar estas variables por otras que no están en nuestra base de datos como lo podrían ser como inversión extranjera, podrían mejorar la precisión de el modelo, aunque también se corre el riesgo de perder algunos países de la base de datos, en nuestro caso, las variables elegidas para la base de datos fueron las que consideramos más adecuadas y que nos permitían conservar la información de más países depues de una ardua investigación, pero existen una gran cantidad de variables relacionadas con el desarrollo de los países en el Banco Mudial que aun pueden probarse para mejorar la precisión del modelo.