Introducción
En el siguiente documento se presentará una base de datos del año 2021 cuyo contenido incluye variables cuantitativas que permiten determinar el desarrollo de 97 países diferentes. Esta base de datos se obtuvo mediante el Banco Mundial. Posteriormente, se realizará un análisis descriptivo de cada una de estas variables, además se implementará y analizará un modelo de aprendizaje supervisado (Knn) con base en la variable categórica “Desarrollo”.
El grupo de trabajo eligió el año 2020 para la construcción de la base de datos debido a que resulta interesante analizar las variables teniendo en cuenta que es un año en que se vivió la pandemia de COVID-19.
¿Que es el desarrollo de un país?
El desarrollo de un país se denomina como el proceso en el cual un país logra un nivel alto en la calidad de vida de sus habitantes. En otras palabras, es un país que posee un alto nivel de vida.
Elección de paises desarrollados y no desarrollados
El grupo de trabajo decidió determinar el desarrollo de los países mediante el nivel de ingreso de su economía, tomando como referencia externa el Banco Mundial. El proceso de clasificación se desarrolló identificando los países pertenecientes a nuestra base de datos y revisando su nivel de ingreso económico registrado en el banco mundial. Por consiguiente, al revisar el nivel económico determinamos el desarrollo del país de la siguiente manera:
Países no desarrollados: Economías de bajos ingresos ($1,145 o menos), economías de ingresos medianos bajos ($1,146 a $4,515) y economías de ingresos medianos altos ( $4,515 a $14,005).
Países desarrollados: Economías de altos ingresos ($14,006 o más).
Elección de variables
En el siguiente apartado se dará una descripción breve de las variables que el grupo de trabajo decidió tomar para llevar a cabo el modelo, además del análisis descriptivo con su respectiva conclusión. Es importante mencionar que estos criterios corresponden al año del 2020.
Acceso a electricidad: El porcentaje de la población que tiene acceso a la electricidad es un criterio que el grupo de trabajo consideró muy importante y que podría explicar si un país está desarrollado o no. La principal razón de esta elección es que un acceso estable a la electricidad es fundamental para que las empresas, hogares, escuelas y hospitales puedan funcionar correctamente. Además, la electricidad es parte fundamental para que las industrias modernas operen, lo que genera un crecimiento económico y abre las puertas a una calidad de vida óptima para las personas.
Ingreso nacional neto: Según el World Bank Group, el ingreso neto nacional ajustado (aumento en %), el ingreso nacional bruto (indicador macroeconómico que mide el valor de los bienes y servicios producidos por los residentes de un país, ya sea dentro o fuera de sus fronteras) lo ajusta restando las depreciaciones del capital fijo y sumando o restando otros elementos como el deterioro ambiental o la depreciación de los recursos naturales. El grupo decidió que este indicador es demasiado importante para determinar si un país es desarrollado o no ya que el crecimiento económico en función de los ingresos brutos y los costos a largo plazo relacionados con la sostenibilidad de los recursos.
Esperanza de vida: Es un indicador que estima el número de años que un recién nacido viviría si los patrones actuales de mortalidad se mantuvieran constantes durante toda su vida.Este indicador fue elegido por el grupo de trabajo porque refleja la salud general de los habitantes de cada país, las condiciones de salubridad, y además proporciona un bosquejo de las condiciones de violencia y seguridad. En países con altas tasas de criminalidad y violencia, la esperanza de vida tiende a ser más baja.
Inversión extranjera: Esta variable hace referencia a la inversión directa realizada por residentes de un país hacia economías externas, dicha variable se mide como porcentaje del PIB del país y representa el flujo neto de inversión que sale del país hacia el exterior. Para el grupo de trabajo esta variable puede indicar que tan desarrollada está la economía de un país y según el World Bank Group Los países desarrollados generalmente tienen empresas con la capacidad financiera necesaria para invertir en otros mercados por el contrario países menos desarrollados tienden a ser receptores netos de inversión, ya que buscan atraer capital extranjero para fomentar su propio crecimiento.
Remuneración empleado: El grupo de trabajo considero importante tener en cuenta la compensación que reciben los empleados porque Un país donde la compensación de los empleados representa una parte significativa de los gastos podría reflejar una economía más estable además de que remuneraciones altas pueden estar relacionadas con una inversión significativa en educación y capacitación a los trabajadores, lo que es muy común en economías desarrolladas.
Gasto en salud: El grupo de trabajo concluyó que el gasto en salud es un indicador clave del nivel de desarrollo de un país, ya que refleja directamente la calidad de vida de su población. En los países desarrollados, el gasto en salud tiende a ser alto. También indica el compromiso del Estado con garantizar equidad en el servicio de salud para la población. Cabe destacar que este indicador tiene relación con variables anteriormente elegidas, como lo son una mayor esperanza de vida y bajas tasas de mortalidad infantil.
Gasto: El gasto (% PIB) se refiere a la proporción del Producto Interno Bruto (PIB) de un país que se destina al gasto público. Este gasto puede incluir varias categorías, como el gasto en defensa, la inversión en infraestructura, los subsidios y el gasto social. En el grupo de trabajo se consideraron varias razones para elegir esta variable. La primera y más importante es que un país desarrollado está dispuesto a invertir en infraestructura, educación y programas sociales que ayuden a reducir la desigualdad entre sus habitantes.
Gasto consumo final: Se refiere al valor total de los bienes y servicios que los hogares y las instituciones consumen en un período determinado. Se eligió esta variable porque refleja una mayor demanda de bienes y servicios, lo que ocurre cuando una economía es fuerte o está en crecimiento, además de dar indicios de tener amplio acceso a bienes y servicios. esto sumado a que un mayor gasto de consumo final en un país puede relacionarse con niveles más bajos de desigualdad.
Gasto del consumo final del gobierno general: El gasto de consumo final del gobierno general según el World Bank se refiere al valor total de los bienes y servicios comprados por el gobierno para el uso colectivo de la comunidad. Esto incluye:salarios del personal del sector público,gastos en defensa, gastos en educación, salud y otros servicios públicos,gastos en infraestructura básica, como carreteras y redes de agua. Se eligió esta variable como indicador de desarrollo porque en países desarrollados el gasto que es medido en proporción del PIB es considerable para servicios públicos de calidad, como salud, educación y seguridad, lo que mejora el bienestar de la población y reduce la desigualdad. Además de que los países desarrollados suelen tener más recursos y mejores sistemas de gestión para enfrentar crisis, como desastres naturales o pandemias, lo que también se refleja en su gasto público.
Emisiones de CO2: Esta variable hace referencia a las kilotoneladas(1000 toneladas) de CO2 que emite un país al año, se decidió escoger esta variable para clasificar si un país es desarrollado o no ya que se considera que los países desarrollados tiene un mayor nivel de industrialización, por ende estos nivele de CO2 en países altos son considerablemente elevados además de que en países desarrollados suelen tener infraestructuras avanzadas, como sistemas de transporte masivo los cuales requieren un consumo elevado de energía y, por lo tanto, generan mayores emisiones de CO2.
PIB per cápita: Esta variable representa el valor promedio de los bienes y servicios producidos por persona en un país durante un período determinado en este caso el año 2020, es considerado por el grupo de trabajo un factor determinante porque es una aproximación del ingreso promedio de cada habitante, también sugiere que el país tiene una economía activa y sectores productivos fuertes lo que es muy común en países desarrollados.Aunque también se es claro que PIB per cápita es sólo un promedio y no refleja directamente la distribución de la riqueza dentro de un país, los países desarrollados suelen tener menos desigualdad económica y un PIB per cápita relativamente alto.
PIB: Son varias las razones por las que el grupo de trabajo cree que esta variable influye drásticamente en la clasificación de un país como desarrollado o no desarrollado. La primera razón es que este indicador ofrece una visión del nivel de riqueza de un país. Los países desarrollados, en promedio, tienen un PIB considerablemente alto, lo que se traduce en mayor inversión en bienestar social y economías poderosas. Por otro lado, los países en desarrollo o no desarrollados suelen tener un PIB más bajo en promedio. Otra razón para elegir este indicador es la diversificación económica, que está correlacionada con tener un PIB alto. Los países desarrollados tienden a tener economías más diversificadas, con sectores avanzados en tecnología, servicios, manufactura y finanzas.
Metodología
Para el análisis de los datos se usó la técnica de los Knn (algoritmo de los k vecinos más cercano) , para explorar la relación entre el desarrollo de un país, representado por la variable “Desarrollado” y diversos indicadores socioeconómicos. Se comenzó cargando y pre procesando los datos, convirtiéndo “Desarrollado” en un factor.
Se dividió el conjunto de entrenamiento en un 75% y un conjunto de prueba del 25%, se realizó un análisis configurando el entorno de trabajo, el modelo cuenta con un total de 138 muestras y 12 predictores. El objetivo es clasificar los países en dos categorías: desarrollados o no desarrollados. Luego, se divide el conjunto de datos en un conjunto de entrenamiento y otro de prueba, lo que me permite evaluar el rendimiento del modelo de manera objetiva. En este caso, el k óptimo es 17, encontrado a través de la evaluación de la precisión del modelo, cuyo valor máximo de accuracy alcanza 0.659647 (base de datos sin normalizar), mas adelante miraremos como estos datos cambiarán aplicando una técnica (normalizar) y se explicará mas a fondo el modelo tratado.
Posteriormente se genera un gráfico de curva que detalla el rendimiento que muestran la tasa de verdaderos positivos y la tasa de falsos positivos, el modelo obtiene una precisión del 0.92 con un intervalo de confianza de (0.4891, 0.8738).
Análisis descriptivo
En este apartado se encuentran las diferentes interpretaciones y análisis desarrollados con base en cada una de las variables seleccionadas y presentes en la base de datos. Para realizar el análisis descriptivo se utilizó la base de datos sin valores normalizados, puesto que en algunas variables que reflejan medidas porcentuales, los valores cambian y algunos adquieren valores negativos.
Acceso a electricidad
El acceso a electricidad es un factor fundamental en el nivel de desarrollo de un país, puesto que un país con mejor o mayor cantidad de acceso a electricidad puede brindar mejor calidad de vida a sus habitantes.
Por consiguiente, se realizó un gráfico de barras que permite comparar el acceso de electricidad entre los países clasificados como desarrollados y no desarrollados en la base de datos.
A partir de este gráfico se puede observar que la media de acceso a electricidad entre los países desarrollados es mucho mayor comparada con el valor obtenido en países no desarrollados, esto significa que en países desarrollados hay mayor cantidad porcentual de población que puede acceder a estos servicios, por ende tener mejor calidad de vida.
Ingreso nacional neto
El ingreso nacional neto (INN) es una medida que registra todos los ingresos que tiene la población de un pais. Este ingreso se mide mediante la siguiente fórmula: \[ INN= PNB - DEPRECIACIÓN \] Donde el producto nacional bruto es la cifra o valor que tienen los bienes y servicios producidos en un país, mientras que la depreciación es la pérdida de valor de estos bienes.
Esta medida permite determinar el crecimiento económico que tiene un territorio, por ende, se esperaría que los países desarrollados tengan un INN mayor que los países no desarrollados.
La siguiente gráfica ilustra el promedio de INN entre países desarrollados y no desarrollados:
Esta gráfica ilustra los promedios de ingreso nacional neto, los cuales son ingresos negativos tanto para países desarrollados como no desarrollados. Esto puede deberse a que el año de estudio es el 2020 (año de pandemia) por ende con la disminución en la producción de cada país y la recesión económica se disminuye la capacidad de producir ingresos, en este caso en mayor medida en países desarrollados.
Gasto en salud y esperanza de vida
Entre las diferentes variables dentro de la base de datos se encuentran gasto en salud y esperanza de vida. Variables muy importantes para medir el desarrollo de un país, puesto que, un país desarrollado debe de generar mayor cantidad de gasto en salud con el objetivo de ofrecer servicios de salud óptimos para sus habitantes y con ello obtener un nivel más alto de esperanza de vida o mejorar la calidad de vida de las personas.
Por ello, el siguiente gráfico de dispersión muestra la cantidad de gasto en salud y de esperanza de vida entre países desarrollados y no desarrollados.
A partir del gráfico podemos determinar que entre más gasto en salud tenga un país, el nivel de esperanza de vida de los habitantes de dicho país aumenta. Así mismo, los países desarrollados tienen un mayor gasto en salud en comparación con los países no desarrollados.
Gasto consumo final y Gasto de consumo final del gobierno general
Se presentará un diagrama de dispersión entre el gasto consumo final y el gasto consumo final del gobierno general.
En el gráfico se evidencia una correlación positiva fuerte entre la variable consumo final del PIB y el gasto del consumo final del gobierno de 0,7, lo que indica que en términos simples, cuando la gente gasta más, el gobierno también pone más dinero en la economía para mantener o mejorar ese ritmo de consumo. Esto se nota especialmente en los países desarrollados, donde los gobiernos tienen más recursos para financiar cosas como servicios públicos, programas sociales e infraestructura. En los países no desarrollados, aunque también hay una relación positiva, el gobierno tiene menos margen de maniobra para gastar de esa manera, por lo que el aumento del gasto público es más limitado, sin embargo ambas son crecientes positivas y representan una relación fuerte.
Gasto (%PIB)
Se realiza un diagrama de barras de los 10 paises desarrollados con mas gasto (%PIB) y los 10 países no desarrollados con mas gasto en (%PIB).
Como conclusión se tiene que los países no desarrollados pueden estar aumentando sus inversiones en sectores como salud y educación para mejorar la calidad de vida, mientras que los desarrollados podrían estar gastando en áreas críticas para abordar desigualdades internas. Esta cercanía en el gasto indica que, a pesar de sus diferencias en desarrollo, ambos tipos de países están invirtiendo de manera significativa en sus economías para enfrentar retos comunes y promover el bienestar social.
Remuneracion empleado
A continuación se presenta un diagrama de caja de la variable remuneración empleado separado en los países desarrollados y los no desarrollados
El diagrama de cajas que compara la remuneración de los empleados entre países desarrollados y no desarrollados revela algunas diferencias notables. Los países no desarrollados tienen una mediana de remuneración más alta (32.24) en comparación con los países desarrollados (19.73), con un rango de valores más amplio. El valor máximo en los países no desarrollados también es mayor (58.13 vs. 39.50), al igual que el mínimo (6.35 vs. 4.44). Además, el rango intercuartil (IQR) para los países no desarrollados (Q1 = 18.68, Q3 = 41.24) es más amplio que para los países desarrollados (Q1 = 10, Q3 = 24.8), lo que refleja una mayor variabilidad en la remuneración. Esto podría indicar que, si bien los países desarrollados pueden ofrecer una remuneración más estable o equitativa, los países no desarrollados presentan disparidades salariales más extremas, posiblemente debido a mercados laborales menos regulados o mayores desigualdades económicas.
Inversion extranjera
En el siguiente gráfico se logra evidenciar que los países con más inversión extranjera no son las más grandes potencias mundiales, en cuanto a los desarrollados, los que están en desarrollo el 80% de la muestra es europea lo que indica que los europeos están más involucrados en el crecimiento no tanto de población Nacional, sino mejorar los índices de calidad de vida para los habitantes del exterior sin descuidar claramente la Nación, en términos económicos esto puede tomar muchas lecturas, los países como Hungría y Emiratos Árabes Unidos pueden ofrecer un mejor respaldo económico, por ende muchas empresas lograrán invertir, en cuanto a los países en desarrollo como El salvador , los índices pueden ser debidos a necesidades laborales, como mano de obra barata.
Emisiones CO2 Kt
Del siguiente diagrama de caja se pueden sacar las siguiente conclusiones:
Diferencias de mediana: los países desarrollados tiene una mediana de 38.973.50 kt, por el contrario los países no desarrollados 9.504 kt , lo que indica que los países desarrollados emiten mas kilotoneladas de CO2, esto puede ser porque los países desarrollados tiene más industrias.
Valores atípicos: En los países desarrollados hay 5 valores atípicos y en los no desarrollados hay 9 valores atípicos.
Países desarrollados (kt emitidas de CO2):
- 516873,70=Canadá
- 569681=Rep. Korea
- 603350=Alemania
- 1014064:Japon
- 4320532=Estados unidos
Países NO desarrollados (kt emitidas de CO2):
- 133471=Filipinas
- 154535=Argentina
- 165663=Ucrania
- 211896=kazajistan
- 245139=Malasia
- 383131=México
- 393241=Sud Africa
- 414138=Brazil
- 563197=Indonesia
Máximos y mínimos: Los países desarrollados tienen un máximo de emisiones de CO2 de 4,320,532.50 kt de CO2 correspondiente a Estados unidos y en un mínimo de 598 kt de CO2 correspondiente a Seychelles, lo cual es mucho mayor que el máximo de los países no desarrollados (563187 Kt de CO2 correspondiente a Indonesia) y un mínimo de (118 Kt de CO2 correspondiente a Tonga). Esto sugiere que hay países desarrollados con emisiones extremadamente altas.
PIB per cápita
Este gráfico compara el PIB per cápita entre países desarrollados y no desarrollados. Se puede concluir que existe una diferencia extremadamente significativa en el PIB per cápita, con una media de 36,556 USD en los países desarrollados y 4,099 USD en los no desarrollados. Esto sugiere una desigualdad económica considerable, probablemente debido a que los países desarrollados tienen economías más fuertes.
PIB
Este gráfico compara el PIB de países desarrollados y no desarrollados. Al igual que el gráfico de PIB per cápita se puede concluir que existe una brecha extremadamente considerable, con una media del PIB de 1.189973e+12 USD en los países desarrollados y 1.349907e+11 USD en los no desarrollados.Lo que refleja una brecha económica considerable. Esto sugiere que las economías desarrolladas concentran una mayor parte de la riqueza global, probablemente debido a su industrialización, infraestructura avanzada y acceso a mercados internacionales.
Mapa de calor geografico
En el siguiente mapa de calor geográfico se tiene un resumen por paises de las 12 variables anteriormente mencionadas, cabe destacar que entre mas amarillo este el país mas PIB le corresponde, por el contrario entre mas morado se encuentre el país menos PIB tiene.
Datos normalizados
¿Qué es la normalización de datos?
La normalización es una técnica de pre-procesamiento de datos que se
utiliza para ajustar las características o atributos de los datos dentro
de un rango específico y mejorar su interpretación. Por lo tanto, la
normalización es un proceso esencial en la ciencia de datos y el
aprendizaje automático que se utiliza para mejorar la eficiencia y la
precisión de los algoritmos. En términos simples, la normalización es
una forma de escalar y transformar los datos para que estén en un rango
común, independientemente de la escala original de los datos. Esta
técnica se utiliza para estandarizar los datos y reducir el impacto de
las diferencias en la escala y la magnitud de los atributos de los
datos. Por ejemplo, si una característica tiene valores en el rango de 1
a 1000 y otra característica tiene valores en el rango de 1 a 5, la
característica con valores más grandes tendrá una influencia dominante
en el modelo de aprendizaje automático. La normalización evita estos
problemas mediante la creación de nuevos valores que mantienen la
distribución general y las relaciones en los datos de origen, a la vez
que se conservan los valores dentro de una escala que se aplica en todas
las columnas numéricas que se usan en el modelo. ¿Por qué es importante
la normalización de datos? En el aprendizaje automático, la
normalización es importante porque muchos algoritmos de aprendizaje
automático, como la regresión logística, los árboles de decisión y las
redes neuronales, requieren que los datos estén normalizados para
funcionar correctamente. Además, la normalización también es importante
porque ayuda a mejorar la interpretación de los resultados del análisis
de datos. La normalización permite a los investigadores comparar las
características de diferentes conjuntos de datos y hacer inferencias
sobre su distribución. Esto es especialmente útil en el análisis
estadístico y la visualización de datos. Lo anterior fue tomado de ¿Por
qué la normalización es clave e importante en Machine Learning y Ciencia
de Datos?
by Jorge I. Blanco
¿Cuál es el objetivo?
La normalización de datos como se menciona anteriormente es una técnica que se aplica para la preparación de datos en el aprendizaje automático. Se realiza con el objetivo de cambiar los valores de las columnas numéricas del conjunto de datos para usar una escala común, sin distorsionar las diferencias en los intervalos de valores ni perder información.
¿De qué tipo de normalización se hará uso?
Observemos la siguiente tabla, en ella se detallan las normalizaciones más comunes en estadística.
Se hará uso la
puntuación tipificada o estándar, puesto que es útil para el
preprocesamiento de datos numéricos, particularmente útil en análisis
estadístico y machine learning. ¿Qué es el Z-score o puntuación
tipificada/estándar? La puntuación Z es una medida estadística que
describe la relación de un valor con la media de un grupo de valores. La
puntuación Z se mide en términos de desviaciones estándar de la media.
Como se observa en la tabla (# de tabla de la normalización) la formula
que se tiene es:
\[ Z=(X - μ)/σ \] Donde: - Z es la puntuación tipificada (o z-score). - X es el valor individual que estás estandarizando. - μ es la media de todos los valores en el conjunto de datos. - σ es la desviación estándar del conjunto de datos.
Interpretación de la puntuación tipificada (z-score)
- Z = 0: El valor está exactamente en la media del conjunto de datos.
- Z > 0: El valor está por encima de la media. Cuanto mayor sea el z-score, más lejos está del promedio en el sentido positivo.
- Z < 0: El valor está por debajo de la media. Cuanto más negativo sea el z-score, más lejos está del promedio en el sentido negativo.
- Z = 1: El valor está exactamente una desviación estándar por encima de la media.
- Z = -1: El valor está exactamente una desviación estándar por debajo de la media.
- Z = 2 o Z = -2: El valor está dos desviaciones estándar por encima o por debajo de la media, respectivamente.
Teniendo en cuenta lo anterior el grupo de trabajo decidió normalizar la base de datos para obtener datos estandarizados y reducir el impacto de las escalas. Luego de realizar la normalización se obtuvo la siguiente base de datos:
Una vez se obtuvo lo anterior, se realizará un modelo para cada base de datos. La que se tiene desde un inicio y la base que fue normalizada. Esto con el fin de comparar si efectivamente se obtuvo una mejora en el modelo. Así mismo se hará la interpretación de ambos modelos.
Modelo
Se realizó una división de tal forma que el 75% de los datos se usarán para el conjunto de entrenamiento del modelo y el 25% restante será el conjunto de prueba. Luego de aplicar el modelo, con un valor de k= 35. Teniendo en cuenta lo anterior, el modelo arrojó los siguientes resultados:
Para la base de datos 1(base de datos sin normalizar) se utilizó la precisión para seleccionar el modelo óptimo utilizando el valor más grande. El valor final utilizado para el modelo fue k = 19. De igual forma para la base de datos 2(base de datos normalizada), el valor final utilizado para el modelo fue k=5.
A primera vista se puede observar que el k óptimo es distinto y son valores muy lejanos uno de otro. De igual forma en la tabla podemos observar que la exactitud del modelo 2 inicia con un valor aproximado de 0.2 más en comparación al modelo 1. Es decir que a primera vista el modelo ha mejorado. Observemos la gráfica de estos datos:
El modelo 1 tiene una menor exactitud y en los primeros valores de k parece tener muchas fluctuaciones, con un número intermedio de vecinos parece ser estable y alcanza una mayor exactitud. El modelo 2 tiene una mayor exactitud y tiene un mejor rendimiento en los primeros valores de k, en los valores de k más bajos se mantiene estable con una leve disminución. A medida que aumenta el número de vecinos, el rendimiento del modelo decae significativamente, esto es algo normal debido a que a mayor número de vecinos se produce ruido en nuestro modelo. Ahora observemos las probabilidades de las primeras 10 observaciones, en las siguientes tablas se puede apreciar.
Ahora observemos las probabilidades de las primeras 10 observaciones, en las siguientes tablas se puede apreciar:
Esta es otra muestra de que el modelo 2 tiene un mejor rendimiento, aunque esto lo veremos con mayor detalle en la siguientes matrices de correlaciones:
De estas tablas a simple vista es claro que el modelo 2 tuvo mejores predicciones. Observemos la matriz de confusión:
Accuracy:
Modelo 1 = 0.7083 Modelo 2 = 0.9167
Este factor indica el porcentaje de predicciones correctas del modelo sobre el total de observaciones. Observe que el modelo 2 tiene una precisión mucho mejor que el modelo 1 (91.67% vs 70.83%).
95% CI:
Esto se define como el intervalo de confianza al 95%.
Modelo 1: (0.4891, 0.8738) y Modelo 2: (0.73, 0.9897)
Este intervalo muestra la incertidumbre de la métrica de precisión. El modelo 2 al tener un intervalo más estrecho y alto indica mayor confianza en la precisión del modelo. En otras palabras se tiene un 95% de confianza de que el verdadero valor de la precisión está entre (0.73, 0.9897).
NIR:
Observe que en ambos modelos es de 0,5833.
Este valor es la tasa de la clase más frecuente en los datos. Si el modelo simplemente predijera la clase más frecuente en cada caso, esta sería la exactitud del modelo. Los modelos deben ser capaces de superar el NIR para ser considerados útiles, en ambos modelos se supera este valor por lo cual podemos afirmar que son útiles.
P-Value [Acc > NIR]:
Es el valor p que prueba la hipótesis nula de que la exactitud del modelo no es mejor que la tasa de no información. Un valor p bajo sugiere que el modelo tiene una precisión significativamente mejor que la tasa de no información.
Modelo 1: 0.1501 y Modelo 2: 0.0003831
El modelo 1 no es significativamente mejor puesto que el p-valor > 0.05, mientras que el modelo 2 lo es debido a que el p-valor < 0.05.
KAPPA:
Modelo 1: 0.3731 y Modelo 2: 0.8286
El kappa mide el acuerdo entre las predicciones y observaciones reales, ajustado por la probabilidad de que las predicciones correctas ocurran por azar. El modelo 2 tiene un acuerdo mucho más fuerte comparado al modelo 1. El kappa del modelo 1 indica un acuerdo moderado mientras que el kappa del modelo 2 es un acuerdo casi perfecto.
McNemar’s Test P-Value:
Modelo 1: 0.4497 y Modelo 2:
Este valor muestra si hay una diferencia significativa entre las tasas de error de las dos clases. Ninguno de los modelos muestra una diferencia significativa entre las tasas de error para las clases, ya que ambos valores son mayores que 0.05.
Sensitivity:
Modelo 1: 0.8571 y Modelo 2: 0.9286
También conocida como el verdadero positivo, es la proporción de casos positivos reales que fueron identificados correctamente por el modelo. El modelo 2 tiene una sensibilidad ligeramente mayor, lo que significa que identifica correctamente mas positivos. Recordemos que la clase positiva es “No”, por lo que este resultado se obtiene de: Sensitividad = VP / VP + FN.
Specificity:
Modelo 1: 0.50 y Modelo 2: 0.90
También conocida como el verdadero negativo, es la proporción de casos negativos reales que fueron identificados correctamente por el modelo. De forma anterior, el modelo 2 es mucho mejor en identificar correctamente los negativos (90% vs. 50%). Specificity = VN / VN + FP.
Pos Pred Value:
Modelo 1: 0.7059 y Modelo 2: 0.9286
Es la proporción de verdaderos positivos entre todos los positivos predichos. El modelo 2 tiene un valor predictivo positivo mas alto, lo que indica que sus predicciones positivas son mucho más precisas.
Pos Pred Value = VP / VP + FP.
Neg Pred Value:
Modelo 1: 0.7143 y Modelo 2: 0.9000
Es la proporción de verdaderos negativos entre los negativos predichos. De forma similar el modelo 2 tiene un valor predictivo negativo mucho más alto.
Neg Pred Value = VN / VN + FN.
Prevalence:
Ambos modelos: 0.5833
Es la proporción real de positivos en el conjunto de datos. Indica que el 58.33% de las observaciones son positivas.
Esto se debe a que independientemente de que la base esté normalizada o no, los paises no cambian entre desarrollados o no. Es por esto que se obtiene este valor en ambos modelos.
Detection Rate:
Modelo 1: 0.5000 y Modelo 2: 0.5417
Es la tasa de verdaderos positivos identificados correctamente. Como se evidencia el modelo 2 tiene una mejor tasa de detección.
Detection Prevalence:
Modelo 1: 0.7083 y Modelo 2: 0.5833
Es la proporción de predicciones positivas en el conjunto de datos. Observe que el modelo 1 predice más positivos que el modelo 2. Esto se debe a que el modelo 1 que esta sin normalizar puede estar más inclinado a predecir la clase positiva (“No”), esto se debe a las variables dominantes que buscamos eliminar con la normalización.
Balanced Accuracy:
Modelo 1: 0.6786 y Modelo 2: 0.9143
Es el promedio de la sensibilidad y la especificidad. Se utiliza cuando las clases están desbalanceadas, es decir, hay más casos en una clase que en la otra. El modelo 2 tiene una balanced accuracy significativamente mayor, lo que indica un mejor balance en la clasificación de positivos y negativos.
Por último se obtuvo que la clase positiva es “No”.
Curva ROC
La curva ROC muestra cómo varían la tasa de verdaderos positivos y la tasa de falsos positivos a medida obtenidos sobre el conjunto de validación. Esto es útil para darse una idea sobre la calidad del modelo.
Observemos las curvas ROC de nuestros dos modelos:
Para el modelo 1, la curva ROC se encuentra más cercana a la diagonal. Esto indica que su capacidad para diferenciar entre las clases positivas y negativas es baja, es decir, que es un poco mejor que una selección aleatoria.
Por otro lado, la curva ROC del modelo 2 está más alejada de la diagonal, acercándose al vértice superior izquierdo. Esto quiere decir que el modelo tiene una mejor capacidad de clasificación y puede diferenciar de forma más efectiva entre las clases positivas y negativas.
Conclusiones breves sobre los modelos
Luego de observar los resultados anteriores podemos afirmar que el modelo 2 es claramente superior en términos de exactitud, predice de una mejor manera y tiene un balance en la clasificación de las clases. Por otro lado, el modelo 1 sin normalización tiene un sesgo en las predicciones debido a las escalas, como se explicó anteriormente la causa de esto puede ser las escalas y esto tiene como resultado una menor precisión y un balance defiiente entre clases. La normalización efectivamente proporciona mejores resultados en este tipo de modelos, por lo cual podemos afirmar que es esencal para mejorar el desempeño de este tipo de modelos que se basan en las distancias, ya que permite que todas las caracteristicas tengan el mismo peso en las decisiones del modelo.
Por último, el grupo considera que las variables “Emisiones de CO2 e Inversión extranjera” afectan negativamente la exactitud del modelo, esto se plantea desde la idea que los datos son muy similares y el modelo no puede diferenciar o distinguir que caracteristicas posee un pais desarrollado o no desarrollado. Bajo esta misma idea, considera que la variable PIB per cápita influye positivamente en la exactitud del modelo, puesto que la mayoria de paises desarrollados cuentan con un PIB per capita mas alto en comparacion con los no desarrollados.
Conclusiones finales
• Análisis descriptivo de variables: Comprender el por qué se escogieron las variables de decisión para desarrollar el modelo, fue importante conocer ciertas relaciones que durante el informe fueron explicadas una por una, sin embargo estas son las conclusiones finales de las variables descriptivas :
Acceso a electricidad: Los países desarrollados tienen un acceso a electricidad significativamente mayor, lo que implica una mejor calidad de vida.
Ingreso nacional neto (INN): El promedio de INN fue negativo tanto en países desarrollados como no desarrollados debido al impacto de la pandemia en 2020.
Gasto en salud y esperanza de vida: Existe una correlación positiva entre el gasto en salud y la esperanza de vida, con los países desarrollados invirtiendo más en salud y obteniendo una mayor esperanza de vida.
Gasto de consumo final del gobierno: Se observó una fuerte correlación positiva entre el gasto de consumo final del gobierno y el PIB, especialmente en países desarrollados.
Remuneración de empleados: Aunque los países no desarrollados tienen una mediana de remuneración más alta, presentan una mayor desigualdad salarial.
Emisiones de CO2: Los países desarrollados muestran mayores emisiones de CO2, puede atribuirse a su mayor nivel de industrialización, consumo de energía y estilo de vida. Estos países, al contar con economías avanzadas, tienden a tener una infraestructura industrial robusta y un alto consumo de bienes y servicios, lo que incrementa la demanda energética, a menudo proveniente de combustibles fósiles.
Comparación del modelo:
El modelo normalizado (Modelo 2) mostró una mayor precisión en la clasificación de los países desarrollados y no desarrollados. Esto es un claro indicio de que la normalización mejoró la capacidad del modelo para generalizar y realizar predicciones más precisas. La normalización elimina el sesgo causado por la magnitud de algunas variables (por ejemplo, PIB per cápita frente a otras variables menores), lo que permite que todas las variables contribuyan equitativamente a la clasificación.
El intervalo de confianza del Modelo 2 es más estrecho y está más cerca de la precisión máxima posible (1.0), lo que sugiere que las predicciones del modelo son más consistentes y menos inciertas. En el Modelo 1, el intervalo de confianza es mucho más amplio, lo que indica que hay más variabilidad y menos certeza en las predicciones.
Un Kappa cercano a 1 indica un alto nivel de acuerdo entre las predicciones y la realidad. El Modelo 2 tiene un acuerdo casi perfecto, lo que muestra que las predicciones no solo son precisas, sino también coherentes. El Modelo 1, en cambio, presenta un acuerdo moderado, lo que refleja que el modelo sin normalización tiene dificultades para hacer predicciones fiables.
El Modelo 2 (normalizado) es claramente superior en todos los aspectos. La normalización ha permitido que el modelo tenga una mayor precisión, estabilidad, y balance en las predicciones entre las clases. Esto se debe a que al normalizar los datos, se reduce el impacto de variables con grandes rangos (como el PIB per cápita), lo que da lugar a un modelo más equilibrado y capaz de tomar mejores decisiones.
El Modelo 1 (sin normalización) muestra fluctuaciones y sesgos, especialmente porque las variables con mayores escalas dominan las predicciones. Esto genera una menor precisión y una clasificación menos equilibrada.
En conclusión, podemos reafirmar que el modelo 2 muestra mucho mejor rendimiento en comparación con el modelo 1. De igual forma, afirmamos que la normalización ha sido clave para mejorar la exactitud del modelo; esto se debe a que se permite que las variables tengan un impacto más equilibrado en el proceso de clasificación. Esto se representa de forma clara en la comparación de las curvas ROC.
Variables críticas:
Se determinó que las emisiones de CO2 y la inversión extranjera afectaron negativamente la precisión del modelo, mientras que el PIB per cápita influyó positivamente.
El informe destaca la importancia de la normalización de datos para mejorar la precisión de los modelos KNN, mostrando que variables como el PIB per cápita son cruciales para identificar si un país es desarrollado o no.
Recomendaciones
Se determinaron algunas recomendaciones que se le pueden hacer al modelo , en este caso a una variable específica ( variable problemática) , variables como las Emisiones de CO2 y Inversión Extranjera afectaron negativamente la precisión. Consideramos poder excluirlas o realizar un análisis de correlación con otras variables para determinar si pueden combinarse en indicadores agregados.
A su vez poder agrupar ciertas variables sería interesante , como el Gasto en Salud y Esperanza de Vida, podrían agruparse en una sola variable compuesta, como Índice de Bienestar. Esto podría simplificar el modelo y mejorar la precisión.
Referencias
Joaqui Barandica, O. (2023, abril 16). Data Visualization in R. Orlando Joaqui Barandica. https://www.joaquibarandica.com/post/datavizr/
Blanco, J. I. (2021, octubre 5). Por qué la normalización es clave e importante en machine learning y ciencia de datos. Medium. https://jorgeiblanco.medium.com/por-qu%C3%A9-la-normalizaci%C3%B3n-es-clave-e-importante-en-machine-learning-y-ciencia-de-datos-4595f15d5be0
Paredes, D. (2021). Aprendizaje supervisado. En Data Science con R. https://bookdown.org/dparedesi/data-science-con-r/aprendizaje-supervisado.html
Microsoft. (n.d.). Normalize data. Azure Machine Learning. https://learn.microsoft.com/es-es/azure/machine-learning/component-reference/normalize-data?view=azureml-api-2
Saleslayer. (2023, 24 de enero). Por qué es importante la normalización de bases de datos. https://blog.saleslayer.com/es/por-que-es-importante-la-normalizacion-de-base-de-datos
Investopedia. (2023, 20 de diciembre). Z-score. https://www.investopedia.com/terms/z/zscore.asp#:~:text=Z%2Dscore%20is%20a%20statistical,traders%20to%20help%20determine%20volatility.
Economipedia. (n.d.). Normalización estadística. https://economipedia.com/definiciones/normalizacion-estadistica.html