INTRODUCCIÓN

Para un aprendizaje supervisado, se analizo una base datos que contiene diferentes variables que actuan como indicadores para sustentar el porque, paises son desarrollados o estan en via de desarrollo. Se empleo un modelo KNN, el cual facilito una clasificacion de los paises segun su estado, que se designo como la variable predictora u output del modelo, y por otro lado, las demas variables fueron el input.

VARIABLES DE INTERES

Se escogieron 7 variables para el estudio del estado de los paises para el año 2017, estas variables son:

  • PIB: es el valor de mercado de todos los bienes y servicios finales producidos usando los factores de producción disponibles en cada pais para el año 2017, adicional a ello nos indicara el valor per capita, es decir, la relacion del PIB con cada habitante del pais.
  • POBLACION: Indica poblacion total de cada pais, donde su tamaño respecto a los demas puede inferir de su crecimiento economico como nacion, para la distribucion de sus recursos y demas.
  • TASA DE HOMICIDIOS: Es la tasa de homicidios por 100.000 habitantes de un país.
  • ESPERANZADA DE VIDA: La esperanza de vida en edad, es relavante al hablar de un pais desarrollado o en via de desarrollo, ya que este sera alto o bajo dependiendo mucho de las optimas condiciones generalizadas que le brinda un pais a sus habitantes.
  • PORCENTAJE GASTO EN SALUD PIB: el gasto en salud representado como porcentaje del PIB per capita de cada pais. Entre mas grande sea el PIB de un pais, mayor porcentaje puede destinar a la salud de sus habitantes y por ende brindarles salud de calidad.
  • GASTO TOTAL EN SALUD: gasto del gobierno en salud, como porcentaje de su gasto total, la cual nos indicara que tanto invierte en la salud de sus habitantes.
  • IDH: EL Índice de desarrollo humano está compuesto por la esperanza de vida, la educación e indicadores de ingreso per cápita. Clasifica los paises en tres niveles de desarrollo humano

DATA FRAME

STATUS <- read_csv("STATUS.csv")
STATUS

DEPURACION PARA AÑO 2017

Base1 <- data.frame(STATUS)
Base2 <- filter(Base1, Year == "2017" ) 

Base3 <- Base2[,c(1,4,17,18,23,5,9,14,21)]  
Base4 <- na.omit(Base3) 
colnames(Base4)
## [1] "Country"                "Status"                 "GDP"                   
## [4] "Population"             "Homicides"              "Life.expectancy"       
## [7] "Percentage.expenditure" "Total.expenditure"      "HDI"
Nombres <- c("PAIS","ESTADO", "PIB", "POBLACION","TASA HOMICIDIOS","ESPERANZA DE VIDA", 
             "PORCENTAJE GASTO EN SALUD", "GASTO TOTAL EN SALUD", "IDH")
colnames(Base4) <- Nombres

Base4

ESTADISTICAS DESCRIPTIVAS

PAISES DESARROLLADOS

Base5 <- filter(Base4, ESTADO == "Developed")
Base5
prompib<- mean(Base5$PIB)
prompoblacion<- mean(Base5$POBLACION)
promhomicidios<- mean(Base5$`TASA HOMICIDIOS`)
promvida<- mean(Base5$`ESPERANZA DE VIDA`)
promporcentaje<- mean(Base5$`PORCENTAJE GASTO EN SALUD`)
promgastotot<- mean(Base5$`GASTO TOTAL EN SALUD`)
promidh<- mean(Base5$IDH)

MAXIMOpib<- max(Base5$PIB)
MAXIMOpobl<- max(Base5$POBLACION)
MAXIMOhomic<- max(Base5$`TASA HOMICIDIOS`)
MAXIMOvida<- max(Base5$`ESPERANZA DE VIDA`)
MAXIMOporcentaje<- max(Base5$`PORCENTAJE GASTO EN SALUD`)
MAXIMOgastotot<- max(Base5$`GASTO TOTAL EN SALUD`)
MAXIMOidh<- max(Base5$IDH)

PAISES EN DESARROLLO

Base6 <- filter(Base4, ESTADO == "Developing")
Base6
prompib1<- mean(Base6$PIB)
prompoblacion1<- mean(Base6$POBLACION)
promhomicidios1<- mean(Base6$`TASA HOMICIDIOS`)
promvida1<- mean(Base6$`ESPERANZA DE VIDA`)
promporcentaje1<- mean(Base6$`PORCENTAJE GASTO EN SALUD`)
promgastotot1<- mean(Base6$`GASTO TOTAL EN SALUD`)
promidh1<- mean(Base6$IDH)

MAXIMOpib1<- max(Base6$PIB)
MAXIMOpobl1<- max(Base6$POBLACION)
MAXIMOhomic1<- max(Base6$`TASA HOMICIDIOS`)
MAXIMOvida1<- max(Base6$`ESPERANZA DE VIDA`)
MAXIMOporcentaje1<- max(Base6$`PORCENTAJE GASTO EN SALUD`)
MAXIMOgastotot1<- max(Base6$`GASTO TOTAL EN SALUD`)
MAXIMOidh1<- max(Base6$IDH)

DEDUCCIONES

para el PIB, se toma el promedio como diferenciador, donde se evidencia que los paises desarrollados tienen un valor de [1] 38830.86 y los paises en desarrollo [1] 5314.549, esto nos da comprender que el PIB es un indicador muy acertivo cuando se habla del desarrollo de una nacion.

Los paises desarrollados tienen un promedio de habitantes mayor a los paises que se encuentran en desarrollo.

la tasa de homicidios por cada 100000 habitantes es mayor en los paises en desarrollo debido a muchos factores

el promedio de esperanza de vida es mas alto en los paises desarrollados y esto debido a que invierten mas en salud en cuanto al porcentaje de su PIB, garantizanoles asi a sus habitantes una salud de buena calidad

Curiosamente los paises en desarrollo tienen un mayor gasto en salud en relacion a su gasto total y esto se debe a que los paises desarrollados tienen preferencias adicionales donde invertir el dinero de su economia

MODELO KNN

Base4 %>% 
  head(10)
set.seed(23)


d_ind <- createDataPartition(y = Base4$ESTADO,
                             p = 0.60, 
                             list = F,
                             times = 1)

d_entrena <- Base4[d_ind,]
d_test <- Base4[-d_ind,]





library(caret)

set.seed(23)

pred1<- train(ESTADO ~ ., 
                data = d_entrena, 
                method = "knn",  
                tuneLength = 20) 

pred1
## k-Nearest Neighbors 
## 
## 90 samples
##  8 predictor
##  2 classes: 'Developed', 'Developing' 
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 90, 90, 90, 90, 90, 90, ... 
## Resampling results across tuning parameters:
## 
##   k   Accuracy   Kappa        
##    5  0.6710557   0.1118105957
##    7  0.6713865   0.0629009448
##    9  0.6614486   0.0269356094
##   11  0.6675646   0.0272280531
##   13  0.6725890   0.0097755409
##   15  0.6806924  -0.0054842193
##   17  0.6780546  -0.0163336010
##   19  0.6813660  -0.0270326931
##   21  0.6856799  -0.0319179633
##   23  0.6894473  -0.0234931771
##   25  0.6926803  -0.0227926728
##   27  0.6996569  -0.0118184449
##   29  0.6975637  -0.0106290339
##   31  0.6998477   0.0009637631
##   33  0.6953679  -0.0095200474
##   35  0.7056616  -0.0034923138
##   37  0.7134393   0.0083720930
##   39  0.7111518   0.0040000000
##   41  0.7123282   0.0123720930
##   43  0.7122629   0.0000000000
## 
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was k = 37.
plot(pred1)

En el grafico se puede evidenciar un k optimo = 37 y una exactitud con valor maximo del 71.22%