Para un aprendizaje supervisado, se analizo una base datos que contiene diferentes variables que actuan como indicadores para sustentar el porque, paises son desarrollados o estan en via de desarrollo. Se empleo un modelo KNN, el cual facilito una clasificacion de los paises segun su estado, que se designo como la variable predictora u output del modelo, y por otro lado, las demas variables fueron el input.
Se escogieron 7 variables para el estudio del estado de los paises para el año 2017, estas variables son:
STATUS <- read_csv("STATUS.csv")
STATUSBase1 <- data.frame(STATUS)
Base2 <- filter(Base1, Year == "2017" )
Base3 <- Base2[,c(1,4,17,18,23,5,9,14,21)]
Base4 <- na.omit(Base3)
colnames(Base4)## [1] "Country" "Status" "GDP"
## [4] "Population" "Homicides" "Life.expectancy"
## [7] "Percentage.expenditure" "Total.expenditure" "HDI"
Nombres <- c("PAIS","ESTADO", "PIB", "POBLACION","TASA HOMICIDIOS","ESPERANZA DE VIDA",
"PORCENTAJE GASTO EN SALUD", "GASTO TOTAL EN SALUD", "IDH")
colnames(Base4) <- Nombres
Base4Base5 <- filter(Base4, ESTADO == "Developed")
Base5prompib<- mean(Base5$PIB)
prompoblacion<- mean(Base5$POBLACION)
promhomicidios<- mean(Base5$`TASA HOMICIDIOS`)
promvida<- mean(Base5$`ESPERANZA DE VIDA`)
promporcentaje<- mean(Base5$`PORCENTAJE GASTO EN SALUD`)
promgastotot<- mean(Base5$`GASTO TOTAL EN SALUD`)
promidh<- mean(Base5$IDH)
MAXIMOpib<- max(Base5$PIB)
MAXIMOpobl<- max(Base5$POBLACION)
MAXIMOhomic<- max(Base5$`TASA HOMICIDIOS`)
MAXIMOvida<- max(Base5$`ESPERANZA DE VIDA`)
MAXIMOporcentaje<- max(Base5$`PORCENTAJE GASTO EN SALUD`)
MAXIMOgastotot<- max(Base5$`GASTO TOTAL EN SALUD`)
MAXIMOidh<- max(Base5$IDH)Base6 <- filter(Base4, ESTADO == "Developing")
Base6prompib1<- mean(Base6$PIB)
prompoblacion1<- mean(Base6$POBLACION)
promhomicidios1<- mean(Base6$`TASA HOMICIDIOS`)
promvida1<- mean(Base6$`ESPERANZA DE VIDA`)
promporcentaje1<- mean(Base6$`PORCENTAJE GASTO EN SALUD`)
promgastotot1<- mean(Base6$`GASTO TOTAL EN SALUD`)
promidh1<- mean(Base6$IDH)
MAXIMOpib1<- max(Base6$PIB)
MAXIMOpobl1<- max(Base6$POBLACION)
MAXIMOhomic1<- max(Base6$`TASA HOMICIDIOS`)
MAXIMOvida1<- max(Base6$`ESPERANZA DE VIDA`)
MAXIMOporcentaje1<- max(Base6$`PORCENTAJE GASTO EN SALUD`)
MAXIMOgastotot1<- max(Base6$`GASTO TOTAL EN SALUD`)
MAXIMOidh1<- max(Base6$IDH)para el PIB, se toma el promedio como diferenciador, donde se evidencia que los paises desarrollados tienen un valor de [1] 38830.86 y los paises en desarrollo [1] 5314.549, esto nos da comprender que el PIB es un indicador muy acertivo cuando se habla del desarrollo de una nacion.
Los paises desarrollados tienen un promedio de habitantes mayor a los paises que se encuentran en desarrollo.
la tasa de homicidios por cada 100000 habitantes es mayor en los paises en desarrollo debido a muchos factores
el promedio de esperanza de vida es mas alto en los paises desarrollados y esto debido a que invierten mas en salud en cuanto al porcentaje de su PIB, garantizanoles asi a sus habitantes una salud de buena calidad
Curiosamente los paises en desarrollo tienen un mayor gasto en salud en relacion a su gasto total y esto se debe a que los paises desarrollados tienen preferencias adicionales donde invertir el dinero de su economia
Base4 %>%
head(10)set.seed(23)
d_ind <- createDataPartition(y = Base4$ESTADO,
p = 0.60,
list = F,
times = 1)
d_entrena <- Base4[d_ind,]
d_test <- Base4[-d_ind,]
library(caret)
set.seed(23)
pred1<- train(ESTADO ~ .,
data = d_entrena,
method = "knn",
tuneLength = 20)
pred1## k-Nearest Neighbors
##
## 90 samples
## 8 predictor
## 2 classes: 'Developed', 'Developing'
##
## No pre-processing
## Resampling: Bootstrapped (25 reps)
## Summary of sample sizes: 90, 90, 90, 90, 90, 90, ...
## Resampling results across tuning parameters:
##
## k Accuracy Kappa
## 5 0.6710557 0.1118105957
## 7 0.6713865 0.0629009448
## 9 0.6614486 0.0269356094
## 11 0.6675646 0.0272280531
## 13 0.6725890 0.0097755409
## 15 0.6806924 -0.0054842193
## 17 0.6780546 -0.0163336010
## 19 0.6813660 -0.0270326931
## 21 0.6856799 -0.0319179633
## 23 0.6894473 -0.0234931771
## 25 0.6926803 -0.0227926728
## 27 0.6996569 -0.0118184449
## 29 0.6975637 -0.0106290339
## 31 0.6998477 0.0009637631
## 33 0.6953679 -0.0095200474
## 35 0.7056616 -0.0034923138
## 37 0.7134393 0.0083720930
## 39 0.7111518 0.0040000000
## 41 0.7123282 0.0123720930
## 43 0.7122629 0.0000000000
##
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was k = 37.
plot(pred1)En el grafico se puede evidenciar un k optimo = 37 y una exactitud con valor maximo del 71.22%