Realizado por:
Diego Felipe Salcedo Granada - Analista de Datos
Usualmente el “status” de un país se refiere a la posición o clasificación que se le asigna en función de su nivel de desarrollo económico, social y político. Tradicionalmente, se ha utilizado la distinción entre países “desarrollados” y “en vía de desarrollo” para categorizar y comparar naciones con base en su nivel de progreso. Sin embargo, esta clasificación no es estática y puede variar a lo largo del tiempo debido a diversos factores y cambios en los principales índices utilizados para medir el desarrollo de un país.
Por lo tanto, variables como la expectativa de vida, el gasto público general en salud, la mortalidad infantil, la escolarización, el Producto Interno Bruto, los homicidios y el Índice de Desarrollo Humano son indicadores clave que se utilizan para evaluar y determinar el estatus de un país, razón por la cual serán estos los evaluados a lo largo del desarrollo de este ejercicio.
Cabe destacar que de manera general los países desarrollados tienden a presentar altos niveles de expectativa de vida, un mayor gasto público en salud, un PIB per cápita elevado, bajos índices de mortalidad infantil, un mayor porcentaje de acceso a educación, tasas de homicidios más bajas y un IDH más alto. Por lo cual, se puede afirmar que estas variables están interconectadas y reflejan aspectos como el bienestar de la población, el acceso a servicios básicos, la estabilidad social y la calidad de vida. Por otro lado, los países en vía de desarrollo pueden mostrar deficiencias en estas variables, lo que puede ser un indicativo de la necesidad de invertir en áreas estratégicas para lograr un mayor desarrollo socioeconómico y mejorar las condiciones de vida de su población.
A pesar de lo mencionado previamente es importante tener en cuenta que estas variables no son determinantes absolutos del estatus de un país, pero sí brindan información relevante para evaluar y comparar su nivel de desarrollo. Dicho lo anterior, en la siguiente tabla se presentan un conglomerado de países clasificados entre “Desarrollados” y “En vía de desarrollo” según el comportamiento que presenten en cada uno de los indicadores previamente mencionados:
# creación de la variable "base_paises_tabla" para lectura y visualización de los datos en excel.
base_paises_tabla <- read.csv("WHO.csv", header = TRUE, sep = "," )
# Creación de un vector que contiene 4 variables generales (country, cod, year, status) y 7 variables descriptivas (Life.expectancy, Total.expenditure, GDP, Infant.deaths, HDI, Schooling, Homicides).
variables_seleccionadas_tabla <- c("Country", "Cod", "Year", "Life.expectancy", "Total.expenditure", "Infant.deaths", "Schooling", "GDP", "Homicides", "HDI", "Status")
# Cambiamos las etiquetas de la columna "Status" por "Desarrollado" y "En vía de desarrollo".
base_paises_tabla <- base_paises_tabla %>%
mutate(Status = ifelse(Status == "Developed", "Desarollado", "En vía de desarrollo")) %>%
mutate_at(c("Status"), ~as.factor(.))
# Establecimiento del filtro para el año asignado.
# Eliminación de filas y espacios que tienen datos faltantes.
base_paises_tabla <- base_paises_tabla %>% filter(Year==2011) %>%
select(variables_seleccionadas_tabla) %>%
na.omit()
# Comenzar numeración del indice desde 1
rownames(base_paises_tabla) <- NULL
# Creación de la tabla de clasificación
tabla <- base_paises_tabla %>%
select(all_of(variables_seleccionadas_tabla))
tabla %>%
kable() %>%
kable_styling(full_width = F, bootstrap_options = "striped") %>%
row_spec(0, bold = TRUE, color = "white", background = "#3498DB", align = "c") %>%
column_spec(1, border_left = TRUE, border_right = TRUE) %>%
column_spec(2, border_right = TRUE) %>%
column_spec(3, border_right = TRUE) %>%
column_spec(4, border_right = TRUE) %>%
column_spec(5, border_right = TRUE) %>%
column_spec(6, border_right = TRUE) %>%
column_spec(7, border_right = TRUE) %>%
column_spec(8, border_right = TRUE) %>%
column_spec(9, border_right = TRUE) %>%
column_spec(10, border_right = TRUE) %>%
column_spec(11, border_right = TRUE) %>%
row_spec(1:nrow(tabla), color = "black", align = "c") %>%
scroll_box(width = "100%", height = "300px") %>%
kable_styling(position = "center")
| Country | Cod | Year | Life.expectancy | Total.expenditure | Infant.deaths | Schooling | GDP | Homicides | HDI | Status |
|---|---|---|---|---|---|---|---|---|---|---|
| Afghanistan | AFG | 2011 | 61.55300 | 2.32 | 8.62 | 3.3 | 591.1628 | 8.85 | 0.471 | En vía de desarrollo |
| Angola | AGO | 2011 | 56.33000 | 5.43 | 11.32 | 4.7 | 4615.4680 | 10.60 | 0.535 | En vía de desarrollo |
| United Arab Emirates | ARE | 2011 | 76.52100 | 2011.00 | 0.83 | 10.0 | 39194.6766 | 0.87 | 0.841 | En vía de desarrollo |
| Argentina | ARG | 2011 | 75.43900 | 16.05 | 1.39 | 9.8 | 12848.8642 | 5.27 | 0.819 | En vía de desarrollo |
| Armenia | ARM | 2011 | 73.57200 | 5.27 | 1.71 | 11.2 | 3525.8047 | 4.33 | 0.731 | En vía de desarrollo |
| Antigua and Barbuda | ATG | 2011 | 75.95600 | 11.78 | 0.95 | 9.2 | 12746.2050 | 2.86 | 0.762 | En vía de desarrollo |
| Austria | AUT | 2011 | 80.98293 | 15.26 | 0.42 | 11.8 | 51374.9584 | 0.83 | 0.897 | Desarollado |
| Burundi | BDI | 2011 | 57.92500 | 8.52 | 8.51 | 2.6 | 249.5780 | 5.39 | 0.403 | En vía de desarrollo |
| Belgium | BEL | 2011 | 80.58537 | 15.21 | 0.44 | 11.2 | 47348.5250 | 1.64 | 0.904 | Desarollado |
| Burkina Faso | BFA | 2011 | 57.76100 | 60.27 | 10.94 | 1.4 | 751.1730 | 9.95 | 0.385 | En vía de desarrollo |
| Bangladesh | BGD | 2011 | 70.25600 | 2.99 | 4.63 | 5.1 | 861.7584 | 3.13 | 0.557 | En vía de desarrollo |
| Bulgaria | BGR | 2011 | 74.16341 | 54.62 | 1.03 | 10.7 | 7809.4251 | 1.85 | 0.782 | Desarollado |
| Bahrain | BHR | 2011 | 76.20000 | 8.49 | 0.82 | 8.6 | 22514.2379 | 0.78 | 0.798 | En vía de desarrollo |
| Belarus | BLR | 2011 | 70.55366 | 10.20 | 0.51 | 12.0 | 6519.2302 | 4.89 | 0.798 | En vía de desarrollo |
| Belize | BLZ | 2011 | 72.57000 | 11.21 | 1.84 | 10.5 | 4423.4898 | 36.76 | 0.702 | En vía de desarrollo |
| Brazil | BRA | 2011 | 73.92100 | 10.31 | 1.79 | 7.1 | 13245.6125 | 30.68 | 0.731 | En vía de desarrollo |
| Brunei Darussalam | BRN | 2011 | 74.85200 | 5.87 | 1.05 | 8.8 | 47055.8411 | 1.10 | 0.846 | En vía de desarrollo |
| Bhutan | BTN | 2011 | 68.84000 | 7.90 | 4.01 | 2.3 | 2563.2575 | 3.35 | 0.575 | En vía de desarrollo |
| Botswana | BWA | 2011 | 61.91000 | 14.32 | 4.88 | 8.9 | 7617.3252 | 16.90 | 0.673 | En vía de desarrollo |
| Central African Republic | CAF | 2011 | 47.95000 | 2011.00 | 14.68 | 3.7 | 551.7501 | 21.91 | 0.358 | En vía de desarrollo |
| Canada | CAN | 2011 | 81.44878 | 19.62 | 0.56 | 12.7 | 52087.4464 | 1.75 | 0.905 | Desarollado |
| Switzerland | CHE | 2011 | 82.69512 | 2011.00 | 0.45 | 13.3 | 88415.6280 | 0.62 | 0.932 | Desarollado |
| Chile | CHL | 2011 | 78.98600 | 2011.00 | 0.85 | 9.8 | 14637.2402 | 4.76 | 0.814 | Desarollado |
| China | CHN | 2011 | 74.70800 | 2011.00 | 1.46 | 7.4 | 5618.1323 | 1.11 | 0.714 | En vía de desarrollo |
| Cote d’Ivoire | CIV | 2011 | 53.62000 | 20011.00 | 10.66 | 4.4 | 1208.5830 | 12.67 | 0.445 | En vía de desarrollo |
| Colombia | COL | 2011 | 75.65500 | 2011.00 | 1.80 | 7.5 | 7335.1669 | 57.47 | 0.725 | En vía de desarrollo |
| Comoros | COM | 2011 | 62.24000 | 2011.00 | 8.27 | 4.4 | 1447.9636 | 8.34 | 0.487 | En vía de desarrollo |
| Costa Rica | CRI | 2011 | 78.91900 | 2011.00 | 0.99 | 8.4 | 9121.9325 | 10.31 | 0.760 | En vía de desarrollo |
| Cuba | CUB | 2011 | 78.40000 | 2011.00 | 0.59 | 11.3 | 6139.7193 | 4.90 | 0.778 | En vía de desarrollo |
| Cyprus | CYP | 2011 | 79.62100 | 7.51 | 0.35 | 11.6 | 32396.3857 | 2.82 | 0.853 | Desarollado |
| Czech Republic | CZE | 2011 | 77.87317 | 15.18 | 0.33 | 12.5 | 21871.2661 | 0.91 | 0.865 | Desarollado |
| Germany | DEU | 2011 | 80.43659 | 19.90 | 0.41 | 13.9 | 46644.7760 | 0.91 | 0.926 | Desarollado |
| Djibouti | DJI | 2011 | 60.66700 | 4.07 | 7.44 | 4.0 | 1451.5430 | 7.36 | 0.454 | En vía de desarrollo |
| Denmark | DNK | 2011 | 79.80000 | 16.60 | 0.41 | 12.7 | 61753.6471 | 0.83 | 0.922 | Desarollado |
| Dominican Republic | DOM | 2011 | 72.28400 | 15.56 | 3.39 | 7.4 | 5913.4321 | 27.56 | 0.706 | En vía de desarrollo |
| Algeria | DZA | 2011 | 75.19900 | 10.73 | 2.67 | 7.4 | 5462.2609 | 1.32 | 0.736 | En vía de desarrollo |
| Ecuador | ECU | 2011 | 75.28900 | 11.95 | 1.75 | 8.0 | 5200.5558 | 19.50 | 0.721 | En vía de desarrollo |
| Eritrea | ERI | 2011 | 62.73200 | 2.35 | 5.32 | 3.9 | 642.5077 | 11.38 | 0.417 | En vía de desarrollo |
| Spain | ESP | 2011 | 82.47561 | 15.34 | 0.37 | 9.5 | 31636.4463 | 0.82 | 0.870 | Desarollado |
| Estonia | EST | 2011 | 76.22927 | 12.36 | 0.42 | 12.5 | 17621.5480 | 5.27 | 0.853 | Desarollado |
| Ethiopia | ETH | 2011 | 62.50500 | 4.79 | 7.92 | 2.4 | 354.4796 | 8.44 | 0.423 | En vía de desarrollo |
| Finland | FIN | 2011 | 80.47073 | 13.28 | 0.29 | 12.3 | 51081.9977 | 1.95 | 0.907 | Desarollado |
| Fiji | FJI | 2011 | 66.75900 | 7.18 | 2.40 | 9.8 | 4371.4575 | 2.40 | 0.717 | En vía de desarrollo |
| France | FRA | 2011 | 82.11463 | 14.82 | 0.42 | 10.9 | 43790.7320 | 0.98 | 0.884 | Desarollado |
| Gabon | GAB | 2011 | 62.16800 | 9.72 | 6.12 | 7.7 | 10809.6465 | 9.39 | 0.670 | En vía de desarrollo |
| United Kingdom | GBR | 2011 | 80.95122 | 2011.00 | 0.50 | 13.0 | 42038.5723 | 1.44 | 0.899 | Desarollado |
| Georgia | GEO | 2011 | 71.77300 | 9.52 | 1.55 | 12.2 | 4021.7433 | 5.50 | 0.741 | En vía de desarrollo |
| Ghana | GHA | 2011 | 61.38100 | 6.04 | 6.89 | 6.8 | 1549.4629 | 6.38 | 0.563 | En vía de desarrollo |
| Guinea | GIN | 2011 | 57.38700 | 4.11 | 10.51 | 2.0 | 651.1354 | 9.72 | 0.418 | En vía de desarrollo |
| Guinea-Bissau | GNB | 2011 | 55.14400 | 3.01 | 10.82 | 2.7 | 703.6637 | 10.64 | 0.435 | En vía de desarrollo |
| Equatorial Guinea | GNQ | 2011 | 55.94500 | 2.94 | 10.98 | 5.5 | 21641.8705 | 3.54 | 0.584 | En vía de desarrollo |
| Greece | GRC | 2011 | 80.73171 | 8.75 | 0.39 | 10.3 | 25916.2935 | 1.73 | 0.852 | Desarollado |
| Grenada | GRD | 2011 | 72.76800 | 8.35 | 1.46 | 8.4 | 7291.0589 | 4.38 | 0.747 | En vía de desarrollo |
| Guatemala | GTM | 2011 | 71.86100 | 17.21 | 3.41 | 5.3 | 3281.6675 | 39.27 | 0.619 | En vía de desarrollo |
| Guyana | GUY | 2011 | 68.32100 | 10.59 | 3.68 | 8.2 | 4908.5735 | 18.92 | 0.639 | En vía de desarrollo |
| Honduras | HND | 2011 | 73.56900 | 10.56 | 2.27 | 5.6 | 2088.3153 | 83.56 | 0.598 | En vía de desarrollo |
| Croatia | HRV | 2011 | 76.77561 | 2011.00 | 0.53 | 11.0 | 14609.5244 | 1.16 | 0.815 | Desarollado |
| Haiti | HTI | 2011 | 60.87900 | 5.44 | 8.06 | 4.8 | 1287.9541 | 20.97 | 0.477 | En vía de desarrollo |
| Hungary | HUN | 2011 | 74.85854 | 9.93 | 0.59 | 12.0 | 14216.1656 | 1.68 | 0.827 | Desarollado |
| Indonesia | IDN | 2011 | 69.54200 | 8.05 | 3.18 | 7.6 | 3643.0439 | 4.83 | 0.669 | En vía de desarrollo |
| India | IND | 2011 | 67.13000 | 3.38 | 5.53 | 5.4 | 1458.1035 | 4.32 | 0.591 | En vía de desarrollo |
| Ireland | IRL | 2011 | 80.74634 | 19.97 | 0.41 | 10.9 | 51848.9097 | 0.94 | 0.895 | Desarollado |
| Iraq | IRQ | 2011 | 68.84800 | 4.98 | 3.60 | 6.6 | 6036.3962 | 16.61 | 0.656 | En vía de desarrollo |
| Iceland | ISL | 2011 | 82.35854 | 15.90 | 0.26 | 11.0 | 47516.8747 | 0.68 | 0.901 | Desarollado |
| Israel | ISR | 2011 | 81.65610 | 12.11 | 0.44 | 12.7 | 33669.2465 | 2.35 | 0.892 | Desarollado |
| Italy | ITA | 2011 | 82.18780 | 13.15 | 0.39 | 9.8 | 38599.0622 | 0.91 | 0.875 | Desarollado |
| Jamaica | JAM | 2011 | 74.01200 | 13.95 | 1.82 | 9.0 | 5111.4714 | 50.39 | 0.715 | En vía de desarrollo |
| Jordan | JOR | 2011 | 73.58100 | 12.39 | 2.05 | 9.9 | 3852.7528 | 2.96 | 0.726 | En vía de desarrollo |
| Japan | JPN | 2011 | 82.59122 | 23.44 | 0.34 | 11.8 | 48167.9973 | 0.35 | 0.890 | Desarollado |
| Kazakhstan | KAZ | 2011 | 68.98000 | 7.86 | 1.83 | 11.5 | 11634.0019 | 9.65 | 0.772 | En vía de desarrollo |
| Kenya | KEN | 2011 | 61.85100 | 7.89 | 5.63 | 6.2 | 971.6333 | 5.89 | 0.552 | En vía de desarrollo |
| Kyrgyz Republic | KGZ | 2011 | 69.60244 | 6.13 | 2.78 | 10.6 | 1123.8832 | 9.26 | 0.639 | En vía de desarrollo |
| Cambodia | KHM | 2011 | 67.04300 | 4.87 | 4.11 | 4.4 | 882.2755 | 2.46 | 0.546 | En vía de desarrollo |
| Kiribati | KIR | 2011 | 66.07200 | 7.36 | 6.37 | 7.9 | 1735.0184 | 5.46 | 0.590 | En vía de desarrollo |
| Kuwait | KWT | 2011 | 74.55000 | 8.91 | 1.04 | 7.0 | 48631.6913 | 1.86 | 0.794 | En vía de desarrollo |
| Lao PDR | LAO | 2011 | 64.79700 | 4.12 | 7.77 | 4.8 | 1378.3614 | 7.29 | 0.558 | En vía de desarrollo |
| Lebanon | LBN | 2011 | 78.50700 | 14.33 | 0.98 | 8.0 | 7674.8354 | 3.93 | 0.760 | En vía de desarrollo |
| Liberia | LBR | 2011 | 60.14600 | 4.20 | 9.34 | 4.2 | 596.8971 | 11.56 | 0.417 | En vía de desarrollo |
| Sri Lanka | LKA | 2011 | 75.61400 | 2011.00 | 1.12 | 10.8 | 3200.8338 | 4.54 | 0.751 | En vía de desarrollo |
| Lithuania | LTU | 2011 | 73.56341 | 12.72 | 0.55 | 11.8 | 14392.5343 | 6.99 | 0.828 | Desarollado |
| Luxembourg | LUX | 2011 | 80.98780 | 10.63 | 0.29 | 11.8 | 115761.5077 | 0.86 | 0.892 | Desarollado |
| Latvia | LVA | 2011 | 73.57561 | 9.03 | 0.73 | 12.6 | 13895.1626 | 6.89 | 0.821 | Desarollado |
| Morocco | MAR | 2011 | 74.69600 | 7.49 | 3.06 | 4.4 | 3046.9491 | 1.52 | 0.626 | En vía de desarrollo |
| Madagascar | MDG | 2011 | 63.83600 | 15.03 | 5.83 | 6.1 | 531.2656 | 7.94 | 0.504 | En vía de desarrollo |
| Maldives | MDV | 2011 | 76.29300 | 21.44 | 1.19 | 5.2 | 7291.4276 | 2.23 | 0.682 | En vía de desarrollo |
| Mexico | MEX | 2011 | 75.01100 | 11.05 | 1.68 | 8.4 | 10203.4209 | 24.60 | 0.751 | En vía de desarrollo |
| Mali | MLI | 2011 | 55.70100 | 5.43 | 13.07 | 2.0 | 837.6034 | 12.10 | 0.408 | En vía de desarrollo |
| Malta | MLT | 2011 | 80.74634 | 16.17 | 0.66 | 10.5 | 23155.5548 | 0.89 | 0.843 | Desarollado |
| Myanmar | MMR | 2011 | 63.98300 | 3.61 | 6.14 | 4.3 | 1176.2425 | 4.31 | 0.540 | En vía de desarrollo |
| Mongolia | MNG | 2011 | 67.81800 | 7.64 | 2.42 | 9.8 | 3757.5586 | 9.84 | 0.711 | En vía de desarrollo |
| Mozambique | MOZ | 2011 | 53.04300 | 5.55 | 9.76 | 3.2 | 594.5865 | 4.14 | 0.407 | En vía de desarrollo |
| Mauritania | MRT | 2011 | 62.79900 | 6.07 | 9.50 | 3.9 | 1879.7714 | 11.93 | 0.490 | En vía de desarrollo |
| Malawi | MWI | 2011 | 57.16100 | 9.78 | 8.31 | 4.3 | 534.9513 | 3.08 | 0.450 | En vía de desarrollo |
| Malaysia | MYS | 2011 | 74.68300 | 8.92 | 0.76 | 10.1 | 10399.3728 | 2.75 | 0.778 | En vía de desarrollo |
| Namibia | NAM | 2011 | 58.08500 | 10.65 | 5.23 | 6.3 | 5723.3255 | 18.00 | 0.607 | En vía de desarrollo |
| Niger | NER | 2011 | 58.08100 | 9.66 | 11.64 | 1.5 | 512.5956 | 10.91 | 0.325 | En vía de desarrollo |
| Nigeria | NGA | 2011 | 51.34600 | 4.44 | 12.47 | 5.5 | 2487.5982 | 10.58 | 0.494 | En vía de desarrollo |
| Nicaragua | NIC | 2011 | 72.69200 | 17.96 | 2.16 | 6.1 | 1655.8018 | 13.91 | 0.627 | En vía de desarrollo |
| Netherlands | NLD | 2011 | 81.20488 | 15.29 | 0.43 | 12.0 | 54159.3466 | 0.90 | 0.921 | Desarollado |
| Norway | NOR | 2011 | 81.29512 | 17.40 | 0.31 | 12.8 | 100600.5624 | 2.37 | 0.943 | Desarollado |
| Nepal | NPL | 2011 | 68.02800 | 4.51 | 4.48 | 3.3 | 699.4293 | 3.05 | 0.535 | En vía de desarrollo |
| New Zealand | NZL | 2011 | 80.90488 | 19.29 | 0.61 | 12.0 | 38437.5432 | 1.23 | 0.902 | Desarollado |
| Oman | OMN | 2011 | 75.91600 | 7.57 | 1.15 | 8.3 | 20876.7880 | 0.79 | 0.795 | En vía de desarrollo |
| Pakistan | PAK | 2011 | 65.56200 | 4.30 | 8.88 | 4.8 | 1164.9761 | 8.35 | 0.530 | En vía de desarrollo |
| Panama | PAN | 2011 | 76.98900 | 20.09 | 1.95 | 9.3 | 9358.2515 | 24.37 | 0.764 | En vía de desarrollo |
| Peru | PER | 2011 | 74.69700 | 14.90 | 1.94 | 9.1 | 5869.3231 | 6.58 | 0.729 | En vía de desarrollo |
| Philippines | PHL | 2011 | 69.98400 | 7.11 | 3.09 | 9.0 | 2450.7337 | 16.60 | 0.670 | En vía de desarrollo |
| Papua New Guinea | PNG | 2011 | 62.31600 | 9.15 | 6.47 | 4.1 | 2406.9097 | 10.72 | 0.529 | En vía de desarrollo |
| Poland | POL | 2011 | 76.69512 | 10.96 | 0.56 | 12.3 | 13879.5610 | 1.22 | 0.839 | Desarollado |
| Portugal | PRT | 2011 | 80.47073 | 12.55 | 0.38 | 8.3 | 23186.9131 | 1.11 | 0.826 | Desarollado |
| Paraguay | PRY | 2011 | 72.86000 | 15.54 | 2.54 | 7.8 | 5322.9638 | 12.40 | 0.680 | En vía de desarrollo |
| Russian Federation | RUS | 2011 | 69.68390 | 8.78 | 1.01 | 11.6 | 14311.0843 | 12.28 | 0.789 | En vía de desarrollo |
| Rwanda | RWA | 2011 | 64.52300 | 8.88 | 5.75 | 3.8 | 668.8690 | 4.80 | 0.493 | En vía de desarrollo |
| Saudi Arabia | SAU | 2011 | 74.08900 | 13.51 | 1.12 | 9.1 | 23745.8016 | 1.78 | 0.823 | En vía de desarrollo |
| Sudan | SDN | 2011 | 63.17100 | 2011.00 | 7.48 | 3.2 | 1437.7733 | 6.59 | 0.474 | En vía de desarrollo |
| Senegal | SEN | 2011 | 64.89800 | 4.26 | 6.26 | 2.4 | 1373.5208 | 8.51 | 0.467 | En vía de desarrollo |
| Singapore | SGP | 2011 | 81.74390 | 15.28 | 0.28 | 11.2 | 53890.4287 | 0.57 | 0.914 | Desarollado |
| Solomon Islands | SLB | 2011 | 70.98500 | 7.44 | 2.49 | 5.2 | 1938.8948 | 4.71 | 0.514 | En vía de desarrollo |
| Sierra Leone | SLE | 2011 | 50.23400 | 7.91 | 15.43 | 3.1 | 448.3375 | 8.82 | 0.392 | En vía de desarrollo |
| El Salvador | SLV | 2011 | 71.44900 | 19.24 | 1.84 | 6.5 | 3266.0121 | 70.46 | 0.666 | En vía de desarrollo |
| Serbia | SRB | 2011 | 74.53659 | 11.79 | 0.74 | 10.6 | 6809.1598 | 1.90 | 0.769 | En vía de desarrollo |
| South Sudan | SSD | 2011 | 55.32500 | 2.11 | 10.21 | 4.8 | 1516.4039 | 14.11 | 0.416 | En vía de desarrollo |
| Sao Tome and Principe | STP | 2011 | 67.88500 | 10.76 | 4.29 | 5.0 | 1254.5179 | 6.97 | 0.548 | En vía de desarrollo |
| Suriname | SUR | 2011 | 70.67600 | 2011.00 | 2.38 | 7.8 | 8263.2038 | 8.04 | 0.706 | En vía de desarrollo |
| Slovak Republic | SVK | 2011 | 75.95854 | 12.90 | 0.68 | 12.1 | 18361.5695 | 1.76 | 0.837 | Desarollado |
| Slovenia | SVN | 2011 | 79.97073 | 13.34 | 0.30 | 12.2 | 25095.1323 | 0.83 | 0.884 | Desarollado |
| Sweden | SWE | 2011 | 81.80244 | 2011.00 | 0.30 | 12.4 | 60755.7596 | 0.88 | 0.906 | Desarollado |
| Eswatini | SWZ | 2011 | 48.14100 | 9.45 | 8.14 | 5.9 | 4496.6004 | 22.78 | 0.550 | En vía de desarrollo |
| Seychelles | SYC | 2011 | 72.72439 | 10.14 | 1.43 | 8.4 | 12189.0952 | 14.74 | 0.741 | En vía de desarrollo |
| Chad | TCD | 2011 | 51.42400 | 2011.00 | 14.61 | 2.0 | 984.7359 | 9.90 | 0.382 | En vía de desarrollo |
| Togo | TGO | 2011 | 58.09200 | 2011.00 | 8.77 | 4.4 | 587.0971 | 9.73 | 0.463 | En vía de desarrollo |
| Thailand | THA | 2011 | 74.59300 | 2011.00 | 1.27 | 7.5 | 5492.1213 | 6.91 | 0.727 | En vía de desarrollo |
| Tajikistan | TJK | 2011 | 69.05500 | 2011.00 | 4.10 | 10.8 | 847.3821 | 2.07 | 0.637 | En vía de desarrollo |
| Timor-Leste | TLS | 2011 | 67.47700 | 2011.00 | 5.96 | 4.5 | 947.5133 | 4.25 | 0.624 | En vía de desarrollo |
| Tonga | TON | 2011 | 70.14800 | 7.15 | 1.75 | 10.9 | 4002.6592 | 3.69 | 0.716 | En vía de desarrollo |
| Trinidad and Tobago | TTO | 2011 | 72.17000 | 2011.00 | 3.07 | 10.8 | 19034.1492 | 37.76 | 0.773 | En vía de desarrollo |
| Tunisia | TUN | 2011 | 75.20600 | 2011.00 | 1.65 | 6.9 | 4264.6749 | 3.12 | 0.718 | En vía de desarrollo |
| Turkey | TUR | 2011 | 74.94400 | 2011.00 | 1.79 | 7.2 | 11420.7733 | 4.93 | 0.753 | Desarollado |
| Uganda | UGA | 2011 | 58.08700 | 2011.00 | 7.30 | 5.4 | 829.0103 | 12.51 | 0.490 | En vía de desarrollo |
| Ukraine | UKR | 2011 | 70.80927 | 2011.00 | 1.12 | 11.3 | 3569.7581 | 5.81 | 0.738 | En vía de desarrollo |
| Uruguay | URY | 2011 | 76.88200 | 2011.00 | 1.02 | 8.4 | 14236.6812 | 5.89 | 0.782 | En vía de desarrollo |
| United States | USA | 2011 | 78.64146 | 2011.00 | 0.72 | 13.3 | 49886.8181 | 5.37 | 0.917 | Desarollado |
| Uzbekistan | UZB | 2011 | 69.91000 | 2011.00 | 3.38 | 10.9 | 1926.2930 | 2.36 | 0.674 | En vía de desarrollo |
| Vietnam | VNM | 2011 | 74.90400 | 2011.00 | 2.27 | 7.6 | 1525.1160 | 1.83 | 0.664 | En vía de desarrollo |
| Vanuatu | VUT | 2011 | 69.27200 | 2011.00 | 2.93 | 6.7 | 3264.5370 | 2.69 | 0.592 | En vía de desarrollo |
| South Africa | ZAF | 2011 | 58.89500 | 13.34 | 5.12 | 9.9 | 8007.4128 | 36.18 | 0.657 | En vía de desarrollo |
| Zambia | ZMB | 2011 | 57.12600 | 2011.00 | 7.86 | 6.7 | 1672.9083 | 7.33 | 0.556 | En vía de desarrollo |
| Zimbabwe | ZWE | 2011 | 52.89600 | 7.56 | 8.12 | 7.3 | 1093.6540 | 14.00 | 0.478 | En vía de desarrollo |
A continuación se presentarán una serie de gráficos de barras y tablas de clasificación que muestran el TOP 10 de países según los indicadores clave seleccionados. A través de los gráficos de barras, podremos comparar visualmente los valores de cada indicador entre diferentes países, identificando tendencias y diferencias significativas. Además, las tablas de clasificación nos permitirán conocer el rango y la posición relativa de los países en cada indicador. Al analizar y comprender estos indicadores, podremos obtener una visión más clara de las disparidades y desafíos existentes en cuanto al desarrollo humano en diferentes regiones del mundo, lo que nos permitirá tener una imagen más completa de cómo estos factores influyen en la clasificación de los países según su estatus de “desarrollado” o “en vía de desarrollo”:
EXPECTATIVA DE VIDA - (LIFE.EXPECTANCY)
La expectativa de vida es un indicador clave para evaluar el desarrollo de un país. Los países desarrollados suelen tener una expectativa de vida más alta debido a la disponibilidad de atención médica de calidad, mejores condiciones de vida, educación sanitaria y acceso a una alimentación adecuada. En contraste, los países en vía de desarrollo pueden tener una expectativa de vida más baja debido a la falta de recursos y sistemas de salud deficientes. Lo anterior lo podemos corroborar a través del siguiente gráfico donde se observa que el top 10 de países con mayor expectativa de vida lo integran las principales potencias Europeas, Asiáticas y Norteamericanas.
GASTO PÚBLICO GENERAL EN SALUD - (TOTAL.EXPENDITURE)
El gasto público en salud es un indicador importante para evaluar el nivel de desarrollo de un país. Los países desarrollados suelen asignar una mayor proporción de su presupuesto al gasto en salud para proporcionar servicios médicos de calidad y acceso universal a la atención médica. Por el contrario, los países en vía de desarrollo a menudo enfrentan limitaciones en sus recursos financieros y pueden destinar una proporción menor de su presupuesto a la salud, lo que resulta en una atención médica más limitada. En este caso el top 10 lo comandan dos países que se encuentran por fuera de Europa y Norteamérica y que además no son considerados como potencias o países con un gran nivel de desarrollo, aun así, el resto de la tabla la conforman países “primermundistas”.
MORTALIDAD INFANTIL - (INFANT.DEATHS)
La mortalidad infantil es un indicador crítico de la salud y el bienestar de un país. Los países desarrollados suelen tener tasas de mortalidad infantil más bajas debido a mejores sistemas de atención médica y programas de salud materno-infantil. Por otro lado, los niveles de mortalidad infantil pueden reflejar la inestabilidad y subdesarrollo de un país, siendo generalmente más altos en países en vías de desarrollo debido a desafíos socioeconómicos, políticas públicas y distribución de la riqueza. Por lo tanto, es de esperar que esta lista la conformen países pertenecientes al medio oriente y África.
ESCOLARIZACIÓN - (SCHOOLING)
La escolarización está estrechamente relacionada con la alfabetización, la adquisición de habilidades y conocimientos, y la capacidad de la población para participar activamente en la sociedad. Los países en vías de desarrollo pueden enfrentar desafíos en términos de acceso a la educación, calidad de la enseñanza y tasas de abandono escolar. Estos factores pueden limitar las oportunidades de desarrollo y contribuir a la brecha entre países desarrollados y en vías de desarrollo. Lo anterior lo podemos corroborar en su mayoría a través de la siguiente tabla donde se observa que el top 10 de países con mayor tasa de escolarización lo integran las principales potencias Europeas, Asiáticas y Norteamericanas, siendo Israel y Kazajistán un caso atípico a esta afirmación.
PRODUCTO INTERNO BRUTO - (GDP)
El PIB es una medida del valor total de los bienes y servicios producidos en un país durante un período determinado. Los países desarrollados generalmente tienen un PIB per cápita más alto, lo que indica un mayor nivel de producción económica y una mejor calidad de vida en términos generales. Por otro lado, los países en vía de desarrollo suelen tener un PIB per cápita más bajo debido a su menor capacidad productiva y a la presencia de desafíos económicos y estructurales. Para este indicador se puede observar como el top de países se encuentran más distribuido a nivel global y no solamente concentrado en Europa y Norteamérica. Países como Qatar, Macau y Brunei son prueba de lo anterior y ejemplifican esta afirmación.
HOMICIDIOS - (HOMICIDES)
La tasa de homicidios es un indicador de la seguridad y la estabilidad de un país. Los países desarrollados suelen tener tasas de homicidios más bajas, lo que refleja un entorno social más seguro y una mejor aplicación de la ley. En los países en vía de desarrollo, las tasas de homicidios suelen ser más altas debido a una combinación de factores como la pobreza, la desigualdad, la falta de acceso a la educación y los conflictos internos. En este caso se esperaría por lo tanto, que los mayores índices de homicidios se presenten en Suramérica y África debido a los altos porcentajes de violencia y delincuencia que se presentan en estas zonas.
ÍNDICE DE DESARROLLO HUMANO - (HDI)
El IDH es un indicador compuesto que tiene en cuenta factores como la expectativa de vida, la educación y el ingreso per cápita. Los países desarrollados generalmente tienen un IDH más alto, lo que refleja un mejor nivel de desarrollo humano en general. Los países en vía de desarrollo tienden a tener un IDH más bajo debido a desafíos en áreas como la accesibilidad a la educación, la atención médica y la distribución equitativa de los recursos económicos. Lo anterior lo podemos corroborar en su mayoría a través del siguiente gráfico donde se observa que el top 10 de países con mayor índice de desarrollo humano lo integran las principales potencias Europeas, Asiáticas y Norteamericanas.
EXPECTATIVA DE VIDA - (LIFE.EXPECTANCY)
La elección de esta variable se justifica sobre la base de que la expectativa de vida de los habitantes de un país se relaciona estrechamente con su nivel de desarrollo, reflejando la salud y calidad de vida de la población. Dicho lo anterior se espera que los datos proporcionados por el análisis de esta variable sean una fuente acertada de información en el desarrollo del modelo en cuestión, el cual tiene como objetivo clasificar el conglomerado de países dados entre “Desarrollados” y “En vía de desarrollo”.
En general (según la interpretación realizada sobre la información de este indicador proporcionada por el Banco Mundial a través de la página web “IndexMundi”) los países desarrollados tienden a tener una expectativa de vida más alta que los países en vías de desarrollo. Esto se debe a que los primeros suelen contar con mejores sistemas de atención médica, acceso a servicios de salud de calidad, mejores condiciones sanitarias y políticas de salud, alimentación adecuada, educación y estilos de vida saludables, entre otros factores. Por otro lado, los países en vías de desarrollo a menudo enfrentan desafíos en términos de acceso limitado a servicios de salud, infraestructuras sanitarias deficientes, falta de recursos económicos para invertir en medicina, altas tasas de pobreza, desnutrición, falta de educación y enfermedades endémicas, lo cual contribuye a una expectativa de vida más baja y explica la disparidad presente en esta área en comparación con los países desarrollados.
INTERPRETACIÓN MAPA DE DENSIDAD
Lo anterior se puede evidenciar de manera más clara a través del siguiente mapa, en el cual se puede apreciar que la mayoría de territorios europeos y norteamericanos presentan una tonalidad más oscura lo que indica que tienen una expectativa de vida superior en comparación a otras regiones como el sur de América, África, la mayoría de Asia y Oceanía (a excepción de Australia y Nueva Zelanda, los cuales están catalogado como países desarrollados según la mayoría de organizaciones expertas en la materia).
GASTO PÚBLICO GENERAL EN SALUD - (TOTAL.EXPENDITURE)
Esta variable explica el gasto público general en salud como porcentaje del gasto público total que realiza un gobierno. Este, por lo tanto, es un indicador que refleja el nivel de prioridad y recursos que destina un país específicamente al sector de la salud en relación con el gasto público en general, ya que proporciona información sobre el compromiso y la inversión que realiza un país en su sistema de salud.
En términos generales, los países desarrollados tienden a asignar una mayor proporción de su gasto público total al sector de la salud en comparación con los países en vías de desarrollo. Esto se debe a que los países desarrollados suelen contar con sistemas de salud más avanzados, infraestructuras sanitarias robustas, acceso generalizado a servicios de salud de calidad y una mayor capacidad económica para invertir en el bienestar de su población. Por su parte, los países en vías de desarrollo a menudo enfrentan limitaciones económicas y presupuestarias, lo que puede resultar en una asignación relativamente menor de recursos al sector de la salud en comparación con los países desarrollados. Estos países, por lo tanto, pueden enfrentar desafíos para satisfacer las necesidades de atención médica básica, mejorar la infraestructura sanitaria y brindar acceso equitativo a servicios de salud de calidad debido a las restricciones financieras.
INTERPRETACIÓN MAPA DE DENSIDAD
Sin embargo, es importante tener en cuenta que esta relación no es absoluta y existen variaciones dentro de cada categoría. Algunos países en vías de desarrollo han logrado asignar una proporción significativa de su gasto público total a la salud, priorizando el bienestar de su población a pesar de las limitaciones económicas. Esto se puede evidenciar en el siguiente mapa, en el cual se observa cómo a pesar de que de nuevo son los países Norteamericanos y Europeos, además de Japón, Australia y Nueva Zelanda, los que se encuentran en la parte alta de la tabla con un porcentaje entre el 8% y el 10% de gasto público en salud, algunos países suramericanos como Colombia, Argentina y Surinam no se encuentran tan alejados de estos porcentajes con una media entre el 6% y el 7%.
MORTALIDAD INFANTIL - (INFANT.DEATHS)
La mortalidad infantil es un indicador crucial para evaluar el estado de desarrollo y bienestar de un país. Por ejemplo, de manera general, los países desarrollados tienen tasas de mortalidad infantil más bajas en comparación con los países en vías de desarrollo. Esto se debe a una serie de factores que influyen en la salud y el bienestar de los niños, como la disponibilidad y acceso a servicios de atención médica de calidad, la nutrición adecuada, el saneamiento básico y la educación en salud. Destacando también que los países desarrollados suelen contar con sistemas de salud sólidos, infraestructuras bien desarrolladas y programas efectivos de atención prenatal y pediátrica, lo que ayuda a prevenir de gran manera la mortalidad entre este grupo de personas.
Por otro lado, los países en vía de desarrollo enfrentan desafíos significativos en la reducción de este fenómeno debido a la falta de recursos, la pobreza, la desigualdad, la falta de acceso a servicios de salud básicos y la limitada disponibilidad de servicios de salud preventivos y curativos. Lo anterior sumado a los desafíos socioeconómicos y las disparidades regionales dentro de estos países contribuye a acrecentar esta problemática.
INTERPRETACIÓN MAPA DE DENSIDAD
Para este caso, el mapa de densidad en cuestión señala que las tasas más altas de mortalidad infantil se presentan en los continentes de África (mayoría del continente) y Asia (Sur, Occidente y Sudeste) con una amplia diferencia al resto del mundo, lo cual se corrobora a simple vista por la tonalidad significativamente más oscura que se presenta en estas zonas. Cabe resaltar de igual forma que una parte importante de Sudamérica también presenta tasas considerables de mortalidad infantil aunque no al nivel de los continentes mencionados previamente.
ESCOLARIZACIÓN - (SCHOOLING)
Esta variable está intrínsecamente ligada al desarrollo de un país debido a que a medida que una nación progresa en su desarrollo, por lo general, se observa un incremento en el nivel de educación de su población. Esta relación se debe, en primer lugar, a que la educación es fundamental para el desarrollo del capital humano de un país. Cuanto más alto sea el nivel de escolarización de la población, mayor será la capacidad del país para generar y aplicar conocimientos. Un nivel educativo más elevado implica una mayor capacidad de innovación, adaptación a los cambios tecnológicos y económicos, y una mayor productividad en general. El capital humano es un impulsor esencial del crecimiento económico sostenible y el progreso a largo plazo.
Además, el nivel de escolarización influye en la competitividad económica de una nación. Los países con una fuerza laboral educada y capacitada tienden a ser más competitivos en la economía global. La educación proporciona a los individuos las habilidades y los conocimientos necesarios para acceder a empleos de mayor calidad y productividad. Asimismo, la educación fomenta la creatividad, el espíritu empresarial y la capacidad de adaptación, lo que contribuye al crecimiento económico y al desarrollo empresarial.
INTERPRETACIÓN MAPA DE DENSIDAD
En este escenario, se observa un grupo de países con medias superiores al 90% de su población escolarizada conformado principalmente por las principales potencias mundiales pertenecientes a Europa, Norteamérica, Asia y Oceanía. Un escalón más abajo se encuentran los países de América Latina con una media alrededor del 70% y al final de la tabla se encuentra la mayoría del continente Africano con una media que ronda entre el 30% y el 50% de personas con acceso a educación formal.
PRODUCTO INTERNO BRUTO - (GDP)
El Producto Interno Bruto (PIB) de un país es una medida ampliamente utilizada para evaluar el tamaño y la actividad económica de una nación. El PIB representa el valor monetario de todos los bienes y servicios producidos dentro del país en un período de tiempo determinado.
Esta variable nos indica de manera general que los países desarrollados tienden a tener un PIB per cápita más alto en comparación con los países en vías de desarrollo. Esto se debe a que los países desarrollados suelen tener economías más diversificadas, mayor productividad laboral, infraestructuras avanzadas, tecnología de punta, instituciones sólidas y un mayor acceso a recursos financieros y tecnológicos, por lo que un alto PIB per cápita indica que el país tiene una mayor capacidad económica para satisfacer las necesidades básicas de su población, proporcionar servicios de calidad, invertir en educación, salud, infraestructuras y desarrollo sostenible. Generando que estos países suelan tener una mayor esperanza de vida, tasas más bajas de pobreza, menor desigualdad de ingresos y acceso a una mejor calidad de vida en general.
Por otro lado, los países en vías de desarrollo suelen tener un PIB per cápita más bajo en comparación al tipo de naciones mencionadas previamente. Esto debido a diversos factores, como una menor productividad económica, desigualdades estructurales, limitaciones en infraestructuras básicas, altos niveles de pobreza, falta de acceso a capital y tecnología, entre otros. Lo cual implica que estos países enfrenten a menudo desafíos en términos de desarrollo económico, social y humano.
INTERPRETACIÓN MAPA DE DENSIDAD
En esta ocasión el mapa evidencia un mayor PIB per cápita en el Norte de América, el Norte de Europa y un par de países fuera de estos continentes como Arabia Saudita y Australia, lo cual se corresponde con la afirmación de que los países denominados como “Desarrollados” suelen tener un producto interno bruto mucho más sólido y desarrollado que aquellos países en vía de desarrollo.
HOMICIDIOS - (HOMICIDES)
La relación entre el número de homicidios y el nivel de desarrollo de un país puede ser compleja y estar influenciada por múltiples factores. Sin embargo, de manera general se puede afirmar que existe una tendencia de una menor incidencia de homicidios en países más desarrollados en comparación con aquellos en vías de desarrollo. Esto puede atribuirse a diversos factores, como una mayor estabilidad institucional, un sistema de justicia más efectivo, una mayor inversión en seguridad pública, así como mejores condiciones socioeconómicas y de bienestar.
Los países desarrollados suelen contar con sistemas de justicia y seguridad más sólidos, lo que contribuye a prevenir y controlar la criminalidad. Además, suelen tener una mejor distribución de la riqueza, una mayor estabilidad económica y social, así como acceso a servicios básicos y oportunidades de desarrollo para su población. Estos factores por lo tanto disminuyen los índices de violencia y homicidios. Por otro lado, en países en vías de desarrollo, se suelen presentar desafíos como la pobreza, la desigualdad social, la falta de acceso a oportunidades y servicios básicos, la debilidad institucional y la presencia de conflictos armados o violencia estructural, lo cual genera que se presenten mayores niveles de asesinatos y violencia en comparación con aquellos países denominados como desarrollados.
INTERPRETACIÓN MAPA DE DENSIDAD
En este caso, podemos observar en el mapa que se presentan niveles de homicidios muy superiores al resto en los casos puntuales de países como Colombia, México, Honduras, El Salvador, Venezuela, Brasil, Nigeria y Sudáfrica. Estando estos índices de homicidios muy por encima de los países desarrollados e incluso siendo altamente superiores a los de sus propios países vecinos en sus respectivos continentes.
ÍNDICE DE DESARROLLO HUMANO - (HDI)
El Índice de Desarrollo Humano (IDH) es una medida compuesta que busca evaluar el nivel de desarrollo de un país en términos de tres dimensiones principales: el ingreso per cápita, la esperanza de vida al nacer y el nivel educativo. Estas dimensiones son consideradas indicadores clave para evaluar el bienestar y el desarrollo humano de una población.
En general, los países clasificados como desarrollados suelen tener un IDH más alto en comparación con los países en vías de desarrollo. Esto se debe a que los países desarrollados, en promedio, presentan mayores niveles de ingresos, una esperanza de vida más alta y una mejor educación en términos de acceso y calidad como ya lo hemos argumentado anteriormente. Estos factores suelen estar respaldados por sistemas socioeconómicos más robustos, una infraestructura desarrollada, una mayor estabilidad política y una mayor inversión en salud y educación.
Por otro lado, los países en vías de desarrollo tienden a tener un IDH más bajo, lo cual refleja un menor nivel de desarrollo humano en términos de ingresos, esperanza de vida y educación. Estos países enfrentan desafíos como la pobreza, la desigualdad, la falta de acceso a servicios básicos y la limitada infraestructura. Además, pueden experimentar dificultades en la implementación de políticas efectivas de desarrollo humano debido a factores como conflictos, corrupción y limitaciones institucionales.
INTERPRETACIÓN MAPA DE DENSIDAD
En esta ocasión alcanzamos a ver cómo países como Chile y Argentina alcanzan a ser clasificados dentro del grupo de países con un alto índice de desarrollado, dentro del cual se encuentran las principales potencias mundiales de los diferentes continentes, sin embargo el panorama para el resto del continente latinoamericano se asemeja más a las situaciones presentadas en el medio oriente, África, la mayoría de Oceanía y Asia.
La metodología utilizada en este caso de estudio se basa en la aplicación del algoritmo kNN (k-Nearest Neighbors) o “k” vecinos más cercanos. Este algoritmo es una técnica de aprendizaje supervisado que se utiliza para realizar clasificaciones o predicciones basándose en la proximidad entre los datos.
El algoritmo kNN se fundamenta en la idea de que los ejemplos similares tienden a pertenecer a la misma clase o tener valores similares en problemas de regresión. Para ello, se calcula la distancia entre el nuevo ejemplo a clasificar y los ejemplos del conjunto de entrenamiento. Los “k” ejemplos más cercanos se seleccionan como vecinos y se utilizan para determinar la clase o el valor objetivo del nuevo ejemplo.
Con esta metodología, se busca aprovechar la información de los ejemplos de entrenamiento más similares al nuevo ejemplo para realizar una clasificación precisa o una estimación confiable. A continuación, se presenta una explicación más detallada del algoritmo kNN, abordando aspectos clave como la normalización de atributos, el cálculo de distancias, la selección de los vecinos más cercanos y el proceso de clasificación o predicción.
Antes de aplicar el algoritmo kNN, es necesario realizar una etapa de normalización de los atributos. La normalización es un proceso fundamental para asegurarse de que los atributos estén en la misma escala, especialmente cuando tienen rangos de valores diferentes. La normalización se lleva a cabo mediante una transformación que reajusta los valores de los atributos a un rango común, generalmente entre 0 y 1. Para realizar la normalización, se utiliza la siguiente fórmula:
\[ x_{norm} =\;\frac{x - min_{value}}{max_{value} - min_{value}} \]
Donde:
\(x_{\text{norm}}:\) Es el valor normalizado resultante.
\(x:\) Es el valor original que deseas normalizar.
\(min_{\text{value}}:\) Es el valor mínimo posible que puede tener el atributo.
\(max_{\text{value}}:\) Es el valor máximo posible que puede tener el atributo.
Aplicando esta fórmula, cada atributo se transforma en un valor proporcional dentro del rango 0-1, lo que garantiza que todos los atributos sean comparables y no se vean afectados por diferencias en sus magnitudes originales. La normalización de los atributos es esencial en el algoritmo kNN, ya que la distancia entre los ejemplos se calcula utilizando los valores de los atributos. Al tener los atributos normalizados, se evita que aquellos con mayor escala dominen la contribución a la distancia y se garantiza un tratamiento equitativo para cada atributo. Con esta etapa de normalización, se preparan los datos para una correcta aplicación del algoritmo kNN, mejorando la calidad de las clasificaciones o predicciones resultantes.
Una vez que los atributos han sido normalizados, se procede al cálculo de la distancia entre el nuevo ejemplo a clasificar y los ejemplos del conjunto de entrenamiento. En el algoritmo kNN, la distancia más comúnmente utilizada es la distancia euclidiana. Esta medida de distancia se basa en la geometría euclidiana y se aplica en espacios n-dimensionales. La fórmula de la distancia euclidiana entre dos puntos A y B se expresa de la siguiente manera:
\[ dist(A, B) = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + \ldots + (x_n - y_n)^2} \]
En esta fórmula, \(x_{1}\), \(x_{2}\), …, \(x_{n}\) representan las coordenadas del punto A , mientras que \(y_{1}\), \(y_{2}\), …, \(y_{n}\) representan las coordenadas del punto B. La distancia euclidiana se calcula como la raíz cuadrada de la suma de los cuadrados de las diferencias entre las coordenadas correspondientes de los puntos A y B.
Al utilizar la distancia euclidiana, el algoritmo kNN evalúa la similitud o cercanía entre el nuevo ejemplo y los ejemplos de entrenamiento. Cuanto menor sea la distancia euclidiana entre dos ejemplos, mayor será su similitud en términos de características y atributos. Esta medida de distancia permite identificar los vecinos más cercanos al nuevo ejemplo, que serán utilizados en la etapa de clasificación o predicción.
El cálculo de distancias es un paso crítico en el algoritmo kNN, ya que determina qué ejemplos del conjunto de entrenamiento son los más similares al nuevo ejemplo y, por lo tanto, tienen mayor influencia en la clasificación o predicción final.
Una vez calculada la distancia entre el nuevo ejemplo y los ejemplos de entrenamiento, se procede a la selección de los “k” datos más cercanos al nuevo ejemplo. El valor de “k” es un parámetro predefinido que determina cuántos vecinos se considerarán en el proceso.
La elección de los “k” vecinos más cercanos es fundamental para el algoritmo kNN, ya que influirá en la precisión y robustez de las clasificaciones o predicciones realizadas. Es importante realizar una selección cuidadosa de “k” y evaluar su impacto en los resultados del algoritmo. Esto implica un análisis de la naturaleza del problema, la cantidad de datos disponibles y la distribución de las clases o valores objetivo ya que la elección óptima de “k” puede mejorar la precisión y generalización del modelo kNN.
En el caso de clasificación, se utiliza la mayoría de los votos de los “k” vecinos más cercanos para determinar la clase del nuevo ejemplo. Esto significa que se asigna al nuevo ejemplo la clase más común entre sus vecinos cercanos. Por ejemplo, si la mayoría de los “k” vecinos pertenecen a la clase “A”, entonces el nuevo ejemplo se clasificará como clase “A”. Esta estrategia se basa en la idea de que los ejemplos cercanos son más propensos a tener características similares y, por lo tanto, pertenecer a la misma clase.
Es importante destacar que la elección adecuada del valor “k” es fundamental, ya que un valor incorrecto puede llevar a resultados inexactos. Una elección demasiado pequeña puede hacer que el modelo sea demasiado sensible a ruido o variaciones aleatorias, mientras que una elección demasiado grande puede hacer que el modelo sea menos discriminativo y pierda detalles importantes. Asimismo, la normalización de los atributos antes de calcular las distancias es esencial para garantizar que todos los atributos tengan un impacto equilibrado en el resultado final y no se vean afectados por sus magnitudes originales.
# creación de la variable "base_paises_modelo" para lectura y visualización de los datos en excel.
base_paises_modelo <- read.csv("WHO.csv", header = TRUE, sep = "," )
# Creación de un vector que contiene la variable "Status" y 7 variables descriptivas (Life.expectancy, Total.expenditure, GDP, Infant.deaths, HDI, Schooling, Homicides).
variables_seleccionadas_modelo <- c("Life.expectancy", "Total.expenditure", "Infant.deaths", "Schooling", "GDP", "Homicides", "HDI", "Status")
# Establecimiento del filtro para el año asignado.
# Eliminación de filas y espacios que tienen datos faltantes.
base_paises_modelo <- base_paises_modelo %>% filter(Year==2011) %>%
select(variables_seleccionadas_modelo) %>%
na.omit()
# Re-asignación de los índices sin saltos de filas.
rownames(base_paises_modelo) <- NULL
# Forzamos que los valores de la muestra aleatoria sean los mismos siempre.
set.seed(28)
# Cambio de nombres de las categorías de la variable categórica "Status" por: "Desarollado" y "En vía de desarrollo".
base_paises_modelo <- base_paises_modelo %>%
mutate(Status = ifelse(Status == "Developed", "Desarollado", "En via de desarrollo")) %>%
mutate_at(c("Status"), ~as.factor(.))
# Creación y distribución de los índices tanto para el entrenamiento como para la prueba.
indx_paises_entrena <- createDataPartition(y = base_paises_modelo$Status, p = 0.75, list = FALSE)
# Ahora que tenemos los índices podemos construir nuestra data de entrenamiento y nuestra data de test.
base_paises_entrenamiento <- base_paises_modelo[indx_paises_entrena, ]
base_paises_testeo <- base_paises_modelo[-indx_paises_entrena, ]
VALOR DE “K” ÓPTIMO PARA EL MODELO
Encontrar el valor óptimo de “k” en el algoritmo de k-Nearest Neighbors (k-NN) es crucial debido a su impacto en el rendimiento y la precisión del modelo de clasificación. Lo anterior debido a que este valor determina la cantidad de vecinos más cercanos que se consideran al realizar una predicción. Si elegimos un valor de “k” demasiado pequeño, el modelo puede volverse demasiado sensible a variaciones aleatorias o ruido en los datos, lo que puede llevar a un sobreajuste. Por otro lado, si seleccionamos un valor de “k” demasiado grande, el modelo puede perder detalles importantes y generalizar demasiado, lo que resulta en una subutilización de la información disponible. Por lo tanto Encontrar el valor óptimo de “k” nos permite encontrar un equilibrio entre estos extremos y obtener el mejor rendimiento posible del modelo de clasificación. Dicho esto, a continuación se presenta una tabla de clasificación donde se evalúan 20 diferentes valores de “k” con el objetivo de encontrar el más adecuado para este caso:
# Usaremos el método de validación cruzada para indicar que vamos a partir nuestra data de entrenamiento en 5 partes iguales de forma aleatoria.
# Luego, cada una de estas partes las vamos a utilizar como test para el modelo que creemos por las otras 4 partes.
SP_ctrl <- trainControl(method="cv", number = 5)
# Entrenamiento de nuestro algoritmo de predicción.
base_paises_knnEntrenado <- train(Status ~ .,
data = base_paises_entrenamiento,
method = "knn",
tuneLength = 20,
trControl = SP_ctrl,
preProcess = c("center","scale")
)
# Obtener los resultados de k, Accuracy y Kappa
resultados <- base_paises_knnEntrenado$results[, c("k", "Accuracy", "Kappa")]
# Formatear los valores para mostrar solo 4 decimales
resultados$Accuracy <- round(resultados$Accuracy, 4)
resultados$Kappa <- round(resultados$Kappa, 4)
# Generar la tabla interactiva con barra deslizante y mostrar solo 4 decimales
tabla_interactiva <- datatable(resultados,
options = list(scrollY = "300px", paging = FALSE, info = "none", dom = 't')) %>%
formatStyle(columns = c("Accuracy", "Kappa"), digits = 4)
# Imprimir la tabla
tabla_interactiva
# Obtener el valor óptimo de k según la precisión máxima
valor_optimo_k <- base_paises_knnEntrenado$bestTune$k
Al ajustar “k” correctamente, podemos mejorar la precisión y la capacidad de generalización del modelo, lo que se traduce en predicciones más confiables y precisas. De acuerdo con los datos arrojados por la tabla anterior, se tiene que:
# Imprimir el mensaje con el valor óptimo de k
cat("El valor de 'k' (# de vecinos más cercanos) que proporciona la mayor precisión para el modelo de clasificación es de k =", valor_optimo_k, "\n")
## El valor de 'k' (# de vecinos más cercanos) que proporciona la mayor precisión para el modelo de clasificación es de k = 5
GRÁFICA DE “K” ÓPTIMO PARA EL MODELO
Esta gráfica muestra la relación entre el valor de “k” y la precisión (Accuracy) en el modelo de clasificación utilizando el algoritmo de k-Nearest Neighbors (k-NN), teniéndose que cada punto en la gráfica representa un valor de “k” probado durante la validación cruzada, mientras que la línea azul conecta los puntos para visualizar la tendencia. El objetivo de esta ilustración es identificar el valor óptimo de “k” que proporciona la mayor precisión en el modelo, usando una línea roja punteada vertical para marcar el valor óptimo del “k” encontrado.
La interpretación de esta gráfica implica buscar el punto en la curva donde la precisión alcanza su punto máximo. A medida que aumenta el valor de “k”, de manera general es posible que la precisión inicialmente mejore, pero después de cierto punto, es probable que disminuya debido a la sobregeneralización o pérdida de detalles. Por lo tanto, el valor óptimo de “k” es aquel donde se encuentra el pico más alto en la gráfica, lo que indica el mejor equilibrio entre la capacidad de capturar patrones y la capacidad de generalización del modelo. Esta gráfica por lo tanto nos proporciona una herramienta visual importante para ajustar y mejorar el rendimiento del modelo basado en k-NN.
# Obtener los resultados de k, Accuracy y Kappa
resultados <- base_paises_knnEntrenado$results[, c("k", "Accuracy", "Kappa")]
# Obtener el valor de k óptimo
k_optimo <- base_paises_knnEntrenado$bestTune$k
# Crear la gráfica utilizando ggplot2
grafica_k_optimo <- ggplot(resultados, aes(x = k, y = Accuracy)) +
geom_line(color = "blue") +
geom_point(color = "purple", size = 3) +
geom_vline(xintercept = k_optimo, linetype = "dashed", color = "red") +
labs(x = "k (cantidad de vecinos más cercanos)", y = "Accuracy") +
theme_update()
# Convertir la gráfica a plotly para hacerla interactiva
ggplotly(grafica_k_optimo)
PREDICCIONES DEL MODELO ENTRENADO
El código en cuestión usado en este apartado permite llevar a cabo la predicción de la variable dependiente utilizando un modelo de clasificación basado en el algoritmo k-Nearest Neighbors (k-NN) previamente entrenado, el cual es un método de aprendizaje automático que se utiliza para clasificar nuevos datos en función de la similitud con los ejemplos de entrenamiento más cercanos.
La predicción realizada por el modelo de clasificación basado en k-Nearest Neighbors (k-NN) es un proceso fundamental en el aprendizaje automático. Al utilizar este modelo, se busca asignar etiquetas o clases a nuevos datos no vistos previamente, basándose en la similitud con los ejemplos de entrenamiento. La predicción por lo tanto, se lleva a cabo evaluando la proximidad de los puntos de datos de prueba a los vecinos más cercanos en el espacio de características. Al identificar los ejemplos de entrenamiento más cercanos, el modelo asigna una etiqueta al nuevo dato en función de la mayoría de las etiquetas de sus vecinos más próximos.
El resultado de la predicción para los 36 datos de prueba se muestra en la siguiente tabla, la cual proporcionará las etiquetas o clases predichas para los datos en cuestión. Esto permitirá evaluar el rendimiento del modelo y comprender cómo se comporta al clasificar nuevos datos no vistos anteriormente.
# Testeo del modelo de predicción
base_paises_knnPrediccion <- predict(base_paises_knnEntrenado, newdata = base_paises_testeo)
# Crear tabla de resultados con índices
resultados <- data.frame(Indice = 1:nrow(base_paises_testeo),
Prediccion = base_paises_knnPrediccion)
# Aplicar estilo a las filas de la tabla
tabla_resultados <- kable(resultados, format = "html") %>%
kable_styling(bootstrap_options = "striped", full_width = TRUE) %>%
collapse_rows(columns = 1) %>%
column_spec(1, border_left = TRUE, border_right = TRUE, width = "5%") %>%
column_spec(2, border_left = TRUE, border_right = TRUE, width = "5%") %>%
row_spec(0, background = "#3498DB", bold = TRUE, color = "white", align = "c") %>%
row_spec(1:nrow(resultados), background = "transparent", bold = FALSE, color = "black", align = "c")
# Agregar barra deslizante
tabla_deslizante <- scroll_box(tabla_resultados, height = "300px", width = "100%")
# Imprimir la tabla
tabla_deslizante
| Indice | Prediccion |
|---|---|
| 1 | En via de desarrollo |
| 2 | En via de desarrollo |
| 3 | En via de desarrollo |
| 4 | En via de desarrollo |
| 5 | Desarollado |
| 6 | Desarollado |
| 7 | En via de desarrollo |
| 8 | En via de desarrollo |
| 9 | Desarollado |
| 10 | En via de desarrollo |
| 11 | Desarollado |
| 12 | En via de desarrollo |
| 13 | Desarollado |
| 14 | En via de desarrollo |
| 15 | En via de desarrollo |
| 16 | En via de desarrollo |
| 17 | En via de desarrollo |
| 18 | En via de desarrollo |
| 19 | Desarollado |
| 20 | Desarollado |
| 21 | En via de desarrollo |
| 22 | En via de desarrollo |
| 23 | En via de desarrollo |
| 24 | En via de desarrollo |
| 25 | Desarollado |
| 26 | En via de desarrollo |
| 27 | En via de desarrollo |
| 28 | En via de desarrollo |
| 29 | En via de desarrollo |
| 30 | En via de desarrollo |
| 31 | En via de desarrollo |
| 32 | En via de desarrollo |
| 33 | En via de desarrollo |
| 34 | En via de desarrollo |
| 35 | Desarollado |
| 36 | En via de desarrollo |
PROBABILIDADES DE LAS PREDICCIONES DEL MODELO ENTRENADO
La predicción de probabilidades utilizando un modelo de clasificación basado en k-Nearest Neighbors (k-NN) brinda una información adicional sobre las predicciones realizadas. En lugar de obtener solo las etiquetas de clase para los datos de prueba, este enfoque permite calcular la probabilidad de pertenencia a cada clase para cada punto de datos. Esto resulta especialmente útil en escenarios donde se requiere una comprensión más detallada de la confianza del modelo en sus predicciones.
Al aplicar el modelo k-NN entrenado a los datos de prueba, se obtiene un conjunto de probabilidades asociadas a cada clase. Estas probabilidades indican la medida en que cada clase es probable que se ajuste a los datos de prueba en función de la similitud con los ejemplos de entrenamiento cercanos. Al analizar estas probabilidades, es posible evaluar la confianza del modelo en sus predicciones y tomar decisiones informadas en función de los valores resultantes. Este enfoque de predicción de probabilidades con k-NN permite una mayor granularidad en la interpretación de los resultados y una mejor comprensión de la incertidumbre asociada a las predicciones del modelo.
# Obtención del resultado de la predicción del modelo con base en probabilidades
base_paises_prob_knnPrediccion <- predict(base_paises_knnEntrenado, newdata = base_paises_testeo, type = "prob")
# Crear tabla de resultados con índices
resultados_prob <- data.frame(Indice = 1:nrow(base_paises_testeo),
as.data.frame(base_paises_prob_knnPrediccion))
# Generar tabla con estilo
tabla_resultados_prob <- resultados_prob %>%
kable(format = "html") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), full_width = FALSE, position = "center") %>%
collapse_rows(columns = 1) %>%
column_spec(1, border_left = TRUE, width = "5%") %>%
column_spec(2, border_left = TRUE, width = "40%") %>%
column_spec(3, border_left = TRUE, width = "40%") %>%
column_spec(ncol(resultados_prob), border_right = TRUE) %>%
row_spec(0, background = "#3498DB", bold = TRUE, color = "white", align = "c") %>%
row_spec(1:nrow(resultados_prob), background = "transparent", bold = FALSE, color = "black", align = "c")
# Agregar barra deslizante
tabla_deslizante_prob <- scroll_box(tabla_resultados_prob, width = "100%", height = "300px")
# Imprimir la tabla
tabla_deslizante_prob
| Indice | Desarollado | En.via.de.desarrollo |
|---|---|---|
| 1 | 0.0 | 1.0 |
| 2 | 0.0 | 1.0 |
| 3 | 0.0 | 1.0 |
| 4 | 0.0 | 1.0 |
| 5 | 1.0 | 0.0 |
| 6 | 1.0 | 0.0 |
| 7 | 0.0 | 1.0 |
| 8 | 0.4 | 0.6 |
| 9 | 1.0 | 0.0 |
| 10 | 0.0 | 1.0 |
| 11 | 1.0 | 0.0 |
| 12 | 0.0 | 1.0 |
| 13 | 1.0 | 0.0 |
| 14 | 0.0 | 1.0 |
| 15 | 0.0 | 1.0 |
| 16 | 0.0 | 1.0 |
| 17 | 0.0 | 1.0 |
| 18 | 0.0 | 1.0 |
| 19 | 1.0 | 0.0 |
| 20 | 1.0 | 0.0 |
| 21 | 0.2 | 0.8 |
| 22 | 0.0 | 1.0 |
| 23 | 0.0 | 1.0 |
| 24 | 0.0 | 1.0 |
| 25 | 0.8 | 0.2 |
| 26 | 0.0 | 1.0 |
| 27 | 0.0 | 1.0 |
| 28 | 0.0 | 1.0 |
| 29 | 0.0 | 1.0 |
| 30 | 0.0 | 1.0 |
| 31 | 0.0 | 1.0 |
| 32 | 0.0 | 1.0 |
| 33 | 0.0 | 1.0 |
| 34 | 0.0 | 1.0 |
| 35 | 1.0 | 0.0 |
| 36 | 0.0 | 1.0 |
PRECISIÓN DEL MODELO ENTRENADO
El código utilizado en este apartado se empleó para calcular la precisión o exactitud del modelo de clasificación basado en k-Nearest Neighbors (k-NN) al predecir los datos de prueba y comparar estas predicciones con los resultados reales del conjunto de prueba. Este es un indicador clave del rendimiento y la capacidad de clasificación del modelo ya que proporciona una medida cuantitativa de qué tan bien el modelo puede predecir correctamente las etiquetas de clase para nuevos datos no vistos previamente.
Al calcular la precisión, se compara cada una de las predicciones realizadas por el modelo con las etiquetas reales de los datos de prueba. Si la predicción coincide con la etiqueta real se considera un acierto, de lo contrario un fallo. Por lo tanto, evaluar la precisión del modelo k-NN proporciona una visión general de su capacidad para generalizar y clasificar nuevos datos, lo que permite tomar decisiones informadas basadas en la confiabilidad de las predicciones.
Dicho lo anterior, para el caso particular del modelo desarrollado en este ejercicio, se tiene que:
# Comparación de nuestra predicción con los output del test para ver la exactitud del modelo.
precision <- mean(base_paises_knnPrediccion == base_paises_testeo$Status)
# Imprimir el mensaje con el valor óptimo de k
cat("El porcentaje de aciertos (accuracy) de la predicción realizada por el modelo con respecto a los outputs del test es del:", precision*100,"%\n")
## El porcentaje de aciertos (accuracy) de la predicción realizada por el modelo con respecto a los outputs del test es del: 100 %
MATRIZ DE CONFUSIÓN DEL MODELO
La información presentada anteriormente en el apartado de “Precisión del modelo” la vemos reflejada en la siguiente matriz de confusión, la cual es una herramienta fundamental en la evaluación de modelos de clasificación. Esta se utiliza principalmente para analizar el rendimiento de un modelo al comparar sus predicciones con los resultados reales. La matriz muestra el recuento de las diferentes combinaciones de predicciones y resultados, organizadas en filas y columnas que representan las clases o categorías de la variable objetivo.
En esta matriz de confusión, cada celda representa una categoría de predicción y resultado. Los valores diagonales, de la esquina superior izquierda a la esquina inferior derecha, indican los casos en los que el modelo ha acertado. Estas celdas reflejan los verdaderos positivos y verdaderos negativos, es decir, las instancias clasificadas correctamente. Por otro lado, las celdas fuera de la diagonal principal revelan los errores del modelo, ya sea en forma de falsos positivos o falsos negativos.
# Obtener la matriz de confusión
confusion_matrix <- table(base_paises_knnPrediccion, base_paises_testeo$Status)
# Crear tabla con estilo
tabla_confusion <- as.data.frame.matrix(confusion_matrix) %>%
kable(format = "html") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), full_width = FALSE, position = "center") %>%
collapse_rows(columns = 1) %>%
row_spec(0, background = "#3498DB", bold = TRUE, color = "white", align = "c") %>%
row_spec(1:nrow(confusion_matrix), background = "white", bold = FALSE, color = "black", align = "c") %>%
row_spec(2:nrow(confusion_matrix), background = "#F2F2F2", bold = FALSE, color = "black", align = "c") %>%
column_spec(1, border_right = TRUE, width = "20%", background = "#3498DB", bold = TRUE, color = "white") %>%
column_spec(2, border_left = TRUE, border_right = TRUE, width = "40%") %>%
column_spec(3, border_left = TRUE, border_right = TRUE, width = "40%") %>%
column_spec(ncol(confusion_matrix), border_right = TRUE)
# Imprimir la tabla
tabla_confusion
| Desarollado | En via de desarrollo | |
|---|---|---|
| Desarollado | 9 | 0 |
| En via de desarrollo | 0 | 27 |
Teniéndose en cuenta que para el desarrollo de este modelo se tomará como clase positiva la etiqueta “Desarrollado” podemos, por lo tanto, concluir las siguientes afirmaciones acerca de la precisión del modelo:
VP (Verdadero positivo): Nueve muestras fueron clasificadas correctamente como positivas.
FP (Falso Positivo): Cero muestras fueron clasificadas incorrectamente como positivas.
FN (Falso Negativo): Cero muestras fueron clasificadas incorrectamente como negativas.
VN (Verdadero Negativo): Veintisiete muestras fueron clasificadas correctamente como negativas.
Dicho de otra forma:
Nuestro modelo kNN predijo 9 valores como países “Desarrollados” y resulta que en nuestro test el valor real, output, era también “Desarrollado”.
Nuestro modelo kNN predijo 27 valores como países “En vía de desarrollo” y resulta que en nuestro test el valor real, output, era también “En vía de desarrollo”.
Por lo tanto, nuestro modelo no presentó ningún error en la clasificación y comprobamos que efectivamente el porcentaje de aciertos (accuracy) de la predicción realizada por el modelo con respecto a los outputs del test es del 100%.
EXACTITUD, SENSITIVIDAD Y ESPECIFICIDAD
# Obtener la matriz de confusión
cm <- confusionMatrix(base_paises_knnPrediccion, base_paises_testeo$Status)
# Crear la tabla con los valores relevantes
tabla_valores <- data.frame(
Metrica = c("Exactitud", "Sensitividad", "Especificidad", "Valor predictivo positivo", "Valor predictivo negativo"),
Valor = c(cm$overall["Accuracy"], cm$byClass["Sensitivity"], cm$byClass["Specificity"], cm$byClass["Pos Pred Value"], cm$byClass["Neg Pred Value"])) %>%
kable(format = "html") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), full_width = FALSE, position = "center") %>%
collapse_rows(columns = 1) %>%
row_spec(0, background = "#3498DB", bold = TRUE, color = "white", align = "c") %>%
row_spec(1:nrow(confusion_matrix), bold = FALSE, color = "black", align = "c") %>%
row_spec(2:nrow(confusion_matrix), bold = FALSE, color = "black", align = "c") %>%
row_spec(3:nrow(confusion_matrix), bold = FALSE, color = "black", align = "c") %>%
row_spec(4:nrow(confusion_matrix), bold = FALSE, color = "black", align = "c") %>%
row_spec(5:nrow(confusion_matrix), bold = FALSE, color = "black", align = "c") %>%
column_spec(1, border_right = TRUE, width = "20%", background = "#3498DB", bold = TRUE, color = "white") %>%
column_spec(2, border_left = TRUE, border_right = TRUE, width = "40%") %>%
column_spec(3, border_left = TRUE, border_right = TRUE, width = "40%") %>%
column_spec(ncol(confusion_matrix), border_right = TRUE)
# Imprimir la tabla
tabla_valores
| Metrica | Valor | |
|---|---|---|
| Accuracy | Exactitud | 1 |
| Sensitivity | Sensitividad | 1 |
| Specificity | Especificidad | 1 |
| Pos Pred Value | Valor predictivo positivo | 1 |
| Neg Pred Value | Valor predictivo negativo | 1 |
Exactitud (Accuracy): La exactitud es la proporción de predicciones correctas realizadas por el modelo en relación al total de muestras. Es una medida general de la capacidad del modelo para clasificar correctamente las muestras en todas las categorías. Se calcula como el cociente entre el número de predicciones correctas y el número total de muestras.
\[ Accuracy\;=\;\frac{VP\;+\;VN}{VP\;+\;VN\;+\;FP+\;FN}\;=\;\frac{9\;+\;27}{9\;+\;27\;+\;0+\;0}\;=\;1 \]
Sensitividad (Sensitivity): También conocida como tasa de “verdaderos positivos”, mide la proporción de muestras positivas que son correctamente identificadas por el modelo. Indica la capacidad del modelo para detectar correctamente las muestras que pertenecen a la clase positiva. Se calcula como el cociente entre los verdaderos positivos y la suma de los verdaderos positivos y los falsos negativos.
\[ Sensitivity\;=\;\frac{VP}{VP\;+\;FN}\;=\;\frac{9}{9\;+\;0}\;=\;1 \]
Especificidad (Specificity): También conocida como tasa de “verdaderos negativos”, es la proporción de muestras negativas que son correctamente identificadas como negativas por el modelo. Indica la capacidad del modelo para identificar correctamente las muestras que no pertenecen a la clase positiva. Se calcula como el cociente entre los verdaderos negativos y la suma de los verdaderos negativos y los falsos positivos.
\[ Specificity\;=\;\frac{VN}{VN\;+\;FP}\;=\;\frac{27}{27\;+\;0}\;=\;1 \]
Valor predictivo positivo (Pos Pred Value): También conocido como precisión, es la proporción de predicciones positivas que son verdaderas. Representa la probabilidad de que una muestra clasificada como positiva sea realmente positiva. Se calcula como el cociente entre los verdaderos positivos y la suma de los verdaderos positivos y los falsos positivos.
\[ \text{Pos Pred Value}\;=\;\frac{VP}{VP\;+\;FN}\;=\;\frac{9}{9\;+\;0}\;=\;1 \]
Valor predictivo negativo (Neg Pred Value): El valor predictivo negativo es la proporción de predicciones negativas que son verdaderas. Representa la probabilidad de que una muestra clasificada como negativa sea realmente negativa. Se calcula como el cociente entre los verdaderos negativos y la suma de los verdaderos negativos y los falsos negativos.
\[ \text{Neg Pred Value}\;=\;\frac{VN}{VN\;+\;FP}\;=\;\frac{27}{27\;+\;0}\;=\;1 \]
Como conclusiones generales a partir de los resultados arrojados por el modelo desarrollado a lo largo de este ejercicio podemos concluir que:
Alta precisión: La capacidad del modelo para clasificar correctamente todas las muestras indica una alta precisión en la predicción. Esto significa que el modelo ha aprendido patrones y características relevantes en los datos de entrenamiento y es capaz de aplicarlos de manera efectiva en la clasificación de nuevos datos.
Buena capacidad de generalización: El hecho de que el modelo clasifique correctamente todos los datos indica que ha logrado generalizar bien a partir de los ejemplos de entrenamiento. Esto sugiere que el modelo ha capturado las relaciones subyacentes en los datos y puede aplicar ese conocimiento a nuevos casos.
Adecuada elección de parámetros: La elección adecuada de parámetros, como el valor de “k” en k-NN, puede haber contribuido al rendimiento exitoso del modelo. En este caso, es probable que se haya seleccionado un valor óptimo de “k” que permitió un equilibrio adecuado entre la sensibilidad al ruido y la capacidad de capturar detalles importantes en los datos.
Evaluación adicional: Aunque el modelo clasificó correctamente todos los datos, es importante realizar una evaluación adicional para garantizar que este alto rendimiento no sea el resultado de sobreajuste o coincidencia fortuita. Lo cual se comprobó a través de técnicas como la validación cruzada o la división de datos en conjuntos de entrenamiento, validación y prueba para obtener una evaluación más robusta del modelo.
En resumen, el modelo k-NN demuestra una alta precisión y una buena capacidad de generalización. Esto indica que el modelo ha aprendido de manera efectiva los patrones presentes en los datos de entrenamiento y es capaz de aplicar ese conocimiento para realizar predicciones precisas en nuevos casos. Sin embargo, es importante realizar una evaluación adicional para garantizar la fiabilidad y robustez del modelo.
El modelo ha alcanzado una precisión del 100%, lo que indica que ha clasificado correctamente todas las muestras del conjunto de prueba. Este resultado demuestra que el modelo es altamente efectivo en la clasificación de nuevos datos. Dicho lo anterior tenemos que:
Se observa que el valor de “k” que proporciona la mayor precisión para el modelo de clasificación es k = 5. Esto significa que considerar los 5 vecinos más cercanos al realizar una predicción brinda el mejor rendimiento en términos de precisión y capacidad de generalización.
A medida que aumenta el valor de “k” más allá de 5, la precisión del modelo disminuye gradualmente. Esto indica que considerar un número mayor de vecinos no necesariamente mejora el rendimiento del modelo para este conjunto de datos.
Es importante tener en cuenta que, si bien un valor de “k” más bajo como k = 5 resulta en una mayor precisión, también existe el riesgo de que el modelo se vuelva más susceptible a variaciones aleatorias o ruido en los datos, lo que podría llevar a un sobreajuste.
La matriz de confusión muestra que el modelo ha logrado clasificar todas las muestras en las clases “Desarrollado” y “En vía de desarrollo” sin cometer errores. Esto indica una alta capacidad de discriminación del modelo y un ajuste adecuado a los patrones presentes en los datos de entrenamiento. Las probabilidades de predicción muestran que el modelo tiene una alta confianza en sus predicciones, asignando una probabilidad cercana a 1 a las clases correctas para la mayoría de las muestras de prueba. Dicho lo anterior tenemos que:
El modelo muestra una alta confianza en sus predicciones, ya que las probabilidades asignadas a las clases son bastante pronunciadas. La mayoría de las predicciones tienen una probabilidad cercana a 1 para la clase correspondiente, lo que indica una alta certeza en la clasificación.
La precisión del modelo, medida mediante el porcentaje de aciertos (accuracy), es del 100%. Esto significa que el modelo clasificó correctamente todos los datos de prueba. Es importante destacar que la precisión perfecta puede indicar un posible sobreajuste en el modelo, especialmente si el conjunto de datos de prueba es pequeño. Por lo tanto sería recomendable evaluar el modelo en conjuntos de datos más grandes o realizar validación cruzada para una evaluación más robusta.
Teniendo en cuenta la alta precisión y confianza del modelo, podemos afirmar que el modelo k-NN entrenado tiene un buen desempeño en la clasificación de nuevos datos y muestra una capacidad de generalización satisfactoria.
Las métricas de exactitud, sensibilidad, especificidad, valor predictivo positivo y valor predictivo negativo tienen un valor de 1, lo que indica un rendimiento perfecto del modelo en la clasificación de las muestras. Esto demuestra que el modelo es altamente confiable y preciso en sus predicciones. Dicho lo anterior tenemos que:
La matriz de confusión muestra que el modelo k-NN clasificó correctamente todas las muestras tanto para la clase “Desarrollado” como para la clase “En vía de desarrollo”. No hubo falsos positivos ni falsos negativos en la clasificación.
La exactitud (accuracy) del modelo es del 100%, lo que indica que todas las predicciones realizadas por el modelo coincidieron con los resultados reales en el conjunto de prueba. Esto demuestra que el modelo es altamente preciso en la clasificación de los datos.
La sensibilidad (sensitivity) del modelo también es del 100%, lo que significa que el modelo identificó correctamente todas las muestras que pertenecen a la clase “Desarrollado”. No se produjo ningún falso negativo.
La especificidad (specificity) del modelo también es del 100%, lo que indica que el modelo identificó correctamente todas las muestras que no pertenecen a la clase “Desarrollado”. No hubo falsos positivos.
Tanto el valor predictivo positivo (pos pred value) como el valor predictivo negativo (neg pred value) son del 100%, lo que significa que todas las predicciones positivas y negativas realizadas por el modelo fueron correctas.
Domestic general government health expenditure (% of GDP). (s. f.). Indexmundi.com. Recuperado 15 de mayo de 2023, de https://www.indexmundi.com/facts/indicators/SH.XPD.GHED.GD.ZS
GDP - per capita (PPP) by country - Thematic Map - World. (s. f.). Indexmundi.com. Recuperado 15 de mayo de 2023, de https://www.indexmundi.com/map/?t=0&v=67&r=xx&l=en
Infant mortality rate by country - Thematic Map - World. (s. f.). Indexmundi.com. Recuperado 17 de mayo de 2023, de https://www.indexmundi.com/map/?t=0&v=29&r=xx&l=en
Intentional homicides (per 100,000 people). (s. f.). Indexmundi.com. Recuperado 18 de mayo de 2023, de https://www.indexmundi.com/facts/indicators/VC.IHR.PSRC.P5
Life expectancy at birth by country - Thematic Map - World. (s. f.). Indexmundi.com. Recuperado 18 de mayo de 2023, de https://www.indexmundi.com/map/?t=0&v=30&r=xx&l=en
¿Qué es el algoritmo de k vecinos más cercanos? (s. f.). Ibm.com. Recuperado 18 de mayo de 2023, de https://www.ibm.com/mx-es/topics/knn
School enrollment, secondary (% net). (s. f.). Indexmundi.com. Recuperado 18 de mayo de 2023, de https://www.indexmundi.com/facts/indicators/SE.SEC.NENR
Wikipedia contributors. (s. f.). Archivo:2021-22 UN Human Development Report.svg. Wikipedia, The Free Encyclopedia. https://es.wikipedia.org/wiki/Archivo:2021-22_UN_Human_Development_Report.svg
(S. f.-a). Recuperado 19 de mayo de 2023, de http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://academica-e.unavarra.es/bitstream/handle/2454/29112/Memoria.pdf?sequence=2
(S. f.-b). Recuperado 22 de mayo de 2023, de http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://oa.upm.es/68050/1/TFG_LORETO_GARCIA_TEJADA.pdf
(S. f.-c). Recuperado 22 de mayo de 2023, de http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://sebastianraschka.com/pdf/lecture-notes/stat479fs18/02_knn_notes.pdf