REPORTE APRENDIZAJE SUPERVISADO

Introducción sobre el contexto

Usualmente el “status” de un país se refiere a la posición o clasificación que se le asigna en función de su nivel de desarrollo económico, social y político. Tradicionalmente, se ha utilizado la distinción entre países “desarrollados” y “en vía de desarrollo” para categorizar y comparar naciones con base en su nivel de progreso. Sin embargo, esta clasificación no es estática y puede variar a lo largo del tiempo debido a diversos factores y cambios en los principales índices utilizados para medir el desarrollo de un país.

Por lo tanto, variables como la expectativa de vida, el gasto público general en salud, la mortalidad infantil, la escolarización, el Producto Interno Bruto, los homicidios y el Índice de Desarrollo Humano son indicadores clave que se utilizan para evaluar y determinar el estatus de un país, razón por la cual serán estos los evaluados a lo largo del desarrollo de este ejercicio.

Cabe destacar que de manera general los países desarrollados tienden a presentar altos niveles de expectativa de vida, un mayor gasto público en salud, un PIB per cápita elevado, bajos índices de mortalidad infantil, un mayor porcentaje de acceso a educación, tasas de homicidios más bajas y un IDH más alto. Por lo cual, se puede afirmar que estas variables están interconectadas y reflejan aspectos como el bienestar de la población, el acceso a servicios básicos, la estabilidad social y la calidad de vida. Por otro lado, los países en vía de desarrollo pueden mostrar deficiencias en estas variables, lo que puede ser un indicativo de la necesidad de invertir en áreas estratégicas para lograr un mayor desarrollo socioeconómico y mejorar las condiciones de vida de su población.

Tabla de clasificación:

A pesar de lo mencionado previamente es importante tener en cuenta que estas variables no son determinantes absolutos del estatus de un país, pero sí brindan información relevante para evaluar y comparar su nivel de desarrollo. Dicho lo anterior, en la siguiente tabla se presentan un conglomerado de países clasificados entre “Desarrollados” y “En vía de desarrollo” según el comportamiento que presenten en cada uno de los indicadores previamente mencionados:

# creación de la variable "base_paises_tabla" para lectura y visualización de los datos en excel.
base_paises_tabla <- read.csv("WHO.csv", header = TRUE, sep = "," )

# Creación de un vector que contiene 4 variables generales (country, cod, year, status) y 7 variables descriptivas (Life.expectancy, Total.expenditure, GDP, Infant.deaths, HDI, Schooling, Homicides).
variables_seleccionadas_tabla <- c("Country", "Cod", "Year", "Life.expectancy", "Total.expenditure", "Infant.deaths", "Schooling", "GDP", "Homicides", "HDI", "Status")

# Cambiamos las etiquetas de la columna "Status" por "Desarrollado" y "En vía de desarrollo".
base_paises_tabla <- base_paises_tabla %>% 
  mutate(Status = ifelse(Status == "Developed", "Desarollado", "En vía de desarrollo")) %>% 
  mutate_at(c("Status"), ~as.factor(.))

# Establecimiento del filtro para el año asignado. 
# Eliminación de filas y espacios que tienen datos faltantes. 
base_paises_tabla <- base_paises_tabla %>% filter(Year==2011) %>% 
  select(variables_seleccionadas_tabla) %>%
  na.omit()

# Comenzar numeración del indice desde 1
rownames(base_paises_tabla) <- NULL

# Creación de la tabla de clasificación
tabla <- base_paises_tabla %>% 
  select(all_of(variables_seleccionadas_tabla))

tabla %>% 
  kable() %>% 
  kable_styling(full_width = F, bootstrap_options = "striped") %>%
  row_spec(0, bold = TRUE, color = "white", background = "#3498DB", align = "c") %>% 
  column_spec(1, border_left = TRUE, border_right = TRUE) %>%
  column_spec(2, border_right = TRUE) %>%
  column_spec(3, border_right = TRUE) %>%
  column_spec(4, border_right = TRUE) %>%
  column_spec(5, border_right = TRUE) %>%
  column_spec(6, border_right = TRUE) %>%
  column_spec(7, border_right = TRUE) %>%
  column_spec(8, border_right = TRUE) %>%
  column_spec(9, border_right = TRUE) %>%
  column_spec(10, border_right = TRUE) %>%
  column_spec(11, border_right = TRUE) %>%
  row_spec(1:nrow(tabla), color = "black", align = "c") %>%
  scroll_box(width = "100%", height = "300px") %>%
  kable_styling(position = "center")

Country	Cod	Year	Life.expectancy	Total.expenditure	Infant.deaths	Schooling	GDP	Homicides	HDI	Status
Afghanistan	AFG	2011	61.55300	2.32	8.62	3.3	591.1628	8.85	0.471	En vía de desarrollo
Angola	AGO	2011	56.33000	5.43	11.32	4.7	4615.4680	10.60	0.535	En vía de desarrollo
United Arab Emirates	ARE	2011	76.52100	2011.00	0.83	10.0	39194.6766	0.87	0.841	En vía de desarrollo
Argentina	ARG	2011	75.43900	16.05	1.39	9.8	12848.8642	5.27	0.819	En vía de desarrollo
Armenia	ARM	2011	73.57200	5.27	1.71	11.2	3525.8047	4.33	0.731	En vía de desarrollo
Antigua and Barbuda	ATG	2011	75.95600	11.78	0.95	9.2	12746.2050	2.86	0.762	En vía de desarrollo
Austria	AUT	2011	80.98293	15.26	0.42	11.8	51374.9584	0.83	0.897	Desarollado
Burundi	BDI	2011	57.92500	8.52	8.51	2.6	249.5780	5.39	0.403	En vía de desarrollo
Belgium	BEL	2011	80.58537	15.21	0.44	11.2	47348.5250	1.64	0.904	Desarollado
Burkina Faso	BFA	2011	57.76100	60.27	10.94	1.4	751.1730	9.95	0.385	En vía de desarrollo
Bangladesh	BGD	2011	70.25600	2.99	4.63	5.1	861.7584	3.13	0.557	En vía de desarrollo
Bulgaria	BGR	2011	74.16341	54.62	1.03	10.7	7809.4251	1.85	0.782	Desarollado
Bahrain	BHR	2011	76.20000	8.49	0.82	8.6	22514.2379	0.78	0.798	En vía de desarrollo
Belarus	BLR	2011	70.55366	10.20	0.51	12.0	6519.2302	4.89	0.798	En vía de desarrollo
Belize	BLZ	2011	72.57000	11.21	1.84	10.5	4423.4898	36.76	0.702	En vía de desarrollo
Brazil	BRA	2011	73.92100	10.31	1.79	7.1	13245.6125	30.68	0.731	En vía de desarrollo
Brunei Darussalam	BRN	2011	74.85200	5.87	1.05	8.8	47055.8411	1.10	0.846	En vía de desarrollo
Bhutan	BTN	2011	68.84000	7.90	4.01	2.3	2563.2575	3.35	0.575	En vía de desarrollo
Botswana	BWA	2011	61.91000	14.32	4.88	8.9	7617.3252	16.90	0.673	En vía de desarrollo
Central African Republic	CAF	2011	47.95000	2011.00	14.68	3.7	551.7501	21.91	0.358	En vía de desarrollo
Canada	CAN	2011	81.44878	19.62	0.56	12.7	52087.4464	1.75	0.905	Desarollado
Switzerland	CHE	2011	82.69512	2011.00	0.45	13.3	88415.6280	0.62	0.932	Desarollado
Chile	CHL	2011	78.98600	2011.00	0.85	9.8	14637.2402	4.76	0.814	Desarollado
China	CHN	2011	74.70800	2011.00	1.46	7.4	5618.1323	1.11	0.714	En vía de desarrollo
Cote d’Ivoire	CIV	2011	53.62000	20011.00	10.66	4.4	1208.5830	12.67	0.445	En vía de desarrollo
Colombia	COL	2011	75.65500	2011.00	1.80	7.5	7335.1669	57.47	0.725	En vía de desarrollo
Comoros	COM	2011	62.24000	2011.00	8.27	4.4	1447.9636	8.34	0.487	En vía de desarrollo
Costa Rica	CRI	2011	78.91900	2011.00	0.99	8.4	9121.9325	10.31	0.760	En vía de desarrollo
Cuba	CUB	2011	78.40000	2011.00	0.59	11.3	6139.7193	4.90	0.778	En vía de desarrollo
Cyprus	CYP	2011	79.62100	7.51	0.35	11.6	32396.3857	2.82	0.853	Desarollado
Czech Republic	CZE	2011	77.87317	15.18	0.33	12.5	21871.2661	0.91	0.865	Desarollado
Germany	DEU	2011	80.43659	19.90	0.41	13.9	46644.7760	0.91	0.926	Desarollado
Djibouti	DJI	2011	60.66700	4.07	7.44	4.0	1451.5430	7.36	0.454	En vía de desarrollo
Denmark	DNK	2011	79.80000	16.60	0.41	12.7	61753.6471	0.83	0.922	Desarollado
Dominican Republic	DOM	2011	72.28400	15.56	3.39	7.4	5913.4321	27.56	0.706	En vía de desarrollo
Algeria	DZA	2011	75.19900	10.73	2.67	7.4	5462.2609	1.32	0.736	En vía de desarrollo
Ecuador	ECU	2011	75.28900	11.95	1.75	8.0	5200.5558	19.50	0.721	En vía de desarrollo
Eritrea	ERI	2011	62.73200	2.35	5.32	3.9	642.5077	11.38	0.417	En vía de desarrollo
Spain	ESP	2011	82.47561	15.34	0.37	9.5	31636.4463	0.82	0.870	Desarollado
Estonia	EST	2011	76.22927	12.36	0.42	12.5	17621.5480	5.27	0.853	Desarollado
Ethiopia	ETH	2011	62.50500	4.79	7.92	2.4	354.4796	8.44	0.423	En vía de desarrollo
Finland	FIN	2011	80.47073	13.28	0.29	12.3	51081.9977	1.95	0.907	Desarollado
Fiji	FJI	2011	66.75900	7.18	2.40	9.8	4371.4575	2.40	0.717	En vía de desarrollo
France	FRA	2011	82.11463	14.82	0.42	10.9	43790.7320	0.98	0.884	Desarollado
Gabon	GAB	2011	62.16800	9.72	6.12	7.7	10809.6465	9.39	0.670	En vía de desarrollo
United Kingdom	GBR	2011	80.95122	2011.00	0.50	13.0	42038.5723	1.44	0.899	Desarollado
Georgia	GEO	2011	71.77300	9.52	1.55	12.2	4021.7433	5.50	0.741	En vía de desarrollo
Ghana	GHA	2011	61.38100	6.04	6.89	6.8	1549.4629	6.38	0.563	En vía de desarrollo
Guinea	GIN	2011	57.38700	4.11	10.51	2.0	651.1354	9.72	0.418	En vía de desarrollo
Guinea-Bissau	GNB	2011	55.14400	3.01	10.82	2.7	703.6637	10.64	0.435	En vía de desarrollo
Equatorial Guinea	GNQ	2011	55.94500	2.94	10.98	5.5	21641.8705	3.54	0.584	En vía de desarrollo
Greece	GRC	2011	80.73171	8.75	0.39	10.3	25916.2935	1.73	0.852	Desarollado
Grenada	GRD	2011	72.76800	8.35	1.46	8.4	7291.0589	4.38	0.747	En vía de desarrollo
Guatemala	GTM	2011	71.86100	17.21	3.41	5.3	3281.6675	39.27	0.619	En vía de desarrollo
Guyana	GUY	2011	68.32100	10.59	3.68	8.2	4908.5735	18.92	0.639	En vía de desarrollo
Honduras	HND	2011	73.56900	10.56	2.27	5.6	2088.3153	83.56	0.598	En vía de desarrollo
Croatia	HRV	2011	76.77561	2011.00	0.53	11.0	14609.5244	1.16	0.815	Desarollado
Haiti	HTI	2011	60.87900	5.44	8.06	4.8	1287.9541	20.97	0.477	En vía de desarrollo
Hungary	HUN	2011	74.85854	9.93	0.59	12.0	14216.1656	1.68	0.827	Desarollado
Indonesia	IDN	2011	69.54200	8.05	3.18	7.6	3643.0439	4.83	0.669	En vía de desarrollo
India	IND	2011	67.13000	3.38	5.53	5.4	1458.1035	4.32	0.591	En vía de desarrollo
Ireland	IRL	2011	80.74634	19.97	0.41	10.9	51848.9097	0.94	0.895	Desarollado
Iraq	IRQ	2011	68.84800	4.98	3.60	6.6	6036.3962	16.61	0.656	En vía de desarrollo
Iceland	ISL	2011	82.35854	15.90	0.26	11.0	47516.8747	0.68	0.901	Desarollado
Israel	ISR	2011	81.65610	12.11	0.44	12.7	33669.2465	2.35	0.892	Desarollado
Italy	ITA	2011	82.18780	13.15	0.39	9.8	38599.0622	0.91	0.875	Desarollado
Jamaica	JAM	2011	74.01200	13.95	1.82	9.0	5111.4714	50.39	0.715	En vía de desarrollo
Jordan	JOR	2011	73.58100	12.39	2.05	9.9	3852.7528	2.96	0.726	En vía de desarrollo
Japan	JPN	2011	82.59122	23.44	0.34	11.8	48167.9973	0.35	0.890	Desarollado
Kazakhstan	KAZ	2011	68.98000	7.86	1.83	11.5	11634.0019	9.65	0.772	En vía de desarrollo
Kenya	KEN	2011	61.85100	7.89	5.63	6.2	971.6333	5.89	0.552	En vía de desarrollo
Kyrgyz Republic	KGZ	2011	69.60244	6.13	2.78	10.6	1123.8832	9.26	0.639	En vía de desarrollo
Cambodia	KHM	2011	67.04300	4.87	4.11	4.4	882.2755	2.46	0.546	En vía de desarrollo
Kiribati	KIR	2011	66.07200	7.36	6.37	7.9	1735.0184	5.46	0.590	En vía de desarrollo
Kuwait	KWT	2011	74.55000	8.91	1.04	7.0	48631.6913	1.86	0.794	En vía de desarrollo
Lao PDR	LAO	2011	64.79700	4.12	7.77	4.8	1378.3614	7.29	0.558	En vía de desarrollo
Lebanon	LBN	2011	78.50700	14.33	0.98	8.0	7674.8354	3.93	0.760	En vía de desarrollo
Liberia	LBR	2011	60.14600	4.20	9.34	4.2	596.8971	11.56	0.417	En vía de desarrollo
Sri Lanka	LKA	2011	75.61400	2011.00	1.12	10.8	3200.8338	4.54	0.751	En vía de desarrollo
Lithuania	LTU	2011	73.56341	12.72	0.55	11.8	14392.5343	6.99	0.828	Desarollado
Luxembourg	LUX	2011	80.98780	10.63	0.29	11.8	115761.5077	0.86	0.892	Desarollado
Latvia	LVA	2011	73.57561	9.03	0.73	12.6	13895.1626	6.89	0.821	Desarollado
Morocco	MAR	2011	74.69600	7.49	3.06	4.4	3046.9491	1.52	0.626	En vía de desarrollo
Madagascar	MDG	2011	63.83600	15.03	5.83	6.1	531.2656	7.94	0.504	En vía de desarrollo
Maldives	MDV	2011	76.29300	21.44	1.19	5.2	7291.4276	2.23	0.682	En vía de desarrollo
Mexico	MEX	2011	75.01100	11.05	1.68	8.4	10203.4209	24.60	0.751	En vía de desarrollo
Mali	MLI	2011	55.70100	5.43	13.07	2.0	837.6034	12.10	0.408	En vía de desarrollo
Malta	MLT	2011	80.74634	16.17	0.66	10.5	23155.5548	0.89	0.843	Desarollado
Myanmar	MMR	2011	63.98300	3.61	6.14	4.3	1176.2425	4.31	0.540	En vía de desarrollo
Mongolia	MNG	2011	67.81800	7.64	2.42	9.8	3757.5586	9.84	0.711	En vía de desarrollo
Mozambique	MOZ	2011	53.04300	5.55	9.76	3.2	594.5865	4.14	0.407	En vía de desarrollo
Mauritania	MRT	2011	62.79900	6.07	9.50	3.9	1879.7714	11.93	0.490	En vía de desarrollo
Malawi	MWI	2011	57.16100	9.78	8.31	4.3	534.9513	3.08	0.450	En vía de desarrollo
Malaysia	MYS	2011	74.68300	8.92	0.76	10.1	10399.3728	2.75	0.778	En vía de desarrollo
Namibia	NAM	2011	58.08500	10.65	5.23	6.3	5723.3255	18.00	0.607	En vía de desarrollo
Niger	NER	2011	58.08100	9.66	11.64	1.5	512.5956	10.91	0.325	En vía de desarrollo
Nigeria	NGA	2011	51.34600	4.44	12.47	5.5	2487.5982	10.58	0.494	En vía de desarrollo
Nicaragua	NIC	2011	72.69200	17.96	2.16	6.1	1655.8018	13.91	0.627	En vía de desarrollo
Netherlands	NLD	2011	81.20488	15.29	0.43	12.0	54159.3466	0.90	0.921	Desarollado
Norway	NOR	2011	81.29512	17.40	0.31	12.8	100600.5624	2.37	0.943	Desarollado
Nepal	NPL	2011	68.02800	4.51	4.48	3.3	699.4293	3.05	0.535	En vía de desarrollo
New Zealand	NZL	2011	80.90488	19.29	0.61	12.0	38437.5432	1.23	0.902	Desarollado
Oman	OMN	2011	75.91600	7.57	1.15	8.3	20876.7880	0.79	0.795	En vía de desarrollo
Pakistan	PAK	2011	65.56200	4.30	8.88	4.8	1164.9761	8.35	0.530	En vía de desarrollo
Panama	PAN	2011	76.98900	20.09	1.95	9.3	9358.2515	24.37	0.764	En vía de desarrollo
Peru	PER	2011	74.69700	14.90	1.94	9.1	5869.3231	6.58	0.729	En vía de desarrollo
Philippines	PHL	2011	69.98400	7.11	3.09	9.0	2450.7337	16.60	0.670	En vía de desarrollo
Papua New Guinea	PNG	2011	62.31600	9.15	6.47	4.1	2406.9097	10.72	0.529	En vía de desarrollo
Poland	POL	2011	76.69512	10.96	0.56	12.3	13879.5610	1.22	0.839	Desarollado
Portugal	PRT	2011	80.47073	12.55	0.38	8.3	23186.9131	1.11	0.826	Desarollado
Paraguay	PRY	2011	72.86000	15.54	2.54	7.8	5322.9638	12.40	0.680	En vía de desarrollo
Russian Federation	RUS	2011	69.68390	8.78	1.01	11.6	14311.0843	12.28	0.789	En vía de desarrollo
Rwanda	RWA	2011	64.52300	8.88	5.75	3.8	668.8690	4.80	0.493	En vía de desarrollo
Saudi Arabia	SAU	2011	74.08900	13.51	1.12	9.1	23745.8016	1.78	0.823	En vía de desarrollo
Sudan	SDN	2011	63.17100	2011.00	7.48	3.2	1437.7733	6.59	0.474	En vía de desarrollo
Senegal	SEN	2011	64.89800	4.26	6.26	2.4	1373.5208	8.51	0.467	En vía de desarrollo
Singapore	SGP	2011	81.74390	15.28	0.28	11.2	53890.4287	0.57	0.914	Desarollado
Solomon Islands	SLB	2011	70.98500	7.44	2.49	5.2	1938.8948	4.71	0.514	En vía de desarrollo
Sierra Leone	SLE	2011	50.23400	7.91	15.43	3.1	448.3375	8.82	0.392	En vía de desarrollo
El Salvador	SLV	2011	71.44900	19.24	1.84	6.5	3266.0121	70.46	0.666	En vía de desarrollo
Serbia	SRB	2011	74.53659	11.79	0.74	10.6	6809.1598	1.90	0.769	En vía de desarrollo
South Sudan	SSD	2011	55.32500	2.11	10.21	4.8	1516.4039	14.11	0.416	En vía de desarrollo
Sao Tome and Principe	STP	2011	67.88500	10.76	4.29	5.0	1254.5179	6.97	0.548	En vía de desarrollo
Suriname	SUR	2011	70.67600	2011.00	2.38	7.8	8263.2038	8.04	0.706	En vía de desarrollo
Slovak Republic	SVK	2011	75.95854	12.90	0.68	12.1	18361.5695	1.76	0.837	Desarollado
Slovenia	SVN	2011	79.97073	13.34	0.30	12.2	25095.1323	0.83	0.884	Desarollado
Sweden	SWE	2011	81.80244	2011.00	0.30	12.4	60755.7596	0.88	0.906	Desarollado
Eswatini	SWZ	2011	48.14100	9.45	8.14	5.9	4496.6004	22.78	0.550	En vía de desarrollo
Seychelles	SYC	2011	72.72439	10.14	1.43	8.4	12189.0952	14.74	0.741	En vía de desarrollo
Chad	TCD	2011	51.42400	2011.00	14.61	2.0	984.7359	9.90	0.382	En vía de desarrollo
Togo	TGO	2011	58.09200	2011.00	8.77	4.4	587.0971	9.73	0.463	En vía de desarrollo
Thailand	THA	2011	74.59300	2011.00	1.27	7.5	5492.1213	6.91	0.727	En vía de desarrollo
Tajikistan	TJK	2011	69.05500	2011.00	4.10	10.8	847.3821	2.07	0.637	En vía de desarrollo
Timor-Leste	TLS	2011	67.47700	2011.00	5.96	4.5	947.5133	4.25	0.624	En vía de desarrollo
Tonga	TON	2011	70.14800	7.15	1.75	10.9	4002.6592	3.69	0.716	En vía de desarrollo
Trinidad and Tobago	TTO	2011	72.17000	2011.00	3.07	10.8	19034.1492	37.76	0.773	En vía de desarrollo
Tunisia	TUN	2011	75.20600	2011.00	1.65	6.9	4264.6749	3.12	0.718	En vía de desarrollo
Turkey	TUR	2011	74.94400	2011.00	1.79	7.2	11420.7733	4.93	0.753	Desarollado
Uganda	UGA	2011	58.08700	2011.00	7.30	5.4	829.0103	12.51	0.490	En vía de desarrollo
Ukraine	UKR	2011	70.80927	2011.00	1.12	11.3	3569.7581	5.81	0.738	En vía de desarrollo
Uruguay	URY	2011	76.88200	2011.00	1.02	8.4	14236.6812	5.89	0.782	En vía de desarrollo
United States	USA	2011	78.64146	2011.00	0.72	13.3	49886.8181	5.37	0.917	Desarollado
Uzbekistan	UZB	2011	69.91000	2011.00	3.38	10.9	1926.2930	2.36	0.674	En vía de desarrollo
Vietnam	VNM	2011	74.90400	2011.00	2.27	7.6	1525.1160	1.83	0.664	En vía de desarrollo
Vanuatu	VUT	2011	69.27200	2011.00	2.93	6.7	3264.5370	2.69	0.592	En vía de desarrollo
South Africa	ZAF	2011	58.89500	13.34	5.12	9.9	8007.4128	36.18	0.657	En vía de desarrollo
Zambia	ZMB	2011	57.12600	2011.00	7.86	6.7	1672.9083	7.33	0.556	En vía de desarrollo
Zimbabwe	ZWE	2011	52.89600	7.56	8.12	7.3	1093.6540	14.00	0.478	En vía de desarrollo

TOP 10 países por indicador:

A continuación se presentarán una serie de gráficos de barras y tablas de clasificación que muestran el TOP 10 de países según los indicadores clave seleccionados. A través de los gráficos de barras, podremos comparar visualmente los valores de cada indicador entre diferentes países, identificando tendencias y diferencias significativas. Además, las tablas de clasificación nos permitirán conocer el rango y la posición relativa de los países en cada indicador. Al analizar y comprender estos indicadores, podremos obtener una visión más clara de las disparidades y desafíos existentes en cuanto al desarrollo humano en diferentes regiones del mundo, lo que nos permitirá tener una imagen más completa de cómo estos factores influyen en la clasificación de los países según su estatus de “desarrollado” o “en vía de desarrollo”:

Variable N°1

EXPECTATIVA DE VIDA - (LIFE.EXPECTANCY)

La expectativa de vida es un indicador clave para evaluar el desarrollo de un país. Los países desarrollados suelen tener una expectativa de vida más alta debido a la disponibilidad de atención médica de calidad, mejores condiciones de vida, educación sanitaria y acceso a una alimentación adecuada. En contraste, los países en vía de desarrollo pueden tener una expectativa de vida más baja debido a la falta de recursos y sistemas de salud deficientes. Lo anterior lo podemos corroborar a través del siguiente gráfico donde se observa que el top 10 de países con mayor expectativa de vida lo integran las principales potencias Europeas, Asiáticas y Norteamericanas.

Variable N°2

GASTO PÚBLICO GENERAL EN SALUD - (TOTAL.EXPENDITURE)

El gasto público en salud es un indicador importante para evaluar el nivel de desarrollo de un país. Los países desarrollados suelen asignar una mayor proporción de su presupuesto al gasto en salud para proporcionar servicios médicos de calidad y acceso universal a la atención médica. Por el contrario, los países en vía de desarrollo a menudo enfrentan limitaciones en sus recursos financieros y pueden destinar una proporción menor de su presupuesto a la salud, lo que resulta en una atención médica más limitada. En este caso el top 10 lo comandan dos países que se encuentran por fuera de Europa y Norteamérica y que además no son considerados como potencias o países con un gran nivel de desarrollo, aun así, el resto de la tabla la conforman países “primermundistas”.

Variable N°3

MORTALIDAD INFANTIL - (INFANT.DEATHS)

La mortalidad infantil es un indicador crítico de la salud y el bienestar de un país. Los países desarrollados suelen tener tasas de mortalidad infantil más bajas debido a mejores sistemas de atención médica y programas de salud materno-infantil. Por otro lado, los niveles de mortalidad infantil pueden reflejar la inestabilidad y subdesarrollo de un país, siendo generalmente más altos en países en vías de desarrollo debido a desafíos socioeconómicos, políticas públicas y distribución de la riqueza. Por lo tanto, es de esperar que esta lista la conformen países pertenecientes al medio oriente y África.

Variable N°4

ESCOLARIZACIÓN - (SCHOOLING)

La escolarización está estrechamente relacionada con la alfabetización, la adquisición de habilidades y conocimientos, y la capacidad de la población para participar activamente en la sociedad. Los países en vías de desarrollo pueden enfrentar desafíos en términos de acceso a la educación, calidad de la enseñanza y tasas de abandono escolar. Estos factores pueden limitar las oportunidades de desarrollo y contribuir a la brecha entre países desarrollados y en vías de desarrollo. Lo anterior lo podemos corroborar en su mayoría a través de la siguiente tabla donde se observa que el top 10 de países con mayor tasa de escolarización lo integran las principales potencias Europeas, Asiáticas y Norteamericanas, siendo Israel y Kazajistán un caso atípico a esta afirmación.

Variable N°5

PRODUCTO INTERNO BRUTO - (GDP)

El PIB es una medida del valor total de los bienes y servicios producidos en un país durante un período determinado. Los países desarrollados generalmente tienen un PIB per cápita más alto, lo que indica un mayor nivel de producción económica y una mejor calidad de vida en términos generales. Por otro lado, los países en vía de desarrollo suelen tener un PIB per cápita más bajo debido a su menor capacidad productiva y a la presencia de desafíos económicos y estructurales. Para este indicador se puede observar como el top de países se encuentran más distribuido a nivel global y no solamente concentrado en Europa y Norteamérica. Países como Qatar, Macau y Brunei son prueba de lo anterior y ejemplifican esta afirmación.

Variable N°6

HOMICIDIOS - (HOMICIDES)

La tasa de homicidios es un indicador de la seguridad y la estabilidad de un país. Los países desarrollados suelen tener tasas de homicidios más bajas, lo que refleja un entorno social más seguro y una mejor aplicación de la ley. En los países en vía de desarrollo, las tasas de homicidios suelen ser más altas debido a una combinación de factores como la pobreza, la desigualdad, la falta de acceso a la educación y los conflictos internos. En este caso se esperaría por lo tanto, que los mayores índices de homicidios se presenten en Suramérica y África debido a los altos porcentajes de violencia y delincuencia que se presentan en estas zonas.

Variable N°7

ÍNDICE DE DESARROLLO HUMANO - (HDI)

El IDH es un indicador compuesto que tiene en cuenta factores como la expectativa de vida, la educación y el ingreso per cápita. Los países desarrollados generalmente tienen un IDH más alto, lo que refleja un mejor nivel de desarrollo humano en general. Los países en vía de desarrollo tienden a tener un IDH más bajo debido a desafíos en áreas como la accesibilidad a la educación, la atención médica y la distribución equitativa de los recursos económicos. Lo anterior lo podemos corroborar en su mayoría a través del siguiente gráfico donde se observa que el top 10 de países con mayor índice de desarrollo humano lo integran las principales potencias Europeas, Asiáticas y Norteamericanas.

Descripción de las variables

Variable N°1

EXPECTATIVA DE VIDA - (LIFE.EXPECTANCY)

La elección de esta variable se justifica sobre la base de que la expectativa de vida de los habitantes de un país se relaciona estrechamente con su nivel de desarrollo, reflejando la salud y calidad de vida de la población. Dicho lo anterior se espera que los datos proporcionados por el análisis de esta variable sean una fuente acertada de información en el desarrollo del modelo en cuestión, el cual tiene como objetivo clasificar el conglomerado de países dados entre “Desarrollados” y “En vía de desarrollo”.

En general (según la interpretación realizada sobre la información de este indicador proporcionada por el Banco Mundial a través de la página web “IndexMundi”) los países desarrollados tienden a tener una expectativa de vida más alta que los países en vías de desarrollo. Esto se debe a que los primeros suelen contar con mejores sistemas de atención médica, acceso a servicios de salud de calidad, mejores condiciones sanitarias y políticas de salud, alimentación adecuada, educación y estilos de vida saludables, entre otros factores. Por otro lado, los países en vías de desarrollo a menudo enfrentan desafíos en términos de acceso limitado a servicios de salud, infraestructuras sanitarias deficientes, falta de recursos económicos para invertir en medicina, altas tasas de pobreza, desnutrición, falta de educación y enfermedades endémicas, lo cual contribuye a una expectativa de vida más baja y explica la disparidad presente en esta área en comparación con los países desarrollados.

INTERPRETACIÓN MAPA DE DENSIDAD

Lo anterior se puede evidenciar de manera más clara a través del siguiente mapa, en el cual se puede apreciar que la mayoría de territorios europeos y norteamericanos presentan una tonalidad más oscura lo que indica que tienen una expectativa de vida superior en comparación a otras regiones como el sur de América, África, la mayoría de Asia y Oceanía (a excepción de Australia y Nueva Zelanda, los cuales están catalogado como países desarrollados según la mayoría de organizaciones expertas en la materia).

Variable N°2

GASTO PÚBLICO GENERAL EN SALUD - (TOTAL.EXPENDITURE)

Esta variable explica el gasto público general en salud como porcentaje del gasto público total que realiza un gobierno. Este, por lo tanto, es un indicador que refleja el nivel de prioridad y recursos que destina un país específicamente al sector de la salud en relación con el gasto público en general, ya que proporciona información sobre el compromiso y la inversión que realiza un país en su sistema de salud.

En términos generales, los países desarrollados tienden a asignar una mayor proporción de su gasto público total al sector de la salud en comparación con los países en vías de desarrollo. Esto se debe a que los países desarrollados suelen contar con sistemas de salud más avanzados, infraestructuras sanitarias robustas, acceso generalizado a servicios de salud de calidad y una mayor capacidad económica para invertir en el bienestar de su población. Por su parte, los países en vías de desarrollo a menudo enfrentan limitaciones económicas y presupuestarias, lo que puede resultar en una asignación relativamente menor de recursos al sector de la salud en comparación con los países desarrollados. Estos países, por lo tanto, pueden enfrentar desafíos para satisfacer las necesidades de atención médica básica, mejorar la infraestructura sanitaria y brindar acceso equitativo a servicios de salud de calidad debido a las restricciones financieras.

INTERPRETACIÓN MAPA DE DENSIDAD

Sin embargo, es importante tener en cuenta que esta relación no es absoluta y existen variaciones dentro de cada categoría. Algunos países en vías de desarrollo han logrado asignar una proporción significativa de su gasto público total a la salud, priorizando el bienestar de su población a pesar de las limitaciones económicas. Esto se puede evidenciar en el siguiente mapa, en el cual se observa cómo a pesar de que de nuevo son los países Norteamericanos y Europeos, además de Japón, Australia y Nueva Zelanda, los que se encuentran en la parte alta de la tabla con un porcentaje entre el 8% y el 10% de gasto público en salud, algunos países suramericanos como Colombia, Argentina y Surinam no se encuentran tan alejados de estos porcentajes con una media entre el 6% y el 7%.

Variable N°3

MORTALIDAD INFANTIL - (INFANT.DEATHS)

La mortalidad infantil es un indicador crucial para evaluar el estado de desarrollo y bienestar de un país. Por ejemplo, de manera general, los países desarrollados tienen tasas de mortalidad infantil más bajas en comparación con los países en vías de desarrollo. Esto se debe a una serie de factores que influyen en la salud y el bienestar de los niños, como la disponibilidad y acceso a servicios de atención médica de calidad, la nutrición adecuada, el saneamiento básico y la educación en salud. Destacando también que los países desarrollados suelen contar con sistemas de salud sólidos, infraestructuras bien desarrolladas y programas efectivos de atención prenatal y pediátrica, lo que ayuda a prevenir de gran manera la mortalidad entre este grupo de personas.

Por otro lado, los países en vía de desarrollo enfrentan desafíos significativos en la reducción de este fenómeno debido a la falta de recursos, la pobreza, la desigualdad, la falta de acceso a servicios de salud básicos y la limitada disponibilidad de servicios de salud preventivos y curativos. Lo anterior sumado a los desafíos socioeconómicos y las disparidades regionales dentro de estos países contribuye a acrecentar esta problemática.

INTERPRETACIÓN MAPA DE DENSIDAD

Para este caso, el mapa de densidad en cuestión señala que las tasas más altas de mortalidad infantil se presentan en los continentes de África (mayoría del continente) y Asia (Sur, Occidente y Sudeste) con una amplia diferencia al resto del mundo, lo cual se corrobora a simple vista por la tonalidad significativamente más oscura que se presenta en estas zonas. Cabe resaltar de igual forma que una parte importante de Sudamérica también presenta tasas considerables de mortalidad infantil aunque no al nivel de los continentes mencionados previamente.

Variable N°4

ESCOLARIZACIÓN - (SCHOOLING)

Esta variable está intrínsecamente ligada al desarrollo de un país debido a que a medida que una nación progresa en su desarrollo, por lo general, se observa un incremento en el nivel de educación de su población. Esta relación se debe, en primer lugar, a que la educación es fundamental para el desarrollo del capital humano de un país. Cuanto más alto sea el nivel de escolarización de la población, mayor será la capacidad del país para generar y aplicar conocimientos. Un nivel educativo más elevado implica una mayor capacidad de innovación, adaptación a los cambios tecnológicos y económicos, y una mayor productividad en general. El capital humano es un impulsor esencial del crecimiento económico sostenible y el progreso a largo plazo.

Además, el nivel de escolarización influye en la competitividad económica de una nación. Los países con una fuerza laboral educada y capacitada tienden a ser más competitivos en la economía global. La educación proporciona a los individuos las habilidades y los conocimientos necesarios para acceder a empleos de mayor calidad y productividad. Asimismo, la educación fomenta la creatividad, el espíritu empresarial y la capacidad de adaptación, lo que contribuye al crecimiento económico y al desarrollo empresarial.

INTERPRETACIÓN MAPA DE DENSIDAD

En este escenario, se observa un grupo de países con medias superiores al 90% de su población escolarizada conformado principalmente por las principales potencias mundiales pertenecientes a Europa, Norteamérica, Asia y Oceanía. Un escalón más abajo se encuentran los países de América Latina con una media alrededor del 70% y al final de la tabla se encuentra la mayoría del continente Africano con una media que ronda entre el 30% y el 50% de personas con acceso a educación formal.

Variable N°5

PRODUCTO INTERNO BRUTO - (GDP)

El Producto Interno Bruto (PIB) de un país es una medida ampliamente utilizada para evaluar el tamaño y la actividad económica de una nación. El PIB representa el valor monetario de todos los bienes y servicios producidos dentro del país en un período de tiempo determinado.

Esta variable nos indica de manera general que los países desarrollados tienden a tener un PIB per cápita más alto en comparación con los países en vías de desarrollo. Esto se debe a que los países desarrollados suelen tener economías más diversificadas, mayor productividad laboral, infraestructuras avanzadas, tecnología de punta, instituciones sólidas y un mayor acceso a recursos financieros y tecnológicos, por lo que un alto PIB per cápita indica que el país tiene una mayor capacidad económica para satisfacer las necesidades básicas de su población, proporcionar servicios de calidad, invertir en educación, salud, infraestructuras y desarrollo sostenible. Generando que estos países suelan tener una mayor esperanza de vida, tasas más bajas de pobreza, menor desigualdad de ingresos y acceso a una mejor calidad de vida en general.

Por otro lado, los países en vías de desarrollo suelen tener un PIB per cápita más bajo en comparación al tipo de naciones mencionadas previamente. Esto debido a diversos factores, como una menor productividad económica, desigualdades estructurales, limitaciones en infraestructuras básicas, altos niveles de pobreza, falta de acceso a capital y tecnología, entre otros. Lo cual implica que estos países enfrenten a menudo desafíos en términos de desarrollo económico, social y humano.

INTERPRETACIÓN MAPA DE DENSIDAD

En esta ocasión el mapa evidencia un mayor PIB per cápita en el Norte de América, el Norte de Europa y un par de países fuera de estos continentes como Arabia Saudita y Australia, lo cual se corresponde con la afirmación de que los países denominados como “Desarrollados” suelen tener un producto interno bruto mucho más sólido y desarrollado que aquellos países en vía de desarrollo.

Variable N°6

HOMICIDIOS - (HOMICIDES)

La relación entre el número de homicidios y el nivel de desarrollo de un país puede ser compleja y estar influenciada por múltiples factores. Sin embargo, de manera general se puede afirmar que existe una tendencia de una menor incidencia de homicidios en países más desarrollados en comparación con aquellos en vías de desarrollo. Esto puede atribuirse a diversos factores, como una mayor estabilidad institucional, un sistema de justicia más efectivo, una mayor inversión en seguridad pública, así como mejores condiciones socioeconómicas y de bienestar.

Los países desarrollados suelen contar con sistemas de justicia y seguridad más sólidos, lo que contribuye a prevenir y controlar la criminalidad. Además, suelen tener una mejor distribución de la riqueza, una mayor estabilidad económica y social, así como acceso a servicios básicos y oportunidades de desarrollo para su población. Estos factores por lo tanto disminuyen los índices de violencia y homicidios. Por otro lado, en países en vías de desarrollo, se suelen presentar desafíos como la pobreza, la desigualdad social, la falta de acceso a oportunidades y servicios básicos, la debilidad institucional y la presencia de conflictos armados o violencia estructural, lo cual genera que se presenten mayores niveles de asesinatos y violencia en comparación con aquellos países denominados como desarrollados.

INTERPRETACIÓN MAPA DE DENSIDAD

En este caso, podemos observar en el mapa que se presentan niveles de homicidios muy superiores al resto en los casos puntuales de países como Colombia, México, Honduras, El Salvador, Venezuela, Brasil, Nigeria y Sudáfrica. Estando estos índices de homicidios muy por encima de los países desarrollados e incluso siendo altamente superiores a los de sus propios países vecinos en sus respectivos continentes.

Variable N°7

ÍNDICE DE DESARROLLO HUMANO - (HDI)

El Índice de Desarrollo Humano (IDH) es una medida compuesta que busca evaluar el nivel de desarrollo de un país en términos de tres dimensiones principales: el ingreso per cápita, la esperanza de vida al nacer y el nivel educativo. Estas dimensiones son consideradas indicadores clave para evaluar el bienestar y el desarrollo humano de una población.

En general, los países clasificados como desarrollados suelen tener un IDH más alto en comparación con los países en vías de desarrollo. Esto se debe a que los países desarrollados, en promedio, presentan mayores niveles de ingresos, una esperanza de vida más alta y una mejor educación en términos de acceso y calidad como ya lo hemos argumentado anteriormente. Estos factores suelen estar respaldados por sistemas socioeconómicos más robustos, una infraestructura desarrollada, una mayor estabilidad política y una mayor inversión en salud y educación.

Por otro lado, los países en vías de desarrollo tienden a tener un IDH más bajo, lo cual refleja un menor nivel de desarrollo humano en términos de ingresos, esperanza de vida y educación. Estos países enfrentan desafíos como la pobreza, la desigualdad, la falta de acceso a servicios básicos y la limitada infraestructura. Además, pueden experimentar dificultades en la implementación de políticas efectivas de desarrollo humano debido a factores como conflictos, corrupción y limitaciones institucionales.

INTERPRETACIÓN MAPA DE DENSIDAD

En esta ocasión alcanzamos a ver cómo países como Chile y Argentina alcanzan a ser clasificados dentro del grupo de países con un alto índice de desarrollado, dentro del cual se encuentran las principales potencias mundiales de los diferentes continentes, sin embargo el panorama para el resto del continente latinoamericano se asemeja más a las situaciones presentadas en el medio oriente, África, la mayoría de Oceanía y Asia.

Presentación de la metodología

La metodología utilizada en este caso de estudio se basa en la aplicación del algoritmo kNN (k-Nearest Neighbors) o “k” vecinos más cercanos. Este algoritmo es una técnica de aprendizaje supervisado que se utiliza para realizar clasificaciones o predicciones basándose en la proximidad entre los datos.

El algoritmo kNN se fundamenta en la idea de que los ejemplos similares tienden a pertenecer a la misma clase o tener valores similares en problemas de regresión. Para ello, se calcula la distancia entre el nuevo ejemplo a clasificar y los ejemplos del conjunto de entrenamiento. Los “k” ejemplos más cercanos se seleccionan como vecinos y se utilizan para determinar la clase o el valor objetivo del nuevo ejemplo.

Con esta metodología, se busca aprovechar la información de los ejemplos de entrenamiento más similares al nuevo ejemplo para realizar una clasificación precisa o una estimación confiable. A continuación, se presenta una explicación más detallada del algoritmo kNN, abordando aspectos clave como la normalización de atributos, el cálculo de distancias, la selección de los vecinos más cercanos y el proceso de clasificación o predicción.

Normalización:

Antes de aplicar el algoritmo kNN, es necesario realizar una etapa de normalización de los atributos. La normalización es un proceso fundamental para asegurarse de que los atributos estén en la misma escala, especialmente cuando tienen rangos de valores diferentes. La normalización se lleva a cabo mediante una transformación que reajusta los valores de los atributos a un rango común, generalmente entre 0 y 1. Para realizar la normalización, se utiliza la siguiente fórmula:

\[ x_{norm} =\;\frac{x - min_{value}}{max_{value} - min_{value}} \]

Donde:

\(x_{\text{norm}}:\) Es el valor normalizado resultante.
\(x:\) Es el valor original que deseas normalizar.
\(min_{\text{value}}:\) Es el valor mínimo posible que puede tener el atributo.
\(max_{\text{value}}:\) Es el valor máximo posible que puede tener el atributo.

Aplicando esta fórmula, cada atributo se transforma en un valor proporcional dentro del rango 0-1, lo que garantiza que todos los atributos sean comparables y no se vean afectados por diferencias en sus magnitudes originales. La normalización de los atributos es esencial en el algoritmo kNN, ya que la distancia entre los ejemplos se calcula utilizando los valores de los atributos. Al tener los atributos normalizados, se evita que aquellos con mayor escala dominen la contribución a la distancia y se garantiza un tratamiento equitativo para cada atributo. Con esta etapa de normalización, se preparan los datos para una correcta aplicación del algoritmo kNN, mejorando la calidad de las clasificaciones o predicciones resultantes.

Cálculo de distancias:

Una vez que los atributos han sido normalizados, se procede al cálculo de la distancia entre el nuevo ejemplo a clasificar y los ejemplos del conjunto de entrenamiento. En el algoritmo kNN, la distancia más comúnmente utilizada es la distancia euclidiana. Esta medida de distancia se basa en la geometría euclidiana y se aplica en espacios n-dimensionales. La fórmula de la distancia euclidiana entre dos puntos A y B se expresa de la siguiente manera:

\[ dist(A, B) = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + \ldots + (x_n - y_n)^2} \]

En esta fórmula, \(x_{1}\), \(x_{2}\), …, \(x_{n}\) representan las coordenadas del punto A , mientras que \(y_{1}\), \(y_{2}\), …, \(y_{n}\) representan las coordenadas del punto B. La distancia euclidiana se calcula como la raíz cuadrada de la suma de los cuadrados de las diferencias entre las coordenadas correspondientes de los puntos A y B.

Al utilizar la distancia euclidiana, el algoritmo kNN evalúa la similitud o cercanía entre el nuevo ejemplo y los ejemplos de entrenamiento. Cuanto menor sea la distancia euclidiana entre dos ejemplos, mayor será su similitud en términos de características y atributos. Esta medida de distancia permite identificar los vecinos más cercanos al nuevo ejemplo, que serán utilizados en la etapa de clasificación o predicción.

El cálculo de distancias es un paso crítico en el algoritmo kNN, ya que determina qué ejemplos del conjunto de entrenamiento son los más similares al nuevo ejemplo y, por lo tanto, tienen mayor influencia en la clasificación o predicción final.

Selección de los k vecinos más cercanos:

Una vez calculada la distancia entre el nuevo ejemplo y los ejemplos de entrenamiento, se procede a la selección de los “k” datos más cercanos al nuevo ejemplo. El valor de “k” es un parámetro predefinido que determina cuántos vecinos se considerarán en el proceso.

La elección de los “k” vecinos más cercanos es fundamental para el algoritmo kNN, ya que influirá en la precisión y robustez de las clasificaciones o predicciones realizadas. Es importante realizar una selección cuidadosa de “k” y evaluar su impacto en los resultados del algoritmo. Esto implica un análisis de la naturaleza del problema, la cantidad de datos disponibles y la distribución de las clases o valores objetivo ya que la elección óptima de “k” puede mejorar la precisión y generalización del modelo kNN.

Clasificación o predicción:

En el caso de clasificación, se utiliza la mayoría de los votos de los “k” vecinos más cercanos para determinar la clase del nuevo ejemplo. Esto significa que se asigna al nuevo ejemplo la clase más común entre sus vecinos cercanos. Por ejemplo, si la mayoría de los “k” vecinos pertenecen a la clase “A”, entonces el nuevo ejemplo se clasificará como clase “A”. Esta estrategia se basa en la idea de que los ejemplos cercanos son más propensos a tener características similares y, por lo tanto, pertenecer a la misma clase.

Es importante destacar que la elección adecuada del valor “k” es fundamental, ya que un valor incorrecto puede llevar a resultados inexactos. Una elección demasiado pequeña puede hacer que el modelo sea demasiado sensible a ruido o variaciones aleatorias, mientras que una elección demasiado grande puede hacer que el modelo sea menos discriminativo y pierda detalles importantes. Asimismo, la normalización de los atributos antes de calcular las distancias es esencial para garantizar que todos los atributos tengan un impacto equilibrado en el resultado final y no se vean afectados por sus magnitudes originales.

Resultados principales

# creación de la variable "base_paises_modelo" para lectura y visualización de los datos en excel.
base_paises_modelo <- read.csv("WHO.csv", header = TRUE, sep = "," )

# Creación de un vector que contiene la variable "Status" y 7 variables descriptivas (Life.expectancy, Total.expenditure, GDP, Infant.deaths, HDI, Schooling, Homicides).
variables_seleccionadas_modelo <- c("Life.expectancy", "Total.expenditure", "Infant.deaths", "Schooling", "GDP", "Homicides", "HDI", "Status")

# Establecimiento del filtro para el año asignado. 
# Eliminación de filas y espacios que tienen datos faltantes. 
base_paises_modelo <- base_paises_modelo %>% filter(Year==2011) %>% 
  select(variables_seleccionadas_modelo) %>%
  na.omit()

# Re-asignación de los índices sin saltos de filas.
rownames(base_paises_modelo) <- NULL

# Forzamos que los valores de la muestra aleatoria sean los mismos siempre. 
set.seed(28)

# Cambio de nombres de las categorías de la variable categórica "Status" por: "Desarollado" y "En vía de desarrollo".
base_paises_modelo <- base_paises_modelo %>% 
  mutate(Status = ifelse(Status == "Developed", "Desarollado", "En via de desarrollo")) %>% 
  mutate_at(c("Status"), ~as.factor(.))

# Creación y distribución de los índices tanto para el entrenamiento como para la prueba.
indx_paises_entrena <- createDataPartition(y = base_paises_modelo$Status, p = 0.75, list = FALSE)

# Ahora que tenemos los índices podemos construir nuestra data de entrenamiento y nuestra data de test.
base_paises_entrenamiento <- base_paises_modelo[indx_paises_entrena, ]

base_paises_testeo <- base_paises_modelo[-indx_paises_entrena, ]

Valor de “k” óptimo

VALOR DE “K” ÓPTIMO PARA EL MODELO

Encontrar el valor óptimo de “k” en el algoritmo de k-Nearest Neighbors (k-NN) es crucial debido a su impacto en el rendimiento y la precisión del modelo de clasificación. Lo anterior debido a que este valor determina la cantidad de vecinos más cercanos que se consideran al realizar una predicción. Si elegimos un valor de “k” demasiado pequeño, el modelo puede volverse demasiado sensible a variaciones aleatorias o ruido en los datos, lo que puede llevar a un sobreajuste. Por otro lado, si seleccionamos un valor de “k” demasiado grande, el modelo puede perder detalles importantes y generalizar demasiado, lo que resulta en una subutilización de la información disponible. Por lo tanto Encontrar el valor óptimo de “k” nos permite encontrar un equilibrio entre estos extremos y obtener el mejor rendimiento posible del modelo de clasificación. Dicho esto, a continuación se presenta una tabla de clasificación donde se evalúan 20 diferentes valores de “k” con el objetivo de encontrar el más adecuado para este caso:

# Usaremos el método de validación cruzada para indicar que vamos a partir nuestra data de entrenamiento en 5 partes iguales de forma aleatoria.
# Luego, cada una de estas partes las vamos a utilizar como test para el modelo que creemos por las otras 4 partes. 
SP_ctrl <- trainControl(method="cv", number = 5) 

# Entrenamiento de nuestro algoritmo de predicción.
base_paises_knnEntrenado <- train(Status ~ ., 
                            data = base_paises_entrenamiento, 
                            method = "knn",  
                            tuneLength = 20,
                            trControl = SP_ctrl,
                            preProcess = c("center","scale")
)

# Obtener los resultados de k, Accuracy y Kappa
resultados <- base_paises_knnEntrenado$results[, c("k", "Accuracy", "Kappa")]

# Formatear los valores para mostrar solo 4 decimales
resultados$Accuracy <- round(resultados$Accuracy, 4)
resultados$Kappa <- round(resultados$Kappa, 4)

# Generar la tabla interactiva con barra deslizante y mostrar solo 4 decimales
tabla_interactiva <- datatable(resultados,
                               options = list(scrollY = "300px", paging = FALSE, info = "none", dom = 't')) %>%
  formatStyle(columns = c("Accuracy", "Kappa"), digits = 4)

# Imprimir la tabla
tabla_interactiva

# Obtener el valor óptimo de k según la precisión máxima
valor_optimo_k <- base_paises_knnEntrenado$bestTune$k

Al ajustar “k” correctamente, podemos mejorar la precisión y la capacidad de generalización del modelo, lo que se traduce en predicciones más confiables y precisas. De acuerdo con los datos arrojados por la tabla anterior, se tiene que:

# Imprimir el mensaje con el valor óptimo de k
cat("El valor de 'k' (# de vecinos más cercanos) que proporciona la mayor precisión para el modelo de clasificación es de k =", valor_optimo_k, "\n")

## El valor de 'k' (# de vecinos más cercanos) que proporciona la mayor precisión para el modelo de clasificación es de k = 5

Gráfica “k” óptimo

GRÁFICA DE “K” ÓPTIMO PARA EL MODELO

Esta gráfica muestra la relación entre el valor de “k” y la precisión (Accuracy) en el modelo de clasificación utilizando el algoritmo de k-Nearest Neighbors (k-NN), teniéndose que cada punto en la gráfica representa un valor de “k” probado durante la validación cruzada, mientras que la línea azul conecta los puntos para visualizar la tendencia. El objetivo de esta ilustración es identificar el valor óptimo de “k” que proporciona la mayor precisión en el modelo, usando una línea roja punteada vertical para marcar el valor óptimo del “k” encontrado.

La interpretación de esta gráfica implica buscar el punto en la curva donde la precisión alcanza su punto máximo. A medida que aumenta el valor de “k”, de manera general es posible que la precisión inicialmente mejore, pero después de cierto punto, es probable que disminuya debido a la sobregeneralización o pérdida de detalles. Por lo tanto, el valor óptimo de “k” es aquel donde se encuentra el pico más alto en la gráfica, lo que indica el mejor equilibrio entre la capacidad de capturar patrones y la capacidad de generalización del modelo. Esta gráfica por lo tanto nos proporciona una herramienta visual importante para ajustar y mejorar el rendimiento del modelo basado en k-NN.

# Obtener los resultados de k, Accuracy y Kappa
resultados <- base_paises_knnEntrenado$results[, c("k", "Accuracy", "Kappa")]

# Obtener el valor de k óptimo
k_optimo <- base_paises_knnEntrenado$bestTune$k

# Crear la gráfica utilizando ggplot2
grafica_k_optimo <- ggplot(resultados, aes(x = k, y = Accuracy)) +
  geom_line(color = "blue") +
  geom_point(color = "purple", size = 3) +
  geom_vline(xintercept = k_optimo, linetype = "dashed", color = "red") +
  labs(x = "k (cantidad de vecinos más cercanos)", y = "Accuracy") +
  theme_update()

# Convertir la gráfica a plotly para hacerla interactiva
ggplotly(grafica_k_optimo)

Predicciones del modelo

PREDICCIONES DEL MODELO ENTRENADO

El código en cuestión usado en este apartado permite llevar a cabo la predicción de la variable dependiente utilizando un modelo de clasificación basado en el algoritmo k-Nearest Neighbors (k-NN) previamente entrenado, el cual es un método de aprendizaje automático que se utiliza para clasificar nuevos datos en función de la similitud con los ejemplos de entrenamiento más cercanos.

La predicción realizada por el modelo de clasificación basado en k-Nearest Neighbors (k-NN) es un proceso fundamental en el aprendizaje automático. Al utilizar este modelo, se busca asignar etiquetas o clases a nuevos datos no vistos previamente, basándose en la similitud con los ejemplos de entrenamiento. La predicción por lo tanto, se lleva a cabo evaluando la proximidad de los puntos de datos de prueba a los vecinos más cercanos en el espacio de características. Al identificar los ejemplos de entrenamiento más cercanos, el modelo asigna una etiqueta al nuevo dato en función de la mayoría de las etiquetas de sus vecinos más próximos.

El resultado de la predicción para los 36 datos de prueba se muestra en la siguiente tabla, la cual proporcionará las etiquetas o clases predichas para los datos en cuestión. Esto permitirá evaluar el rendimiento del modelo y comprender cómo se comporta al clasificar nuevos datos no vistos anteriormente.

# Testeo del modelo de predicción
base_paises_knnPrediccion <- predict(base_paises_knnEntrenado, newdata = base_paises_testeo)

# Crear tabla de resultados con índices
resultados <- data.frame(Indice = 1:nrow(base_paises_testeo),
                         Prediccion = base_paises_knnPrediccion)

# Aplicar estilo a las filas de la tabla
tabla_resultados <- kable(resultados, format = "html") %>%
  kable_styling(bootstrap_options = "striped", full_width = TRUE) %>%
  collapse_rows(columns = 1) %>%
  column_spec(1, border_left = TRUE, border_right = TRUE, width = "5%") %>%
  column_spec(2, border_left = TRUE, border_right = TRUE, width = "5%") %>%
  row_spec(0, background = "#3498DB", bold = TRUE, color = "white", align = "c") %>%
  row_spec(1:nrow(resultados), background = "transparent", bold = FALSE, color = "black", align = "c")

# Agregar barra deslizante
tabla_deslizante <- scroll_box(tabla_resultados, height = "300px", width = "100%")

# Imprimir la tabla
tabla_deslizante

Indice	Prediccion
1	En via de desarrollo
2	En via de desarrollo
3	En via de desarrollo
4	En via de desarrollo
5	Desarollado
6	Desarollado
7	En via de desarrollo
8	En via de desarrollo
9	Desarollado
10	En via de desarrollo
11	Desarollado
12	En via de desarrollo
13	Desarollado
14	En via de desarrollo
15	En via de desarrollo
16	En via de desarrollo
17	En via de desarrollo
18	En via de desarrollo
19	Desarollado
20	Desarollado
21	En via de desarrollo
22	En via de desarrollo
23	En via de desarrollo
24	En via de desarrollo
25	Desarollado
26	En via de desarrollo
27	En via de desarrollo
28	En via de desarrollo
29	En via de desarrollo
30	En via de desarrollo
31	En via de desarrollo
32	En via de desarrollo
33	En via de desarrollo
34	En via de desarrollo
35	Desarollado
36	En via de desarrollo

Probabilidades del modelo

PROBABILIDADES DE LAS PREDICCIONES DEL MODELO ENTRENADO

La predicción de probabilidades utilizando un modelo de clasificación basado en k-Nearest Neighbors (k-NN) brinda una información adicional sobre las predicciones realizadas. En lugar de obtener solo las etiquetas de clase para los datos de prueba, este enfoque permite calcular la probabilidad de pertenencia a cada clase para cada punto de datos. Esto resulta especialmente útil en escenarios donde se requiere una comprensión más detallada de la confianza del modelo en sus predicciones.

Al aplicar el modelo k-NN entrenado a los datos de prueba, se obtiene un conjunto de probabilidades asociadas a cada clase. Estas probabilidades indican la medida en que cada clase es probable que se ajuste a los datos de prueba en función de la similitud con los ejemplos de entrenamiento cercanos. Al analizar estas probabilidades, es posible evaluar la confianza del modelo en sus predicciones y tomar decisiones informadas en función de los valores resultantes. Este enfoque de predicción de probabilidades con k-NN permite una mayor granularidad en la interpretación de los resultados y una mejor comprensión de la incertidumbre asociada a las predicciones del modelo.

# Obtención del resultado de la predicción del modelo con base en probabilidades
base_paises_prob_knnPrediccion <- predict(base_paises_knnEntrenado, newdata = base_paises_testeo, type = "prob")

# Crear tabla de resultados con índices
resultados_prob <- data.frame(Indice = 1:nrow(base_paises_testeo),
                              as.data.frame(base_paises_prob_knnPrediccion))

# Generar tabla con estilo
tabla_resultados_prob <- resultados_prob %>%
  kable(format = "html") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), full_width = FALSE, position = "center") %>%
  collapse_rows(columns = 1) %>%
  column_spec(1, border_left = TRUE, width = "5%") %>%
  column_spec(2, border_left = TRUE, width = "40%") %>%
  column_spec(3, border_left = TRUE, width = "40%") %>%
  column_spec(ncol(resultados_prob), border_right = TRUE) %>%
  row_spec(0, background = "#3498DB", bold = TRUE, color = "white", align = "c") %>%
  row_spec(1:nrow(resultados_prob), background = "transparent", bold = FALSE, color = "black", align = "c")

# Agregar barra deslizante
tabla_deslizante_prob <- scroll_box(tabla_resultados_prob, width = "100%", height = "300px")

# Imprimir la tabla
tabla_deslizante_prob

Indice	Desarollado	En.via.de.desarrollo
1	0.0	1.0
2	0.0	1.0
3	0.0	1.0
4	0.0	1.0
5	1.0	0.0
6	1.0	0.0
7	0.0	1.0
8	0.4	0.6
9	1.0	0.0
10	0.0	1.0
11	1.0	0.0
12	0.0	1.0
13	1.0	0.0
14	0.0	1.0
15	0.0	1.0
16	0.0	1.0
17	0.0	1.0
18	0.0	1.0
19	1.0	0.0
20	1.0	0.0
21	0.2	0.8
22	0.0	1.0
23	0.0	1.0
24	0.0	1.0
25	0.8	0.2
26	0.0	1.0
27	0.0	1.0
28	0.0	1.0
29	0.0	1.0
30	0.0	1.0
31	0.0	1.0
32	0.0	1.0
33	0.0	1.0
34	0.0	1.0
35	1.0	0.0
36	0.0	1.0

Precisión del modelo

PRECISIÓN DEL MODELO ENTRENADO

El código utilizado en este apartado se empleó para calcular la precisión o exactitud del modelo de clasificación basado en k-Nearest Neighbors (k-NN) al predecir los datos de prueba y comparar estas predicciones con los resultados reales del conjunto de prueba. Este es un indicador clave del rendimiento y la capacidad de clasificación del modelo ya que proporciona una medida cuantitativa de qué tan bien el modelo puede predecir correctamente las etiquetas de clase para nuevos datos no vistos previamente.

Al calcular la precisión, se compara cada una de las predicciones realizadas por el modelo con las etiquetas reales de los datos de prueba. Si la predicción coincide con la etiqueta real se considera un acierto, de lo contrario un fallo. Por lo tanto, evaluar la precisión del modelo k-NN proporciona una visión general de su capacidad para generalizar y clasificar nuevos datos, lo que permite tomar decisiones informadas basadas en la confiabilidad de las predicciones.

Dicho lo anterior, para el caso particular del modelo desarrollado en este ejercicio, se tiene que:

# Comparación de nuestra predicción con los output del test para ver la exactitud del modelo.
precision <- mean(base_paises_knnPrediccion == base_paises_testeo$Status)

# Imprimir el mensaje con el valor óptimo de k
cat("El porcentaje de aciertos (accuracy) de la predicción realizada por el modelo con respecto a los outputs del test es del:", precision*100,"%\n")

## El porcentaje de aciertos (accuracy) de la predicción realizada por el modelo con respecto a los outputs del test es del: 100 %

Matriz de confusión

MATRIZ DE CONFUSIÓN DEL MODELO

La información presentada anteriormente en el apartado de “Precisión del modelo” la vemos reflejada en la siguiente matriz de confusión, la cual es una herramienta fundamental en la evaluación de modelos de clasificación. Esta se utiliza principalmente para analizar el rendimiento de un modelo al comparar sus predicciones con los resultados reales. La matriz muestra el recuento de las diferentes combinaciones de predicciones y resultados, organizadas en filas y columnas que representan las clases o categorías de la variable objetivo.

En esta matriz de confusión, cada celda representa una categoría de predicción y resultado. Los valores diagonales, de la esquina superior izquierda a la esquina inferior derecha, indican los casos en los que el modelo ha acertado. Estas celdas reflejan los verdaderos positivos y verdaderos negativos, es decir, las instancias clasificadas correctamente. Por otro lado, las celdas fuera de la diagonal principal revelan los errores del modelo, ya sea en forma de falsos positivos o falsos negativos.

# Obtener la matriz de confusión
confusion_matrix <- table(base_paises_knnPrediccion, base_paises_testeo$Status)

# Crear tabla con estilo
tabla_confusion <- as.data.frame.matrix(confusion_matrix) %>%
  kable(format = "html") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), full_width = FALSE, position = "center") %>%
  collapse_rows(columns = 1) %>%
  row_spec(0, background = "#3498DB", bold = TRUE, color = "white", align = "c") %>%
  row_spec(1:nrow(confusion_matrix), background = "white", bold = FALSE, color = "black", align = "c") %>% 
  row_spec(2:nrow(confusion_matrix), background = "#F2F2F2", bold = FALSE, color = "black", align = "c") %>% 
  column_spec(1, border_right = TRUE, width = "20%", background = "#3498DB", bold = TRUE, color = "white") %>%
  column_spec(2, border_left = TRUE, border_right = TRUE, width = "40%") %>%
  column_spec(3, border_left = TRUE, border_right = TRUE, width = "40%") %>%
  column_spec(ncol(confusion_matrix), border_right = TRUE) 

# Imprimir la tabla
tabla_confusion

	Desarollado	En via de desarrollo
Desarollado	9	0
En via de desarrollo	0	27

Teniéndose en cuenta que para el desarrollo de este modelo se tomará como clase positiva la etiqueta “Desarrollado” podemos, por lo tanto, concluir las siguientes afirmaciones acerca de la precisión del modelo:

VP (Verdadero positivo): Nueve muestras fueron clasificadas correctamente como positivas.
FP (Falso Positivo): Cero muestras fueron clasificadas incorrectamente como positivas.
FN (Falso Negativo): Cero muestras fueron clasificadas incorrectamente como negativas.
VN (Verdadero Negativo): Veintisiete muestras fueron clasificadas correctamente como negativas.

Dicho de otra forma:

Nuestro modelo kNN predijo 9 valores como países “Desarrollados” y resulta que en nuestro test el valor real, output, era también “Desarrollado”.
Nuestro modelo kNN predijo 27 valores como países “En vía de desarrollo” y resulta que en nuestro test el valor real, output, era también “En vía de desarrollo”.

Por lo tanto, nuestro modelo no presentó ningún error en la clasificación y comprobamos que efectivamente el porcentaje de aciertos (accuracy) de la predicción realizada por el modelo con respecto a los outputs del test es del 100%.

Exactitud, sensitividad y especificidad

EXACTITUD, SENSITIVIDAD Y ESPECIFICIDAD

# Obtener la matriz de confusión
cm <- confusionMatrix(base_paises_knnPrediccion, base_paises_testeo$Status)

# Crear la tabla con los valores relevantes
tabla_valores <- data.frame(
  Metrica = c("Exactitud", "Sensitividad", "Especificidad", "Valor predictivo positivo", "Valor predictivo negativo"),
  Valor = c(cm$overall["Accuracy"], cm$byClass["Sensitivity"], cm$byClass["Specificity"], cm$byClass["Pos Pred Value"], cm$byClass["Neg Pred Value"])) %>% 
  kable(format = "html") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), full_width = FALSE, position = "center") %>%
  collapse_rows(columns = 1) %>%
  row_spec(0, background = "#3498DB", bold = TRUE, color = "white", align = "c") %>%
  row_spec(1:nrow(confusion_matrix), bold = FALSE, color = "black", align = "c") %>% 
  row_spec(2:nrow(confusion_matrix), bold = FALSE, color = "black", align = "c") %>% 
  row_spec(3:nrow(confusion_matrix), bold = FALSE, color = "black", align = "c") %>% 
  row_spec(4:nrow(confusion_matrix), bold = FALSE, color = "black", align = "c") %>% 
  row_spec(5:nrow(confusion_matrix), bold = FALSE, color = "black", align = "c") %>% 
  column_spec(1, border_right = TRUE, width = "20%", background = "#3498DB", bold = TRUE, color = "white") %>%
  column_spec(2, border_left = TRUE, border_right = TRUE, width = "40%") %>%
  column_spec(3, border_left = TRUE, border_right = TRUE, width = "40%") %>%
  column_spec(ncol(confusion_matrix), border_right = TRUE) 
  
# Imprimir la tabla
tabla_valores

	Metrica	Valor
Accuracy	Exactitud	1
Sensitivity	Sensitividad	1
Specificity	Especificidad	1
Pos Pred Value	Valor predictivo positivo	1
Neg Pred Value	Valor predictivo negativo	1

Exactitud (Accuracy): La exactitud es la proporción de predicciones correctas realizadas por el modelo en relación al total de muestras. Es una medida general de la capacidad del modelo para clasificar correctamente las muestras en todas las categorías. Se calcula como el cociente entre el número de predicciones correctas y el número total de muestras.

\[ Accuracy\;=\;\frac{VP\;+\;VN}{VP\;+\;VN\;+\;FP+\;FN}\;=\;\frac{9\;+\;27}{9\;+\;27\;+\;0+\;0}\;=\;1 \]

Sensitividad (Sensitivity): También conocida como tasa de “verdaderos positivos”, mide la proporción de muestras positivas que son correctamente identificadas por el modelo. Indica la capacidad del modelo para detectar correctamente las muestras que pertenecen a la clase positiva. Se calcula como el cociente entre los verdaderos positivos y la suma de los verdaderos positivos y los falsos negativos.

\[ Sensitivity\;=\;\frac{VP}{VP\;+\;FN}\;=\;\frac{9}{9\;+\;0}\;=\;1 \]

Especificidad (Specificity): También conocida como tasa de “verdaderos negativos”, es la proporción de muestras negativas que son correctamente identificadas como negativas por el modelo. Indica la capacidad del modelo para identificar correctamente las muestras que no pertenecen a la clase positiva. Se calcula como el cociente entre los verdaderos negativos y la suma de los verdaderos negativos y los falsos positivos.

\[ Specificity\;=\;\frac{VN}{VN\;+\;FP}\;=\;\frac{27}{27\;+\;0}\;=\;1 \]

Valor predictivo positivo (Pos Pred Value): También conocido como precisión, es la proporción de predicciones positivas que son verdaderas. Representa la probabilidad de que una muestra clasificada como positiva sea realmente positiva. Se calcula como el cociente entre los verdaderos positivos y la suma de los verdaderos positivos y los falsos positivos.

\[ \text{Pos Pred Value}\;=\;\frac{VP}{VP\;+\;FN}\;=\;\frac{9}{9\;+\;0}\;=\;1 \]

Valor predictivo negativo (Neg Pred Value): El valor predictivo negativo es la proporción de predicciones negativas que son verdaderas. Representa la probabilidad de que una muestra clasificada como negativa sea realmente negativa. Se calcula como el cociente entre los verdaderos negativos y la suma de los verdaderos negativos y los falsos negativos.

\[ \text{Neg Pred Value}\;=\;\frac{VN}{VN\;+\;FP}\;=\;\frac{27}{27\;+\;0}\;=\;1 \]

Conclusiones sobre la clasificación

I.

Como conclusiones generales a partir de los resultados arrojados por el modelo desarrollado a lo largo de este ejercicio podemos concluir que:

Alta precisión: La capacidad del modelo para clasificar correctamente todas las muestras indica una alta precisión en la predicción. Esto significa que el modelo ha aprendido patrones y características relevantes en los datos de entrenamiento y es capaz de aplicarlos de manera efectiva en la clasificación de nuevos datos.
Buena capacidad de generalización: El hecho de que el modelo clasifique correctamente todos los datos indica que ha logrado generalizar bien a partir de los ejemplos de entrenamiento. Esto sugiere que el modelo ha capturado las relaciones subyacentes en los datos y puede aplicar ese conocimiento a nuevos casos.
Adecuada elección de parámetros: La elección adecuada de parámetros, como el valor de “k” en k-NN, puede haber contribuido al rendimiento exitoso del modelo. En este caso, es probable que se haya seleccionado un valor óptimo de “k” que permitió un equilibrio adecuado entre la sensibilidad al ruido y la capacidad de capturar detalles importantes en los datos.
Evaluación adicional: Aunque el modelo clasificó correctamente todos los datos, es importante realizar una evaluación adicional para garantizar que este alto rendimiento no sea el resultado de sobreajuste o coincidencia fortuita. Lo cual se comprobó a través de técnicas como la validación cruzada o la división de datos en conjuntos de entrenamiento, validación y prueba para obtener una evaluación más robusta del modelo.

En resumen, el modelo k-NN demuestra una alta precisión y una buena capacidad de generalización. Esto indica que el modelo ha aprendido de manera efectiva los patrones presentes en los datos de entrenamiento y es capaz de aplicar ese conocimiento para realizar predicciones precisas en nuevos casos. Sin embargo, es importante realizar una evaluación adicional para garantizar la fiabilidad y robustez del modelo.

II.

El modelo ha alcanzado una precisión del 100%, lo que indica que ha clasificado correctamente todas las muestras del conjunto de prueba. Este resultado demuestra que el modelo es altamente efectivo en la clasificación de nuevos datos. Dicho lo anterior tenemos que:

Se observa que el valor de “k” que proporciona la mayor precisión para el modelo de clasificación es k = 5. Esto significa que considerar los 5 vecinos más cercanos al realizar una predicción brinda el mejor rendimiento en términos de precisión y capacidad de generalización.
A medida que aumenta el valor de “k” más allá de 5, la precisión del modelo disminuye gradualmente. Esto indica que considerar un número mayor de vecinos no necesariamente mejora el rendimiento del modelo para este conjunto de datos.
Es importante tener en cuenta que, si bien un valor de “k” más bajo como k = 5 resulta en una mayor precisión, también existe el riesgo de que el modelo se vuelva más susceptible a variaciones aleatorias o ruido en los datos, lo que podría llevar a un sobreajuste.

III.

La matriz de confusión muestra que el modelo ha logrado clasificar todas las muestras en las clases “Desarrollado” y “En vía de desarrollo” sin cometer errores. Esto indica una alta capacidad de discriminación del modelo y un ajuste adecuado a los patrones presentes en los datos de entrenamiento. Las probabilidades de predicción muestran que el modelo tiene una alta confianza en sus predicciones, asignando una probabilidad cercana a 1 a las clases correctas para la mayoría de las muestras de prueba. Dicho lo anterior tenemos que:

El modelo muestra una alta confianza en sus predicciones, ya que las probabilidades asignadas a las clases son bastante pronunciadas. La mayoría de las predicciones tienen una probabilidad cercana a 1 para la clase correspondiente, lo que indica una alta certeza en la clasificación.
La precisión del modelo, medida mediante el porcentaje de aciertos (accuracy), es del 100%. Esto significa que el modelo clasificó correctamente todos los datos de prueba. Es importante destacar que la precisión perfecta puede indicar un posible sobreajuste en el modelo, especialmente si el conjunto de datos de prueba es pequeño. Por lo tanto sería recomendable evaluar el modelo en conjuntos de datos más grandes o realizar validación cruzada para una evaluación más robusta.
Teniendo en cuenta la alta precisión y confianza del modelo, podemos afirmar que el modelo k-NN entrenado tiene un buen desempeño en la clasificación de nuevos datos y muestra una capacidad de generalización satisfactoria.

IV.

Las métricas de exactitud, sensibilidad, especificidad, valor predictivo positivo y valor predictivo negativo tienen un valor de 1, lo que indica un rendimiento perfecto del modelo en la clasificación de las muestras. Esto demuestra que el modelo es altamente confiable y preciso en sus predicciones. Dicho lo anterior tenemos que:

La matriz de confusión muestra que el modelo k-NN clasificó correctamente todas las muestras tanto para la clase “Desarrollado” como para la clase “En vía de desarrollo”. No hubo falsos positivos ni falsos negativos en la clasificación.
La exactitud (accuracy) del modelo es del 100%, lo que indica que todas las predicciones realizadas por el modelo coincidieron con los resultados reales en el conjunto de prueba. Esto demuestra que el modelo es altamente preciso en la clasificación de los datos.
La sensibilidad (sensitivity) del modelo también es del 100%, lo que significa que el modelo identificó correctamente todas las muestras que pertenecen a la clase “Desarrollado”. No se produjo ningún falso negativo.
La especificidad (specificity) del modelo también es del 100%, lo que indica que el modelo identificó correctamente todas las muestras que no pertenecen a la clase “Desarrollado”. No hubo falsos positivos.
Tanto el valor predictivo positivo (pos pred value) como el valor predictivo negativo (neg pred value) son del 100%, lo que significa que todas las predicciones positivas y negativas realizadas por el modelo fueron correctas.

Referencias bibliográficas

Domestic general government health expenditure (% of GDP). (s. f.). Indexmundi.com. Recuperado 15 de mayo de 2023, de https://www.indexmundi.com/facts/indicators/SH.XPD.GHED.GD.ZS
GDP - per capita (PPP) by country - Thematic Map - World. (s. f.). Indexmundi.com. Recuperado 15 de mayo de 2023, de https://www.indexmundi.com/map/?t=0&v=67&r=xx&l=en
Infant mortality rate by country - Thematic Map - World. (s. f.). Indexmundi.com. Recuperado 17 de mayo de 2023, de https://www.indexmundi.com/map/?t=0&v=29&r=xx&l=en
Intentional homicides (per 100,000 people). (s. f.). Indexmundi.com. Recuperado 18 de mayo de 2023, de https://www.indexmundi.com/facts/indicators/VC.IHR.PSRC.P5
Life expectancy at birth by country - Thematic Map - World. (s. f.). Indexmundi.com. Recuperado 18 de mayo de 2023, de https://www.indexmundi.com/map/?t=0&v=30&r=xx&l=en
¿Qué es el algoritmo de k vecinos más cercanos? (s. f.). Ibm.com. Recuperado 18 de mayo de 2023, de https://www.ibm.com/mx-es/topics/knn
School enrollment, secondary (% net). (s. f.). Indexmundi.com. Recuperado 18 de mayo de 2023, de https://www.indexmundi.com/facts/indicators/SE.SEC.NENR
Wikipedia contributors. (s. f.). Archivo:2021-22 UN Human Development Report.svg. Wikipedia, The Free Encyclopedia. https://es.wikipedia.org/wiki/Archivo:2021-22_UN_Human_Development_Report.svg
(S. f.-a). Recuperado 19 de mayo de 2023, de http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://academica-e.unavarra.es/bitstream/handle/2454/29112/Memoria.pdf?sequence=2
(S. f.-b). Recuperado 22 de mayo de 2023, de http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://oa.upm.es/68050/1/TFG_LORETO_GARCIA_TEJADA.pdf
(S. f.-c). Recuperado 22 de mayo de 2023, de http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://sebastianraschka.com/pdf/lecture-notes/stat479fs18/02_knn_notes.pdf

REPORTE APRENDIZAJE SUPERVISADO

Realizado por:

Diego Felipe Salcedo Granada - Analista de Datos

2023-05-24

Introducción sobre el contexto

Tabla de clasificación:

TOP 10 países por indicador:

Variable N°1

Variable N°2

Variable N°3

Variable N°4

Variable N°5

Variable N°6

Variable N°7

Descripción de las variables

Variable N°1

Variable N°2

Variable N°3

Variable N°4

Variable N°5

Variable N°6

Variable N°7

Presentación de la metodología

Normalización:

Cálculo de distancias:

Selección de los k vecinos más cercanos:

Clasificación o predicción:

Resultados principales

Valor de “k” óptimo

Gráfica “k” óptimo

Predicciones del modelo

Probabilidades del modelo

Precisión del modelo

Matriz de confusión

Exactitud, sensitividad y especificidad

Conclusiones sobre la clasificación

I.

II.

III.

IV.

Referencias bibliográficas

Indice	Desarollado	En.via.de.desarrollo
1	0.0	1.0
2	0.0	1.0
3	0.0	1.0
4	0.0	1.0
5	1.0	0.0
6	1.0	0.0
7	0.0	1.0
8	0.4	0.6
9	1.0	0.0
10	0.0	1.0
11	1.0	0.0
12	0.0	1.0
13	1.0	0.0
14	0.0	1.0
15	0.0	1.0
16	0.0	1.0
17	0.0	1.0
18	0.0	1.0
19	1.0	0.0
20	1.0	0.0
21	0.2	0.8
22	0.0	1.0
23	0.0	1.0
24	0.0	1.0
25	0.8	0.2
26	0.0	1.0
27	0.0	1.0
28	0.0	1.0
29	0.0	1.0
30	0.0	1.0
31	0.0	1.0
32	0.0	1.0
33	0.0	1.0
34	0.0	1.0
35	1.0	0.0
36	0.0	1.0

Indice	Desarollado	En.via.de.desarrollo
1	0.0	1.0
2	0.0	1.0
3	0.0	1.0
4	0.0	1.0
5	1.0	0.0
6	1.0	0.0
7	0.0	1.0
8	0.4	0.6
9	1.0	0.0
10	0.0	1.0
11	1.0	0.0
12	0.0	1.0
13	1.0	0.0
14	0.0	1.0
15	0.0	1.0
16	0.0	1.0
17	0.0	1.0
18	0.0	1.0
19	1.0	0.0
20	1.0	0.0
21	0.2	0.8
22	0.0	1.0
23	0.0	1.0
24	0.0	1.0
25	0.8	0.2
26	0.0	1.0
27	0.0	1.0
28	0.0	1.0
29	0.0	1.0
30	0.0	1.0
31	0.0	1.0
32	0.0	1.0
33	0.0	1.0
34	0.0	1.0
35	1.0	0.0
36	0.0	1.0

REPORTE APRENDIZAJE SUPERVISADO

Realizado por: Diego Felipe Salcedo Granada - Analista de Datos

2023-05-24

Introducción sobre el contexto

Tabla de clasificación:

TOP 10 países por indicador:

Variable N°1

Variable N°2

Variable N°3

Variable N°4

Variable N°5

Variable N°6

Variable N°7

Descripción de las variables

Variable N°1

Variable N°2

Variable N°3

Variable N°4

Variable N°5

Variable N°6

Variable N°7

Presentación de la metodología

Normalización:

Cálculo de distancias:

Selección de los k vecinos más cercanos:

Clasificación o predicción:

Resultados principales

Valor de “k” óptimo

Gráfica “k” óptimo

Predicciones del modelo

Probabilidades del modelo

Precisión del modelo

Matriz de confusión

Exactitud, sensitividad y especificidad

Conclusiones sobre la clasificación

I.

II.

III.

IV.

Referencias bibliográficas

Realizado por:

Diego Felipe Salcedo Granada - Analista de Datos

Indice	Desarollado	En.via.de.desarrollo
1	0.0	1.0
2	0.0	1.0
3	0.0	1.0
4	0.0	1.0
5	1.0	0.0
6	1.0	0.0
7	0.0	1.0
8	0.4	0.6
9	1.0	0.0
10	0.0	1.0
11	1.0	0.0
12	0.0	1.0
13	1.0	0.0
14	0.0	1.0
15	0.0	1.0
16	0.0	1.0
17	0.0	1.0
18	0.0	1.0
19	1.0	0.0
20	1.0	0.0
21	0.2	0.8
22	0.0	1.0
23	0.0	1.0
24	0.0	1.0
25	0.8	0.2
26	0.0	1.0
27	0.0	1.0
28	0.0	1.0
29	0.0	1.0
30	0.0	1.0
31	0.0	1.0
32	0.0	1.0
33	0.0	1.0
34	0.0	1.0
35	1.0	0.0
36	0.0	1.0