Trabajo Final del Laboratorio de R II del Programa de Posgrado en Ciencias Políticas y Sociales

Introducción

R Markdown es un lenguaje de marcado ligero desarrollado por RStudio que permite la creación de documentos reproducibles y dinámicos. Integrando el lenguaje de programación R con la sintaxis Markdown, R Markdown facilita la generación de informes, presentaciones, libros electrónicos y otros tipos de documentos que combinen texto explicativo, análisis de datos, gráficos y tablas.

La principal ventaja de utilizar R Markdown radica en la capacidad de integrar el análisis de datos directamente en el flujo de trabajo de documentación. Esto posibilita la generación de informes actualizados automáticamente en respuesta a cambios en los datos o análisis subyacentes. Además, promueve la reproducibilidad, al vincular de manera transparente el código y los resultados dentro del documento, lo cual facilita a otros usuarios replicar los análisis y obtener resultados consistentes.

Un aspecto destacado de R Markdown es su capacidad para compilar el documento en diversos formatos de salida, tales como HTML, PDF, Word y presentaciones de diapositivas. Esta flexibilidad permite adaptar la presentación final del documento según las necesidades del contexto.

Durante el desarrollo de este laboratorio, adquirimos conocimientos sobre el uso de R Markdown como una herramienta efectiva para la elaboración de informes académicos, ensayos y trabajos científicos. Exploramos la capacidad de R Markdown para integrar fragmentos de código, también conocidos como “chunks”, dentro del texto en formato plano, lo que nos permitió incorporar gráficos y resultados estadísticos derivados de nuestros propios análisis de bases de datos.

La utilización de R Markdown nos brindó la ventaja de poder combinar de manera eficiente el texto narrativo con elementos dinámicos generados por el lenguaje de programación R. Al emplear los “chunks” de código, logramos insertar visualizaciones gráficas y presentar resultados estadísticos de forma coherente y precisa en nuestros documentos.

En este trabajo final, se propone la presentación de los aprendizajes adquiridos a lo largo del laboratorio mediante la creación de un documento en formato HTML utilizando R Markdown. Se ha seleccionado la técnica estadística del análisis de conglomerados como el enfoque principal para la segunda parte del laboratorio.

Con el objetivo de aplicar esta técnica, se ha utilizado la base de datos del Índice de Desarrollo Humano (IDH) generada por el Programa de las Naciones Unidas para el Desarrollo (PNUD) obtenido de la siguiente página de perfil de Github específicamente para el caso de México. El IDH es una medida compuesta que evalúa el nivel de desarrollo de un país a través de indicadores socioeconómicos clave, como la esperanza de vida, el nivel educativo y el ingreso per cápita.

El análisis de conglomerados permite agrupar objetos similares en subconjuntos homogéneos, lo que nos permite identificar patrones o características comunes en los datos. En este contexto, se ha aplicado el análisis de conglomerados a la base de datos del IDH de México para identificar posibles grupos de estados con características socioeconómicas similares.

Discusión

El método de k-medias es un algoritmo de aprendizaje no supervisado utilizado para agrupar datos en distintos conjuntos. Este proceso, conocido como análisis de conglomerados o clustering, implica asignar elementos similares a grupos comunes. El objetivo es encontrar una estructura subyacente en los datos sin tener información previa sobre las categorías existentes.

La metodología del método de k-medias consta de los siguientes pasos:

Selección del número de grupos: Se decide previamente el número de grupos (k) en los que se desea dividir los datos.
Inicialización: Se seleccionan aleatoriamente k centroides iniciales, que actuarán como puntos de referencia para cada grupo.
Asignación de elementos a grupos: Para cada elemento de datos, se calcula la distancia entre el elemento y los centroides. El elemento se asigna al grupo cuyo centroide está más cercano.
Actualización de centroides: Una vez que todos los elementos han sido asignados a los grupos, se recalcula el centroide de cada grupo. Esto se logra tomando el promedio de las coordenadas de los elementos que pertenecen a cada grupo.
Repetición de los pasos 3 y 4: Los pasos 3 y 4 se repiten iterativamente hasta que se cumpla un criterio de convergencia. Esto ocurre cuando los centroides ya no cambian significativamente entre iteraciones o se alcanza un número máximo de iteraciones establecido.
Resultados: Al finalizar el algoritmo, se obtiene una partición de los datos en k grupos, donde cada grupo está representado por su centroide correspondiente. Estos grupos pueden utilizarse para análisis adicionales o para la toma de decisiones basadas en la similitud de los elementos.

Es importante destacar que el método de k-medias puede generar resultados diferentes según los centroides iniciales seleccionados. Por lo tanto, es común ejecutar el algoritmo varias veces con diferentes inicializaciones y seleccionar la solución óptima utilizando algún criterio de evaluación, como la suma de las distancias cuadradas dentro de cada grupo.

## Package 'mclust' version 6.0.0
## Type 'citation("mclust")' for citing this R package in publications.

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Gráficas de caja

Búsqueda del número de clusters

##   Group.1 tasa_mortalidad_infantil_2005 tasa_alfabetizacion_2005
## 1       1                      14.30673                 93.65679
## 2       2                      22.48010                 85.52684
## 3       3                      32.49674                 68.27440
##   tasa_asistencia_escolar_2005 usd_ppc_2005
## 1                     67.84821    10039.208
## 2                     63.35242     5434.618
## 3                     63.02678     3399.309

## 
##    1    2    3 
##  546 1305  567

Conclusiones

En el gráfico, se evidencia una relación inversa o negativa entre la tasa de mortalidad infantil y el ingreso per cápita. Esto significa que a medida que aumenta el ingreso per cápita, la tasa de mortalidad infantil tiende a disminuir. Además, el análisis de conglomerados permite identificar diferentes patrones dentro de esta asociación.

En particular, se distinguen tres grupos en la representación gráfica. El grupo 2 muestra el nivel más bajo de ingreso per cápita y la mayor tasa de mortalidad infantil. Esto indica que en esta categoría se encuentran las regiones o poblaciones con menor nivel socioeconómico y peores condiciones de salud para los niños.

En el otro extremo, el grupo 3 se caracteriza por tener el mayor ingreso per cápita y la menor tasa de mortalidad infantil. Este grupo representa las regiones o poblaciones con mejores niveles socioeconómicos y condiciones de vida favorables para el bienestar de los niños.

Estos resultados permiten identificar variaciones internas dentro de la relación entre la tasa de mortalidad infantil y el ingreso per cápita. A través del análisis de conglomerados, es posible discernir diferentes subgrupos en función de su posición en el gráfico, lo que proporciona información valiosa para comprender las disparidades socioeconómicas y de salud en una determinada población o región.

Trabajo Final del Laboratorio de R II del Programa de Posgrado en Ciencias Políticas y Sociales

Análisis de Conglomerados

Lic. José César Romero Galván

2023-06-03

Introducción

Discusión

Gráficas de caja

Búsqueda del número de clusters

Conclusiones