La asignatura
En los últimos años, los métodos de análisis de datos categóricos han experimentado un notable desarrollo, impulsados en gran medida por la creciente cantidad de estudios que agrupan sus observaciones en categorías. Este tipo de datos es común en diversas disciplinas como la sociología, medicina, biología, educación y economía, donde se organizan en tablas de contingencia que resumen relaciones entre variables cualitativas.
Las tablas de contingencia, de dos o más entradas, ofrecen una forma efectiva de representar datos categóricos y son ampliamente utilizadas para describir asociaciones entre diferentes variables. Para su análisis, existen técnicas estadísticas tanto básicas como avanzadas que permiten obtener conclusiones significativas. Entre ellas, encontramos métodos simples como la comparación de proporciones y pruebas chi-cuadrado, hasta enfoques más complejos como los modelos loglineales y la regresión logística.
A medida que se avanza en la comprensión de estos métodos, se abre la puerta a un análisis más flexible y poderoso, que permite abordar problemas de mayor complejidad. Los estudiantes que dominen estas herramientas no solo estarán mejor preparados para interpretar y analizar datos categóricos, sino que también serán capaces de aplicar estos conocimientos en diversas áreas profesionales, mejorando la precisión y eficacia de sus análisis.
El principal objetivo de esta asignatura es brindar a los estudiantes un entendimiento profundo sobre el análisis de datos categóricos. A lo largo del curso, aprenderán a utilizar una variedad de técnicas estadísticas, que les permitirán no solo analizar datos agrupados en categorías, sino también aumentar la flexibilidad y el poder analítico en escenarios que requieren una mayor complejidad conceptual. Estas habilidades serán fundamentales para mejorar su capacidad de abordar y resolver problemas en su futura vida profesional, especialmente en áreas donde los datos categóricos son predominantes.
Al finalizar el curso los participantes estarán capacitados
para:
1. Desarrollar un enfoque crítico para analizar tablas de contingencia.
2. Examinar las ideas y métodos básicos de los modelos lineales
generalizados a ser a plicados en el estudio de datos en categorías. 3.
Aplicar las técnicas en problemas originados en diferentes campos. 4.
Desarrollar habilidades para analizar datos discretos utilizando
programas estadísticos.
Introducción al Análisis de Datos Categóricos 1.1. Visión general del análisis de datos categóricos, conceptos principales y su importancia en distintas áreas, como la investigación social, biomedicina o economía. 1.2. Tipos de datos, definiciones, diferencias y ejemplos. 1.3. Enfoques para el análisis de datos en categorías.
Tablas de Contingencia de Doble Entrada 2.1. Estructura de las tablas. 2.2. Comparación de proporciones. 2.3. Cociente de ventajas. 2.4. Tests Chi-cuadrado. 2.5. Pruebas exactas para pequeñas muestras.
Tablas de Contingencia de Tres Entradas 3.1. Asociación parcial. 3.2. Métodos de Cochran-Mantel-Haenszel.
Modelos para Datos en Categorías 4.1. Bosquejo de los modelos lineales generalizados. 4.2. Regresión logística. 4.3. Modelo logit para categorías múltiples. 4.4. Modelos loglineales.
Soy Estadístico especializado en gestión y análisis de datos y mi principal ocupación es dirigir un equipo técnico que trabaja sobre datos de encuestas y registros administrativos para la elaboración de proyecciones demográficas, del mercado de trabajo, económicas y actuariales. También enseño Estadísticas en la universidad y realizo servicios de consultoría como especialista en la aplicación de software como Excel, R-project y Stata para la gestión y análisis de datos.
Este documento ha sido elaborado como material de apoyo para el curso de Inferencia Estadística II. En el son incorporados varios ejemplos resueltos con el software estadístico \(R\) y relacionados a los conceptos estudiados en la materia. En cada sección se incluyen los códigos necesarios para realizar las simulaciones que permiten verificar las propiedades y teoremas que son abordados en el curso. Para que puedas replicarlos basta con que tengas instalado el programa ya sea en la versión simple o la incorporada en la versión R-studio, copia los códigos y ejecútalos en un script en tu escritorio. Adicionalmente se incluyen una serie de estudios de casos para que puedas aplicar las teorías en la solución de problemas reales y así asimilar corréctamente los contenidos del curso. Es imprescindible que como egresado de la carrera de Estadísticas tengas manejo de al menos una herramienta para el análisis estadístico, y R es una excelente opción que tienes y es totalmente gratuito.
R es un programa estadístico de libre acceso con funcionalidades imprescindibles para la programación y análisis estadístico.
A continuación te dejamos algunos enlaces interesantes para aprender a usar R como herramienta para el análisis estadístico
Puede resultar de mucha utilidad trabajar y guardar los comandos usados en un “script” de R. El script es básicamente un documento de texto donde uno puede ir escribiendo todos los comandos a ejecutar. Considerando el hecho de que si se antepone a una línea de comando el signo #, este no será ejecutado y el programa lo considerará como un comentario.
Script en R
Puedes usar el programa R como una calculadora, basta con conocer cuáles son los signos y comandos a utilizar para realizar las opereaciones. Copia los comandos en tu script de R y ejecútalos para ver los resultados.
## [1] 4
## [1] 4
## [1] 1
## [1] 16
## [1] 4
R ya incorpora una serie de bases de datos que te pueden resultar de utilidad para empezar a explorar las posibilidades de análisis estadístico que te ofrece este programa.
Como ejemplo vamos a explorara la base de datos llamada “cars”
## speed dist
## 1 4 2
## 2 4 10
## 3 7 4
## 4 7 22
## 5 8 16
## 6 9 10
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
Puedes agregar fácilmente gráficos a tu análisis. Por ejemplo:
## temperature pressure
## 1 0 0.0002
## 2 20 0.0012
## 3 40 0.0060
## 4 60 0.0300
## 5 80 0.0900
## 6 100 0.2700
Plot Pressure
Boxplot
Introducción al Análisis de Datos Categóricos
En esta sección veremos como podemos utilizar R para estudiar los fundamentos del análisis de los datos en caegorías, nos apoyaremos principalmente en la realización de simulaciones para verificar las propiedades, teoremas y supuestos que conforman la teoría de la y las propiedades de los datos en categorías.
El análisis de datos categóricos es una rama de la estadística que se enfoca en el estudio y la interpretación de datos que se clasifican en categorías discretas. A diferencia de los datos continuos, que pueden tomar cualquier valor numérico dentro de un rango, los datos categóricos son aquellos que se agrupan en categorías o niveles mutuamente excluyentes. Estos datos pueden ser nominales (sin un orden intrínseco) o ordinales (con un orden lógico), y su análisis involucra métodos que permiten comprender las relaciones entre las categorías y cómo estas se distribuyen.
Se refieren a variables categóricas en las que los valores representan diferentes categorías sin un orden específico. Por ejemplo, el género (masculino, femenino), el estado civil (soltero, casado) o el tipo de sangre (A, B, AB, O) son variables nominales.
Son variables categóricas que tienen un orden natural, pero la distancia entre los valores no es necesariamente significativa. Un ejemplo sería el nivel de satisfacción en una encuesta (bajo, medio, alto) o los niveles de educación (primaria, secundaria, terciaria).
Estas tablas se utilizan para organizar los datos categóricos y mostrar las frecuencias (conteos) de las observaciones distribuidas entre diferentes categorías de una o más variables. Las tablas de doble entrada (o tablas 2x2) son comunes en análisis de asociación entre dos variables categóricas, mientras que las tablas de tres entradas permiten analizar la interacción entre tres variables.
El análisis de proporciones y el cociente de ventajas son métodos que permiten medir y comparar la probabilidad de ocurrencia de un evento dentro de una categoría en relación con otra. Estas medidas son fundamentales en estudios donde se desea comparar riesgos o probabilidades.
Entre las herramientas más comunes para analizar datos categóricos se encuentran las pruebas chi-cuadrado para la independencia de variables, y las pruebas exactas para pequeñas muestras. Estas pruebas permiten evaluar si existe una asociación significativa entre las variables categóricas en estudio.
El análisis de datos categóricos es crucial en muchas áreas de la investigación, ya que permite explorar relaciones entre variables cualitativas. Algunos ejemplos de su aplicación en diferentes campos incluyen:
Investigación Social: En estudios de encuestas y sondeos de opinión, los datos categóricos se utilizan para analizar preferencias, actitudes y comportamientos. Por ejemplo, una investigación podría clasificar a los encuestados según su nivel educativo y comparar su apoyo a una política pública.
Biomedicina: En ensayos clínicos y estudios epidemiológicos, el análisis de datos categóricos es fundamental para evaluar la relación entre variables como el tipo de tratamiento (medicamento A vs. medicamento B) y los resultados de los pacientes (curación, mejoría o empeoramiento). Los métodos como el cociente de ventajas (odds ratio) permiten analizar la probabilidad relativa de ciertos desenlaces en diferentes grupos de pacientes.
Economía: En el campo económico, los datos categóricos se utilizan para clasificar individuos o empresas en grupos según sus características, como el tamaño de la empresa (pequeña, mediana o grande) o el nivel de ingreso de un individuo. Este tipo de análisis es esencial para entender patrones y comportamientos del mercado, como la distribución de ingresos o el comportamiento de compra según el nivel socioeconómico.
Relevancia del Análisis El análisis de datos categóricos no solo permite comprender mejor las relaciones entre variables cualitativas, sino que también ofrece una base sólida para la toma de decisiones basada en evidencia. En áreas como la salud, la educación y la política pública, las decisiones clave a menudo dependen de la comprensión precisa de cómo ciertos factores categóricos están relacionados entre sí. Los métodos que se desarrollan en esta disciplina brindan un marco robusto para interpretar adecuadamente la información, lo que permite formular mejores estrategias y recomendaciones en diversas áreas profesionales.
Además, el avance en las herramientas estadísticas ha facilitado la aplicación de técnicas de análisis categórico en software especializado como R, SAS, SPSS o Stata. Estas herramientas permiten la automatización y la visualización de resultados complejos, facilitando el trabajo tanto de investigadores como de analistas de datos.
Para simular los valores de una variable aleatoria R nos provee una amplia gama de comandos, entre ellos veremos algunos como los siguientes:
## [1] 1 2 3 4 5
#X es un conjunto formado por la secuencia de números desde el -6 hasta el valor 6 con saltos de valor 0,1
# help(seq)
x <- seq ( -6, 6,by=0.1)
x
## [1] -6.0 -5.9 -5.8 -5.7 -5.6 -5.5 -5.4 -5.3 -5.2 -5.1 -5.0 -4.9 -4.8 -4.7 -4.6
## [16] -4.5 -4.4 -4.3 -4.2 -4.1 -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1
## [31] -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6
## [46] -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1
## [61] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4
## [76] 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
## [91] 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0 4.1 4.2 4.3 4.4
## [106] 4.5 4.6 4.7 4.8 4.9 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9
## [121] 6.0
#X es un conjunto formado por la secuencia de 100 números desde el -6 hasta el valor 6 redondeado con tres valores decimales
x <- round(seq ( -6, 6, len=100 ),3)
x
## [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
## [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
## [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
## [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
## [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
## [51] 0.061 0.182 0.303 0.424 0.545 0.667 0.788 0.909 1.030 1.152
## [61] 1.273 1.394 1.515 1.636 1.758 1.879 2.000 2.121 2.242 2.364
## [71] 2.485 2.606 2.727 2.848 2.970 3.091 3.212 3.333 3.455 3.576
## [81] 3.697 3.818 3.939 4.061 4.182 4.303 4.424 4.545 4.667 4.788
## [91] 4.909 5.030 5.152 5.273 5.394 5.515 5.636 5.758 5.879 6.000
# Muestra aleatoria extraida CON reposición de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=T)
muestra1
## [1] 4 7 5 4 9
# Muestra aleatoria extraida SIN reposición de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=F)
muestra1
## [1] 1 8 5 3 6
# 10 Muestras aleatorias de tamaño 3 obtenidas con reposición de la población P
muestras1<-sapply(1:10, function(x){(sample(P,3,rep=T))})
muestras1
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,] 8 8 9 9 5 7 1 1 4 5
## [2,] 4 9 6 1 2 6 4 8 2 4
## [3,] 8 5 8 9 7 9 10 6 5 8
# 10 Muestras aleatorias de tamaño 3 obtenidas sin reposición de la población P
muestras2<-sapply(1:10, function(x){(sample(P,3,rep=F))})
muestras2
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,] 3 5 3 3 4 3 3 6 3 5
## [2,] 6 1 1 2 3 10 8 5 2 1
## [3,] 7 2 8 4 9 4 10 7 1 6
Estudio de caso
Una empresa tiene una nómina de 2850 empleados y desea aplicar una encuesta sobre el clima laboral. Para ello desean seleccionar una muestra aleatoria del 10% de los empleados. La empresa dispone de una enumeración del 1 al 2850 asociado a cada número de cédula de identidad. a) Seleccione la muestra usando un comando de R.
## [1] 1 2 3 4 5 6
## [1] 2845 2846 2847 2848 2849 2850
## [1] 2825 726 1930 1074 113 2800 903 749 383 459 792 1457 1242 221 1259
## [16] 361 1607 724 1544 1003 2493 728 364 2038 1323 2778 2344 1385 2080 627
## [31] 2229 2161 1920 377 2320 1875 1679 1436 1517 2222 1093 1123 913 1753 2615
## [46] 1418 317 750 2468 1217 2702 256 2630 2725 326 1339 1 247 943 2543
## [61] 2683 1197 2826 1347 2506 2595 741 1953 486 2419 1179 64 2562 1470 172
## [76] 844 2014 807 280 659 2245 1409 2336 1115 683 2656 661 8 1901 436
## [91] 2607 1937 834 1028 2473 1531 1665 2360 2812 666 577 166 1876 2281 345
## [106] 2754 1373 2713 2164 1549 1829 831 2828 1628 1952 2227 2831 1141 2069 2010
## [121] 1928 2351 2640 682 1728 2066 2765 2075 1664 2047 2689 1795 451 2795 2309
## [136] 649 2559 740 973 2363 155 1705 1426 475 1289 824 2150 1677 2558 1172
## [151] 2671 85 739 2340 289 924 2460 346 1766 1682 1993 2068 1629 1229 1941
## [166] 2407 1132 1428 426 674 1982 2644 730 2568 934 146 1746 1598 1738 2197
## [181] 804 1029 2418 1499 729 378 2711 1537 359 1153 174 1965 2314 1830 2741
## [196] 830 2425 884 1412 2498 2488 1146 2755 748 1424 763 584 685 2374 1058
## [211] 1720 2739 1786 20 2232 704 2271 2269 1439 2643 210 1582 900 858 1956
## [226] 1249 49 368 1554 1045 2837 2152 1994 968 2717 782 976 2200 2652 2365
## [241] 2043 2502 1601 945 1168 561 2638 1360 2499 1022 476 952 1478 2515 2346
## [256] 2733 2818 2416 1224 2495 1857 629 2763 921 1216 2611 799 209 2039 899
## [271] 1731 338 1596 2059 2048 120 641 1940 1269 1001 1884 2841 953 1240 1771
Tablas de Contingencia de Doble Entrada
Tablas de Contingencia de Tres Entradas
Modelos para Datos en Categorías