1 Asignatura

La asignatura

1.1 Presentación

En los últimos años, los métodos de análisis de datos categóricos han experimentado un notable desarrollo, impulsados en gran medida por la creciente cantidad de estudios que agrupan sus observaciones en categorías. Este tipo de datos es común en diversas disciplinas como la sociología, medicina, biología, educación y economía, donde se organizan en tablas de contingencia que resumen relaciones entre variables cualitativas.

Las tablas de contingencia, de dos o más entradas, ofrecen una forma efectiva de representar datos categóricos y son ampliamente utilizadas para describir asociaciones entre diferentes variables. Para su análisis, existen técnicas estadísticas tanto básicas como avanzadas que permiten obtener conclusiones significativas. Entre ellas, encontramos métodos simples como la comparación de proporciones y pruebas chi-cuadrado, hasta enfoques más complejos como los modelos loglineales y la regresión logística.

A medida que se avanza en la comprensión de estos métodos, se abre la puerta a un análisis más flexible y poderoso, que permite abordar problemas de mayor complejidad. Los estudiantes que dominen estas herramientas no solo estarán mejor preparados para interpretar y analizar datos categóricos, sino que también serán capaces de aplicar estos conocimientos en diversas áreas profesionales, mejorando la precisión y eficacia de sus análisis.

El principal objetivo de esta asignatura es brindar a los estudiantes un entendimiento profundo sobre el análisis de datos categóricos. A lo largo del curso, aprenderán a utilizar una variedad de técnicas estadísticas, que les permitirán no solo analizar datos agrupados en categorías, sino también aumentar la flexibilidad y el poder analítico en escenarios que requieren una mayor complejidad conceptual. Estas habilidades serán fundamentales para mejorar su capacidad de abordar y resolver problemas en su futura vida profesional, especialmente en áreas donde los datos categóricos son predominantes.

1.2 Objetivos

Al finalizar el curso los participantes estarán capacitados para:
1. Desarrollar un enfoque crítico para analizar tablas de contingencia. 2. Examinar las ideas y métodos básicos de los modelos lineales generalizados a ser a plicados en el estudio de datos en categorías. 3. Aplicar las técnicas en problemas originados en diferentes campos. 4. Desarrollar habilidades para analizar datos discretos utilizando programas estadísticos.

1.3 Los contenidos

  1. Introducción al Análisis de Datos Categóricos 1.1. Visión general del análisis de datos categóricos, conceptos principales y su importancia en distintas áreas, como la investigación social, biomedicina o economía. 1.2. Tipos de datos, definiciones, diferencias y ejemplos. 1.3. Enfoques para el análisis de datos en categorías.

  2. Tablas de Contingencia de Doble Entrada 2.1. Estructura de las tablas. 2.2. Comparación de proporciones. 2.3. Cociente de ventajas. 2.4. Tests Chi-cuadrado. 2.5. Pruebas exactas para pequeñas muestras.

  3. Tablas de Contingencia de Tres Entradas 3.1. Asociación parcial. 3.2. Métodos de Cochran-Mantel-Haenszel.

  4. Modelos para Datos en Categorías 4.1. Bosquejo de los modelos lineales generalizados. 4.2. Regresión logística. 4.3. Modelo logit para categorías múltiples. 4.4. Modelos loglineales.

1.4 El profesor: Lic. Diego Meza MSc.

Soy Estadístico especializado en gestión y análisis de datos y mi principal ocupación es dirigir un equipo técnico que trabaja sobre datos de encuestas y registros administrativos para la elaboración de proyecciones demográficas, del mercado de trabajo, económicas y actuariales. También enseño Estadísticas en la universidad y realizo servicios de consultoría como especialista en la aplicación de software como Excel, R-project y Stata para la gestión y análisis de datos.

En este enlace mi Currículum

1.5 Introducción

Este documento ha sido elaborado como material de apoyo para el curso de Inferencia Estadística II. En el son incorporados varios ejemplos resueltos con el software estadístico \(R\) y relacionados a los conceptos estudiados en la materia. En cada sección se incluyen los códigos necesarios para realizar las simulaciones que permiten verificar las propiedades y teoremas que son abordados en el curso. Para que puedas replicarlos basta con que tengas instalado el programa ya sea en la versión simple o la incorporada en la versión R-studio, copia los códigos y ejecútalos en un script en tu escritorio. Adicionalmente se incluyen una serie de estudios de casos para que puedas aplicar las teorías en la solución de problemas reales y así asimilar corréctamente los contenidos del curso. Es imprescindible que como egresado de la carrera de Estadísticas tengas manejo de al menos una herramienta para el análisis estadístico, y R es una excelente opción que tienes y es totalmente gratuito.

2 R-project

R es un programa estadístico de libre acceso con funcionalidades imprescindibles para la programación y análisis estadístico.

2.1 Descargar e instalar el programa R-project y R-studio

2.4 Enlaces interesantes

A continuación te dejamos algunos enlaces interesantes para aprender a usar R como herramienta para el análisis estadístico

Instalar R por primera vez

R para principiantes

Una introducción a R

2.5 Primeros pasos con R

Puede resultar de mucha utilidad trabajar y guardar los comandos usados en un “script” de R. El script es básicamente un documento de texto donde uno puede ir escribiendo todos los comandos a ejecutar. Considerando el hecho de que si se antepone a una línea de comando el signo #, este no será ejecutado y el programa lo considerará como un comentario.

Script en R

Script en R

2.6 R como calculadora

Puedes usar el programa R como una calculadora, basta con conocer cuáles son los signos y comandos a utilizar para realizar las opereaciones. Copia los comandos en tu script de R y ejecútalos para ver los resultados.

#suma
2+2
## [1] 4
#multiplicación
2*2
## [1] 4
#división
2/2
## [1] 1
#potencia
4^2
## [1] 16
#raíz cuadrada
sqrt(16)
## [1] 4

2.7 Abrir una base y resumir

R ya incorpora una serie de bases de datos que te pueden resultar de utilidad para empezar a explorar las posibilidades de análisis estadístico que te ofrece este programa.

Como ejemplo vamos a explorara la base de datos llamada “cars”

#cargar la base
data(cars)
#visualizar los encabezados
head(cars)
##   speed dist
## 1     4    2
## 2     4   10
## 3     7    4
## 4     7   22
## 5     8   16
## 6     9   10
#resumir con algunas estadísticas las variables de la base 
summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

2.8 Incluir gráficas

Puedes agregar fácilmente gráficos a tu análisis. Por ejemplo:

data(pressure)
head(pressure)
##   temperature pressure
## 1           0   0.0002
## 2          20   0.0012
## 3          40   0.0060
## 4          60   0.0300
## 5          80   0.0900
## 6         100   0.2700
plot(pressure)
Plot Pressure

Plot Pressure

boxplot(pressure)
Boxplot

Boxplot

2.9 Cargar datos

edad<-c(11,12,15,20,41)
edad
## [1] 11 12 15 20 41
altura=c(50,65,120,156,182)
altura
## [1]  50  65 120 156 182
datos=data.frame(edad,altura)
datos
##   edad altura
## 1   11     50
## 2   12     65
## 3   15    120
## 4   20    156
## 5   41    182
plot(datos,type="b")

3 Unidad 1

Introducción al Análisis de Datos Categóricos

En esta sección veremos como podemos utilizar R para estudiar los fundamentos del análisis de los datos en caegorías, nos apoyaremos principalmente en la realización de simulaciones para verificar las propiedades, teoremas y supuestos que conforman la teoría de la y las propiedades de los datos en categorías.

3.1 Visión General del Análisis de Datos Categóricos

El análisis de datos categóricos es una rama de la estadística que se enfoca en el estudio y la interpretación de datos que se clasifican en categorías discretas. A diferencia de los datos continuos, que pueden tomar cualquier valor numérico dentro de un rango, los datos categóricos son aquellos que se agrupan en categorías o niveles mutuamente excluyentes. Estos datos pueden ser nominales (sin un orden intrínseco) o ordinales (con un orden lógico), y su análisis involucra métodos que permiten comprender las relaciones entre las categorías y cómo estas se distribuyen.

3.2 Conceptos Principales

3.3 Datos Nominales:

Se refieren a variables categóricas en las que los valores representan diferentes categorías sin un orden específico. Por ejemplo, el género (masculino, femenino), el estado civil (soltero, casado) o el tipo de sangre (A, B, AB, O) son variables nominales.

3.4 Datos Ordinales:

Son variables categóricas que tienen un orden natural, pero la distancia entre los valores no es necesariamente significativa. Un ejemplo sería el nivel de satisfacción en una encuesta (bajo, medio, alto) o los niveles de educación (primaria, secundaria, terciaria).

3.5 Tablas de Contingencia:

Estas tablas se utilizan para organizar los datos categóricos y mostrar las frecuencias (conteos) de las observaciones distribuidas entre diferentes categorías de una o más variables. Las tablas de doble entrada (o tablas 2x2) son comunes en análisis de asociación entre dos variables categóricas, mientras que las tablas de tres entradas permiten analizar la interacción entre tres variables.

3.6 Proporciones y Cociente de Ventajas (Odds Ratio):

El análisis de proporciones y el cociente de ventajas son métodos que permiten medir y comparar la probabilidad de ocurrencia de un evento dentro de una categoría en relación con otra. Estas medidas son fundamentales en estudios donde se desea comparar riesgos o probabilidades.

3.7 Pruebas Estadísticas:

Entre las herramientas más comunes para analizar datos categóricos se encuentran las pruebas chi-cuadrado para la independencia de variables, y las pruebas exactas para pequeñas muestras. Estas pruebas permiten evaluar si existe una asociación significativa entre las variables categóricas en estudio.

3.8 Importancia en Diferentes Áreas

El análisis de datos categóricos es crucial en muchas áreas de la investigación, ya que permite explorar relaciones entre variables cualitativas. Algunos ejemplos de su aplicación en diferentes campos incluyen:

Investigación Social: En estudios de encuestas y sondeos de opinión, los datos categóricos se utilizan para analizar preferencias, actitudes y comportamientos. Por ejemplo, una investigación podría clasificar a los encuestados según su nivel educativo y comparar su apoyo a una política pública.

Biomedicina: En ensayos clínicos y estudios epidemiológicos, el análisis de datos categóricos es fundamental para evaluar la relación entre variables como el tipo de tratamiento (medicamento A vs. medicamento B) y los resultados de los pacientes (curación, mejoría o empeoramiento). Los métodos como el cociente de ventajas (odds ratio) permiten analizar la probabilidad relativa de ciertos desenlaces en diferentes grupos de pacientes.

Economía: En el campo económico, los datos categóricos se utilizan para clasificar individuos o empresas en grupos según sus características, como el tamaño de la empresa (pequeña, mediana o grande) o el nivel de ingreso de un individuo. Este tipo de análisis es esencial para entender patrones y comportamientos del mercado, como la distribución de ingresos o el comportamiento de compra según el nivel socioeconómico.

Relevancia del Análisis El análisis de datos categóricos no solo permite comprender mejor las relaciones entre variables cualitativas, sino que también ofrece una base sólida para la toma de decisiones basada en evidencia. En áreas como la salud, la educación y la política pública, las decisiones clave a menudo dependen de la comprensión precisa de cómo ciertos factores categóricos están relacionados entre sí. Los métodos que se desarrollan en esta disciplina brindan un marco robusto para interpretar adecuadamente la información, lo que permite formular mejores estrategias y recomendaciones en diversas áreas profesionales.

Además, el avance en las herramientas estadísticas ha facilitado la aplicación de técnicas de análisis categórico en software especializado como R, SAS, SPSS o Stata. Estas herramientas permiten la automatización y la visualización de resultados complejos, facilitando el trabajo tanto de investigadores como de analistas de datos.

3.9 Simulación de variables aleatorias

Para simular los valores de una variable aleatoria R nos provee una amplia gama de comandos, entre ellos veremos algunos como los siguientes:

3.10 Sequencias

#X es el conjunto de los números del 1 al 5
x <- seq (1, 5)
x
## [1] 1 2 3 4 5
#X es un conjunto formado por la secuencia de números desde el -6 hasta el valor 6 con saltos de valor 0,1
# help(seq)
x <- seq ( -6, 6,by=0.1)
x
##   [1] -6.0 -5.9 -5.8 -5.7 -5.6 -5.5 -5.4 -5.3 -5.2 -5.1 -5.0 -4.9 -4.8 -4.7 -4.6
##  [16] -4.5 -4.4 -4.3 -4.2 -4.1 -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1
##  [31] -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6
##  [46] -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1
##  [61]  0.0  0.1  0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4
##  [76]  1.5  1.6  1.7  1.8  1.9  2.0  2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9
##  [91]  3.0  3.1  3.2  3.3  3.4  3.5  3.6  3.7  3.8  3.9  4.0  4.1  4.2  4.3  4.4
## [106]  4.5  4.6  4.7  4.8  4.9  5.0  5.1  5.2  5.3  5.4  5.5  5.6  5.7  5.8  5.9
## [121]  6.0
#X es un conjunto formado por la secuencia de 100 números desde el -6 hasta el valor 6 redondeado con tres valores decimales
x <- round(seq ( -6, 6, len=100 ),3)
x
##   [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
##  [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
##  [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
##  [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
##  [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
##  [51]  0.061  0.182  0.303  0.424  0.545  0.667  0.788  0.909  1.030  1.152
##  [61]  1.273  1.394  1.515  1.636  1.758  1.879  2.000  2.121  2.242  2.364
##  [71]  2.485  2.606  2.727  2.848  2.970  3.091  3.212  3.333  3.455  3.576
##  [81]  3.697  3.818  3.939  4.061  4.182  4.303  4.424  4.545  4.667  4.788
##  [91]  4.909  5.030  5.152  5.273  5.394  5.515  5.636  5.758  5.879  6.000

3.11 Muestras aleatorio simple con R

# Muestra aleatoria extraida CON reposición de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=T)
muestra1
## [1] 4 7 5 4 9
# Muestra aleatoria extraida SIN reposición de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=F)
muestra1
## [1] 1 8 5 3 6
# 10 Muestras aleatorias de tamaño 3 obtenidas con reposición de la población P
muestras1<-sapply(1:10, function(x){(sample(P,3,rep=T))})
muestras1
##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]    8    8    9    9    5    7    1    1    4     5
## [2,]    4    9    6    1    2    6    4    8    2     4
## [3,]    8    5    8    9    7    9   10    6    5     8
# 10 Muestras aleatorias de tamaño 3 obtenidas sin reposición de la población P
muestras2<-sapply(1:10, function(x){(sample(P,3,rep=F))})
muestras2
##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]    3    5    3    3    4    3    3    6    3     5
## [2,]    6    1    1    2    3   10    8    5    2     1
## [3,]    7    2    8    4    9    4   10    7    1     6

Estudio de caso

Una empresa tiene una nómina de 2850 empleados y desea aplicar una encuesta sobre el clima laboral. Para ello desean seleccionar una muestra aleatoria del 10% de los empleados. La empresa dispone de una enumeración del 1 al 2850 asociado a cada número de cédula de identidad. a) Seleccione la muestra usando un comando de R.

empleados=seq(1,2850,by=1)

head(empleados)
## [1] 1 2 3 4 5 6
tail(empleados)
## [1] 2845 2846 2847 2848 2849 2850
muestra_empleados=sample(empleados,285,replace=F)
muestra_empleados
##   [1] 2825  726 1930 1074  113 2800  903  749  383  459  792 1457 1242  221 1259
##  [16]  361 1607  724 1544 1003 2493  728  364 2038 1323 2778 2344 1385 2080  627
##  [31] 2229 2161 1920  377 2320 1875 1679 1436 1517 2222 1093 1123  913 1753 2615
##  [46] 1418  317  750 2468 1217 2702  256 2630 2725  326 1339    1  247  943 2543
##  [61] 2683 1197 2826 1347 2506 2595  741 1953  486 2419 1179   64 2562 1470  172
##  [76]  844 2014  807  280  659 2245 1409 2336 1115  683 2656  661    8 1901  436
##  [91] 2607 1937  834 1028 2473 1531 1665 2360 2812  666  577  166 1876 2281  345
## [106] 2754 1373 2713 2164 1549 1829  831 2828 1628 1952 2227 2831 1141 2069 2010
## [121] 1928 2351 2640  682 1728 2066 2765 2075 1664 2047 2689 1795  451 2795 2309
## [136]  649 2559  740  973 2363  155 1705 1426  475 1289  824 2150 1677 2558 1172
## [151] 2671   85  739 2340  289  924 2460  346 1766 1682 1993 2068 1629 1229 1941
## [166] 2407 1132 1428  426  674 1982 2644  730 2568  934  146 1746 1598 1738 2197
## [181]  804 1029 2418 1499  729  378 2711 1537  359 1153  174 1965 2314 1830 2741
## [196]  830 2425  884 1412 2498 2488 1146 2755  748 1424  763  584  685 2374 1058
## [211] 1720 2739 1786   20 2232  704 2271 2269 1439 2643  210 1582  900  858 1956
## [226] 1249   49  368 1554 1045 2837 2152 1994  968 2717  782  976 2200 2652 2365
## [241] 2043 2502 1601  945 1168  561 2638 1360 2499 1022  476  952 1478 2515 2346
## [256] 2733 2818 2416 1224 2495 1857  629 2763  921 1216 2611  799  209 2039  899
## [271] 1731  338 1596 2059 2048  120  641 1940 1269 1001 1884 2841  953 1240 1771

4 Unidad 2

Tablas de Contingencia de Doble Entrada

4.1 Estructura de las tablas.

4.2 Comparación de proporciones.

4.3 Cociente de ventajas.

4.4 Tests Chi-cuadrado.

4.5 Pruebas exactas para pequeñas muestras.

5 Unidad 3

Tablas de Contingencia de Tres Entradas

5.1 Asociación parcial.

5.2 Métodos de Cochran-Mantel-Haenszel.

6 Unidad 4

Modelos para Datos en Categorías

6.1 Bosquejo de los modelos lineales generalizados.

6.2 Regresión logística.

6.3 Modelo logit para categorías múltiples.

6.4 Modelos loglineales.