1 Asignatura

La asignatura

2 Presentación

En los últimos años, los métodos de análisis de datos categóricos han experimentado un notable desarrollo, impulsados en gran medida por la creciente cantidad de estudios que agrupan sus observaciones en categorías. Este tipo de datos es común en diversas disciplinas como la sociología, medicina, biología, educación y economía, donde se organizan en tablas de contingencia que resumen relaciones entre variables cualitativas.

Las tablas de contingencia, de dos o más entradas, ofrecen una forma efectiva de representar datos categóricos y son ampliamente utilizadas para describir asociaciones entre diferentes variables. Para su análisis, existen técnicas estadísticas tanto básicas como avanzadas que permiten obtener conclusiones significativas. Entre ellas, encontramos métodos simples como la comparación de proporciones y pruebas chi-cuadrado, hasta enfoques más complejos como los modelos loglineales y la regresión logística.

A medida que se avanza en la comprensión de estos métodos, se abre la puerta a un análisis más flexible y poderoso, que permite abordar problemas de mayor complejidad. Los estudiantes que dominen estas herramientas no solo estarán mejor preparados para interpretar y analizar datos categóricos, sino que también serán capaces de aplicar estos conocimientos en diversas áreas profesionales, mejorando la precisión y eficacia de sus análisis.

El principal objetivo de esta asignatura es brindar a los estudiantes un entendimiento profundo sobre el análisis de datos categóricos. A lo largo del curso, aprenderán a utilizar una variedad de técnicas estadísticas, que les permitirán no solo analizar datos agrupados en categorías, sino también aumentar la flexibilidad y el poder analítico en escenarios que requieren una mayor complejidad conceptual. Estas habilidades serán fundamentales para mejorar su capacidad de abordar y resolver problemas en su futura vida profesional, especialmente en áreas donde los datos categóricos son predominantes.

3 Objetivos

Al finalizar el curso los participantes estarán capacitados para:
1. Desarrollar un enfoque crítico para analizar tablas de contingencia. 2. Examinar las ideas y métodos básicos de los modelos lineales generalizados a ser a plicados en el estudio de datos en categorías. 3. Aplicar las técnicas en problemas originados en diferentes campos. 4. Desarrollar habilidades para analizar datos discretos utilizando programas estadísticos.

3.1 Los contenidos

  1. Introducción al Análisis de Datos Categóricos 1.1. Visión general del análisis de datos categóricos, conceptos principales y su importancia en distintas áreas, como la investigación social, biomedicina o economía. 1.2. Tipos de datos, definiciones, diferencias y ejemplos. 1.3. Enfoques para el análisis de datos en categorías.

  2. Tablas de Contingencia de Doble Entrada 2.1. Estructura de las tablas. 2.2. Comparación de proporciones. 2.3. Cociente de ventajas. 2.4. Tests Chi-cuadrado. 2.5. Pruebas exactas para pequeñas muestras.

  3. Tablas de Contingencia de Tres Entradas 3.1. Asociación parcial. 3.2. Métodos de Cochran-Mantel-Haenszel.

  4. Modelos para Datos en Categorías 4.1. Bosquejo de los modelos lineales generalizados. 4.2. Regresión logística. 4.3. Modelo logit para categorías múltiples. 4.4. Modelos loglineales.

3.2 El profesor: Lic. Diego Meza MSc.

Soy Estadístico especializado en gestión y análisis de datos y mi principal ocupación es dirigir un equipo técnico que trabaja sobre datos de encuestas y registros administrativos para la elaboración de proyecciones demográficas, del mercado de trabajo, económicas y actuariales. También enseño Estadísticas en la universidad y realizo servicios de consultoría como especialista en la aplicación de software como Excel, R-project y Stata para la gestión y análisis de datos.

En este enlace mi Currículum

3.3 Introducción

Este documento ha sido elaborado como material de apoyo para el curso de Inferencia Estadística II. En el son incorporados varios ejemplos resueltos con el software estadístico \(R\) y relacionados a los conceptos estudiados en la materia. En cada sección se incluyen los códigos necesarios para realizar las simulaciones que permiten verificar las propiedades y teoremas que son abordados en el curso. Para que puedas replicarlos basta con que tengas instalado el programa ya sea en la versión simple o la incorporada en la versión R-studio, copia los códigos y ejecútalos en un script en tu escritorio. Adicionalmente se incluyen una serie de estudios de casos para que puedas aplicar las teorías en la solución de problemas reales y así asimilar corréctamente los contenidos del curso. Es imprescindible que como egresado de la carrera de Estadísticas tengas manejo de al menos una herramienta para el análisis estadístico, y R es una excelente opción que tienes y es totalmente gratuito.

4 R-project

R es un programa estadístico de libre acceso con funcionalidades imprescindibles para la programación y análisis estadístico.

4.1 Descargar e instalar el programa R-project y R-studio

4.4 Enlaces interesantes

A continuación te dejamos algunos enlaces interesantes para aprender a usar R como herramienta para el análisis estadístico

Instalar R por primera vez

R para principiantes

Una introducción a R

4.5 Primeros pasos con R

Puede resultar de mucha utilidad trabajar y guardar los comandos usados en un “script” de R. El script es básicamente un documento de texto donde uno puede ir escribiendo todos los comandos a ejecutar. Considerando el hecho de que si se antepone a una línea de comando el signo #, este no será ejecutado y el programa lo considerará como un comentario.

Script en R

Script en R

4.6 R como calculadora

Puedes usar el programa R como una calculadora, basta con conocer cuáles son los signos y comandos a utilizar para realizar las opereaciones. Copia los comandos en tu script de R y ejecútalos para ver los resultados.

#suma
2+2
## [1] 4
#multiplicación
2*2
## [1] 4
#división
2/2
## [1] 1
#potencia
4^2
## [1] 16
#raíz cuadrada
sqrt(16)
## [1] 4

4.7 Abrir una base y resumir

R ya incorpora una serie de bases de datos que te pueden resultar de utilidad para empezar a explorar las posibilidades de análisis estadístico que te ofrece este programa.

Como ejemplo vamos a explorara la base de datos llamada “cars”

#cargar la base
data(cars)
#visualizar los encabezados
head(cars)
##   speed dist
## 1     4    2
## 2     4   10
## 3     7    4
## 4     7   22
## 5     8   16
## 6     9   10
#resumir con algunas estadísticas las variables de la base 
summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

4.8 Incluir gráficas

Puedes agregar fácilmente gráficos a tu análisis. Por ejemplo:

data(pressure)
head(pressure)
##   temperature pressure
## 1           0   0.0002
## 2          20   0.0012
## 3          40   0.0060
## 4          60   0.0300
## 5          80   0.0900
## 6         100   0.2700
plot(pressure)
Plot Pressure

Plot Pressure

boxplot(pressure)
Boxplot

Boxplot

4.9 Cargar datos

edad<-c(11,12,15,20,41)
edad
## [1] 11 12 15 20 41
altura=c(50,65,120,156,182)
altura
## [1]  50  65 120 156 182
datos=data.frame(edad,altura)
datos
##   edad altura
## 1   11     50
## 2   12     65
## 3   15    120
## 4   20    156
## 5   41    182
plot(datos,type="b")

5 Unidad 1

Introducción al Análisis de Datos Categóricos

En esta sección veremos como podemos utilizar R para estudiar los fundamentos del análisis de los datos en caegorías, nos apoyaremos principalmente en la realización de simulaciones para verificar las propiedades, teoremas y supuestos que conforman la teoría de la y las propiedades de los datos en categorías.

5.1 Visión General del Análisis de Datos Categóricos

El análisis de datos categóricos es una rama de la estadística que se enfoca en el estudio y la interpretación de datos que se clasifican en categorías discretas. A diferencia de los datos continuos, que pueden tomar cualquier valor numérico dentro de un rango, los datos categóricos son aquellos que se agrupan en categorías o niveles mutuamente excluyentes. Estos datos pueden ser nominales (sin un orden intrínseco) o ordinales (con un orden lógico), y su análisis involucra métodos que permiten comprender las relaciones entre las categorías y cómo estas se distribuyen.

5.2 Conceptos Principales

5.3 Datos Nominales:

Se refieren a variables categóricas en las que los valores representan diferentes categorías sin un orden específico. Por ejemplo, el género (masculino, femenino), el estado civil (soltero, casado) o el tipo de sangre (A, B, AB, O) son variables nominales.

5.4 Datos Ordinales:

Son variables categóricas que tienen un orden natural, pero la distancia entre los valores no es necesariamente significativa. Un ejemplo sería el nivel de satisfacción en una encuesta (bajo, medio, alto) o los niveles de educación (primaria, secundaria, terciaria).

5.5 Tablas de Contingencia:

Estas tablas se utilizan para organizar los datos categóricos y mostrar las frecuencias (conteos) de las observaciones distribuidas entre diferentes categorías de una o más variables. Las tablas de doble entrada (o tablas 2x2) son comunes en análisis de asociación entre dos variables categóricas, mientras que las tablas de tres entradas permiten analizar la interacción entre tres variables.

5.6 Proporciones y Cociente de Ventajas (Odds Ratio):

El análisis de proporciones y el cociente de ventajas son métodos que permiten medir y comparar la probabilidad de ocurrencia de un evento dentro de una categoría en relación con otra. Estas medidas son fundamentales en estudios donde se desea comparar riesgos o probabilidades.

5.7 Pruebas Estadísticas:

Entre las herramientas más comunes para analizar datos categóricos se encuentran las pruebas chi-cuadrado para la independencia de variables, y las pruebas exactas para pequeñas muestras. Estas pruebas permiten evaluar si existe una asociación significativa entre las variables categóricas en estudio.

5.8 Importancia en Diferentes Áreas

El análisis de datos categóricos es crucial en muchas áreas de la investigación, ya que permite explorar relaciones entre variables cualitativas. Algunos ejemplos de su aplicación en diferentes campos incluyen:

Investigación Social: En estudios de encuestas y sondeos de opinión, los datos categóricos se utilizan para analizar preferencias, actitudes y comportamientos. Por ejemplo, una investigación podría clasificar a los encuestados según su nivel educativo y comparar su apoyo a una política pública.

Biomedicina: En ensayos clínicos y estudios epidemiológicos, el análisis de datos categóricos es fundamental para evaluar la relación entre variables como el tipo de tratamiento (medicamento A vs. medicamento B) y los resultados de los pacientes (curación, mejoría o empeoramiento). Los métodos como el cociente de ventajas (odds ratio) permiten analizar la probabilidad relativa de ciertos desenlaces en diferentes grupos de pacientes.

Economía: En el campo económico, los datos categóricos se utilizan para clasificar individuos o empresas en grupos según sus características, como el tamaño de la empresa (pequeña, mediana o grande) o el nivel de ingreso de un individuo. Este tipo de análisis es esencial para entender patrones y comportamientos del mercado, como la distribución de ingresos o el comportamiento de compra según el nivel socioeconómico.

Relevancia del Análisis El análisis de datos categóricos no solo permite comprender mejor las relaciones entre variables cualitativas, sino que también ofrece una base sólida para la toma de decisiones basada en evidencia. En áreas como la salud, la educación y la política pública, las decisiones clave a menudo dependen de la comprensión precisa de cómo ciertos factores categóricos están relacionados entre sí. Los métodos que se desarrollan en esta disciplina brindan un marco robusto para interpretar adecuadamente la información, lo que permite formular mejores estrategias y recomendaciones en diversas áreas profesionales.

Además, el avance en las herramientas estadísticas ha facilitado la aplicación de técnicas de análisis categórico en software especializado como R, SAS, SPSS o Stata. Estas herramientas permiten la automatización y la visualización de resultados complejos, facilitando el trabajo tanto de investigadores como de analistas de datos.

5.9 Simulación de variables aleatorias

Para simular los valores de una variable aleatoria R nos provee una amplia gama de comandos, entre ellos veremos algunos como los siguientes:

5.10 Sequencias

#X es el conjunto de los números del 1 al 5
x <- seq (1, 5)
x
## [1] 1 2 3 4 5
#X es un conjunto formado por la secuencia de números desde el -6 hasta el valor 6 con saltos de valor 0,1
# help(seq)
x <- seq ( -6, 6,by=0.1)
x
##   [1] -6.0 -5.9 -5.8 -5.7 -5.6 -5.5 -5.4 -5.3 -5.2 -5.1 -5.0 -4.9 -4.8 -4.7 -4.6
##  [16] -4.5 -4.4 -4.3 -4.2 -4.1 -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1
##  [31] -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6
##  [46] -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1
##  [61]  0.0  0.1  0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4
##  [76]  1.5  1.6  1.7  1.8  1.9  2.0  2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9
##  [91]  3.0  3.1  3.2  3.3  3.4  3.5  3.6  3.7  3.8  3.9  4.0  4.1  4.2  4.3  4.4
## [106]  4.5  4.6  4.7  4.8  4.9  5.0  5.1  5.2  5.3  5.4  5.5  5.6  5.7  5.8  5.9
## [121]  6.0
#X es un conjunto formado por la secuencia de 100 números desde el -6 hasta el valor 6 redondeado con tres valores decimales
x <- round(seq ( -6, 6, len=100 ),3)
x
##   [1] -6.000 -5.879 -5.758 -5.636 -5.515 -5.394 -5.273 -5.152 -5.030 -4.909
##  [11] -4.788 -4.667 -4.545 -4.424 -4.303 -4.182 -4.061 -3.939 -3.818 -3.697
##  [21] -3.576 -3.455 -3.333 -3.212 -3.091 -2.970 -2.848 -2.727 -2.606 -2.485
##  [31] -2.364 -2.242 -2.121 -2.000 -1.879 -1.758 -1.636 -1.515 -1.394 -1.273
##  [41] -1.152 -1.030 -0.909 -0.788 -0.667 -0.545 -0.424 -0.303 -0.182 -0.061
##  [51]  0.061  0.182  0.303  0.424  0.545  0.667  0.788  0.909  1.030  1.152
##  [61]  1.273  1.394  1.515  1.636  1.758  1.879  2.000  2.121  2.242  2.364
##  [71]  2.485  2.606  2.727  2.848  2.970  3.091  3.212  3.333  3.455  3.576
##  [81]  3.697  3.818  3.939  4.061  4.182  4.303  4.424  4.545  4.667  4.788
##  [91]  4.909  5.030  5.152  5.273  5.394  5.515  5.636  5.758  5.879  6.000

5.11 Muestras aleatorio simple con R

# Muestra aleatoria extraida CON reposición de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=T)
muestra1
## [1]  1 10 10  8  2
# Muestra aleatoria extraida SIN reposición de la población P
P=c(1,2,3,4,5,6,7,8,9,10)
muestra1=sample(P,5,rep=F)
muestra1
## [1]  5 10  6  1  9
# 10 Muestras aleatorias de tamaño 3 obtenidas con reposición de la población P
muestras1<-sapply(1:10, function(x){(sample(P,3,rep=T))})
muestras1
##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]    4    5    2    1    3    8    8    6    8     6
## [2,]    2    4    1    7    3    9    8    5    7    10
## [3,]    1    6    8   10    2    7    9    5    5     2
# 10 Muestras aleatorias de tamaño 3 obtenidas sin reposición de la población P
muestras2<-sapply(1:10, function(x){(sample(P,3,rep=F))})
muestras2
##      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
## [1,]   10    9    3    8    7    4    9    4    1     6
## [2,]    2    4    4    5    9    1    3    5    2     4
## [3,]    6    1    1    2    5   10    5   10    4     8

Estudio de caso

Una empresa tiene una nómina de 2850 empleados y desea aplicar una encuesta sobre el clima laboral. Para ello desean seleccionar una muestra aleatoria del 10% de los empleados. La empresa dispone de una enumeración del 1 al 2850 asociado a cada número de cédula de identidad. a) Seleccione la muestra usando un comando de R.

empleados=seq(1,2850,by=1)

head(empleados)
## [1] 1 2 3 4 5 6
tail(empleados)
## [1] 2845 2846 2847 2848 2849 2850
muestra_empleados=sample(empleados,285,replace=F)
muestra_empleados
##   [1] 1169  203 2615 2262 1527 1460 1219 1558  801  460 2187 1440 1182  577  218
##  [16] 1190   61 1085 1568 2475  944 2039 1419 2691 1280   87 2105 1286 2513   76
##  [31] 2484 2263 1186 1420  776  855 1414 2325  222 2072 2107 1053  815 2498  318
##  [46]  249 2829 1543  476 1237  877  757 1479 2796 1197  321  564  534 1954  273
##  [61]  799  693 1672 2040 1218 2647  831 1577 1062 1810  701 1451  383 1656  204
##  [76] 2705  173 1235 1395 1155  968 2383 2258 2736  314 1863 1160 1987 1372  683
##  [91] 2744  160 1738 2082 2487 1989 2662 1104 1709  915  708 1815  999 1145 2701
## [106] 2429 1030 1578  928 1569 2473 2433  768  846 2253 2730 1180 1077 1584 1897
## [121]  816 1199 1562 1791   50 1154 2626 2028 2641 1080  533  949    8 2632 2407
## [136]  514  347 1260  811 2115 2644   52 2761 1468  793 1536 1940  794 2301  503
## [151] 2393 2202  350  991 1493 1226  146 1790 1544 1991  202 1592  737  807 1825
## [166]  447  881 1049 2210 1507 1010 2510 2530 1650  240 2453   15 1017 2465  344
## [181] 2509  289  307 2199  317 1074 1035 2539  976 1667   24 1529  224 2176  943
## [196] 2472 1379 2764  475  860 1998  890 2486 2505 1124 2168 1432 2568  521 1339
## [211] 2693  121 1864  822 1164 2150 1330  155 1594 1505 1252  500 1705 1682 2840
## [226] 1797  423 2296  138 1242  821 2297 1822  395  929 1443  605 1721 2272  286
## [241] 1999 2291 2343  766 1979 1281  188 1061 2536 2126 1087 1554  615 2419 2540
## [256] 2584  235 2062  617 1427    9 2124 1655  525  387  517 1241 2625 1005 1131
## [271]  873 1171 2141 1036 1132 1491 1971  893 1499  845  611 1924  974 1785 2179

6 Unidad 2

Tablas de Contingencia de Doble Entrada

6.1 Estructura de las tablas.

6.2 Comparación de proporciones.

6.3 Cociente de ventajas.

6.4 Tests Chi-cuadrado.

6.5 Pruebas exactas para pequeñas muestras.

7 Unidad 3

Tablas de Contingencia de Tres Entradas

7.1 Asociación parcial.

7.2 Métodos de Cochran-Mantel-Haenszel.

8 Unidad 4

Modelos para Datos en Categorías

8.1 Bosquejo de los modelos lineales generalizados.

8.2 Regresión logística.

8.3 Modelo logit para categorías múltiples.

8.4 Modelos loglineales.