Horario: lunes 15:00 - 17:00 y jueves 11:00 - 13:00.
Consulta: miércoles de 15 a 18 hrs., previa cita
Ubicación: Coordinación del Laboratorio de Métodos
Correo: rosencrantz@flacso.edu.mx
Por análisis cuantitativo entendemos el uso de una familia de herramientas de la probabilidad y la estadística para el análisis de la información observada y, a partir de ella, para conocer cantidades de interés que no son observadas directamente (parámetros). Cuando el diseño de investigación incorpora el azar (en la selección de la muestra, en la asignación del tratamiento), los resultados que arroja el análisis cuantitativo son cantidades que representan
Si nos hacemos las preguntas adecuadas y sabemos interpretar los resultados, el análisis cuantitativo es una herramienta muy poderosa, parte ineludible del repertorio de habilidades de quienes practican las ciencias sociales.
Sobre esto último, nunca se debe perder de vista que la estadística es una herramienta que las ciencias sociales adoptan y adaptan para los fines propios de estas disciplinas. Por un lado, décadas de aplicaciones específicas intervienen en la forma en que comprendemos ciertos conceptos de la estadística: por ejemplo, la familiaridad investigación por encuesta determina enormemente la manera en que entendemos las muestras aleatorias. Por otro lado, y de manera más sustantiva, las necesidades propias de la investigación social han llevado al desarrollo de técnicas de análisis cuantitativo apropiadas para estas necesidades.
Destaca al respecto la inferencia causal. Hacemos uso del análisis cuantitativo para testar empíricamente nuestras teorías.1 Esto significa derivar implicaciones observables de la teoría en la forma de proposiciones del tipo: “si la teoría es una explicación apropiada del problema de investigación, se tendría que observar empíricamente \(H\)”, donde \(H\) es una hipótesis. Típicamente, las hipótesis postulan una asociación causal del tipo: \(D\) es causa de \(Y\) (\(D \longrightarrow Y\)).
Después de un inicio difícil,2 se han desarrollado técnicas de análisis estadístico que, bajo ciertos supuestos, son consideradas apropiadas para el test de hipótesis causales. Una de ellas es la regresión múltiple. En la actualidad, los supuestos bajo los cuales sus resultados producen una inferencia causal válida no son considerados convincentes. Sin embargo, las técnicas más avanzadas y que cuentan con mayor aceptación son en buena medida extensiones del análisis de regresión. Es decir que la regresión múltiple es el paso obligatorio para todo diseño de investigación creíble.3
Todo esto, en fin, para remarcar que en la exposición de todos los temas se pone siempre énfasis en su relevancia para las ciencias sociales y la manera en que se aplican en nuestras disciplinas.
Finalmente, uno de los obstáculos más comunes a la adecuada comprensión de los tests propios del análisis cuantitativo es que estos hacen referencia a objetos altamente abstractos como la distribución muestral. La inapropiada comprensión de la lógica subyacente en estas pruebas está en la base de la inapropiada interpretación de los resultados obtenidos en los análisis de significancia.
En el curso se explotan las capacidades computaciones y la flexibilidad del lenguaje de programación R para superar este obstáculo. Toda cantidad obtenida en una muestra es sólo uno de los resultados posibles que pudieron haber obtenido. La simulación de procesos aleatorios con R nos permitirá ubicar el resultado obtenido en una muestra concreta en la distribución de probabilidad de los resultados posibles. Esto da una mayor concreción a las ideas subyacentes, por ejemplo, en el Teorema Central del Límite.
Los y las estudiantes contarán con las herramientas analíticas básicas del análisis cuantitativo aplicado a las ciencias sociales. Esto incluye el desarrollo de las habilidades tanto 1) para aplicar por sí mismos las técnicas analíticas revisadas, como 2) para interpretar los resultados desde un punto de vista inferencial.
Al concluir el curso, los y las estudiantes estarán familiarizados con:
La clase está estructurada formalmente en 12 sesiones de tres horas en las que se repasará cada uno de los ítems del temario en la siguiente estructura: tipo de pregunta a la que responde, modelo estadístico de análisis, fundamento conceptual del modelo e interpretación de los resultados.
Cada tema es acompañado de un taller de dos horas semanales en el que se llevan a cabo aplicaciones prácticas de cada uno los modelos revisados con el auxilio del lenguaje de programación R. Estas aplicaciones prácticas son en las siguientes modalidades:
Los ejercicios prácticos serán trasmitidos por proyector a los y las estudiantes en el aula asignada para la clase. Asimismo, se creará un perfil de Google Classroom desde el que los y las estudiantes tendrán acceso a los scripts y las bases de datos que se usarán y las diapositivas.
Se aplicarán dos exámenes a resolver en casa. Cada uno representará el 50% de la calificación total.
El uso de herramientas de Inteligencia Artificial Generativa (IAG) como ChatGPT está permitido siempre que se cumplan dos condiciones:
Las clases están pensadas tomando en cuenta que los participantes tomaron el propedéutico de matemáticas y el curso de Estadística I.
Otro prerrequisito es tener instalado R () y RStudio () en sus equipos. Si ya los instalaron, conviene verificar que han actualizado a la última versión.
A continuación, se describe el contenido temático del curso desglosado en sesiones.
En una sesión introductoria se revisará la lógica subyacente en el uso de herramientas de análisis cuantitativo como auxiliar en la investigación: específicamente, la necesidad de una cuidadosa valoración de los supuestos que es necesario afirmar sobre el proceso empírico investigado cuando se escoge un modelo matemático para analizarlo.
Se extiende la discusión sobre inferencia llevada el cuatrimestre previo en dos sentidos: la simulación de procesos aleatorios y la manera en que cambia la interpretación cuando pasamos de una muestra tomada de una población al diseño experimental (típicamente sobre una muestra no aleatoria).
Ejemplos prácticos:
Literatura: Diez, Çetinkaya-Rundel, y Barr (2019, cap. 6), Gill (2006, cap. 8) y Mohr (1990).
Además de la diferencia de proporciones, existen otros tests para la comparación de una variable en distintos grupos.
Ejemplos prácticos:
Literatura: Diez, Çetinkaya-Rundel, y Barr (2019, caps. 6 y 7). Opcional: Reynolds (1984, cap. 2) para test de independencia e Iversen y Norpoth (1987, cap. 2) para ANOVA.
En las ciencias sociales es de especial interés evaluar si dos fenómenos estás asociados, incluyendo el caso en que uno es causa del otro. Los estadísticos de asociación cuantifican dicha asociación. Se revisarán los estadísticos apropiados para el nivel de medición de las variables.
Ejemplos prácticos:
El modelo de regresión es la base de las técnicas de análisis actuales más utilizadas en las ciencias sociales. Se repasarán sus propiedades, la interpretación apropiada de los resultados y los supuestos bajo lo que se justifica la inferencia estadística.
Ejemplos prácticos: Se volverá sobre la relación entre estatus y logro, pero esta vez desde la perspectiva del análisis de regresión.
Literatura: Ver siguiente tema.
El uso de dos o más variables independientes busca distintas finalidades (p. ej., mejorar el pronóstico). En las ciencias sociales, el objetivo de la regresión múltiple es “controlar” por potenciales confusores para tener una mejor estimación de la asociación de interés (la relación \(D \longrightarrow Y\), antes mencionada).
Ejemplos prácticos:
Literatura: Imai (2017, caps. 4.2, 4.3.1, 4.3.2, y 7.3), Fynn y Nocetto (2021) y Berry (1993). Se sugiere Franzese (2007), que requiere un nivel más avanzado, pero explica muy bien el control con la regresión múltiple.
El modelo de regresión clásico es “lineal y aditivo”. Sin embargo, tiene una enorme flexibilidad para modelar asociaciones que o no son lineales o no son aditivas. Las asociaciones entre dos variables son “no aditivas” cuando su magnitud o signo depende del valor de una tercera variable. Esto se resuelve con una multiplicación. Las asociaciones no lineales pueden ser muy diversas. Se revisarán las que involucran la transformación logarítmica de las variables en la asociación.
Ejemplos prácticos:
La regresión lineal puede ser utilizada cuando la variable de resultado es dicotómica, pero podría haber problemas con los supuestos sobre los residuos y de valores ajustados fuera del rango \([0,1]\). En situaciones como esta, se recurre a las alternativas de la familia de modelos conocida como modelos lineales generalizados. En esta sesión revisaremos la regresión logística binomial.
Ejemplos prácticos:
Deber cívico y probabilidad de voto: primero replicamos el modelo de probabilidad lineal de Gerber, Green, y Larimer (2008) y después analizamos los mismos datos con regresión logística.
El temario de este curso es bastante básico, por lo que se puede encontrar en cualquier manual. Entre los que tienen un enfoque orientado a las ciencias sociales, un texto pionero es Blalock (1978), aunque podría resultar un poco rebasado para los recursos y temas más actuales. Destacan, a nivel introductorio, Bueno de Mesquita y Fowler (2021) y Kellstedt y Whitten (2018, 2021), y, un poco más exigentes, Fox (2016) y Gelman, Hill, y Vehtari (2021).
Un par de introducciones básicas a R en español son Garibaldi et al. (2019) está totalmente dedicado a la programación y Urdinez y Cruz Labrı́n (2021, caps. 1-4).
Los libros de Pollock y Edwards (2019, 2023) combinan una amplia cobertura temática con un tratamiento intuitivo. Se sugiere revisar los capítulos correspondientes a los temas del curso.
La utilidad práctica de los métodos cuantitativos es más amplia que el test de hipótesis causales. Por ejemplo, un dominio de las técnicas de muestreo es fundamental en cualquier empresa dedicada a la investigación por encuestas. Asimismo, aplicaciones dentro de la familia de técnicas conocidas como machine learning ponen mucho énfasis en la clasificación y la predicción. Sin restar mérito o importancia a estas áreas, en este curso se pone énfasis en el hecho de que la principal forma de “hallazgo” en las ciencias sociales es en la variedad de evidencia a favor de una hipótesis causal.↩︎
Sobre la historia de la relación entre la estadística y el análisis causal, véase Pearl y Mackenzie (2018).↩︎
Véase, por poner un ejemplo clásico, Angrist y Pischke (2009), o, para uno más reciente, Huntington-Klein (2022), pero estamos hablando literalmente de toneladas de literatura.↩︎