Horario: lunes 15:00 - 17:00 y jueves 11:00 - 13:00.

Consulta: miércoles de 15 a 18 hrs., previa cita

Ubicación: Coordinación del Laboratorio de Métodos

Correo:

1 Presentación

Por análisis cuantitativo entendemos el uso de una familia de herramientas de la probabilidad y la estadística para el análisis de la información observada y, a partir de ella, para conocer cantidades de interés que no son observadas directamente (parámetros). Cuando el diseño de investigación incorpora el azar (en la selección de la muestra, en la asignación del tratamiento), los resultados que arroja el análisis cuantitativo son cantidades que representan

Si nos hacemos las preguntas adecuadas y sabemos interpretar los resultados, el análisis cuantitativo es una herramienta muy poderosa, parte ineludible del repertorio de habilidades de quienes practican las ciencias sociales.

Sobre esto último, nunca se debe perder de vista que la estadística es una herramienta que las ciencias sociales adoptan y adaptan para los fines propios de estas disciplinas. Por un lado, décadas de aplicaciones específicas intervienen en la forma en que comprendemos ciertos conceptos de la estadística: por ejemplo, la familiaridad investigación por encuesta determina enormemente la manera en que entendemos las muestras aleatorias. Por otro lado, y de manera más sustantiva, las necesidades propias de la investigación social han llevado al desarrollo de técnicas de análisis cuantitativo apropiadas para estas necesidades.

Destaca al respecto la inferencia causal. Hacemos uso del análisis cuantitativo para testar empíricamente nuestras teorías.1 Esto significa derivar implicaciones observables de la teoría en la forma de proposiciones del tipo: “si la teoría es una explicación apropiada del problema de investigación, se tendría que observar empíricamente \(H\)”, donde \(H\) es una hipótesis. Típicamente, las hipótesis postulan una asociación causal del tipo: \(D\) es causa de \(Y\) (\(D \longrightarrow Y\)).

Después de un inicio difícil,2 se han desarrollado técnicas de análisis estadístico que, bajo ciertos supuestos, son consideradas apropiadas para el test de hipótesis causales. Una de ellas es la regresión múltiple. En la actualidad, los supuestos bajo los cuales sus resultados producen una inferencia causal válida no son considerados convincentes. Sin embargo, las técnicas más avanzadas y que cuentan con mayor aceptación son en buena medida extensiones del análisis de regresión. Es decir que la regresión múltiple es el paso obligatorio para todo diseño de investigación creíble.3

Todo esto, en fin, para remarcar que en la exposición de todos los temas se pone siempre énfasis en su relevancia para las ciencias sociales y la manera en que se aplican en nuestras disciplinas.

Finalmente, uno de los obstáculos más comunes a la adecuada comprensión de los tests propios del análisis cuantitativo es que estos hacen referencia a objetos altamente abstractos como la distribución muestral. La inapropiada comprensión de la lógica subyacente en estas pruebas está en la base de la inapropiada interpretación de los resultados obtenidos en los análisis de significancia.

En el curso se explotan las capacidades computaciones y la flexibilidad del lenguaje de programación R para superar este obstáculo. Toda cantidad obtenida en una muestra es sólo uno de los resultados posibles que pudieron haber obtenido. La simulación de procesos aleatorios con R nos permitirá ubicar el resultado obtenido en una muestra concreta en la distribución de probabilidad de los resultados posibles. Esto da una mayor concreción a las ideas subyacentes, por ejemplo, en el Teorema Central del Límite.

2 Objetivo general

Los y las estudiantes contarán con las herramientas analíticas básicas del análisis cuantitativo aplicado a las ciencias sociales. Esto incluye el desarrollo de las habilidades tanto 1) para aplicar por sí mismos las técnicas analíticas revisadas, como 2) para interpretar los resultados desde un punto de vista inferencial.

3 Objetivos específicos

Al concluir el curso, los y las estudiantes estarán familiarizados con:

4 Desarrollo

La clase está estructurada formalmente en 12 sesiones de tres horas en las que se repasará cada uno de los ítems del temario en la siguiente estructura: tipo de pregunta a la que responde, modelo estadístico de análisis, fundamento conceptual del modelo e interpretación de los resultados.

Cada tema es acompañado de un taller de dos horas semanales en el que se llevan a cabo aplicaciones prácticas de cada uno los modelos revisados con el auxilio del lenguaje de programación R. Estas aplicaciones prácticas son en las siguientes modalidades:

  1. con bases de datos como las que normalmente se usan en los tests de hipótesis,
  2. replicando los análisis de investigaciones publicadas en revistas científicas, y
  3. con simulaciones de procesos aleatorios, especialmente útiles para entender la lógica inferencial.

Los ejercicios prácticos serán trasmitidos por proyector a los y las estudiantes en el aula asignada para la clase. Asimismo, se creará un perfil de Google Classroom desde el que los y las estudiantes tendrán acceso a los scripts y las bases de datos que se usarán y las diapositivas.

5 Evaluación y uso de inteligencia artificial

Se aplicarán dos exámenes a resolver en casa. Cada uno representará el 50% de la calificación total.

El uso de herramientas de Inteligencia Artificial Generativa (IAG) como ChatGPT está permitido siempre que se cumplan dos condiciones:

  1. El producto final no debe ser la respuesta de IAG. La IAG es una excelente herramienta cuando tenemos una interacción consciente e informada con ella. Si le pedimos que haga el trabajo por nosotros, el producto obtenido será mediocre.
  2. Se debe compartir el historial de la interacción. Esto no es sólo un requisito del uso ético de la IAG y un medio para verificar el uso apropiado. Las utilidades de herramientas como los Modelos de Lenguaje Grande suelen superar las inicialmente concebidas por sus desarrolladores/as. En este contexto, el proceso de ensayo y error por parte de los usuarios permite descubrir aplicaciones prácticas no anticipadas. Compartir el historial sirve para que aprendamos todos.
  3. Finalmente, dado que el contenido del curso basta para responder los dos exámenes, en cada respuesta se debe identificar en qué parte de los materiales del curso (página de las diapositivas o el script con la línea de código) está la técnica utilizada que usaron para la respuesta. En caso contrario, la pregunta se tomará como no contestada.

6 Requisitos

Las clases están pensadas tomando en cuenta que los participantes tomaron el propedéutico de matemáticas y el curso de Estadística I.

Otro prerrequisito es tener instalado R () y RStudio () en sus equipos. Si ya los instalaron, conviene verificar que han actualizado a la última versión.

7 Sesiones

A continuación, se describe el contenido temático del curso desglosado en sesiones.

Simulación, inferencia y diseño: herramientas estadísticas para el análisis empírico (sesiones 1-2)

En una sesión introductoria se revisará la lógica subyacente en el uso de herramientas de análisis cuantitativo como auxiliar en la investigación: específicamente, la necesidad de una cuidadosa valoración de los supuestos que es necesario afirmar sobre el proceso empírico investigado cuando se escoge un modelo matemático para analizarlo.

Se extiende la discusión sobre inferencia llevada el cuatrimestre previo en dos sentidos: la simulación de procesos aleatorios y la manera en que cambia la interpretación cuando pasamos de una muestra tomada de una población al diseño experimental (típicamente sobre una muestra no aleatoria).

  • ¿Qué es un modelo? Cómo plantear una pregunta de investigación para abordarla con herramientas de la estadística.
  • Procesos aleatorios: simulación en R
  • Inferencia en el diseño experimental: ¿cuál es el parámetro “poblacional”?

Ejemplos prácticos:

  • Modelación: ¿cuántos hits clavará Babe Ruth si pasa al bat cinco veces?
  • Independencia: el número efectivo de partidos.
  • Simulación:
    • Rosencrantz y Gildenstern están muertos: un millón de volados.
    • La distribución muestral de la votación de Claudia Sheinbaum.
    • Si tomamos cien muestras, ¿en cuántas nos equivocamos?.
  • Experimento (replicación): Discriminación en el mercado laboral (Bertrand y Mullainathan 2004).

Literatura: Diez, Çetinkaya-Rundel, y Barr (2019, cap. 6), Gill (2006, cap. 8) y Mohr (1990).

Prueba de hipótesis (continuación) (sesiones 3 - 4)

Además de la diferencia de proporciones, existen otros tests para la comparación de una variable en distintos grupos.

  • Diferencia entre dos medias
  • Proporciones en tres o más grupos: test de independencia
  • Medias en tres o más grupos: Análisis de varianza.

Ejemplos prácticos:

Literatura: Diez, Çetinkaya-Rundel, y Barr (2019, caps. 6 y 7). Opcional: Reynolds (1984, cap. 2) para test de independencia e Iversen y Norpoth (1987, cap. 2) para ANOVA.

Asociación bivariada y tamaño del efecto (sesiones 5 - 6)

En las ciencias sociales es de especial interés evaluar si dos fenómenos estás asociados, incluyendo el caso en que uno es causa del otro. Los estadísticos de asociación cuantifican dicha asociación. Se revisarán los estadísticos apropiados para el nivel de medición de las variables.

  • Asociación entre variables numéricas: Covarianza y correlación
  • Asociación entre variables ordinales: tau y correlación policórica
  • Asociación entre variables nominales: lambda
  • Tamaños de efecto para factores: Phi, V de Cramér
  • Asociación entre variables numéricas y factores: d de Cohen y g de Hedges; eta cuadrada y omega cuadrada.

Ejemplos prácticos:

  • Logro escolar y estatus socioeconómico (ENLACE)
  • Análisis de encuestas de opinión (GEA - ISA 2018)
  • ¿Son mejores las escuelas privadas? (ENLACE)

Literatura: Lewis-Beck (1995) y Lakens (2013).

Regresión lineal simple (sesiones 7 - 8)

El modelo de regresión es la base de las técnicas de análisis actuales más utilizadas en las ciencias sociales. Se repasarán sus propiedades, la interpretación apropiada de los resultados y los supuestos bajo lo que se justifica la inferencia estadística.

  • Estimador por mínimos cuadrados
  • Inferencia: el teorema Gauss-Markov
  • Ajuste: la R cuadrada (explicación que no explica)
  • Diferencia de medias con variable indicadora (dummy)

Ejemplos prácticos: Se volverá sobre la relación entre estatus y logro, pero esta vez desde la perspectiva del análisis de regresión.

Literatura: Ver siguiente tema.

Regresión lineal múltiple (sesiones 9 - 10)

El uso de dos o más variables independientes busca distintas finalidades (p. ej., mejorar el pronóstico). En las ciencias sociales, el objetivo de la regresión múltiple es “controlar” por potenciales confusores para tener una mejor estimación de la asociación de interés (la relación \(D \longrightarrow Y\), antes mencionada).

  • Uso de Variables de control e interpretación de resultados: “manteniendo lo demás constante” y “descontando el efecto”
  • Inferencia: verificación de supuestos
  • R2 ajustada
  • Factores con más de dos niveles

Ejemplos prácticos:

  • Pero, ¿realmente son mejores las escuelas privadas? (datos de Enlace)
  • Replicación (regresión múltiple): Normas sociales y éxito en el combate a la Covid-19 (Gelfand et al. 2021).

Literatura: Imai (2017, caps. 4.2, 4.3.1, 4.3.2, y 7.3), Fynn y Nocetto (2021) y Berry (1993). Se sugiere Franzese (2007), que requiere un nivel más avanzado, pero explica muy bien el control con la regresión múltiple.

Regresión lineal para asociaciones no lineales (sesión 11)

El modelo de regresión clásico es “lineal y aditivo”. Sin embargo, tiene una enorme flexibilidad para modelar asociaciones que o no son lineales o no son aditivas. Las asociaciones entre dos variables son “no aditivas” cuando su magnitud o signo depende del valor de una tercera variable. Esto se resuelve con una multiplicación. Las asociaciones no lineales pueden ser muy diversas. Se revisarán las que involucran la transformación logarítmica de las variables en la asociación.

  • Asociaciones no lineales:
  • Crecimiento exponencial (modelo log-lineal).
  • Rendimientos decrecientes (modelo lineal-log).
  • Proporcionalidad flexible (modelo lineal-log).
  • Asociaciones no aditivas (condicionales): término de interacción

Ejemplos prácticos:

  • Crecimiento poblacional malthusiano
  • PIB per cápita y aprovechamiento escolar
  • Crecimiento Cobb-Douglas
  • Enojo, partidismo y amenaza. Réplica de Huddy, Mason, y Aarøe (2015).

Variable dependiente dicotómica (sesión 12)

La regresión lineal puede ser utilizada cuando la variable de resultado es dicotómica, pero podría haber problemas con los supuestos sobre los residuos y de valores ajustados fuera del rango \([0,1]\). En situaciones como esta, se recurre a las alternativas de la familia de modelos conocida como modelos lineales generalizados. En esta sesión revisaremos la regresión logística binomial.

  • Modelo de probabilidad lineal: no descartes de antemano la regresión lineal.
  • Regresión logística:
    • Estimación por máxima verosimilitud
    • Interpretación: razón de momios y probabilidad condicional

Ejemplos prácticos:

Deber cívico y probabilidad de voto: primero replicamos el modelo de probabilidad lineal de Gerber, Green, y Larimer (2008) y después analizamos los mismos datos con regresión logística.

Literatura: Liao (1994, caps. 2 y 3) y Urdinez (2021).

8 Literatura adicional

El temario de este curso es bastante básico, por lo que se puede encontrar en cualquier manual. Entre los que tienen un enfoque orientado a las ciencias sociales, un texto pionero es Blalock (1978), aunque podría resultar un poco rebasado para los recursos y temas más actuales. Destacan, a nivel introductorio, Bueno de Mesquita y Fowler (2021) y Kellstedt y Whitten (2018, 2021), y, un poco más exigentes, Fox (2016) y Gelman, Hill, y Vehtari (2021).

Un par de introducciones básicas a R en español son Garibaldi et al. (2019) está totalmente dedicado a la programación y Urdinez y Cruz Labrı́n (2021, caps. 1-4).

Los libros de Pollock y Edwards (2019, 2023) combinan una amplia cobertura temática con un tratamiento intuitivo. Se sugiere revisar los capítulos correspondientes a los temas del curso.

Referencias

Angrist, Joshua D., y Jörn-Steffen Pischke. 2009. Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton: Princeton University Press.
Berry, William D. 1993. Understanding regression assumptions. Newbury Park, CA: Sage.
Bertrand, Marianne, y Sendhil Mullainathan. 2004. «Are Emily and Greg More Employable Than Lakisha and Jamal? A Field Experiment on Labor Market Discrimination». American Economic Review 94 (4): 991-1013.
Blalock, Hubert M. 1978. Estadı́stica social. 2.ª ed. Méxcio: Fondo de Cultura Económica.
Bueno de Mesquita, Ethan, y Anthony Fowler. 2021. Thinking Clearly with Data: A Guide to Quantitative Reasoning and Analysis. Princeton: Princeton University Press.
Chattopadhyay, Raghabendra, y Esther Duflo. 2004. «Women as Policy Makers: Evidence from a Randomized Policy Experiment in India». Econometrica 72 (5): 1409-43. https://doi.org/10.1111/j.1468-0262.2004.00539.x.
Diez, David, Mine Çetinkaya-Rundel, y Christopher D. Barr. 2019. OpenIntro Statistics. 4.ª ed. OpenIntro. https://leanpub.com/openintro-statistics.
Fox, John. 2016. Applied regression analysis and generalized linear models. Thousand Oaks, CA: Sage Publications.
Franzese, Robert J. 2007. «Multicausality, context-conditionality, and endogeneity». En The Oxford handbook of comparative politics, editado por Susan Carol Stokes y Carles Boix, 28-72. New York: Oxford University Press.
Fynn, Inés, y Lihuen Nocetto. 2021. «Modelos lineales». En AnalizaR Datos Polı́ticos, editado por Francisco Urdinez y Andrés Cruz. Boca Raton: CRC Press. https://arcruz0.github.io/libroadp/index.html.
Garibaldi, Lucas Alejandro, Facundo José Oddi, Francisco Javier Aristimuño, y Aliosha Nicolás Behnisch. 2019. Modelos estadı́sticos en lenguaje R. Buenos Aires: UNRN.
Gelfand, Michele J., Joshua Conrad Jackson, Xinyue Pan, Dana Nau, Dylan Pieper, Emmy Denison, Munqith Dagher, Paul A M Van Lange, Chi-Yue Chiu, y Mo Wang. 2021. «The relationship between cultural tightness–looseness and COVID-19 cases and deaths: a global analysis». The Lancet Planetary Health 5 (3): e135-44. https://www.sciencedirect.com/science/article/pii/S2542519620303016.
Gelman, Andrew, Jennifer Hill, y Aki Vehtari. 2021. Regression and other stories. Cambridge: Cambridge University Press.
Gerber, Alan S., Donald P. Green, y Christopher W. Larimer. 2008. «Social Pressure and Voter Turnout: Evidence from a Large-Scale Field Experiment». American Political Science Review 102 (1): 33-48.
Gill, Jeff. 2006. Essential mathematics for political and social research. New York: Cambridge University Press.
Huddy, Leonie, Lilliana Mason, y Lene Aarøe. 2015. «Expressive partisanship: Campaign involvement, political emotion, and partisan identity». American Political Science Review 109 (1): 1-17.
Huntington-Klein, Nick. 2022. The effect: An introduction to reserach design and causality. CRC Press. https://theeffectbook.net.
Imai, Kosuke. 2017. Quantitative Social Science: An Introduction. Princeton: Princeton University Press.
Iversen, Gudmund R., y Helmut Norpoth. 1987. Analysis of variance. 2.ª ed. Thousand Oaks, CA: Sage.
Kellstedt, Paul, y Guy Whitten. 2018. The Fundamentals of Political Science Research. 3.ª ed. Nueva York: Cambridge University Press.
———. 2021. An R Companion for the Third Edition of The Fundamentals of Political Science Research. Nueva York: Cambridge University Press.
Lakens, Daniël. 2013. «Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs». Frontiers in Psychology 4. https://www.frontiersin.org/articles/10.3389/fpsyg.2013.00863/full.
Lewis-Beck, Michael S. 1995. Data analysis. Thousand Oaks, CA: Sage.
Liao, Tim Futing. 1994. Interpreting Probability Models: Logit, Probit, and Other Generalized Linear Models. Thousand Oaks: Sage.
Mohr, Lawrence B. 1990. Understanding significance testing. Thousand Oaks: Sage.
Pearl, Judea, y Dana Mackenzie. 2018. The book of why: The new science of cause and effect. New York: Basic Books.
Pollock, Philip H., y Barry C. Edwards. 2019. The Essentials of Political Analysis. 6.ª ed. Thousand Oaks, CA: Sage / CQ Press.
———. 2023. An R Companion to Political Analysis. 6.ª ed. Thousand Oaks, CA: Sage.
Reynolds, H. T. 1984. Analysis of nominal data. 2.ª ed. Newbury Park, CA: Sage.
Urdinez, Francisco. 2021. «Modelos logı́sticos». En AnalizaR Datos Polı́ticos, editado por Francisco Urdinez y Andrés Cruz. Boca Raton: CRC Press. https://arcruz0.github.io/libroadp/index.html.
Urdinez, Francisco, y Andrés Cruz Labrı́n, eds. 2021. AnalizaR Datos Polı́ticos. Boca Raton: CRC Press. https://arcruz0.github.io/libroadp/index.html.

  1. La utilidad práctica de los métodos cuantitativos es más amplia que el test de hipótesis causales. Por ejemplo, un dominio de las técnicas de muestreo es fundamental en cualquier empresa dedicada a la investigación por encuestas. Asimismo, aplicaciones dentro de la familia de técnicas conocidas como machine learning ponen mucho énfasis en la clasificación y la predicción. Sin restar mérito o importancia a estas áreas, en este curso se pone énfasis en el hecho de que la principal forma de “hallazgo” en las ciencias sociales es en la variedad de evidencia a favor de una hipótesis causal.↩︎

  2. Sobre la historia de la relación entre la estadística y el análisis causal, véase Pearl y Mackenzie (2018).↩︎

  3. Véase, por poner un ejemplo clásico, Angrist y Pischke (2009), o, para uno más reciente, Huntington-Klein (2022), pero estamos hablando literalmente de toneladas de literatura.↩︎