Estudios de N Grande

Diego Solís Delgadillo

Sistemas Políticos Comparados

Introducción

  • La política comparada(como disciplina) incluye
    • Estudios de N pequeña
    • Comparación entre países (cross-national)
  • Los segundos se apoyan en métodos cuantitativos

Métodos cuantitaivos

  • Están basados en la probabilidad
  • Identifican regularidades (o ausencia) entre los casos estudiados
  • Buscan identificar la magnitud del efecto causal

Métodos cuantitaivos

  • Permiten hacer inferencias desde una muestra a la población
  • Son métodos con alta validez externa
  • Se aproximan al método experimental al controlar por variables confusoras

Parámetro y estimadores

  • Los parámetros son los valores verdaderos de la población
  • Los estimadores son nuestra predicción del modelo

Distribuciones Muestrales

Distribuciones Muestrales

¿Cómo saber cuántas esferas rojas y blancas hay en el recipiente?

¿Cómo saber cuántas esferas hay de cada color?

  • Podemos contar todas las esferas rojas y blancas
    • Sería un proceso costoso
  • Una alternativa es tomar una muestra

Muestra

  • Tomamos una muestra de 50 esferas
  • Obtenemos 17 esferas rojas (34%)
  • Es una estimación de la proporción de esferas rojas en el recipiente

  • Imaginemos que repetimos el ejercicio
  • ¿Obtendremos nuevamente 17 esferas rojas?

Important

  • Muy posiblemente obtendremos resultados distintos

Distribución de los resultados

  • Repitiendo 33 veces el ejercicio

Repitiendo el ejercicio 1000 veces

  • El histograma muestra la variación muestral

Ruido y sesgo

  • El ruido son errores que ocurren aleatoriamente (por ejemplo por muestreo)

  • El sesgo son errores que ocurren por razones sistemáticas

Tamaño de la muestra

  • Utilizamos tres tamaños 25, 50 y 100

Desviación estándar

  • Conforme aumenta el tamaño de la muestra la variación es más pequeña
  • Los valores se centran más cercanos a la media
  • La variación puede medirse con la desviación estándar

Important

  • La desviación estándar es cantidad de variación es una variable numérica

Desviación estándar

  • Desviación muestra \(n=25\)
# A tibble: 1 × 1
      sd
   <dbl>
1 0.0956
  • Desviación muestra \(n=50\)
# A tibble: 1 × 1
      sd
   <dbl>
1 0.0706
  • Desviación muestra \(n=100\)
# A tibble: 1 × 1
      sd
   <dbl>
1 0.0470

Distribución muestral

  • La distribución que muestra los valores de repitadas estimaciones
  • Muestra el efecto de la variación en el muestreo
  • Con ellas podemos ver los casos que típicamente podemos esperar

Error Estándar

  • Es la desviación estándar de la distribución muestral
  • Cuantifica cuánto varían los estimadores

Important

  • Conforme aumenta el tamaño de la muestra disminuye el error estándar

Error Estándar

Tip

  • Si el error estándar es grande, los estimadores están dispersos y la medición es imprecisa

Note

  • Si es pequeño, los estimadores están cerca uno del otro y la medición es precisa

Important

  • Entre más grande es la muestra el error estándar es más pequeño

Teorema de Límite Central

  • Parte de una hipotética repetición infinita de muestras

  • La distribución de esas medias tendrá una distribución normal

Important

  • El valor medio de la distribución muestral será igual al valor poblacional

Teorema de Límite Central

Tip

  • El valor verdadero es 37.5%

Intervalos de confianza

  • Es un rango de posibles valores
  • En una distribución Z a 1.96 desviaciones estándar se encuentra el 95% de las observaciones
  • Por tanto, a 1.96 errores estándar se encuentra el 95% de los estimadores

Importante

  • Tomamos nuestro estimador y sumamos (y restamos) 1.96 por el valor del error estándar

Cómo NO interpretar el intervalo

Hay un 95% de probabilidad de que dentro del intervalo esté el valor verdadero

¿Cómo interpretar el intervalo?

Si no hay sesgo y repetimos nuestro estimador infinitamente, el valor del parámetro estará dentro del intervalo el 95% de las veces

Pruebas de Hipótesis

Pruebas de Hipótesis

Prubas de hipótesis

  • Contrasta el estimador obtenido contra la hipótesis nula
    • Crea una distribución muestral de estimadores en un contexto donde \(X\) no incide en \(Y\)

Ejemplo promociones

  • Queremos saber si hay sesgo en la promoción de trabajadores
    • H1. Se prefieren hombres a mujeres
  • Se les entregó a supervisores de banco resúmenes idénticos
    • Solo distintos en el sexo de la persona
    • 24 con nombres de hombre y 24 con nombres de mujeres

Compración entre géneros

Important

  • Menos mujeres fueron promovidas
# A tibble: 4 × 3
# Groups:   gender [2]
  gender decision     n
  <fct>  <fct>    <int>
1 male   not          3
2 male   promoted    21
3 female not         10
4 female promoted    14

Tip

  • 21 de 24 hombres promovidos (87.5%)
  • 14 de 24 mujeres (58.3%)

  • ¿Es posible haber obtenido este resultado solo por muestreo?

Prueba de hipótesis

  • En el ejercicio lo que nos interesa es la diferencia de proporciones

\[ p_{h}-p_{m}\]

Hipótesis nula

Important

  • La hipótesis nula afirma que no existe un efecto o diferencia de interés

Ejemplo

  • \(H_{0}\): Los hombres y mujeres son promovidos por igual
  • \(H_{A}\): Los hombres son promovidos a tasa mayor

Estimador y distribución nula

  • Nuestro estimador es la diferencia observada en los datos

\[ \hat{p}_{h}-\hat{p}_{m}= 0.875-0.583=0.292=29.2%\]

Important

  • La distribución nula es la distribución muestral asumiendo que el valor del parámetro es igual a 0

P-value

  • Es la probabilidad de obtener un estimador dado que \(H_{0}\) es verdadera
  • Si es una probabilidad es muy pequeña rechazamos la hipótesis nula

Regresión lineal

  • Sirve para estimar la relación entre dos variables
    • Utilizamos los valores de \(X\) para explicar \(Y\)
  • Estimamos la mejor línea de ajuste
    • La línea que con suma de residuos cuadrados más pequeña

Estimadores y residuos

  • Interpretamos a \(\beta\) como la pendiente de la línea
  • Un incremento de una unidad en \(X\) está asociado a un incremento \(\beta\) en \(Y\)
  • Si introducimos un valor de \(X\) en el modelo obtenemos una predicción \(\hat{Y}\)
  • La diferencia entre el estimador \(\hat{Y}\) y lo que observamos en los datos (\(Y\)) le llamamos residuo

Término de error

  • Raramente vamos a predecir prerfectamente una observación
  • Habrá una diferencia entre la línea de ajuste y las observaciones
  • Podemos agregar estar diferencia a el modelo lineal

\[Y= \beta_0 + \beta_1X +\epsilon\]

Residuo y error

  • La diferencia tiene dos nombres
  • El residuo es la diferencia entre la predicción y los valores observados
  • El error es la diferemcia entre la mejor línea de ajuste verdadera y los valores observados

Estimadores

  • Los coeficientes que obtenemos de una regresión son estimadores
    • Varían de muestra a muestra
    • Existe una distribución muestral de los coeficientes
  • Dicha distribución tiene la forma de una distribución normal
    • La media de la distribución es el parámetro poblacional

Pruebas de hipótesis con OLS

  • Asumimos una distrubión normal centralda alrededor de un valor para \(\beta_1\)
    • \(\beta_1=0\)
  • Estimamos \(\beta_1\) utilizando OLS con nuestros datos
    • Nuestra estimación es \(\hat{\beta}_1\)
  • Utilizamos la distribución teórica para ver qué tan probable es obtener \(\hat{\beta}_1\) si el valor de \(\beta_1\) fuese \(0\)

  • Asumimos como verdadera la hipótesis nula
  • En la distribución teórica elegimos un área de rechazo \(\alpha\)
    • Por lo general el 95%

Importante

Al rechazar la hipótesis nula decimos que los valores de \(\hat{\beta}_1\) serían atípicos si \(\beta_1=0\)

P-value

  • Los valores por encima de \(\alpha\) son estadísticamente significativos
  • Si el estimador \(\hat{\beta}_1\) está por encima del percentil 97.5 es significativo al 95%
  • Esta probabilidad es el p-value

Tip

  • Entre más pequeño es el p-value la probabilidad de haber obtenido el valor de \(\hat{\beta}_1\) solo por muestro es más pequeña

Tipos de errores

  • Cuando \(H_0\) es verdadera y la rechazo entonces estoy cometiendo un error de Tipo I
    • Falso positivo
  • Cuando no rechazo \(H_0\) y es falsa se trata de un error tipo II
    • Falso negativo

Ejemplo

\[BodyMass=\beta_0+ \beta_{FlipperLenght}+\epsilon\]

Ejemplo

  body mass g
Predictors Estimates CI p
(Intercept) -5780.83 -6382.36 – -5179.30 <0.001
flipper length mm 49.69 46.70 – 52.67 <0.001
Observations 342
R2 / R2 adjusted 0.759 / 0.758

Calidad del modelo

  • Dos indicadores son la \(R^2\) y la \(R^2 Ajustada\)
  • La \(R^2\) es una medida de la varianza que es explicada del modelo
    • Cuánto de \(Y\) está siendo explicado por el modelo
  • La \(R^2 Ajustada\) es lo mismo, pero ajusta por el número de variables en el modelo

Controlando por el sexo

  body mass g
Predictors Estimates CI p
(Intercept) -5410.30 -5972.52 – -4848.09 <0.001
flipper length mm 46.98 44.15 – 49.82 <0.001
sex [male] 347.85 268.49 – 427.21 <0.001
Observations 333
R2 / R2 adjusted 0.806 / 0.805

Interpretación

  • La interpretación de los coeficientes se dan controlando por otras variables
  • Decimos que \(\beta\) indica en cuanto cambia \(Y\) por el aumento de una unidad en \(X\) manteniendo los demás valores constantes

Constante

  • La constante es nuestra predicción para \(Y\) cuando todos los predictores son iguales a cero

Warning

  • Si los valores de la independiente no pueden llegar a cero, entonces su valor no es muy informativo

Ejemplo

  • No puede haber un pingüino con estatura igual a cero

Variables dummy

  • Por ejemplo variables que son binarias verdaderas o falsas
    • Un individuo recibió el tratamiento o no
    • Hombre o mujer
    • Casado o soltero
  • ¿Cómo interpretar los coeficientes de estas variables?

Variables discretas

  • \(\beta\) nos da el diferencia en la variable dependiente entre los verdaderos y falsos
  • Si corremos el modelo \[ Salario= \beta_0+\beta_1Hombre+ \epsilon\]
  • \(\beta_1\) indica cuánto más gana en promedio un hombre en comparación con una mujer

Interpretación

Important

  • Lo que genera el modelo son interceptos diferentes para los grupos