Estadística para las Ciencias Sociales

Maestría en Asuntos Políticos y Políticas Públicas

Diego Solís Delgadillo

Contenidos

Tip

  • Introducción
  • Muestreo
  • Estadística descriptiva
  • Introducción a R
  • Probabilidad
  • Distribuciones discretas
  • Distribuciones continuas

Note

  • Inferencia estadística Relación entre variables categóricas
  • Aplicaciones en R
  • Regresión lineal y correlación
  • Regresión logística
  • Modelos de regresión en R
  • Herramientas complementarias
  • Aplicaciones en R

Bibliografía básica

  • Agresti, A. (2018). Statistical Methods for the Social Sciences. Boston: Pearson

  • Bueno de Mesquita, E. & Fowler, A. (2021). Thinking Clearly with Data A Guide to Quantitative Reasoning. Princeton: Princeton University Press.

  • Rowntree, D. (1981). Statistics without Tears: A Primer for Non-Mathematicians. New York: Charles Sribner’s Sons

Criterios de evaluación

  • Participación: 10%
  • Evaluaciones parciales: 60%
  • Trabajo final: 30%

Sesión 1

  • ¿Por qué estudiar estadística?
  • ¿Qué es la estadística?
  • Tipos de estadística
  • Tipos de variables
  • Población y muestra
  • Tipos de muestreo

¿Por qué estudiar estadística?

  • El uso de métodos cuantitativos está ampliamente extendido en las Ciencias Sociales

La estadística permite

  • Describir datos
  • Poner a prueba hipótesis
  • Evaluar políticas públicas

¿Por qué estudiar estadística?

  • Brinda habilidades para juzgar investigación
    • Separar buena de mala investigación
  • La estadística nos permite comunicar nuestros resultados
    • Demanda por conocimiento generado con las mejores prácticas basadas en evidencia.
  • Dota de habilidades para trasladar la investigación a la práctica
    • Capacidad de interpretar e informar

¿Qué es la estadística?

Tres significados

  • Ciencia del análisis de datos (disciplina)
  • Conjunto de métodos para obtener y analizar datos.
  • El conjunto de datos obtenidos con dichos métodos

Provee métodos para diseñar, describir y hacer inferencias

  • En el diseño sirve para planear cómo será recabada la información
  • Con la descripción nos ayuda a resumir los datos
  • También sirve para hacer predicciones sobre los datos (inferencia)

Tipos de estadística

Estadística descriptiva

  • Son métodos utilizados para resumir y describir nuestras observaciones

Estadística inferencial

  • Utiliza esas observaciones como base para hacer estimaciones o predicciones

Ejemplo

  • “En promedio los estudiantes del maestría dedican 2.5 horas diarias a lectura”

  • “Con base en una encuesta, sabemos que el 60% de los estudiantes prefieren clases por la mañana”

Población

Sujetos de estudio

  • Son las entidades que observamos
  • Pueden ser personas, familias, escuelas, estados, ciudades, años, etc

Población

  • Es el total de sujetos de interés en un estudio
  • Toda persona, evento, país u objeto el investigador le gustaría estudiar

Muestra

Advertencia

  • Frecuentemente no contamos con información para cada sujeto en la población

  • En Ciencias Sociales casi siempre trabaja con muestras

Muestra

  • Es un subconjunto de la población sobre la que se recolecta información

  • La capacidad para inferir qué sucede en la población depende de si la muestra es representativa

Estadística descriptiva

  • Resume la información de los datos
  • Presenta los datos a formas más entendibles

Note

  • Consisten en gráficos, tablas y números como promedios y porcentajes

Estadística inferencial

Estadística inferencial

  • Provee predicciones sobre la población basada en datos sobre una muestra de la población

Ejemplo

  • Las encuestas son realizadas en pequeñas muestras que son capaces de mostrar lo que sucede con la población

Parámetros y estadísticas

Parámetro

  • Es un resumen numérico para la población

Estadística

  • Es un resumen numérico para una muestra

Note

  • Al realizar un estudio estamos interesados en el parámetro

  • Las estadísticas de la muestra ayudan a hacer inferencias sobre el parámetro desconocido de la población

  • Podemos estimar el parámetro con cierto margen de error

Variables y medición

  • Las ciencias sociales analizan relaciones causales
    • Implica la relación entre variables

Tip

  • Los métodos estadísticos ayudan a encontrar los factores que explican la variación entre sujetos

Ejemplo

  • Los países varían en su nivel de desarrollo. ¿Qué explica esa variación?
    • Gasto gubernamental, política industrial, inversión en I&D, instituciones políticas

Variables

Variables

  • Son características que podemos medir para cada sujeto
  • Es una característica que puede variar en su valor entre sujetos de una muestra o población.

Ejemplos

  • Para un individuo son el ingreso, años de estudio, número de hermanos, sexo
  • Para los países: el PIB per capita, el IDH, puntuación en índices de libertades (Polity IV, Freedom House, V-Dem), producción petrolera

Escala de medida

Escala de medida

  • Los valores que la variable puede tomar

Ejemplos

  • Para el género, esta consiste en dos valores: masculino/femenino.

  • Para el número de hermanos estos pueden ser 0, 1, 2, 3, …

Variables cuantitativas y categóricas

Variable cuantitativa

  • Su escala de medida tiene valores numéricos
  • Los valores representan diferentes magnitudes
  • Ejemplos son el ingreso y el número de hermanos

Variable categórica

  • Su medida de escala consiste en clases (categorías)
  • En las variables categóricas la diferencia es cualitativa no numérica o de magnitud.
  • Ejemplo: estado civil, lugar de residencia, la religión, el estatus laboral

Escala de intervalo

  • Las variables cuantitativas tienen una escala de intervalo

Escala de intervalo

  • Tiene una distancia numérica específica (el intervalo) entre cada nivel
  • La distancia del intervalo entre dos valores es la misma

Ejemplo

  • La diferencia de calor entre 0º centígrados y 1º centígrado es la misma diferencia que entre 99º centígrados y 100 ° centígrados

Escala de intervalo (ii)

Comparación y operaciones

  • Con las medidas de intervalo podemos comparar qué tan grande es uno con respecto al otro
    • En el caso de la temperatura nos permite saber qué tanto calor hace el día de hoy en comparación con el día de ayer
    • Cuál ha sido el día más cálido durante todo el año
  • Permiten realizar operaciones como adicciones sustracciones calcular promedios

Variables continuas

  • Las variables de intervalo pueden ser de dos tipos: continuas o discretas

Escala continua

  • Permite un amplio rango de valores - Pueden tomar valores continuos infinitos a lo largo los números reales

  • Permiten expresiones decimales o fracciones

  • Por ejemplo, la estatura, el peso, el PIB per capita

Variables discretas

Variable es discreta

  • Sus posibles valores forman un conjunto de números separados cómo como 0,1,2,3…
  • Los valores que puede tomar la variable están limitados a un rango de posibilidades
  • Por ejemplo, cuando se valoran las películas en una escala que va de una a 5 estrellas

Variables discretas (cont)

Conteos

  • Con frecuencia son conteos
    • Número de hermanos
    • Visitas al médico en el año
    • Número de iniciativas aprobadas en la legislatura
    • Estrellas recibidas por una película

Importante

  • Las variables discretas son números enteros

Escala nominal

Escalas variables categóricas

  • Nominales y ordinales
  • Cuando las escalas no tienen un orden estamos frente a escalas nominales

Escala nominal

  • Clasifican objetos en categorías que son mutuamente excluyentes y exhaustivas
  • Las categorías no se pueden traslapar.
  • No hay objetos que se queden sin clasificar

Escala ordinal

  • Las variables categóricas que pueden ser ordenadas cuentan con una escala ordinal

Tip

  • Los datos ordinales cuentan con categorías mutuamente excluyentes y exhaustivas
  • Pero a diferencia de la escala nominal estas pueden ser ordenadas

Ejemplo

  • Los rangos militares, el apoyo a la democracia (mucho, bastante, poco, muy poco), la clase social (alta/media/baja)
  • No son variables de intervalo porque la distancia entre los niveles no está definida

Actividad 1

Actividad 2

Muestreo

Maestría en Asuntos Políticos y Políticas Públicas

Muestreo

  • La estadística inferencial utiliza muestras para hacer predicciones sobre los parámetros de la población

  • La calidad de las inferencias depende de qué tan bien representa la muestra a la población

Conceptos

  • La muestra es el conjunto de personas que son contactadas
  • Los respondientes son un subconjunto de la muestra: los que respondieron la encuesta
  • Los temas completos es el subconjunto de preguntas que los respondientes contestan

Selección de muestra

  • Primero hay que identificar la población objetivo

Población objetivo

  • El conjunto de personas sobre las que queremos conocer
    • Por ejemplo, la gente que votará en la siguiente elección
  • Segundo, necesitamos conocer el marco muestral

Marco muestral

  • Es una lista de todos los sujetos en la población
  • Por ejemplo, el padrón electoral

Marco muestral

Limitaciones del marco muestral

  • Para una encuesta telefónica, el marco muestral puede ser la lista de todos los votantes registrados
  • En una encuesta ideal la población en la muestra es idéntica a la población objetivo
    • Este ideal raramente se cumple
  • Algunas personas en la población objetivo no están en el marco muestral
    • Por ejemplo, personas sin teléfono
    • Otros no responden a la encuesta

Marco muestral

Limitaciones del marco muestral

  • La encuesta puede contener unidades que no están en la población objetivo
    • Por ejemplo, menores de edad que responden una encuesta electoral
    • O electores no registrados para votar

Tipos de errores

Error de muestreo

  • Las encuestas reportan un “margen de error”
  • El margen de error describe el error de muestreo
  • Este error es resultado de tomar muestras aleatorias (en lugar de examinar toda la población)
  • Hay una variabilidad de muestra a muestra

Errores que no son de muestreo

  • El sesgo de selección y los errores de medición

Sesgo de selección

  • Ocurre cuando la población objetivo no coincide con la muestra

¿Cuando ocurre el sesgo?

  • Algunas unidades de la población son incluidas a una tasa diferente a la que se pretende

Ejemplo

  • Una encuesta quiere saber el ingreso de los hogares
  • Pero tiene menos hogares pobres de los que se obtendrían de una muestra representativa
    • Los estimados del ingreso medio estarán sesgados

Sesgo: RAF

Ejemplo Royal Air Force

  • Durante la SGM los bombarderos de la RAF eran cuestionados sobre la dirección con la que fueron más frecuentemente atacados
  • La mayoría contestaba que por arriba y por debajo
  • La muestra solo contenía a los sobrevivientes de los ataques

Sesgo

Muestreos sesgados

Muestras de conveniencia

  • El investigador encuesta al primer conjunto de población que se encuentra
  • El problema es que esas unidades (las más fáciles de localizar) pueden diferir de las unidades en la población

Muestras de autoselección

  • Consiste completamente de voluntarios
  • Por ejemplo, las encuestas en radio y televisión o las encuestas en redes sociales
  • Las estadísticas de esas encuestas no son confiables

Errores de medición

  • Cuando la respuesta de la encuesta difiere del valor verdadero

Sesgo de medición

  • Cuando la respuesta tiene una tendencia a diferir del valor verdadero en una dirección

Ejemplo error de medición

  • Cuando los entrevistados no entienden las preguntas
  • Cuando subreportan o dan respuestas socialmente deseables
    • Temas sensibles
  • Los entrevistados pueden olvidar

Tipos de muestreo

Aleatorio simple

Sistemático

Estratificado

Conglomerados

Muestreo aleatorio simple

Muestreo simple

  • Es un método en el que cada sujeto tiene la misma probabilidad de selección

Note

  • Cada posible muestra del mismo tamaño tiene la misma probabilidad de ser seleccionada
  • Una encuesta es representativa si cada persona tiene la misma posibilidad de ser entrevistado
  • La aleatoriedad evita la posibilidad de que la muestra esté sesgada

Muestreo aleatorio simple

  • La manera más común de seleccionar por este método es
    1. Dar un número a cada uno de los sujetos dentro del marco muestral
    2. Generar un conjunto de números de manera aleatoria
    3. Analizar los sujetos cuyos números fueron generados

Muestreo aleatorio simple

Las observaciones deben estar mezcladas

  • Para tomar la muestra el investigador debe mezclar a la población antes de seleccionar a las unidades
  • El investigador no necesita examinar a cada miembro de la población
  • Por ejemplo, a una persona no tienen que extraerle toda su sangre para medir sus células rojas
    • La sangre está lo suficientemente bien mezclada

Ruido

  • Aun con una muestra aleatoria los resultados dependerán de los sujetos que son incluidos en ella
  • Dos estudios que realizan muestras aleatorias separadas pueden llegar a resultados diferentes
  • Por ejemplo las estimaciones varían entre casas encuestadoras

Muestreo aleatorio sistemático

  • El método elige al sujeto aleatoriamente del marco muestral entre los primeros \(k\) sujetos
  • Posteriormente salta \(k\) observaciones y elige otra

Ejemplo

  • Si \(k\) es igual a 300, elegimos aleatoriamente un individuo entre los primeros 300
  • Saltamos 300 observaciones para entrevistar al segundo

Muestreo aleatorio sistemático

Advertencia

  • No todas las muestras tienen la misma probabilidad de ser seleccionados
    • Por ejemplo, dos sujetos ubicados uno junto al otro no pueden aparecer en la misma muestra

Muestreo aleatorio estratificado

Muestreo estratificado

  • Este método divide a la población en grupos separados llamados estratos

  • Posteriormente selecciona una muestra simple aleatoria de cada grupo

  • Por ejemplo, diferencias entre diferentes niveles educativos

  • Es llamado proporcional sí los estratos corresponden con los observados en la población

Muestreo estratificado

Ejemplo estratificado proporcional

  • La población tiene las siguientes características

    • 30% educación básica o menos
    • 50% educación media superior
    • 20% educación superior
  • La muestra reflejará estas proporciones

Muestreo estratificado

Muestreo estratificado desproporcional

  • Cuando las proporciones de la muestra difieren de las observadas en la población
  • Este último método es útil cuándo la población de un estrato es relativamente pequeña
  • Si el grupo es muy pequeño difícilmente para ser capturado por muestreo aleatorio
    • Por ejemplo, personas con doctorado
  • El objetivo de este muestreo es comparar grupos

Ejemplo

Ejemplo horas de estudio en El Colegio de San Luis

  • Podemos utilizar a la adscripción a cada programa como estrato
    • Licenciatura en Relaciones Internacionales
    • Maestría en Asuntos Políticos y Políticas Públicas
    • Maestría en Antropología
    • Maestría en Historia
    • Doctorado en Ciencias Sociales
    • Doctorado en Historia
    • Doctorado en Literatura
  • Tendríamos que hacer un muestreo aleatorio en cada programa

Muestreo de conglomerados

  • Los métodos de muestreo simple, sistemático y estratificado son frecuentemente difíciles de implementar
    • Porque requieren un marco muestral completo
  • Dichas listas son fáciles de conseguir para unidades como hospitales o escuelas
  • Pero más difíciles de obtener para individuos o familias
  • El muestreo por conglomerados es de utilidad cuando no contamos con una lista completa de la población

Muestro de conglomerados

¿En qué consiste?

  • El método consiste dividir la población en un amplio número de conglomerados
    • Por ejemplo, cuadras en una ciudad
  • Seleccionar una muestra simple de conglomerados y utilizar a los individuos en ese conglomerado como muestra

Ejemplo

  • Un estudio sobre adultos mayores en asilos puede identificar a los asilos
  • Posteriormente hacer un muestro aleatorio de los asilos
  • Entrevistar a todos los adultos mayores en las instituciones seleccionadas.

Ejercicio