Estadística para Ciencias Sociales

Métodos Cuantitativos

Diego Solís Delgadillo

Tipos de estadística

Estadística descriptiva

  • Son métodos utilizados para resumir y describir nuestras observaciones

Estadística inferencial

  • Utiliza esas observaciones como base para hacer estimaciones o predicciones

Conceptos básicos

Población

  • La población es el total de sujetos de interés en un estudio
    • Toda persona, evento, país u objeto el investigador le gustaría estudiar

Muestra

  • Subconjunto de la población sobre la que se recolecta información

  • La capacidad para inferir qué sucede en la población depende de si la muestra es representativa

Parámetros y estadísticas

Parámetro

  • Es un resumen numérico para la población

Estadística

  • Es un resumen numérico para una muestra

Variables y medición

  • Las ciencias sociales analizan relaciones causales
  • Esto implica la relación entre variables

Métodos estadísticos

  • Ayudan a encontrar los factores que explican la variación entre sujetos

Variables

  • Son características que podemos medir para cada sujeto
  • Varía en su valor entre sujetos de una muestra o población

Ejemplos

  • El ingreso, años de estudio, número de hermanos, sexo

Escala de medida

  • Los valores que la variable puede tomar son la escala de medida

Tip

  • Para el género, esta consiste en dos valores: masculino/femenino.
  • Para el número de hermanos estos pueden ser 0, 1, 2, 3, …

Variables cuantitativas y categóricas

Variable cuantitativa

  • Su escala de medida tiene valores numéricos
  • Los valores representan diferentes magnitudes

Variable es categórica

  • Su medida de escala consiste en clases (categorías)
  • Su diferencia es cualitativa no numérica o de magnitud.

Variables continuas

  • Permite un amplio rango de valores.
  • Pueden tomar valores continuos infinitos a lo largo los números reales
  • Permiten expresiones decimales o fracciones.

Ejemplo

  • La estatura, el peso, el PIB per capita

Variables discretas

  • Sus posibles valores forman un conjunto de números separados cómo como 0,1,2,3…

  • Los valores que puede tomar están limitados a un rango de posibilidades

Ejemplo

  • Cómo cuando se valoran las películas en una escala que va de una a 5 estrellas

Escala nominal

  • Las variables categóricas tienen dos tipos de escalas
    • Nominales y ordinales
  • Clasifican objetos en categorías que son
    • Mutuamente excluyentes
    • Exhaustivas

Tip

  • Religión, sexo, raza, partido político de preferencia

Escala ordinal

  • Son variables categóricas que pueden ser ordenadas

Ejemplo

  • Los rangos militares, el apoyo a la democracia (mucho, bastante, poco, muy poco), la clase social (alta/media/baja)

Advertencia

  • No son variables de intervalo porque la distancia entre los niveles no está definida

Aleatoriedad

  • La calidad de las inferencias depende de qué tan bien representa la muestra de la población

Important

  • La aleatoriedad evita que la muestra esté sesgada
  • El sesgo lleva a inferencias que no corresponden con la población

Muestra simple aleatoria

  • Es un método en el que cada sujeto tiene la misma probabilidad de selección

  • Cada posible muestra del mismo tamaño tiene la misma probabilidad de ser seleccionada

Tip

  • Una encuesta es representativa si cada persona tiene la misma posibilidad de ser entrevistado

Selección de muestra aleatoria

  • Primero hay que identificar la población objetivo

Población objetivo

  • El conjunto de personas sobre las que queremos conocer

Ejemplo

  • La gente que votará en la siguiente elección
  • Segundo, necesitamos conocer el marco muestral

Marco muestral

  • Es una lista de todos los sujetos en la población

Tip

  • El padrón electoral

Las muestras varían entre sí

  • Aun con una muestra aleatoria los resultados dependerán de los sujetos que son incluidos en ella
  • Dos estudios que realizan muestras aleatorias separadas pueden llegar a resultados diferentes

Ejemplo

  • Las estimaciones varían entre casas encuestadoras

Error muestral

  • Ocurre cuando usamos estadísticas basadas en una muestra para predecir el valor del parámetro de una población

Ejemplo

  • El 53% de su apoyo al candidato A
  • La casa encuestadora X proyecta un apoyo del 49%
  • El error de muestreo es igual a 49% - 53% esto es igual a -4%

Important

  • El error de muestreo es incierto porque desconocemos los parámetros de la población

Estadística Descriptiva

Estadística Descriptiva

Estadística descriptiva

  • Su objetivo es resumir datos
    • Busca hacer más fácil la asimilación de datos
  • A las variables cuantitativas las podemos describir numéricamente dos formas:
    • Con el centro de los datos (una observación típica)
    • Con la variabilidad de los datos (su dispersión con respecto al centro)

Frecuencias relativas

  • Para datos categóricos hacemos una lista de las categorías y mostramos su frecuencia

  • Se reportan las proporciones y porcentajes

Frecuencia relativa

  • Para categoría es la proporción o porcentaje de las observaciones que caen en esa categoría

Ejemplo

Especie Frecuencia Proporción Porcentaje
Adelie 152 0.44 44.18
Chimpstrap 68 0.20 19.76
Gentoo 124 0.36 36.04
Total 344 1.00 100

Gráficos de barra

Tip

  • Las barras están separadas para enfatizar que son diferencias categóricas
  • Una manera más simple de presentar los datos

  • Presenta formas rectangulares sobre cada categoría

Distribución de frecuencias: datos cuantitativos

  1. Tomamos los datos cuantitativos y dividimos los datos en rangos de valores
  2. Analizamos cuántos casos corresponden a cada uno de esos rangos
  3. Señalamos la proporción de casos en cada uno de esos rangos

Ejemplo

library(fdth)
tb1 <- fdt(body_mass_g, na.rm=TRUE)
tb1
 Class limits  f   rf rf(%)  cf cf(%)
  [2673,3042) 11 0.03  3.20  11  3.20
  [3042,3411) 47 0.14 13.66  58 16.86
  [3411,3780) 71 0.21 20.64 129 37.50
  [3780,4149) 53 0.15 15.41 182 52.91
  [4149,4518) 45 0.13 13.08 227 65.99
  [4518,4887) 41 0.12 11.92 268 77.91
  [4887,5256) 28 0.08  8.14 296 86.05
  [5256,5625) 26 0.08  7.56 322 93.60
  [5625,5994) 16 0.05  4.65 338 98.26
  [5994,6363)  4 0.01  1.16 342 99.42

Histograma

  • Son gráficos de frecuencia relativa para variables cuantitativas
    • Cada intervalo tiene una barra sobre sí
    • La altura representa el número de observaciones en el intervalo

Ejemplo

Tip

  • Las barras están pegadas para indicar que se trata de la misma variable

La forma de la distribución

  • La forma de la distribución resume una muestra

Tip

  • Un grupo cuya distribución tiene una forma de campana es muy diferente de un grupo el que su distribución tiene la forma de una U

Distribuciones simétricas y asimétricas

Distribuciones simétricas

  • Las distribuciones en forma de campana son simétricas
  • Cada lado es un espejo del otro

Distribuciones asimétricas

  • Una cola es más larga que otra
  • Puede estar sesgada a la derecha o la izquierda

Descripción del centro de los datos

  • Estas estadísticas nos muestran cómo es una observación típica
    • La media
    • La mediana
    • La moda

Media

  • La media es la suma de las observaciones divida por el número de observaciones

\[\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}\]

Donde \(n\) es el tamaño de la muestra

Propiedades de la media

Tip

  • La fórmula de la media usa valores numéricos
  • Solo es apropiada para variables cuantitativas
  • La media puede ser altamente influenciada por observaciones que caen por encima o por debajo la mayoría de los datos
    • A estos los llamamos casos desviados (outliers)

Mediana

  • Ordena de mayor a menor la muestra
  • Parte en dos con un número igual de observaciones

\[ \text{Mediana} = {\frac{n+1}{2}} \]

Important

  • Es la observación que se encuentra en medio de la muestra ordenada

Ejemplo mediana

  • Imaginemos que tenemos 15 observaciones

\[ \text{Mediana} = {\frac{15+1}{2}}=8 \]

Warning

  • Los datos deben estar ordenados de menor a mayor
  • Cuando la muestra es par dos observaciones se encuentran en medio
    • La mediana es el punto medio entre estas observaciones

Mediana para datos ordinales

Tip

  • Para datos ordinales organizamos las respuestas de menor a mayor
  • Establecemos el porcentaje acumulado
  • La mediana es la primera categoría que cruza el 50% del porcentaje acumulado

Ejemplo

Estudios Frecuencia Porcentaje Porcentaje acumulado
Sin preparatoria 30 17.14 17.4
Preparatoria 56 32 49.14
Superior trunca 38 21.71 70.86
Superior 32 18.28 89.13
Maestría 13 7.42 96.55
Doctorado 6 3.42 99.97
175 100

Efecto del sesgo

  • En distribuciones simétricas la media y la mediana son iguales

  • En distribuciones sesgadas, la media se encuentra en la dirección del sesgo

    • La cola más larga

Efecto del sesgo

Moda

  • Es el valor que ocurre con mayor frecuencia
  • Es típico en el sentido de que es el que más ocurre

Tip

Generalmente es utilizada para describir variables categóricas y discretas
- La categoría o número con mayor frecuencia

Moda

Tip

  • En este histograma la moda es dos horas.

Variabilidad de los datos

Warning

  • Las medidas centrales nos dice el valor típico

  • Pero no qué tan dispersos están los valores de este punto

  • La figura de la derecha muestra un salario hipotético para EE.UU y Dinamarca

Tip

  • Ambos tienen una media de 40 mil
  • Pero la dispersión es muy distinta

Rango

  • El rango es la diferencia entre el valor más alto y el más bajo

Tip

  • El rango para Dinamarca es 45,000-35,000= 10,000
  • Para EE.UU es 60,000-20,000= 40,000

Warning

  • Al igual que la media no es resistente a valores extremos

Desviación estándar

  • Estima la distancia promedio entre las observaciones y la media de la muestra

\(s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}\)

Ejemplo

\[s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}\]

\[s = \sqrt{\frac{14435.6}{15-1}}= 32.11\]

Magnitud de \(s\)

Tip

  • Cuando la distribución es normal
    • La distribución se aproxima a una campana
  • Podemos estimar el pocentaje de casos debajo de la curva

Important

  • A una desviación estándar el 68%
  • A dos desviaciones estándar el 95%

Medidas de posición

  • Otra manera de describir una distribución es con medidas sobre su posición

Percentiles

  • Indican el porcentaje de observaciones que se encuentran debajo de dicho valor

Ejemplo

  • Un hogar con ingresos de 78,600 pesos al trimestre está en el percentil 90 de ingreso

Cuartiles

Cuartiles

  • Dividen a la información en cuatro partes:
    • El primer cuartil (Q1) es el percentil 25 (p=25)
    • El segundo cuartil (Q2) es el percentil 50 (p=50)
    • El tercer cuartil (Q3) es el percentil 75 (p=75)

Cuartiles datos impares

\[ Q_{k}=\frac{k(n+1)}{4} \]

  • Donde \(k\) indica el cuartil de interés (1,2 o 3)

Ejemplo

  • Imaginemos una base de datos con 11 observaciones

\[ Q_{1}=\frac{1(11+1)}{4}= 3 \]

\[ Q_{2}=\frac{2(11+1)}{4}= 6 \]

\[ Q_{3}=\frac{3(11+1)}{4}= 9 \]

Cuartiles datos impares

Observación Valor Cuartil
x1 14
x2 14
x3 15 Q1
x4 16
x5 17
x6 17 Q2
x7 18
x8 19
x9 21 Q3
x10 21
x11 23

Cuartiles datos pares

\[ Q_{k}=\frac{k(n)}{4} \]

\[ Q_{1}=\frac{1(10)}{4}=2.5 \]

\[ Q_{2}=\frac{2(10)}{4}=5 \]

\[ Q_{3}=\frac{3(10)}{4}=7.5 \]

Cuartiles datos pares

Observación Valor Cuartil
x1 14
x2 14 Q1=(14+15)/2= 14.5
x3 15
x4 16
x5 17 Q2= (17+17)/2=17
x6 17
x7 18 Q3= (18+19)/2=18.5
x8 19
x9 21
x10 21

Rango Intercuartílico

  • Los cuartiles también utilizados para calcular una medida de variabilidad

Note

  • Es más resistente que el rango y la desviación estándar a observaciones extremas

Important

  • Resume el rango entre la mitad de los datos
  • La distancia entre Q1 y Q3

Ejemplo

Valor mínimo=0 Q1= 135 Mediana= 180 Q3= 205 Valor máximo= 340

\(RI= 205-135=70\)

Gráficos de caja

Elementos

Valor mínimo Primer cuartil Mediana Tercer cuartil Valor máximo

Note

  • La caja contiene 50% de las observaciones

Warning

Los bigotes se extienden hasta el mínimo y máximo excluyendo a los outliers

Outliers

  • Un criterio para identificar outliers es con la desviación estándar

Important

  • En distribución en forma de campana es inusual que una observación se encuentre tres desviaciones estándar por encima o debajo de la media

Note

  • El número de desviaciones estándar de la media se mide con las puntuaciones z (z-scores)

\[ z=(\frac{x-\bar{x}}{s}) \]

Ejemplo

  • Imaginemos que tenemos una media (\(\bar{x}\)) de 84
  • Una desviación estándar (\(s\)) de 16
  • Queremos saber las desviaciones estándar con respecto a la media de 100

\[ z=(\frac{100-84}{16})=1 \]