Estadística descriptiva

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Estadística descriptiva

  • Su objetivo es resumir datos
    • Busca hacer más fácil la asimilación de datos
  • A las variables cuantitativas las podemos describir numéricamente dos formas:
    • Con el centro de los datos (una observación típica)
    • Con la variabilidad de los datos (su dispersión con respecto al centro)

Frecuencias relativas

  • Para datos categóricos hacemos una lista de las categorías y mostramos su frecuencia

  • Se reportan las proporciones y porcentajes

Frecuencia relativa

  • Para categoría es la proporción o porcentaje de las observaciones que caen en esa categoría

Ejemplo

Especie Frecuencia Proporción Porcentaje
Adelie 152 0.44 44.18
Chimpstrap 68 0.20 19.76
Gentoo 124 0.36 36.04
Total 344 1.00 100

Gráficos de barra

Tip

  • Las barras están separadas para enfatizar que son diferencias categóricas
  • Una manera más simple de presentar los datos

  • Presenta formas rectangulares sobre cada categoría

Distribución de frecuencias: datos cuantitativos

  1. Tomamos los datos cuantitativos y dividimos los datos en rangos de valores
  2. Analizamos cuántos casos corresponden a cada uno de esos rangos
  3. Señalamos la proporción de casos en cada uno de esos rangos

Ejemplo

library(fdth)
tb1 <- fdt(body_mass_g, na.rm=TRUE)
tb1
Distribución de Frecuencia de body_mass_g
Class limits f rf rf(%) cf cf(%)
[2673,3042) 11.00 0.03 3.20 11.00 3.20
[3042,3411) 47.00 0.14 13.66 58.00 16.86
[3411,3780) 71.00 0.21 20.64 129.00 37.50
[3780,4149) 53.00 0.15 15.41 182.00 52.91
[4149,4518) 45.00 0.13 13.08 227.00 65.99
[4518,4887) 41.00 0.12 11.92 268.00 77.91
[4887,5256) 28.00 0.08 8.14 296.00 86.05
[5256,5625) 26.00 0.08 7.56 322.00 93.60
[5625,5994) 16.00 0.05 4.65 338.00 98.26
[5994,6363) 4.00 0.01 1.16 342.00 99.42

Histograma

  • Son gráficos de frecuencia relativa para variables cuantitativas
    • Cada intervalo tiene una barra sobre sí
    • La altura representa el número de observaciones en el intervalo

Ejemplo

Tip

  • Las barras están pegadas para indicar que se trata de la misma variable

La forma de la distribución

  • La forma de la distribución resume una muestra

Tip

  • Un grupo cuya distribución tiene una forma de campana es muy diferente de un grupo el que su distribución tiene la forma de una U

Distribuciones simétricas y asimétricas

Distribuciones simétricas

  • Las distribuciones en forma de campana son simétricas
  • Cada lado es un espejo del otro

Distribuciones asimétricas

  • Una cola es más larga que otra
  • Puede estar sesgada a la derecha o la izquierda

Descripción del centro de los datos

  • Estas estadísticas nos muestran cómo es una observación típica
    • La media
    • La mediana
    • La moda

Media

  • La media es la suma de las observaciones divida por el número de observaciones

\[\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}\]

Donde \(n\) es el tamaño de la muestra

Propiedades de la media

Tip

  • La fórmula de la media usa valores numéricos
  • Solo es apropiada para variables cuantitativas
  • La media puede ser altamente influenciada por observaciones que caen por encima o por debajo la mayoría de los datos
    • A estos los llamamos casos desviados (outliers)

Mediana

  • Ordena de mayor a menor la muestra
  • Parte en dos con un número igual de observaciones

\[ \text{Mediana} = {\frac{n+1}{2}} \]

Important

  • Es la observación que se encuentra en medio de la muestra ordenada

Ejemplo mediana

  • Imaginemos que tenemos 15 observaciones

\[ \text{Mediana} = {\frac{15+1}{2}}=8 \]

Warning

  • Los datos deben estar ordenados de menor a mayor
  • Cuando la muestra es par dos observaciones se encuentran en medio
    • La mediana es el punto medio entre estas observaciones

Mediana para datos ordinales

Tip

  • Para datos ordinales organizamos las respuestas de menor a mayor
  • Establecemos el porcentaje acumulado
  • La mediana es la primera categoría que cruza el 50% del porcentaje acumulado

Ejemplo

Estudios Frecuencia Porcentaje Porcentaje acumulado
Sin preparatoria 30 17.14 17.4
Preparatoria 56 32 49.14
Superior trunca 38 21.71 70.86
Superior 32 18.28 89.13
Maestría 13 7.42 96.55
Doctorado 6 3.42 99.97
175 100

Efecto del sesgo

  • En distribuciones simétricas la media y la mediana son iguales

  • En distribuciones sesgadas, la media se encuentra en la dirección del sesgo

    • La cola más larga

Efecto del sesgo

Moda

  • Es el valor que ocurre con mayor frecuencia
  • Es típico en el sentido de que es el que más ocurre

Tip

Generalmente es utilizada para describir variables categóricas y discretas
- La categoría o número con mayor frecuencia

Moda

Tip

  • En este histograma la moda es dos horas.

Variabilidad de los datos

Warning

  • Las medidas centrales nos dice el valor típico

  • Pero no qué tan dispersos están los valores de este punto

  • La figura de la derecha muestra un salario hipotético para EE.UU y Dinamarca

Tip

  • Ambos tienen una media de 40 mil
  • Pero la dispersión es muy distinta

Rango

  • El rango es la diferencia entre el valor más alto y el más bajo

Tip

  • El rango para Dinamarca es 45,000-35,000= 10,000
  • Para EE.UU es 60,000-20,000= 40,000

Warning

  • Al igual que la media no es resistente a valores extremos

Desviación estándar

  • Estima la distancia promedio entre las observaciones y la media de la muestra

\(s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}\)

Ejemplo

\[s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}\]

\[s = \sqrt{\frac{14435.6}{15-1}}= 32.11\]

Magnitud de \(s\)

Tip

  • Cuando la distribución es normal
    • La distribución se aproxima a una campana
  • Podemos estimar el pocentaje de casos debajo de la curva

Important

  • A una desviación estándar el 68%
  • A dos desviaciones estándar el 95%

Medidas de posición

  • Otra manera de describir una distribución es con medidas sobre su posición

Percentiles

  • Indican el porcentaje de observaciones que se encuentran debajo de dicho valor

Ejemplo

  • Un hogar con ingresos de 78,600 pesos al trimestre está en el percentil 90 de ingreso

Cuartiles

Cuartiles

  • Dividen a la información en cuatro partes:
    • El primer cuartil (Q1) es el percentil 25 (p=25)
    • El segundo cuartil (Q2) es el percentil 50 (p=50)
    • El tercer cuartil (Q3) es el percentil 75 (p=75)

Cuartiles datos impares

\[ Q_{k}=\frac{k(n+1)}{4} \]

  • Donde \(k\) indica el cuartil de interés (1,2 o 3)

Ejemplo

  • Imaginemos una base de datos con 11 observaciones

\[ Q_{1}=\frac{1(11+1)}{4}= 3 \]

\[ Q_{2}=\frac{2(11+1)}{4}= 6 \]

\[ Q_{3}=\frac{3(11+1)}{4}= 9 \]

Cuartiles datos impares

Observación Valor Cuartil
x1 14
x2 14
x3 15 Q1
x4 16
x5 17
x6 17 Q2
x7 18
x8 19
x9 21 Q3
x10 21
x11 23

Cuartiles datos pares

\[ Q_{k}=\frac{k(n)}{4} \]

\[ Q_{1}=\frac{1(10)}{4}=2.5 \]

\[ Q_{2}=\frac{2(10)}{4}=5 \]

\[ Q_{3}=\frac{3(10)}{4}=7.5 \]

Cuartiles datos pares

Observación Valor Cuartil
x1 14
x2 14 Q1=(14+15)/2= 14.5
x3 15
x4 16
x5 17 Q2= (17+17)/2=17
x6 17
x7 18 Q3= (18+19)/2=18.5
x8 19
x9 21
x10 21

Rango Intercuartílico

  • Los cuartiles también utilizados para calcular una medida de variabilidad

Note

  • Es más resistente que el rango y la desviación estándar a observaciones extremas

Important

  • Resume el rango entre la mitad de los datos
  • La distancia entre Q1 y Q3

Ejemplo

Valor mínimo=0 Q1= 135 Mediana= 180 Q3= 205 Valor máximo= 340

\(RI= 205-135=70\)

Gráficos de caja

Elementos

Valor mínimo Primer cuartil Mediana Tercer cuartil Valor máximo

Note

  • La caja contiene 50% de las observaciones

Warning

Los bigotes se extienden hasta el mínimo y máximo excluyendo a los outliers

Outliers

  • Un criterio para identificar outliers es con la desviación estándar

Important

  • En distribución en forma de campana es inusual que una observación se encuentre tres desviaciones estándar por encima o debajo de la media

Note

  • El número de desviaciones estándar de la media se mide con las puntuaciones z (z-scores)

\[ z=(\frac{x-\bar{x}}{s}) \]

Ejemplo

  • Imaginemos que tenemos una media (\(\bar{x}\)) de 84
  • Una desviación estándar (\(s\)) de 16
  • Queremos saber las desviaciones estándar con respecto a la media de 100

\[ z=(\frac{100-84}{16})=1 \] ## Ejercicio