️Distribuciones continuas

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Distribuciones

Distribuciones continuas

  • Las variables continuas pueden tomar un número infinitos de valores
  • Las distribuciones continuas indican intervalos
  • Estas distribuciones tienen forma curva porque es como si introdujéramos más y más columnas a un histograma

Distribuciones continuas

  • Las distribuciones continuas son visualizadas con densidades
  • El área debajo de la curva indica la probabilidad de que la variable tome determinados valores

Ejemplo tiempo de transporte

  • En 2009 el tiempo medio de transporte en EE.UU era de 25 minutos.
  • La distribución muestra el porcentaje de personas que utilizaban 45 minutos o más

Probabilidades

¿Por qué trabajar con intervalos?

  • En una distribución discreta, las probabilidades se asignan a valores específicos (\(P(X = x)\)).

  • En una distribución continua, la probabilidad de un solo punto es cero:

    \[ P(X = x) = 0 \]

  • Una variable continua tiene infinitos valores posibles. La probabilidad de cualquier número exacto es infinitamente pequeña.

Probabilidad en un Intervalo

  • En lugar de asignar probabilidad a un solo valor, usamos áreas bajo la curva de densidad:

    \[ P(a \leq X \leq b) = \int_a^b f(x) \, dx \]

  • La probabilidad es el área entre dos puntos en la curva de densidad.

Función de Densidad de Probabilidad (PDF)

Definición general

  • La probabilidad de que \(X\) tome valores en una región \(B\) es: \[Pr(X \in B) = \int_B f(x) \,dx\]

  • Para calcular la probabilidad de que \(X\) esté en \(B\), sumamos (integrando) todos los valores de la función de densidad \(f(x)\) dentro de \(B\).

Aplicación específica

  • Si queremos calcular el área entre los puntos \(a\) y \(b\): \(Pr(X \in [a, b]) = \int_a^b f(x) \,dx\)
  • Es decir, lo que estimamos es la integral entre los puntos \(a\) y \(b\).
  • A esto nos referimos con el área bajo la curva

¿Por qué importa?

Fenómenos en los que aplican

  • Las variables continuas pueden ayudar con algunos procesos
    • Cuánto sobrevive un gobierno
    • El momento en que se presenta una iniciativa
    • El tiempo que dura un conflicto

Términos de error

  • Los términos de error en los modelos toman distribuciones continuas

Tipos de distribuciones

  • Distribución Normal: Se usa en fenómenos naturales y en estadística inferencial.
  • Distribución Exponencial: Modelatiempos de espera entre eventos.
  • Distribución Uniforme: Representa eventos con igual probabilidad en un intervalo.
  • Distribución Gamma: Modela tiempos hasta la ocurrencia de múltiples eventos.

Usos de las distribuciones continuasl

Usos distribuciones continuas

  • Inferencia estadística: Estimación de parámetros y pruebas de hipótesis.
  • Modelado de fenómenos físicos y sociales: Altura, peso, ingresos, tiempos de espera.
  • Simulación y predicción: Procesos estocásticos y simulaciones de Monte Carlo.

Visualización

Visualización

Distribución normal

  • Las distribuciones que toman la forma de una campana son llamadas gaussianas
  • La más conocida es la distribución normal
  • Esta distribución se expresa como \[\mathcal{N}(\mu, \sigma^2) \]
  • Si \(X\) tine uan distribución normal

\[ X \sim \mathcal{N}(\mu, \sigma^2) \]

Tip

  • La distribución admite dos parámetros: la media \(\mu\) y la varianza \(\sigma^2\)

Ejemplo

Escoger aleatoriamente una sandía

  • Vamos al supermercado y escojemos aleatoriamente una sandía de un estante con 200 sandías
  • Medimos su largo y lo registramos
  • Repetimos varias veces el ejercicio
  • Nunca vamos a obtener el mismo tamaño

Variable aleatoria y experimento

  • En este ejercicio la variable aleatoria \(X\) es el largo de la sandía
  • El experimento es escoger aleatoriametne una sandía

Ejemplo

Media y desviación estándar

  • Al registrar los valores obtendremos una media
    • Los valores variarán alrededor de ese valor
  • También podemos estimar la distancia promedio de las sandías con respecto a su media
    • Esa desviación estándar nos indicará dispersión de los datos

Ejemplo

PDF Distribución normal

  • Función de Densidad de Probabilidad (PDF) de la distribución normal se expresa como:

\[ f(x; \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \]

Donde

  • \(\pi\) es igual a 3.14159
  • \(e\) es igual a 2.71828

Características

Distribución normal

  • Simétrica
  • Forma de campana
  • Dos parámetros: la media \(\mu\) y la desviación estándar \(\delta\)

Parámetros

  • La media (que indica el centro)
  • La desviación estándar (que indica su variación)

¿Qué estimamos?

  • Las probabilidades de observar valores dentro de un determinado número de desviaciones estándar con respecto a la media son las mismas

Distribución normal estándar

¿Por qué usamos la Distribución Normal Estándar?

  • La distribución normal estándar es una versión de la distribución normal, con media 0 y desviación estándar 1.

  • Se obtiene transformando cualquier variable normal \(X \sim N(\mu, \sigma^2)\) con la fórmula:

    \[ Z = \frac{X - \mu}{\sigma} \]

Distribución normal estándar

Relación con las Tablas Z

  • En los libros de estadística, las tablas Z proporcionan probabilidades acumuladas para distintos valores de \(Z\).
  • Estas tablas permiten calcular áreas bajo la curva normal sin necesidad de integración.
  • Cualquier variable normal puede transformarse en \(Z\) y buscarse en la tabla correspondiente.

Aplicación

  • Ejemplo: Si \(X \sim N(20, 6^2)\) y queremos calcular la probabilidad de que \(X \leq 26\):
  1. Convertimos a \(Z\)):

    \[ Z = \frac{26 - 20}{6} = 1 \]

Ejemplo

Z scores

  • Indican el número de desviaciones estándar con respecto a la media

\[ Z= \frac{x-\mu}{\sigma} \]

  • Para saber la proporción acumulada solo hay que revisar la tabla de puntuaciones \(z\)

Tabla Z

Puntuaciones Z

  • Indican desviaciones estándar con respecto a la media
  • En la tabla la puntuación indica la probabilidad acumulada a este punto

Ejemplo

  • Una puntuación Z de 1.43 tiene una probabilidad acumulada de 92.36%

Probabilidad acumulada

Ejercicio

Estatura

  • Tenemos un individuo que mide 1.80 cm

  • En la muestra la media es de 1.68

  • La desviación estándar es de 7 cm

  • ¿Cuántas personas hay por encima de 1.80?

\[ Z= \frac{x-\bar{x}}{se} \]

\[ Z= \frac{1.80-1.68}{7}=1.71 \]

Ejercicio

Tip

  • La probabilidad acumulada es de 95.64
  • Hay una probabilidad de 4.36% de obtener estaturas superiores a 1.80

Comparación con puntuaciones Z

Important

  • Las puntuaciones Z nos permite comparar dos o más observaciones de diferentes distribuciones

Ejemplo

  • Juan obtiene un 81 en Derecho
  • María un 75 en estadística Podríamos preguntarnos
  • ¿A cuál le fue mejor en relación con sus compañeros?

Comparación con puntuaciones Z

Ejemplo

  • Supongamos que la media de Derecho es 95
  • La media de estadística 60
  • La desviación estándar de Derecho es \(s=7\)
  • La desviación estándar estadística es \(s=6\)

Juan (Derecho)

\[ Z= \frac{81-95}{7}=-2 \]

María (Estadística)

\[ Z= \frac{75-60}{6}=2.5 \]

Comparación de escalas distintas

Important

  • Las puntuaciones z permiten comparar valores en diferentes escalas

Ejemplo

  • Dos personas que presentan un examen de ingles: TOEFL (0-120) y el IELTS (0-9)
  • Ricardo obtiene 92 en el TOEFL
  • Isabel alcanza 7.7 en el IELTS
  • ¿Quién tuvo mejor desempeño?

Ejemplo

  • La media del TOEFL es 75 y la desviación estándar es de 15

  • La media y la desviación estándar para el IELTS son 6 y 1

TOEF

\[ Z= \frac{92-75}{15}=1.13 \]

IELTS

\[ Z= \frac{7.7-6}{1}=1.7 \]

Cálculo de Probabilidades en R

  • Probabilidad de \(X \leq N(26, 6^2)\)
pnorm(26, mean = 20, sd = 6)  
  • Probabilidad de \(X\) entre 18 y 24
pnorm(24, mean = 20, sd = 6) - pnorm(18, mean = 20, sd = 6)
  • Probabilidad de \(X > 30\)
1 - pnorm(30, mean = 20, sd = 6)

Normalización de datos

¿Por qué transformar datos con logaritmo?

  • Algunas distribuciones de datos son asimétricas y no siguen una distribución normal.
  • La distribución normal es fundamental en muchos modelos estadísticos y pruebas inferenciales.
  • Una transformación con logaritmo natural \((log)\) puede ayudar a normalizar datos sesgados.

Normalización de datos

Ejemplo: Distribución sesgada

  • Supongamos que tenemos distribución log-normal sesgada a la derecha.

  • Aplicamos la transformación:

    \[ X' = \log(X) \]

  • Después de la transformación, los datos suelen distribuirse normalmente.

Transformaciones

Distribución t de Student

¿Qué es la Distribución t de Student?

  • Es una distribución de probabilidad que se usa cuando el tamaño de la muestra es pequeño y la desviación estándar poblacional es desconocida.
  • Similar a la distribución normal, pero con colas más gruesas.
  • Se define por grados de libertad \((df)\), que dependen del tamaño de la muestra.

📌 Fórmula de la estadística t:

\[ t = \frac{\bar{X} - \mu}{\frac{s}{\sqrt{n}}} \] Donde:

  • \(\bar{X}\) = media muestral

  • \(\mu\) = media poblacional

  • \(s\) = desviación estándar muestral

  • \(n\) = tamaño de la muestra

¿Cuando utilizar la distribución t?

Usos distribución t

✔ Cuando \(n\) es pequeño \(( n < 30)\) y no conocemos la desviación estándar poblacional.
✔ Se usa en pruebas de hipótesis como la prueba t para una muestra y la prueba t para dos muestras.
✔ A medida que \(n\) aumenta, la distribución t se aproxima a la normal estándar \((Z)\).

📊 Comparación: Distribución t vs. Distribución Z

Característica Distribución Z (Normal Estándar) Distribución t
Forma Campana simétrica Similar, pero con colas más gruesas
Uso Tamaño de muestra grande Tamaño de muestra pequeño
Varianza Se conoce (\(\sigma\)) No se conoce (\(s\)) se estima)
Grados de libertad No aplica \(df = n - 1\)
Convergencia Se mantiene igual Se aproxima a \(Z\) cuando \(n \to \infty\)

Comparación

Colas Gruesas en la Distribución t

¿Qué significa que la distribución t tenga colas más gruesas?

  • La distribución t de Student tiene colas más gruesas que la normal estándar (\(Z\)).
  • Esto significa que hay mayor probabilidad de valores extremos en comparación con la distribución normal.
  • Cuanto menores sean los grados de libertad (\(df\)), más gruesas serán las colas.

🔍 ¿Por qué ocurre esto?

  • Cuando trabajamos con muestras pequeñas, hay más incertidumbre sobre la estimación de la media y la desviación estándar.
  • Esta incertidumbre hace que la distribución tenga más dispersión en los valores extremos.
  • Con muestras más grandes (\(n \to \infty\)), la distribución t se aproxima a la normal estándar.

¿Qué son los Grados de Libertad?

Definición de Grados de Libertad (df)

  • Los grados de libertad representan la cantidad de valores independientes que pueden variar en un cálculo estadístico.
  • Se usan en muchas distribuciones, como la **t de Student, chi-cuadrada \((\chi^2 )\)** y F.

Ejemplo grados de libertad

Repartiendo Calificaciones

  • 📌 Imagina que tienes 5 estudiantes y el promedio de sus calificaciones debe ser 80.
Estudiante Calificación
A 78
B 82
C 79
D 81
E

💡 Pregunta: ¿Cuántas calificaciones puedes elegir libremente?

✔ Puedes asignar libremente las 4 primeras calificaciones.
✔ La quinta calificación está determinada automáticamente por la condición del promedio.
✔ Por lo tanto, los grados de libertad son \(df = 5 - 1 = 4\).

Ejercicio

Ejercicio

  • Un estudiante obtuvo 85 puntos en un examen con media de 75 y desviación estándar de 10.

Pregunta:

¿Cuál es su puntuación Z y qué significa en términos de su desempeño relativo?

Ejercicio

  • La altura de los hombres adultos en cierto país sigue una distribución normal con media de 175 cm y desviación estándar de 8 cm. Un hombre mide 190 cm.

Preguntas:

1️⃣ ¿Cuál es su puntuación Z? 2️⃣ ¿Está por encima o por debajo del promedio? 3️⃣ ¿Qué porcentaje de la población es más baja que él?

Ejercicio

  • Resultados de una Carrera El tiempo en terminar una maratón sigue una distribución normal con media de 240 minutos y desviación estándar de 30 minutos. Un corredor finalizó la carrera en 195 minutos.

Preguntas:

1️⃣ ¿Cuál es su puntuación Z? 2️⃣ ¿En qué posición relativa quedó respecto a los demás corredores? 3️⃣ Si el 10% más rápido califica para la siguiente ronda, ¿este corredor califica?

Ejercicio

  • Un organismo internacional mide el Índice de Percepción de la Corrupción (IPC) en varios países.

  • Este índice sigue una distribución normal con:

  • Media: \(\mu = 45\) (en una escala de 0 a 100, donde 0 = más corrupto y 100 = más transparente).

  • Desviación estándar: \(\sigma = 10\).

Preguntas

1️⃣ Un país tiene un IPC de 60.
- ¿Cuál es su puntuación Z y qué significa en términos de comparación con otros países? 2️⃣ Otro país tiene un IPC de 30.
- ¿Dónde se encuentra en relación con la media? 3️⃣ ¿Qué porcentaje de países tienen un IPC superior a 60?
4️⃣ Un país se encuentra en el percentil 90 de transparencia. - ¿Cuál es aproximadamente su IPC?