Probabilidad y distribuciones

Maestría en Gobierno y Políticas Públicas

Diego Solís Delgadillo

¿Qué es la probabilidad?

Definición

  • La probabilidad de un resultado es la proporción de veces que esperaríamos que ocurriera en una gran cantidad de repeticiones de un experimento aleatorio

¿Qué significa?

  • La probabilidad mide la frecuencia con la que esperamos que ocurra un evento en el largo plazo .
  • Se basa en la idea de repetición de un experimento en condiciones similares.

Probabilidad de un evento

  • La probabilidad clásica de un evento es:

\[ Pr(e) = \frac{\text{Número de resultados en el evento } e}{\text{Número de resultados en el espacio muestral}} \]

Ejemplo

  • La probabilidad de obtener un cinco en un dado justo es:

\[ Pr(e) = \frac{1}{6} \]

¿Qué es el rango de probabilidad?

  • El rango de probabilidad se refiere a los valores que una probabilidad puede tomar, que siempre están entre 0 y 1.

\[ Pr(A) \in [0,1] \]

📌 Reglas clave:

  • 0 significa que el evento es imposible.

  • 1 significa que el evento es seguro.

  • Cualquier probabilidad está en el intervalo 0,1.

Note

  • Para calcular la probabilidad de obtener un 7 en la suma de dos tiros de un dado, consideramos todas las combinaciones posibles.

  • Dado que cada dado tiene 6 caras, el total de combinaciones posibles es:

\[ 6 \times 6 = 36 \]

  • Cálculo de la probabilidad:

\[ Pr(7) = \frac{6}{36} = \frac{1}{6} \]

Variabilidad

Variabilidad pocos tiros

  • Si tiramos un dado 100 veces, el número de veces que obtenemos un 6 puede variar:

  • ✅ Ejemplo tres tiros

    • Primero: 19 veces.
    • Segundo: 22 veces.
    • Tercero 13 veces.

¿Qué significan esas probabilidades?

Probabilidad y número de experimentos

  • Con un número limitado de tiros (por ejemplo, 10), la proporción de 6s puede fluctuar mucho.
  • Si simulamos un número muy grande de tiros de dados, la proporción acumulada para el número 6 se va a acercar a \(\frac{1}{6}\).

Ley de los grandes números 🔢

  • En fenómenos aleatorios, la proporción de veces que algo ocurre es altamente aleatoria y variable en el corto plazo.
  • Sin embargo, en el largo plazo, esta proporción se vuelve muy predecible.

Simulación dado en R

Aplicación

Pruebas médicas y diagnósticos

  • Una prueba médica tiene una precisión del 95%
    • No significa que siempre acertará en cada paciente.
  • Pero si se realizan miles de pruebas, la tasa de aciertos se acercará al 95% esperado.

Axiomas de Kolmogórov

Toda medida de probabilidad debe cumplir con:

  1. No negatividad \(P(A) \geq 0\)

  2. Aditividad (σ-aditividad):
    Si \(A_1, A_2, \dots\) son eventos disjuntos, entonces: \(P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)\)

    • Por ejemplo: \(P(A_1 \cup A_2 \cup A_3) = P(A_1) + P(A_2) + P(A_3)\)
  3. Probabilidad total:
    \(P(\Omega) = 1\)

Variable aleatoria

  • Es una variable cuyo valor es determinado por un experimento aleatorio

Ejemplo lanzamiento de dado🎲

  • Espacio muestral: \(\Omega = \{1, 2, 3, 4, 5, 6\}\)
  • Variable aleatoria \(X\): “Número obtenido en el dado”
  • Posibles valores: \(X = \{1, 2, 3, 4, 5, 6\}\)

Variable aleatoria

Ejemplo lanzamiento de moneda🪙

  • Espacio muestral: \(\Omega = \{\text{cara}, \text{cruz}\}\)
  • Definimos \(X\) como:
    • \(X(\text{cara}) = 1\)
    • \(X(\text{cruz}) = 0\)
    • Aquí, \(X\) es una variable aleatoria discreta.

Tiempo espera en una fila⏳

  • Variable aleatoria \(X\): “Tiempo (en minutos) hasta ser atendido”
  • Puede tomar cualquier valor real positivo (\(X \in \mathbb{R}^+\))
  • Es un ejemplo de variable aleatoria continua.

Distribuciones

  • Las distribuciones nos dan una probabilidad de que las variables aleatorias tomen determinados valores.
  • Ejemplo: La distribución normal describe la probabilidad de cada posible valor.
  • Cada posible resultado de una variable aleatoria se llama realización.

Notación de variables aleatoria

  • Para referirnos a las variables aleatorias, usamos letras mayúsculas.
  • Para las realizaciones, usamos letras minúsculas.
  • Ejemplo:
    \(x \in X, \quad [0,1]\)

Soporte

  • El soporte (support) es el conjunto de todos los valores que tienen una probabilidad distinta de 0.
  • Ejemplo 🎲: \(S_X = \{1, 2, 3, 4, 5, 6\}\)

Ejemplo lanzamiento de tres monedas

  • Las ocho combinaciones posibles de resultados al lanzar tres monedas son:
\[\begin{aligned} \text{Cruz - Cruz - Cruz} \quad &(0 \text{ caras}) \\ \text{Cruz - Cruz - Cara} \quad &(1 \text{ cara}) \\ \text{Cruz - Cara - Cruz} \quad &(1 \text{ cara}) \\ \text{Cara - Cruz - Cruz} \quad &(1 \text{ cara}) \\ \text{Cruz - Cara - Cara} \quad &(2 \text{ caras}) \\ \text{Cara - Cruz - Cara} \quad &(2 \text{ caras}) \\ \text{Cara - Cara - Cruz} \quad &(2 \text{ caras}) \\ \text{Cara - Cara - Cara} \quad &(3 \text{ caras}) \\ \end{aligned}\]

Ejemplo lanzamiento de tres moneda

Distribución del Número de Caras

Número de Caras 0 1 2 3
Frecuencia 1 3 3 1
Proporción \(\frac{1}{8}\) \(\frac{3}{8}\) \(\frac{3}{8}\) \(\frac{1}{8}\)
  • Cada combinación tiene la misma probabilidad de \(\frac{1}{8}\).

Advertencia

  • Pero hay más combinaciones con 1 o 2 caras

Posibles Sumas🎲🎲

  • La siguiente tabla muestra la distribuciuón de las posibles sumas de dos dados
Suma 2 3 4 5 6 7 8 9 10 11 12
Combinaciones (1,1) (1,2) (2,1) (1,3) (2,2) (3,1) (1,4) (2,3) (3,2) (4,1) (1,5) (2,4) (3,3) (4,2) (5,1) (1,6) (2,5) (3,4) (4,3) (5,2) (6,1) (2,6) (3,5) (4,4) (5,3) (6,2) (3,6) (4,5) (5,4) (6,3) (4,6) (5,5) (6,4) (5,6) (6,5) (6,6)
Probabilidad \(\frac{1}{36}\) \(\frac{2}{36}\) \(\frac{3}{36}\) \(\frac{4}{36}\) \(\frac{5}{36}\) \(\frac{6}{36}\) \(\frac{5}{36}\) \(\frac{4}{36}\) \(\frac{3}{36}\) \(\frac{2}{36}\) \(\frac{1}{36}\)

Función de Masa de Probabilidad

¿Qué es la PMF?

  • La Función de Masa de Probabilidad (PMF) describe la probabilidad de que una variable aleatoria discreta tome un valor específico.
  • Se denota como: \[P(X = x)\]
  • Donde \(X\) es la variable aleatoria y \(x\) es un valor posible

Ejemplo

  • Si \(X\) representa el resultado al lanzar un dado de seis caras:

  • Los valores posibles son \(x = 1, 2, 3, 4, 5, 6\)

  • La función de masa de probabilidad es:

    \(P(X = x) = \begin{cases} \frac{1}{6}, & x \in \{1, 2, 3, 4, 5, 6\} \\ 0, & \text{en cualquier otro caso} \end{cases}\)

Función de Masa de Probabilidad

Visualización PMF

  • La PMF se puede representar como un histograma de probabilidades.
  • Cada barra indica la probabilidad de cada valor discreto.

Función de Distribución Acumulativa (FDA)

  • En ocasiones nos interesa saber si un número en nuestra muestra se encuentra por encima o por debajo de un determinado valor.
  • La FDA suma las probabilidades individuales de cada valor hasta el punto de interés.
  • Se suman porque estos valores son mutuamente excluyentes.

FDA suma dados

Distribuciones continuas

  • Las variables continuas pueden tomar un número infinitos de valores
  • Las distribuciones continuas indican intervalos
  • Estas distribuciones tienen forma curva porque es como si introdujéramos más y más columnas a un histograma

Distribuciones continuas

  • Las distribuciones continuas son visualizadas con densidades
  • El área debajo de la curva indica la probabilidad de que la variable tome determinados valores

Ejemplo tiempo de transporte

  • En 2009 el tiempo medio de transporte en EE.UU era de 25 minutos.
  • La distribución muestra el porcentaje de personas que utilizaban 45 minutos o más

Probabilidades

¿Por qué trabajar con intervalos?

  • En una distribución discreta, las probabilidades se asignan a valores específicos (\(P(X = x)\)).

  • En una distribución continua, la probabilidad de un solo punto es cero:

    \[ P(X = x) = 0 \]

  • Una variable continua tiene infinitos valores posibles. La probabilidad de cualquier número exacto es infinitamente pequeña.

Probabilidad en un Intervalo

  • En lugar de asignar probabilidad a un solo valor, usamos áreas bajo la curva de densidad:

    \[ P(a \leq X \leq b) = \int_a^b f(x) \, dx \]

  • La probabilidad es el área entre dos puntos en la curva de densidad.

Función de Densidad de Probabilidad (PDF)

Definición general

  • La probabilidad de que \(X\) tome valores en una región \(B\) es: \[Pr(X \in B) = \int_B f(x) \,dx\]

  • Para calcular la probabilidad de que \(X\) esté en \(B\), sumamos (integrando) todos los valores de la función de densidad \(f(x)\) dentro de \(B\).

Aplicación específica

  • Si queremos calcular el área entre los puntos \(a\) y \(b\): \(Pr(X \in [a, b]) = \int_a^b f(x) \,dx\)
  • Es decir, lo que estimamos es la integral entre los puntos \(a\) y \(b\).
  • A esto nos referimos con el área bajo la curva

¿Por qué importa?

Fenómenos en los que aplican

  • Las variables continuas pueden ayudar con algunos procesos
    • Cuánto sobrevive un gobierno
    • El momento en que se presenta una iniciativa
    • El tiempo que dura un conflicto

Términos de error

  • Los términos de error en los modelos toman distribuciones continuas

Tipos de distribuciones

  • Distribución Normal: Se usa en fenómenos naturales y en estadística inferencial.
  • Distribución Exponencial: Modelatiempos de espera entre eventos.
  • Distribución Uniforme: Representa eventos con igual probabilidad en un intervalo.
  • Distribución Gamma: Modela tiempos hasta la ocurrencia de múltiples eventos.

Usos de las distribuciones continuas

Usos distribuciones continuas

  • Inferencia estadística: Estimación de parámetros y pruebas de hipótesis.
  • Modelado de fenómenos físicos y sociales: Altura, peso, ingresos, tiempos de espera.
  • Simulación y predicción: Procesos estocásticos y simulaciones de Monte Carlo.

Visualización

Visualización

Distribución normal

  • Las distribuciones que toman la forma de una campana son llamadas gaussianas
  • La más conocida es la distribución normal
  • Esta distribución se expresa como \[\mathcal{N}(\mu, \sigma^2) \]

  • Si \(X\) tine uan distribución normal

\[ X \sim \mathcal{N}(\mu, \sigma^2) \]

Tip

  • La distribución admite dos parámetros: la media \(\mu\) y la varianza \(\sigma^2\)

Ejemplo

Escoger aleatoriamente una sandía

  • Vamos al supermercado y escojemos aleatoriamente una sandía de un estante con 200 sandías
  • Medimos su largo y lo registramos
  • Repetimos varias veces el ejercicio
  • Nunca vamos a obtener el mismo tamaño

Variable aleatoria y experimento

  • En este ejercicio la variable aleatoria \(X\) es el largo de la sandía
  • El experimento es escoger aleatoriametne una sandía

Ejemplo

Media y desviación estándar

  • Al registrar los valores obtendremos una media
    • Los valores variarán alrededor de ese valor
  • También podemos estimar la distancia promedio de las sandías con respecto a su media
    • Esa desviación estándar nos indicará dispersión de los datos

Ejemplo

PDF Distribución normal

  • Función de Densidad de Probabilidad (PDF) de la distribución normal se expresa como:

\[ f(x; \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \]

Donde

  • \(\pi\) es igual a 3.14159
  • \(e\) es igual a 2.71828

Características

Distribución normal

  • Simétrica
  • Forma de campana
  • Dos parámetros: la media \(\mu\) y la desviación estándar \(\delta\)

Parámetros

  • La media (que indica el centro)
  • La desviación estándar (que indica su variación)

¿Qué estimamos?

  • Las probabilidades de observar valores dentro de un determinado número de desviaciones estándar con respecto a la media son las mismas

Distribución normal estándar

¿Por qué usamos la Distribución Normal Estándar?

  • La distribución normal estándar es una versión de la distribución normal, con media 0 y desviación estándar 1.

  • Se obtiene transformando cualquier variable normal \(X \sim N(\mu, \sigma^2)\) con la fórmula:

    \[ Z = \frac{X - \mu}{\sigma} \]

Distribución normal estándar

Relación con las Tablas Z

  • En los libros de estadística, las tablas Z proporcionan probabilidades acumuladas para distintos valores de \(Z\).
  • Estas tablas permiten calcular áreas bajo la curva normal sin necesidad de integración.
  • Cualquier variable normal puede transformarse en \(Z\) y buscarse en la tabla correspondiente.

Aplicación

  • Ejemplo: Si \(X \sim N(20, 6^2)\) y queremos calcular la probabilidad de que \(X \leq 26\):
  1. Convertimos a \(Z\)):

    \[ Z = \frac{26 - 20}{6} = 1 \]

Ejemplo

Z scores

  • Indican el número de desviaciones estándar con respecto a la media

\[ Z= \frac{x-\mu}{\sigma} \]

  • Para saber la proporción acumulada solo hay que revisar la tabla de puntuaciones \(z\)

Tabla Z

Puntuaciones Z

  • Indican desviaciones estándar con respecto a la media
  • En la tabla la puntuación indica la probabilidad acumulada a este punto

Ejemplo

  • Una puntuación Z de 1.43 tiene una probabilidad acumulada de 92.36%

Probabilidad acumulada

Ejercicio

Estatura

  • Tenemos un individuo que mide 1.80 cm

  • En la muestra la media es de 1.68

  • La desviación estándar es de 7 cm

  • ¿Cuántas personas hay por encima de 1.80?

\[ Z= \frac{x-\bar{x}}{se} \]

\[ Z= \frac{1.80-1.68}{7}=1.71 \]

Ejercicio

Tip

  • La probabilidad acumulada es de 95.64
  • Hay una probabilidad de 4.36% de obtener estaturas superiores a 1.80

Comparación con puntuaciones Z

Important

  • Las puntuaciones Z nos permite comparar dos o más observaciones de diferentes distribuciones

Ejemplo

  • Juan obtiene un 81 en Derecho
  • María un 75 en estadística Podríamos preguntarnos
  • ¿A cuál le fue mejor en relación con sus compañeros?

Comparación con puntuaciones Z

Ejemplo

  • Supongamos que la media de Derecho es 95
  • La media de estadística 60
  • La desviación estándar de Derecho es \(s=7\)
  • La desviación estándar estadística es \(s=6\)

Juan (Derecho)

\[ Z= \frac{81-95}{7}=-2 \]

María (Estadística)

\[ Z= \frac{75-60}{6}=2.5 \]

Comparación de escalas distintas

Important

  • Las puntuaciones z permiten comparar valores en diferentes escalas

Ejemplo

  • Dos personas que presentan un examen de ingles: TOEFL (0-120) y el IELTS (0-9)
  • Ricardo obtiene 92 en el TOEFL
  • Isabel alcanza 7.7 en el IELTS
  • ¿Quién tuvo mejor desempeño?

Ejemplo

  • La media del TOEFL es 75 y la desviación estándar es de 15

  • La media y la desviación estándar para el IELTS son 6 y 1

TOEF

\[ Z= \frac{92-75}{15}=1.13 \]

IELTS

\[ Z= \frac{7.7-6}{1}=1.7 \]

image/svg+xml