Modelos Estadísticos. Grado Biotecnología

Introducción

Se puede describir de forma completa una variable aleatoria sin más que especificar la probabilidad asociada a cada uno de sus posibles valores. Esta especificación se conoce con el nombre de distribución de probabilidad. Sin embargo, la forma en que se puede especificar dicha distribución de probabilidad depende del tipo de variable aleatoria con la que estemos trabajando. En el caso de variables discretas basta con determinar la probabilidad de cada uno de los posibles resultados observables de la variable, pero no ocurre así en las variables continuas donde es imposible conocer todos sus posibles valores.

Imaginemos la situación donde tenemos dos dados iguales y deseamos estudiar el comportamiento de la variable aleatoria $X$ definida como la suma obtenida al lanzar los dos dados. Nos encontramos ante una variable discreta con posibles resultados ${2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Para establecer la distribución de probabilidad es necesario calcular: \[P(X = x), x = 2,3,...,12\]

Dichas probabilidades se pueden obtener de forma sencilla contando todas la combinaciones de los dos dados que podemos obtener (casos favorables) y los que corresponden con el valor asociado (casos posibles) para cada uno de los resultados, obteniéndose la distribución de probabilidad:

x	2	3	4	5	6	7	8	9	10	11	12
$P(X = x)$	$\frac{1}{36}$	$\frac{2}{36}$	$\frac{3}{36}$	$\frac{4}{36}$	$\frac{5}{36}$	$\frac{6}{36}$	$\frac{5}{36}$	$\frac{4}{36}$	$\frac{3}{36}$	$\frac{2}{36}$	$\frac{1}{36}$

A partir de la especificación de esta distribución resulta posible obtener cualquier probabilidad que involucre los valores de la variable.

¿Cuál es la probabilidad de que la suma sea mayor que 10?

\[P(X > 10) = P(X = 11) + P(X = 12) = 3 / 36 = 1/12 \]

¿Cuál es la probabilidad de que la suma a lo sumo de 4?

\[P(X \leq 4) = P(X = 2) + P(X = 3) + P(X = 4) = 6 / 36 = 1/6 \]

¿Cuál es la probabilidad de que la suma tome valores entre 7 y 9 (ambos incluidos)?

\[P(7 \leq X \leq 9) = P(X = 7) + P(X = 8) + P(X = 9) = 15 / 36 \]

Función de densidad

La función de densidad, $f$, es una representación matemática y lo más compacta posible de la distribución de probabilidad asociada con una variable aleatoria.

En el caso de variables discretas dicha función de densidad viene dada por: \[f(x) = P(X = x)\]

En el ejemplo visto en la introducción la función de densidad asociada con la suma de la puntuación obtenida al lanzar dos dados viene dada por:

\[f(x) = \frac{1}{36} min(x-1,13-x), \text{ con } x = 2,3,...,12\]

La función de densidad para variables de tipo continuo no se puede especificar directamente, ya que como vimos en el tema anterior no es posible obtener la probabilidad de cada de los infinitos posibles resultados que puede tomar la variable. En el punto siguiente veremos como es posible obtenerla a partir de lo que definiremos con función de distribución.

Las propiedades principales de la función densidad son:

La función de densidad siempre es mayor o igual a cero para cualquier valor de la variable
La suma de las densidades de todos los valores de la variable es igual a uno.

Las funciones de densidad se pueden representar gráficamente para dar una idea general del reparto de probabilidades para el Rango de valores de la variable. En realidad si seleccionamos dos valores del rango de valores de la variable, el área bajo la curva de densidad entre esos dos puntos corresponde con la probabilidad de dicho intervalo. Como en la práctica resulta complicado poder realizar estos cálculos se recurre a la función de distribución.

Función de distribución

La funicón de distribución, $F$, asociada con una variable aleatoria $X$ se define como:

\[F(x) = P(X \leq x)\] Esta función se puede especificar tanto para variables aleatorias discretas como continuas, y sus propiedades son:

$F(-\infty) = 0$
$F(+\infty) = 0$
Si $a \leq b$ entonces $F(a) \leq F(b)$

A partir de la última propiedad resulta posible obtener la probabilidad de cualquier rango de valores dado que: \[P(a \leq X \leq b) = P(X \leq b) - P(X \leq a) = F(b) - F(a)\]

Para variables aleatorias de tipo continuo se define la función de densidad asociada como la derivada de la función de distribución:

\[f(x) = \frac{d}{dx} F(x).\]

En algunos casos (distribuciones de variables notables) ya se dispone de una expresión para la función de densidad y no hace falta hacer ningún cálculo matemático para obtenerla. Para representar la función de distribución se usa un gráfico de lineas que muestra la probabilidad acumulada para cada valor de la variable aleatoria considerada.

Distribuciones-Modelos

En la Unidad anterior se ha visto que el objetivo principal de muchos análisis estadísticos es estudiar el comportamiento de los sujetos de una población, a partir de la información recogida en una muestra de sujetos seleccionados de dicha población. Sin embargo, cuando hablamos de una población lo hacemos teniendo en mente las variables que se han medido sobre ellos. Imaginemos que estamos interesados en conocer la nota media de acceso de todos los estudiantes de primero de grado en la Universidad Miguel Hernández de Elche (UMH). En este caso es evidente que la población objetivo son todos los estudiantes de primero de grado que han accedido a la UMH, aunque esa población contiene información sobre muchas otras variables (sexo, edad, localidad de residencia,…).Por lo tanto, todas las poblaciones se considerarán poblaciones de valores de alguna variable especificada. Si la población es infinita, nunca podremos obtener todos sus valores, e incluso si la población es finita, generalmente no queremos medir todos sus valores. En cualquier caso, deseamos obtener información sobre características particulares de la población a partir de un número restringido de valores de muestra. Por ejemplo, en el estudio de la nota de acceso podríamos querer utilizar la media de la nota media de todos los estudiantes como referencia de la población, aunque podríamos utilizar otros como el percentil 80, etc…

Para proceder de esta forma, necesitamos formular un modelo adecuado para los valores $x$ que componen la población, relacionar las características de interés con los aspectos apropiados del modelo y luego usar los datos de la muestra para proporcionar estimaciones de estos aspectos.La característica esencial de tales valores $x$ en su imprevisibilidad, y lo mejor que podemos hacer es especificar la probabilidad de obtener un valor dado o un valor en un rango dado. Por lo tanto, las distribuciones de probabilidad proporcionan los modelos más apropiados para las poblaciones variables de respuesta. Más específicamente, la función de densidad de probabilidad $f(x)$ o la función de distribución de probabilidad $F(x)$ proporcionan la información necesaria, por lo que constituye el modelo de población para la variable aleatoria $X$. Por supuesto, dado que nunca conocemos esta distribución con una certeza total, debemos suponer una forma funcional específica (modelo matemático) para $f(x)$ y $F(x)$. Esta forma funcional usualmente involucra uno o más parámetros que pueden ser variados, y leso que se espera es que habrá algunos valores específicos de estos parámetros para los cuales la distribución resultante se ajusta adecuadamente a nuestros datos observados. Tal modelo se llama modelo paramétrico para $X$. En el tema siguiente se presentarán los modelos paramétricos más frecuentes para una variable aleatoria $X$.

Por el momento, supongamos que hemos especificado alguna función adecuada $f(x)$ como la densidad de probabilidad de nuestra población. ¿Qué valores resumen de esta densidad se relacionan con las características de la población que generalmente son de interés? Para responder a esta situación, centrémonos en las variables discretas e interpretemos la probabilidad como una frecuencia relativa. Si la variable aleatoria $X$ tiene valores posibles $x_1, x_2, x_3, ... ,x_n$ y si $p_i = P(X = x_i)$, entonces podemos pensar en $p_i$ como la frecuencia relativa con la que el valor $x_i$ ocurre en toda la población.

Definimos el valor esperado de $X$ por la ecuación:

\[E(X) = \sum_{i=1}^n x_i p_i\]

Utilizando la interpretación de frecuencia relativa de $p_i$ dada anteriormente, $E(X)$ puede interpretarse como el promedio de los valores $X$ en toda la población, por lo que es la media poblacional. Este es claramente uno de los principales valores de resumen para la población. A menudo se denota $\mu$ y como mide el “centro” de la población también se lo conoce como el parámetro de localización de la población.

De forma similar se define la varianza de la población, $\sigma2$, como:

\[\sigma^2 = V(X) = E\{(X-\mu)^2\} = \sum_{i=1}^n (x_i - \mu)^2 p_i\]

La desviación típica poblacional, $\sigma$, se obtiene a partir de la raíz cuadrada de la varianza poblacional:

\[\sigma = DT(X) = \sqrt{V(X)}\]

Siguiendo con el ejemplo de la variable aleatoria que representa la suma del lanzamiento de dos dados ¿Cuál es el valor esperado de la suma de ambos lanzamientos? ¿Cuál es la desviación típica? En este caso ¿la distribución es aproximada o la distribución poblacional?

En el caso de variables aleatorias continuas, donde denotamos por $R$ el rango de todos los valores posibles, se define la media, varianza y desviación típica poblacional como

\[\mu = E(X) = \int_R x f(x) dx\]

\[\sigma^2 = V(X) = \int_R (x - \mu)^2 f(x) dx\]

\[\sigma = DT(X) = \sqrt{V(X)}\]

Para las variables de tipo continuo más habituales la esperanza, varianza y desviación típica poblacionales se aproximan de forma precisa (si la muestra de trabajo es adecuada) por la media, varianza y desviación típica muestral.

Aproximaciones

Como se ha explicado en el punto anterior se debe utilizar la información muestral para aproximar la función de densidad de una variable aleatoria. En este punto estudiamos como obtener dichas aproximaciones (distribuciones empíricas) desde un punto de vista gráfico, aunque en la unidad siguiente se plantearan los métodos numéricos necesarias para obtener dicha aproximación. Si la muestra es representativa de la población, tanto la función de densidad como de distribución empíricas que obtendremos se deben parecer a las de toda la población, con lo que sería posible conocer la probabilidad de cualquier valor o rango de valores en la población. Para ejemplificar utilizaremos el banco de datos storm que venimos usando en los temas anteriores.

En primer lugar cargamos los datos de trabajo

library(tidyverse)
library(forcats)
library(nasaweather)
storm <- nasaweather::storms # Guardamos los datos en un nuevo objeto

Caso 1

En primer lugar vamos a trabajar con la variable discreta tipo de tormenta. Reordenamos el factor para mantener la relevancia de cada tipo de tormenta y obtenemos la tabla de frecuencias relativas y acumuladas de cada nivel de respuesta para aproximar tanto la función de densidad como la función de distribución:

# Generamos nuevo factor ordenado
type_levels <- c("Tropical Depression", "Extratropical", "Tropical Storm", "Hurricane")
storm$type2 <- factor(storm$type,levels = type_levels)
# Calculamos las frecuencias relativas
tabla_tipo <- storm %>%
  group_by(type2) %>%  
  summarise(n=n())
mutate(tabla_tipo,frel=n/sum(n),facum=cumsum(frel))

Esta tabla nos proporciona la probabilidad de que ocurra cada uno de los eventos considerados o lo que hemos definido como función de densidad de la variable tipo de tormenta.

Para representar la función de densidad hacemos uso de la función ..prop.. que nos proporciona los porcentajes asociados a cada nivel del factor.

ggplot(storm, aes(type2)) + 
  geom_bar(aes(y = ..prop.. , group = 1), width = 0.5) +
  xlab("Tipo de Tormenta") + ylab("Frecuencia relativa")

Para representar la función de distribución hacemos uso de la función cumsum que nos permite las suma acumulados e los porcentajes que obtenemos con ..prop...

ggplot(storm, aes(type2)) + 
  geom_bar(aes(y = cumsum(..prop..) , group = 1), width = 0.5) +
  xlab("Hasta este nivel") + ylab("Frecuencia acumulada")

Caso 2

Se selecciona ahora la variable presión atmosférica. De nuevo estamos interesados en obtener una aproximación de la función de densidad y de distribución. Dado Que estamos con una variable continua no podemos calcular la probabilidad en un punto sino en un intervalo. La mejor forma de representar dicha información es con el histograma.

En primer lugar representamos la función de densidad. Se utiliza tanto el histograma de frecuencias relativas como la aproximación de la densidad con la función geom_density.

ggplot(storm, aes(x = pressure)) + 
  geom_histogram(aes(y = ..density..), binwidth = 7) + 
  geom_density(color="red")+
  xlab("Presión Atmosférica (mbar)") + ylab("Densidad")

Para obtener la función de distribución se hace uso de la función stat_ecdf que permite obtener la función de distribución empírica para una variable de tipo numérico.

ggplot(storm, aes(x = pressure)) + 
  stat_ecdf(geom = "step", pad = FALSE) + 
  scale_y_continuous(breaks = seq(0,1,0.1)) +
  xlab("Presión Atmosférica (mbar)") + ylab("Frecuencia acumulada")

Podemos que ver que la probabilidad de observar una presión atmosférica menor o igual a 1000 milibares se sitúa en torno a 0.6. De forma similar, la probabilidad de observar un viento entre 950 y 975 milibares es aproximadamente $0.20 - 0.05 = 0.15$, con lo que a partir de esta función resulta posible cualquier probabilidad.

Caso 3

Comparamos ahora el comportamiento de la variable presión atmosférica con respecto al tipo de tormenta. En primer lugar obtenemos las funciones de densidad de la variable presión atmosférica para cada tipo de tormenta.

ggplot(storm, aes(x = pressure, color = type2)) + 
  geom_density()+
  xlab("Presión Atmosférica (mbar)") + ylab("Densidad")

Se puede apreciar que los rangos de valores con mayores probabilidades varían en función del tipo de tormenta, lo que implica que las poblaciones definidas por ese factor tienen comportamientos diferentes.

A continuación se obtienen las funciones de distribución asociadas

ggplot(storm, aes(x = pressure, color = type2)) + 
  stat_ecdf(geom = "step", pad = FALSE) + 
  scale_y_continuous(breaks = seq(0,1,0.1)) +
  xlab("Presión Atmosférica (mbar)") + ylab("Frecuencia acumulada")

Podemos ver en este caso que las probabilidades de observar presiones atmosféricas por debajo de 1000 milibares son: 1 (Tropical Depression); 0.6 (Extratropical y Tropical Storm); y 0.05 (Hurricane). En este caso resulta posible calcular cualquier probabilidad pero además podemos establecer comparaciones en función del tipo de tormenta. Esta forma de proceder sienta las bases de los procedimientos que se presentan en la unidad siguiente.

Distribuciones de probabilidad