Objetivo

Explorar el contexto de las variables aleatorias continuas y su representación gráfica de histograma y función de densidad.

Descripción

Se presenta el contexto de las variables aleatorias continuas presentando tabla de distribución a través de clases y la representación visual de histogramas y función de densidad

Se cargan las librerías adecuadas del caso y se presenta el desarrollo del mismo.

Fundamento teórico

Una diferencia fundamental entre las variables aleatorias discretas y las variables aleatorias continuas es cómo se calculan las probabilidades.

En las variables aleatorias discretas la función de probabilidad \(f(x)\) da la probabilidad de que la variable aleatoria tome un valor determinado.

En las variables aleatorias continuas, la contraparte de la función de probabilidad es la función de densidad de probabilidad, que también se denota \(f(x)\).

Cuando se calculan probabilidades de variables aleatorias continuas se calcula la probabilidad de que la variable aleatoria tome alguno de los valores dentro de un intervalo.

La diferencia está en que la función de densidad de probabilidad no da probabilidades directamente. Si no que el área bajo la curva de \(f(x)\) que corresponde a un intervalo determinado proporciona la probabilidad de que la variable aleatoria tome uno de los valores de ese intervalo[@anderson_estadistica_2008].

Siempre que una probabilidad sea proporcional a la longitud del intervalo, la variable aleatoria estará distribuida uniformemente [@anderson_estadistica_2008].

Como en cualquier punto determinado el área bajo la gráfica de \(f(x)\) es cero, una de las consecuencias de la definición de la probabilidad de una variable aleatoria continua es que la probabilidad de cualquier valor determinado de la variable aleatoria es cero.

Se toma el ejemplo de variable continua de estaturas de personas:

La variable aleatoria estatura se considera continua por dos razones: tiene valores de números reales, es decir, una persona puede medir \(\text {196.23 cm.}\) o una persona puede medir \(\text{196.30 cm. o 151.32 cm}\).

La otra razón del porqué considerarla como variable continua es porque es muy difícil encontrar a una persona que exactamente mida \(\text{162.35 cm.}\) Sería muy difícil por eso se menciona que la \(\text{P(x=1.62.35) es igual a 0}\).

Sin embargo la idea de las variables aleatorias es encontrar probabilidades de un determinado rango por ejemplo la probabilidad de encontrar personas con una estatura de entre \(\text{150 y 170}\); si de una muestra de \(100\) personas hay \(20\) personas que estén dentro de este rango entonces la probabilidad es del \(20\%\).

En la siguiente imagen, se presenta una distribución de una variable aleatoria continua, por ejemplo, el peso en kgs. de algún producto que se tiene que enviar por servicio de paquetería.

El rango de toda la población sería entre 10 y 60 kgs aproximadamente. Se observa de manera muy general en la imagen que el valor de la media \(μ\) del producto es entre \(\text{36 o 37}\), tal vez \(\text{36.5, o 36.7}\). El área total en color azul vale el \(100\%\).

La idea de la variable aleatoria continua es determinar cuál es la probabilidad de un intervalo, por ejemplo de entre \(\text{30 y 35 kgs.}\) o de cuál es la probabilidad de una variable continua que está entre \(\text{34 y 38}\). Esto se observa en la siguiente figura.

Sin embargo no todas las variables continuas tienen una representación como la curva en forma de campana, es posible encontrarlas como un rectángulo tal como se observa en la figura siguiente:

Se puede deducir que lo que se busca en términos de probabilidad es cuánto vale el área en el intervalo \(c1\) y \(c2\) y también tal vez el área bajo la curva (rectángulo) \(d1\) y \(d2\), si toda el área vale el 100%.

Desarrollo

Cargar librerías

La librería pander permite el trato de objetos muy particulares en R de una manera alternativa. Se puede usar para representar tablas.

La librería xtable es para la construcción de tablas de manera alternativa.

La librería fdth como se describió en capítulo de estadística descriptiva sirve para construir tablas de frecuencia.

# install.packages("pander")
# install.packages("xtable")
# install.packages("fdth")
library(pander)
library(xtable)
library(fdth)

Tabla de distribución

Ejemplo extraído de: [@quintela2019], se debe instalar la librería “pander”. install.packages(“pander”) y xtable install.packages(“xtable”).

Se inicializan datos en una variable llamada numeros con valores flotantes que denotan tal vez una variable continua.

Se construye una tabla de distribución con siete clases.

numeros=c(2, 3, 4, 4.5, 4.5, 5.6, 5.7, 5.8, 6, 6.1, 6.5, 7, 7, 7, 7.5, 7.5, 7.5, 8.3, 9, 10.2, 10.4, 11, 11.1, 11.5, 12, 13)
div<-table(cut(numeros,breaks=7))
tabla1 <- data.frame(div)
names(tabla1) <- c("Intervalos", "Frecuencias ($n_i$)" )
x<- xtable(tabla1)
pander(x)
Intervalos Frecuencias (\(n_i\))
(1.99,3.57] 2
(3.57,5.14] 3
(5.14,6.71] 6
(6.71,8.29] 6
(8.29,9.86] 2
(9.86,11.4] 4
(11.4,13] 3

Esta clasificación o tabla de distribución denota las clases y el intervalo o rango de valores que hay en cada categoría. El indicar los intervalos de la forma \((a,b]\) indica que el dato \(a\) de una siguiente clase no se cuenta en esta clase pero si en la clase anterior, y sí se cuenta el dato \(b\).

Como alternativa, se puede emplear otro paquete llamado fdth utilizado en casos anteriores para representar tablas de distribución, generando intervalos o clases similares.

library(fdth)
tabla2 <- fdt(numeros, k = 7)
tabla2
##     Class limits f   rf rf(%) cf  cf(%)
##    [1.98,3.5729) 2 0.08  7.69  2   7.69
##  [3.5729,5.1657) 3 0.12 11.54  5  19.23
##  [5.1657,6.7586) 6 0.23 23.08 11  42.31
##  [6.7586,8.3514) 7 0.27 26.92 18  69.23
##  [8.3514,9.9443) 1 0.04  3.85 19  73.08
##  [9.9443,11.537) 5 0.19 19.23 24  92.31
##   [11.537,13.13) 2 0.08  7.69 26 100.00

Histograma

El gráfico para representar una variable continua con sus clases y sus frecuencia es el histograma.

Enla instrucción geom_histogram(aes(x = numeros), bins = 7), se representa el histograma en donde el argumento bins representa los cortes y numeros son los valores de la variable aleatoria continua inicialziada con anticipación.

library(ggplot2)
ggplot() +
  geom_histogram(aes(x = numeros), bins = 7) +
  labs(title="Histograma de los números ", x="Clases", y="Frecuencia")

La densidad

Los conceptos de variable aleatoria continua y de función de densidad se definen a partir de la noción de probabilidad. Como una mera aproximación, se dice que la función de densidad sería el polígono de frecuencias que se construiría si se tuviese un conjunto infinito de datos.

En este caso, el polígono tendría la forma de una función matemática continua y derivable.

\[ \hat{f}_{h}(x_0)=\dfrac{1}{nh}\sum_{i=1}^{n}K\left( \dfrac{x_0-x_{i}}{h} \right) \]

\(K\) es una función (llamada núcleo o kernel) continua y derivable, y \(h\) es un parámetro llamado ventana (bandwidth), que ejerce un papel equivalente al del ancho de los intervalos en el histograma (o, equivalentemente, el número de intervalos). Se presenta el gráfico de densidad

ggplot() +
  geom_density(aes(x = numeros), col= 'blue') +
    labs(title="Densidad de los números ", x="Clases", y="Densidad")

o bien convirtiendo las variable numeros a un dataframe y dibujando el histograma con la densidad al mismo tiempo y definiendo el ancho de clase a partir de tabla2breaks[3] que sería como restar \(3.5729 - 1.98 = 1.5929\) el valor de la primera clase en la tabla2, o la resta de los intervalos de cualquier otra clase en la propia tabla.

ancho <- tabla2$breaks[3]
datos <- data.frame(x = numeros) 
ggplot(data = datos, aes(x = x)) +
    geom_histogram(aes(y = ..density..), binwidth = ancho, fill = "grey") +
    geom_density(col='blue') 
## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.

Interpretación

Se hizo un histograma para una serie de variables aleatorias. Eran estaturas que son numeros reales, con esto se realizo una tabla de distribucion de frecuencias, el histograma y se calculo la densidad y se realizo una grafica de la densidad para poder entender mejor los datos.