Explorar el contexto de las variables aleatorias continuas y su representación gráfica de histograma y función de densidad.
Se presenta el contexto de las variables aleatorias continuas presentando tabla de distribución a través de clases y la representación visual de histogramas y función de densidad
Se cargan las librerías adecuadas del caso y se presenta el desarrollo del mismo.
Una diferencia fundamental entre las variables aleatorias discretas y las variables aleatorias continuas es cómo se calculan las probabilidades.
En las variables aleatorias discretas la función de probabilidad f(x)f(x) da la probabilidad de que la variable aleatoria tome un valor determinado.
En las variables aleatorias continuas, la contraparte de la función de probabilidad es la función de densidad de probabilidad, que también se denota f(x)f(x).
Cuando se calculan probabilidades de variables aleatorias continuas se calcula la probabilidad de que la variable aleatoria tome alguno de los valores dentro de un intervalo.
La diferencia está en que la función de densidad de probabilidad no da probabilidades directamente. Si no que el área bajo la curva de f(x)f(x) que corresponde a un intervalo determinado proporciona la probabilidad de que la variable aleatoria tome uno de los valores de ese intervalo(Anderson, Sweeney, and Williams 2008).
Siempre que una probabilidad sea proporcional a la longitud del intervalo, la variable aleatoria estará distribuida uniformemente (Anderson, Sweeney, and Williams 2008).
Como en cualquier punto determinado el área bajo la gráfica de f(x)f(x) es cero, una de las consecuencias de la definición de la probabilidad de una variable aleatoria continua es que la probabilidad de cualquier valor determinado de la variable aleatoria es cero.
Se toma el ejemplo de variable continua de estaturas de personas:
La variable aleatoria estatura se considera continua por dos razones: tiene valores de números reales, es decir, una persona puede medir 196.23 cm.196.23 cm. o una persona puede medir 196.30 cm. o 151.32 cm196.30 cm. o 151.32cm.
La otra razón del porqué considerarla como variable continua es porque es muy difícil encontrar a una persona que exactamente mida 162.35 cm.162.35 cm. Sería muy difícil por eso se menciona que la P(x=1.62.35) es igual a 0P(x=1.62.35) esigual a 0.
Sin embargo la idea de las variables aleatorias es encontrar probabilidades de un determinado rango por ejemplo la probabilidad de encontrar personas con una estatura de entre 150 y 170150 y 170; si de una muestra de 100100 personas hay 2020 personas que estén dentro de este rango entonces la probabilidad es del 20%20%.
En la siguiente imagen, se presenta una distribución de una variable aleatoria continua, por ejemplo, el peso en kgs. de algún producto que se tiene que enviar por servicio de paquetería.
El rango de toda la población sería entre 10 y 60 kgs aproximadamente. Se observa de manera muy general en la imagen que el valor de la media μμ del producto es entre 36 o 3736 o 37, tal vez 36.5, o 36.736.5, o 36.7. El área total en color azul vale el 100%100%.
La idea de la variable aleatoria continua es determinar cuál es la probabilidad de un intervalo, por ejemplo de entre 30 y 35 kgs.30 y 35 kgs. o de cuál es la probabilidad de una variable continua que está entre 34 y 3834 y 38. Esto se observa en la siguiente figura.
Sin embargo no todas las variables continuas tienen una representación como la curva en forma de campana, es posible encontrarlas como un rectángulo tal como se observa en la figura siguiente:
Se puede deducir que lo que se busca en términos de probabilidad es cuánto vale el área en el intervalo c1c1 y c2c2 y también tal vez el área bajo la curva (rectángulo) d1d1 y d2d2, si toda el área vale el 100%.
La librería pander permite el trato de objetos muy particulares en R de una manera alternativa. Se puede usar para representar tablas.
La librería xtable es para la construcción de tablas de manera alternativa.
La librería fdth como se describió en capítulo de estadística descriptiva sirve para construir tablas de frecuencia.
# install.packages("pander")
# install.packages("xtable")
# install.packages("fdth")
library(pander)
library(xtable)
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
Ejemplo extraído de: (quintela2019?), se debe instalar la librería “pander”. install.packages(“pander”) y xtable install.packages(“xtable”).
Se inicializan datos en una variable llamada numeros con valores flotantes que denotan tal vez una variable continua.
Se construye una tabla de distribución con siete clases.
numeros=c(2, 3, 4, 4.5, 4.5, 5.6, 5.7, 5.8, 6, 6.1, 6.5, 7, 7, 7, 7.5, 7.5, 7.5, 8.3, 9, 10.2, 10.4, 11, 11.1, 11.5, 12, 13)
div<-table(cut(numeros,breaks=7))
tabla1 <- data.frame(div)
names(tabla1) <- c("Intervalos", "Frecuencias ($n_i$)" )
x<- xtable(tabla1)
pander(x)
Intervalos | Frecuencias (\(n_i\)) |
---|---|
(1.99,3.57] | 2 |
(3.57,5.14] | 3 |
(5.14,6.71] | 6 |
(6.71,8.29] | 6 |
(8.29,9.86] | 2 |
(9.86,11.4] | 4 |
(11.4,13] | 3 |
Esta clasificación o tabla de distribución denota las clases y el intervalo o rango de valores que hay en cada categoría. El indicar los intervalos de la forma (a,b](a,b] indica que el dato aa de una siguiente clase no se cuenta en esta clase pero si en la clase anterior, y sí se cuenta el dato bb.
Como alternativa, se puede emplear otro paquete llamado fdth utilizado en casos anteriores para representar tablas de distribución, generando intervalos o clases similares.
library(fdth)
tabla2 <- fdt(numeros, k = 7)
tabla2
## Class limits f rf rf(%) cf cf(%)
## [1.98,3.5729) 2 0.08 7.69 2 7.69
## [3.5729,5.1657) 3 0.12 11.54 5 19.23
## [5.1657,6.7586) 6 0.23 23.08 11 42.31
## [6.7586,8.3514) 7 0.27 26.92 18 69.23
## [8.3514,9.9443) 1 0.04 3.85 19 73.08
## [9.9443,11.537) 5 0.19 19.23 24 92.31
## [11.537,13.13) 2 0.08 7.69 26 100.00
El gráfico para representar una variable continua con sus clases y sus frecuencia es el histograma.
Enla instrucción geom_histogram(aes(x = numeros), bins = 7), se representa el histograma en donde el argumento bins representa los cortes y numeros son los valores de la variable aleatoria continua inicialziada con anticipación.
library(ggplot2)
ggplot() +
geom_histogram(aes(x = numeros), bins = 7) +
labs(title="Histograma de los números ", x="Clases", y="Frecuencia")
Los conceptos de variable aleatoria continua y de función de densidad se definen a partir de la noción de probabilidad. Como una mera aproximación, se dice que la función de densidad sería el polígono de frecuencias que se construiría si se tuviese un conjunto infinito de datos.
En este caso, el polígono tendría la forma de una función matemática continua y derivable.
\[ f^h(x0)=1nh∑i=1nK(x0−xih) \]
KK
Es una función (llamada núcleo o kernel) continua y derivable, y hh es un parámetro llamado ventana (bandwidth), que ejerce un papel equivalente al del ancho de los intervalos en el histograma (o, equivalentemente, el número de intervalos). Se presenta el gráfico de densidad
ggplot() +
geom_density(aes(x = numeros), col= 'blue') +
labs(title="Densidad de los números ", x="Clases", y="Densidad")
o bien convirtiendo las variable numeros a un dataframe y dibujando el histograma con la densidad al mismo tiempo y definiendo el ancho de clase a partir de tabla2breaks[3] que sería como restar 3.5729−1.98=1.59293.5729−1.98=1.5929 el valor de la primera clase en la tabla2, o la resta de los intervalos de cualquier otra clase en la propia tabla.
ancho <- tabla2$breaks[3]
datos <- data.frame(x = numeros)
ggplot(data = datos, aes(x = x)) +
geom_histogram(aes(y = ..density..), binwidth = ancho, fill = "grey") +
geom_density(col='blue')
## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
En este caso se representó un histograma para una serie de datos simulados que representan precisamente variables aleatorias continuas.
Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,.