Disitribuciones de probabilidad

Funciones de distribución en R

En R, cada distribución de probabilidad se nombra mediante una palabra clave o alias. Las palabras clave para las distribuciones mÔs importantes son:

Distribución Alias

Distribución binomial binom Distribución de Poisson pois Distribución normal norm Distribución exponencial exp Distribución t de Student t Distribución Chi2 chisq Distribución F f

$$ \[\begin{array}{l|l|l|c} \text{Función} & \text{Significado} & \text{Uso}& \text{Observación}\\ \hline p & \text{probability} & \text{Calcula probabilidades acumuladas (cdf)} & \text{---}\\ q & \text{quantile} & \text{Calcula cuantiles (percentiles)} & \text{---}\\ d & \text{density} & \text{Calcula probabilidades puntuales} & \text{Sólo uso grÔfico en el caso continuo}\\ r & \text{random} & \text{Genera datos aleatorios según una distribución específica} & \text{---}\\ \hline \end{array}\]

$$

Distribución normal (continuos)

istribución normal, distribución de Gauss, distribución gaussiana o distribución de Laplace-Gauss, a una de las distribuciones de probabilidad de variable continua que con mÔs frecuencia aparece en estadística y en la teoría de probabilidades.

La grÔfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parÔmetro estadístico. Esta curva se conoce como campana de Gauss y es el grÔfico de una función gaussiana.2

La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. 3 Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes.

  • Utilizando el conjunto de datos de calidad del aire ā€œairqualityā€

Daily readings of the following air quality values for May 1, 1973 (a Tuesday) to September 30, 1973.

Wind: Average wind speed in miles per hour at 0700 and 1000 hours at LaGuardia Airport

Source The data were obtained from the New York State Department of Conservation (ozone data) and the National Weather Service (meteorological data).

References Chambers, J. M., Cleveland, W. S., Kleiner, B. and Tukey, P. A. (1983) Graphical Methods for Data Analysis. Belmont, CA: Wadsworth.

viento <-airquality$Wind
head(viento)
## [1]  7.4  8.0 12.6 11.5 14.3 14.9

Media

mean(viento)
## [1] 9.957516

Desviación estÔndar

sd(viento)
## [1] 3.523001

Ordenar datos de menor a mayor

sort(viento)
##   [1]  1.7  2.3  2.8  3.4  4.0  4.1  4.6  4.6  4.6  4.6  5.1  5.1  5.1  5.7  5.7
##  [16]  5.7  6.3  6.3  6.3  6.3  6.3  6.3  6.3  6.3  6.9  6.9  6.9  6.9  6.9  6.9
##  [31]  6.9  6.9  6.9  7.4  7.4  7.4  7.4  7.4  7.4  7.4  7.4  7.4  7.4  8.0  8.0
##  [46]  8.0  8.0  8.0  8.0  8.0  8.0  8.0  8.0  8.0  8.6  8.6  8.6  8.6  8.6  8.6
##  [61]  8.6  8.6  9.2  9.2  9.2  9.2  9.2  9.2  9.2  9.2  9.7  9.7  9.7  9.7  9.7
##  [76]  9.7  9.7  9.7  9.7  9.7  9.7 10.3 10.3 10.3 10.3 10.3 10.3 10.3 10.3 10.3
##  [91] 10.3 10.3 10.9 10.9 10.9 10.9 10.9 10.9 10.9 10.9 11.5 11.5 11.5 11.5 11.5
## [106] 11.5 11.5 11.5 11.5 11.5 11.5 11.5 11.5 11.5 11.5 12.0 12.0 12.0 12.0 12.6
## [121] 12.6 12.6 13.2 13.2 13.8 13.8 13.8 13.8 13.8 14.3 14.3 14.3 14.3 14.3 14.3
## [136] 14.9 14.9 14.9 14.9 14.9 14.9 14.9 14.9 15.5 15.5 15.5 16.1 16.6 16.6 16.6
## [151] 18.4 20.1 20.7

1.- Calcular la probabilidad de tener vientos de 13 mph o menos en un día determinado utilizando la distribución normal

pnorm(13, mean=9.957516, sd = 3.523001)
## [1] 0.8060978

Ahora soi fuese de 13 mph o mƔs

pnorm(13, mean=9.957516, sd = 3.523001, lower.tail = FALSE)
## [1] 0.1939022

Ahora tenemos que la probabilidad de tener vientos de 13 mph o menos es de 0.8060978 y la probabilidad de tener vientos de 13 mph o mƔs es de 0.1939022, si sumamos ambas el resultado es 1

0.1939022 + 0.8060978
## [1] 1

2.- Calcular la probabilidad de que tengamos vientos entre 6 y 9 mph en un dĆ­a determinado

pnorm(9, mean=9.957516, sd = 3.523001) - pnorm(6, mean=9.957516, sd = 3.523001) 
## [1] 0.2622445

3.- Calcule el valor de viento diario que deja un 70% por debajo de Ʃl

\[ P(X\leq x_0)= 0.70 \]

qnorm(0.70,mean=9.957516, sd = 3.523001 )
## [1] 11.80498

4.- Genere un conjunto de 50 datos aleatorios con la misma media y distribución del conjunto de datos de vientos

aleatorios <- rnorm(153,mean=9.957516, sd = 3.523001 )

ordenando de menor a mayor

sort(aleatorios)
##   [1] -1.0600248  0.4897653  1.2822117  1.6509499  3.7881344  4.4321122
##   [7]  4.7077389  4.9787592  5.0339081  5.1696655  5.2693360  5.2801597
##  [13]  5.2804674  5.2954898  5.3011232  5.4111716  5.9757035  6.0233734
##  [19]  6.0774588  6.2833497  6.2939103  6.4153048  6.4417803  6.6272307
##  [25]  6.7115956  6.7343946  6.7775377  6.9744535  7.1706188  7.3007587
##  [31]  7.3526482  7.3531123  7.3915410  7.4428647  7.4540224  7.4792623
##  [37]  7.6440864  7.7872885  7.7926947  7.9294223  8.0177587  8.1015467
##  [43]  8.1092053  8.1530049  8.2128964  8.2180706  8.3254848  8.3400864
##  [49]  8.3785153  8.3994855  8.4854477  8.7310564  8.7811420  8.7963240
##  [55]  8.9252388  9.0265498  9.1371477  9.1386071  9.1948457  9.4231182
##  [61]  9.4635392  9.4684922  9.6027598  9.6049282  9.6071600  9.7142443
##  [67]  9.8181933  9.8470319  9.8665164  9.9180961  9.9394433  9.9407853
##  [73]  9.9592425  9.9611188 10.0029716 10.0091577 10.0467143 10.0786365
##  [79] 10.1904326 10.2542113 10.2773778 10.2798340 10.2866833 10.3056172
##  [85] 10.5129349 10.5645530 10.5945094 10.5988166 10.7167835 10.7812091
##  [91] 10.7993592 10.8100741 10.8245160 10.9170628 10.9930055 11.0099134
##  [97] 11.0462171 11.0656679 11.2577624 11.3929883 11.4048888 11.4915386
## [103] 11.6035380 11.6139777 11.7029710 11.8019339 11.8300248 11.8679320
## [109] 11.8908016 11.9804779 12.0275201 12.1105163 12.2279193 12.2556044
## [115] 12.3311580 12.3665702 12.4201901 12.5653788 12.5865573 12.5927272
## [121] 12.6228699 12.7652216 12.8496747 12.8601213 12.8861604 12.9292992
## [127] 13.1900557 13.3231473 13.3944052 13.4115948 13.5306328 13.5781042
## [133] 13.6476983 13.8539328 14.0045516 14.0244012 14.1136299 14.2331490
## [139] 14.2390750 14.5254785 14.8194225 15.2804777 15.3359530 15.4782744
## [145] 15.8879121 16.0862943 16.1654807 16.2033356 16.3198820 16.5997164
## [151] 16.8388665 19.6223506 20.3149280

Comparando los datos reales con los datos generados por la distribución normal

Datos originales:

boxplot(viento)

GrƔfico de caja y bigote para datos generados por la DN

boxplot(aleatorios)

5.- Se puede utilizar ā€œdnormā€ para construir el grĆ”fico de la distribución de probabildiad de X, utilizando el comando ā€œCurveā€

curve(dnorm(x,mean=9.957516, sd = 3.523001), xlim = c(1,21), xlab= "valores de x", ylab= "densidad de X"       )

Distribución binomial (discretos)

D