Objetivo

Calcular densidad y probabilidades de cualquier distribuciones Binomial, Poisson Hipergeométrica Normal, Normal Estándar y T Student

Descripción

Calcular densidad y probabilidades de las distribuciones con variables continuas continuas Binomial, Poisson Hipergeométrica con variables discretas y Normal, Normal Estándar, T Student con variables continuas continuas

Desarrollo

Cargar librerías

library(ggplot2)
library(mosaic)
## Registered S3 method overwritten by 'mosaic':
##   method                           from   
##   fortify.SpatialPolygonsDataFrame ggplot2
## 
## The 'mosaic' package masks several functions from core packages in order to add 
## additional features.  The original behavior of these functions should not be affected by this.
## 
## Attaching package: 'mosaic'
## The following objects are masked from 'package:dplyr':
## 
##     count, do, tally
## The following object is masked from 'package:Matrix':
## 
##     mean
## The following object is masked from 'package:ggplot2':
## 
##     stat
## The following objects are masked from 'package:stats':
## 
##     binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
##     quantile, sd, t.test, var
## The following objects are masked from 'package:base':
## 
##     max, mean, min, prod, range, sample, sum
library(visualize)

Binomial

¿Cuál es el valor de x = 5, cuando la probabilidad de éxito es de 60% de una distribución binomial que tiene 10 observaciones?

dens <- dbinom(x = 5, size = 10, prob = 0.60)
dens
## [1] 0.2006581
plotDist('binom', params=list( 10, .60))

¿Cuál es el valor de x = 7, cuando la probabilidad de éxito es de 60% de una distribución binomial que tiene 10 observaciones?

dens <- dbinom(x = 7, size = 10, prob = 0.60)
dens
## [1] 0.2149908
plotDist('binom', params=list( 10, .60))

¿Cuál es el valor de x = 6, cuando la probabilidad de éxito es de 40% de una distribución binomial que tiene 12 observaciones?

dens <- dbinom(x = 6, size = 12, prob = 0.40)
dens
## [1] 0.1765791
plotDist('binom', params=list( 12, .40))

La probabilidad de que una persona de en el blanco con un arco es del 0.25% (éxito).

¿Cuál es la probabilidad de que haciendo 10 intentos le atine al tercer intento x = 3

dens <- dbinom(x=3, size = 10, prob = 0.25)
dens
## [1] 0.2502823
plotDist('binom', kind = "cdf", params=list( 10, .25))

Cuál es la probabilidad de que haciendo 10 intentos le atine cuando mucho a tres o le atine máximo en tres ocasiones? x≤3

prob <- pbinom(q = 3, size = 10, prob = 0.25)
prob
## [1] 0.7758751
plotDist('binom', kind = "cdf", params=list( 10, .25))

¿Cuál es la probabilidad de que haciendo 10 intentos le atine cuando menos a 4 ocasiones? x≥4

prob <- pbinom(q = 4, size = 10, prob = 0.25, lower.tail = FALSE)
prob
## [1] 0.07812691
plotDist('binom', params=list( 10, .25))

Poisson

¿Cuál es el valor de la densidad de x=2 en una distribución de Poisson cuando la media es igual a 4?

dens <- dpois(x = 2, lambda = 4)
dens
## [1] 0.1465251
plotDist(dist = "pois", kind = "density", params=list(4))

¿Cuál es el valor de la densidad de x=5 en una distribución de Poisson cuando la media es igual a 4?

dens <- dpois(x = 5, lambda = 4)
dens
## [1] 0.1562935
plotDist(dist = "pois", kind = "density", params=list(4))

¿Cuál es el valor de la probabilidad acumulada x≤5x≤5 en una distribución de Poisson cuando la media (lambda λλ) es igual a 4?

prob <- ppois(q = 5, lambda = 4)
prob
## [1] 0.7851304
plotDist(dist = "pois", kind = "cdf", params=list(4))

¿Cuál es el valor de la probabilidad acumulada x≤7x≤7 en una distribución de Poisson cuando la media (lambda λλ) es igual a 4?

prob <- ppois(q = 7, lambda = 4)
prob
## [1] 0.9488664
plotDist(dist = "pois", kind = "cdf", params=list(4))


Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las probabilidades de que reciba, cuatro cheques sin fondo en un día dado, P(x=4)

media <- 6
dpois(x = 4, lambda = media)
## [1] 0.1338526
plotDist(dist = "pois", kind = "density", params = media)

  • 10 cheques o menos sin fondos en un dia? P(x≤10)
media <- 6
ppois(q = 10, lambda = media)
## [1] 0.9573791
plotDist(dist = "pois", kind = "cdf", params = media)

  • mas de siete cheques sin fondos en un dia? P(x≥7)P(x≥7)
media <- 6
ppois(q = 7, lambda = media, lower.tail = FALSE)
## [1] 0.2560202
plotDist(dist = "pois", kind = "cdf", params = media)

Hipergeométrica

Diez refrigeradores de cierto tipo han sido devueltos a un distribuidor debido al a presencia de un ruido oscilante agudo cuando el refrigerador está funcionando.

Supongamos que 4 de estos 10 refrigeradores tienen compresores defectuosos y los otros 6 tienen problemas más leves.

Si se examinan al azar 5 de estos 10 refrigeradores, y se define la variable aleatoria X: “el número entre los 5 examinados que tienen un compresor defectuoso.”

La variable aleatoria es x=0,1,2,3….compresor defectuosox=0,1,2,3….compresor defectuoso

N <- 10  # Total de refrigeradores
k <-5    # Los que se extraen
m <- 4   # Los que posiblemente están con problema de compresor
n <- N - m # Los que no tienen problemas

¿Cuál es la probabilidad de que más de uno incluyendo el uno tenga fallas de compresor? P(x≥0)

phyper(q = 0, m = m, n = n, k = k, lower.tail = FALSE)
## [1] 0.9761905
plotDist(dist = "hyper", kind = "density", params = list(m = m, n= n, k=k))

La probabilidad de que a lo mas 1 tenga fallas de compresor P(x≤1)

phyper(q = 1, m = m, n = n, k = k)
## [1] 0.2619048
plotDist(dist = "hyper", kind = "cdf", params = list(m = m, n= n, k=k))

Normal

La media de los pesos de 500500 estudiantes de un colegio es 70kgs70kgs y la desviación típica 3kgs3kgs. Los datos se distribuyen normalmente.

¿Cuál es la probabilidad de encontrar estudiantes que pesen entre 65 y 75 P(65≤x≤75)P(65≤x≤75)

media <- 70
desv <- 3
pnorm(q = 75, mean = media, sd = desv) - pnorm(q = 65, mean = media, sd = desv)
## [1] 0.9044193
plotDist(dist = "norm", mean=media, sd= desv, groups = x >=65 & x<=75, type = "h")

¿Cuál es la probabilidad de encontrar estudiantes que pesen mas de 75 kgs P(x≥75)

pnorm(q = 75, mean = media, sd = desv, lower.tail = FALSE)
## [1] 0.04779035
plotDist(dist = "norm", mean=media, sd= desv, groups = x >=75, type = "h")

¿Cuál es la probabilidad de encontrar estudiantes que pesen menos o igual a 65 P(x≤65)

pnorm(q = 65, mean = media, sd = desv)
## [1] 0.04779035
plotDist(dist = "norm", mean=media, sd= desv, groups = x<=65, type = "h")

Normal Estándar Z

Del ejercicio anterior de una distribución normal con media igual a 70 y desviación igual a 3 μ=0;σ=3μ=0;σ=3, convertir o transformar los valores de x=60,61,62…78,79,80x=60,61,62…78,79,80 a valores en zz y determianar probabilidades

media <- 70
desv <- 3
xs <- 60:80
#xs

zs <- (xs - media) / desv 
#zs
tabla <- data.frame(xs, zs) 
tabla
##    xs         zs
## 1  60 -3.3333333
## 2  61 -3.0000000
## 3  62 -2.6666667
## 4  63 -2.3333333
## 5  64 -2.0000000
## 6  65 -1.6666667
## 7  66 -1.3333333
## 8  67 -1.0000000
## 9  68 -0.6666667
## 10 69 -0.3333333
## 11 70  0.0000000
## 12 71  0.3333333
## 13 72  0.6666667
## 14 73  1.0000000
## 15 74  1.3333333
## 16 75  1.6666667
## 17 76  2.0000000
## 18 77  2.3333333
## 19 78  2.6666667
## 20 79  3.0000000
## 21 80  3.3333333

¿Cuál es la probabilidad de encontrar personas entre 65 y 75 convertidos a valores en z?

x1 = 65; x2 = 75
z1 = (x1 - media) / desv; 
z2 = (x2 - media) / desv;

pnorm(q = z2) - pnorm(q = z1)
## [1] 0.9044193
plotDist(dist = "norm", groups = x >=z1 & x<=z2, type = "h")

¿Cuál es la probabilidad de encontrar estudiantes que pesen mas de 75 kgs P(x≥75)P(x≥75) valores en z

x <- 75
z <- (x - media) / desv; 

pnorm(q = z, lower.tail = FALSE)
## [1] 0.04779035
plotDist(dist = "norm", groups = x >=z , type = "h")

¿Cuál es la probabilidad de encontrar estudiantes que pesen menos o igual a 65 P(x≤65)P(x≤65) convertidos a z

x <- 65
z <- (x - media) / desv; 

pnorm(q = z)
## [1] 0.04779035
plotDist(dist = "norm", groups = x >=z , type = "h")

T Student

Cuál es el intervalo de confianza y el valor estimado de una media poblacional que esté dentro de ese intervalo a un 9090% de confianza con 10 grados de libertad, de una muestra t Student con media = 5, y desviación = 1.5. gd=10;x¯=5,S=1.5

Los Datos

media.m <- 5
desv.m <- 1.5
n <- 11
confianza <- 0.90

Tabla con los datos

tabla <- data.frame(variables = c("n", "Grados libertad", "Media muestra", "Desv.Std muestra", "Media Pob.", "Confianza"), datos = c(n, (n-1), media.m, desv.m, NA, confianza)) 
tabla
##          variables datos
## 1                n  11.0
## 2  Grados libertad  10.0
## 3    Media muestra   5.0
## 4 Desv.Std muestra   1.5
## 5       Media Pob.    NA
## 6        Confianza   0.9

Valor de t

t <- qt(p = (1 - confianza) / 2, df = n-1) # dos colas
t <- abs(t)
t
## [1] 1.812461

Intervalo de confianza

li <- media.m - t * (desv.m /sqrt(n) )
ls <- media.m + t * (desv.m /sqrt(n) )

print("intervalo")
## [1] "intervalo"
intervalo <- c(li, ls)
intervalo
## [1] 4.180284 5.819716

El intervalo de confianza con valores entre 4.1802836 y 5.8197164 con un 90% de confianza se interpreta que la media de la población debe estar en ese intervalo.

Visualizar gráfica Gauss

visualize.t(stat = c(-t, t), df = n-1, section = "tails") +
  text(0, 0.2, paste(confianza*100, "%"), col = "red") 

## integer(0)

Interpretación

Los ejercicios realizados en este caso son un conjunto de ejemplos de todo lo que hemos estado viendo a través de los casos 21 al 26. Se trata de distribuciones con variables aleatorias tanto discretas que manejan un número contable y de las variables continuas donde existen números muy grandes y que fácilmente pueden llegar a complicarse con un calculo mental. Para comenzar a realizar los ejercicios se cargan las librerías \(ggplot2\) y \(mosaic\) que servirán para visualizar histogramas y gráficos.

Binomial

Se comienza con una distribución binomial que pide conocer la probabilidad cuando \(x=5\) con un porcentaje de éxito del \(60\) % y un tamaño de 10 observaciones, este se realiza utilizando la función \(dbinom()\) y su resultado es de \(21.49\) % por ciento de probabilidad. El histograma se ejecuta usando la función \(plotDist()\). Ahora se busca obtener la densidad cuando el valor de \(x=7\) lo cual arroja una probabilidad del \(21.49\) %. El caso cuando \(x=6\) con una probabilidad de éxito del 40% y 12 observaciones, su probabilidad es del \(17.65\) %.

Poisson

La distribución Poisson es una distribución discreta que cuenta el número de eventos en un proceso de Poisson. Se usa para modelar el número de eventos que ocurren en un proceso de Poisson. Sea X P()X∼P(λ), esto es, una variable aleatoria con distribución de Poisson donde el número medio de eventos que ocurren en un determinado intervalo es
Existen diferentes funciones incluidas en poisson que se encargan de generar números aleatorios \(rpois\) calcular la densidad \(dpois\), para calcular la distribución acumulada \(ppois\) y para la función cuantil \(qpois\). Para calcular la densidad cuando \(x=2\) usamos la función \(dpois\) e ingresamos tanto \(x\) como la media o $lambda$ y el resultado es \(14.65\) %, cuando \(x=5\) con la misma media anterior el resultado es \(15.62\) %. Ahora para calcular la acumulada x≤5x≤5 usamos la función \(ppois\) ingresando \(q=5\) y la \(media=4\) obteniendo como resultado la probabilidad acumulada de \(78.51\) % Los histograma de estos y del resto de ejemplos se visualizo usando \(plotDist\)

Hipergeométrica

La distribución hipergeométrica es muy parecida a la binomial, en esta se debe utilizar la probabilidad, el numero de éxito y un número de ensayos. La distribución del número de éxitos, X, en la muestra se denomina distribución hipergeométrica.

En este tipo de distribuciones se utilizan las funciones: \(dhyper()\) para la densidad, \(phyper\) para la acumulada, \(qhyper\) para los cuantiles y \(rhyper\) para generar valores aleatorios. En el ejemplo de los refrigeradores se pide calcular la probabilidad de \(x>=0\) de un total de 10 refrigeradores y la probabilidad de éxito es de 60 % lo cual da como resultado \(97\) %, para cuando \(x<=1\) la probabilidad resultante es del \(26.19\) %. Para los histogramas de estos ejercicios se utilizo la función \(plotDist()\).

Normal

Estas variables son del tipo continuo, la distribución normal sirve para conocer la probabilidad de encontrar un valor de la variable que sea igual o inferior a un cierto valor , conociendo la media, la desviación estándar, y la varianza de un conjunto de datos. Para obtener los valores en este tipo de distribución en rstudio se usan cuatro funciones: \(dnorm()\) devuelve la densidad, \(pnorm()\) devuelve la acumulada, \(qnorm()\) arroja los cuantiles y \(rnorm()\) genera valores aleatorios.

En el ejemplo del peso de estudiantes, se pide encontrar estudiantes que pesen entre 65 y 75 kgs. de un total de 500 estudiantes con una media de 70 kgs. y una desviación de 3 kgs. y para hacerlo se usó la función \(pnorm()\) y se obtuvo el \(90.44\) %, para encontrar estudiantes que pesen mas de 75 kgs. se uso la misma función anterior y se obtuvo la probabilidad acumulada de \(4.7\) % que representa una porción de la campana que se genera.

Las gráficas permiten visualizar mejor la distribución pues colorea el total del área solicitada con un color diferente al resto y para esto se usó la función \(plotDist()\) la cual solicita el valor a buscar, la media y la desviación estándar.

Normal estándar

La distribución del tipo normal estándar describe la densidad de probabilidades en la distribución de valores de observaciones de una variable aleatoria, cuando el número de observaciones es bastante grande. La principal diferencia de la distribución normal a la estándar es que los valores en el eje de las \(X\) se transforman a valores de \(Z\), la media queda en 0 y los números de \(Z\) están entre números enteros negativos y positivos.

Al igual que la distribución normal las funciones usadas para obtener los valores en este tipo de distribución en rstudio son las siguientes cuatro funciones: \(dnorm()\) devuelve la densidad, \(pnorm()\) devuelve la acumulada, \(qnorm()\) arroja los cuantiles y \(rnorm()\) genera valores aleatorios.

En el ejemplo de una distribución normal con media igual a 70 y desviación igual a 3 μ=0;σ=3μ=0;σ=3, convertir o transformar los valores de x=60,61,62…78,79,80x=60,61,62…78,79,80 a valores en zz y determinar probabilidades. Se usa la formula

\(Z=Xi−μ/σ (2)\)


\(Xi=60:80\), \(μ= 70\) y \(σ=3\) a partir de estos datos se obtuvo gracias a un data.frame la tabla que muestra la conversión. Ahora se busca la probabilidad de encontrar una persona entre 65 y 75 en los valores de \(Z\) y se observa que la probabilidad se obtuvo con la función \(pnorm()\) y su resultado fue del \(90.44\)%. La probabilidad de encontrar estudiantes que pesen mas de 75 kgs. es del \(4.7\) %

Para visualizar la campana de Gauss de estos ejercicios se usó la función \(plotDist()\).

T-student

Es una distribución de probabilidad que surge del problema de estimar una población normalmente distribuida cuando el tamaño de la muestra es pequeño. Esta distribución se basa en grados de libertad, el cual es un nuevo concepto .

Para obtener valores que se basen en la distribución t-Student, R, dispone de cuatro funciones. \(dt()\) que nos da la densidad, \(pt()\) que nos da la distribución acumulada, \(qt()\) que arroja los cuantiles y \(rt()\) que genera datos aleatorios.

Para el ejercicio donde se pide conocer cuál es el intervalo de confianza y el valor estimado de una media poblacional que esté dentro de ese intervalo a un 9090% de confianza con 10 grados de libertad, de una muestra t Student con media = 5, y desviación = 1.5. gd=10;x¯=5,S=1.5.

Se ingresan los datos, media de la muestra , desviación de la muestra, numero de observaciones y la confianza. Se genera un data.frame que nos muestra que hace falta conocer el estadístico de prueba lo cual se hace con la formula: \(t=x-μ/σ/√n\) Esta formula nos da el llamado intervalo de confianza y se interpreta que la media de la población debe estar en ese intervalo (\(4.1802 y 5.8197\)) con un 90% de confianza.

Para la visualización de los datos se usó la función \(visualize.t()\) que de acuerdo con los datos anteriores nos permite ver que a media poblacional esta dentro del intervalo de confianza.

Bibliografía