21/07/25
Abstract
La teoría mencionada puede revisarse en el capítulo 3 de mis notas de clase que aparecen en el siguiente documento: 1.1. Estadística básica. En Rpubs:: toc se pueden ver otros documentos de posible interés.
La función de densidad de la distribución normal con parámetros \(\mu\) y \(\sigma^2\) está dada por:
\[f(x)\;= \; \frac{1}{\sqrt{2 \pi \sigma^2}} \, e^{-\frac{(x-\mu)^2} {2 \sigma^2}}, \qquad \text{para todo $x$ real}\]
El código para escribir la expresión anterior es:
$$f(x)\;= \; \frac{1}{\sqrt{2 \pi \sigma^2}} \, e^{-\frac{(x-\mu)^2} {2 \sigma^2}}, \qquad \text{para todo $x$ real}$$
En R la función “dnorm(x, mean, sd)” nos ayuda a utilizar la densidad de la distribución normal. Aquí:
\(x\) es un vector de números.
“mean” es un valor del parámetro \(\mu\). Por defecto, su valor es 0.
“sd” es un valor de \(\sigma\). Por defecto, su valor es 1.
En el siguiente ejemplo, observamos la gráfica de la función de densidad normal para una variable aleatoria \(X\) que tiene distribución normal con parámetros \(\mu=2\) y \(\sigma=1.1\):
# Crear una sucesión de números entre -9 y 9, aumentando en 0.05.
x <- seq(-9, 9, by = 0.05)
# Suponiendo que los parámetros son: mu=2 y sigma=1.1.
y <- dnorm(x, mean = 2, sd = 1.1)
# Gráfica de la densidad normal
plot(x,y)
La función de distribución acumulada normal se simboliza por \(F\) o \(\Phi\). Su definición es:
\[F(t) \; = \; \Phi(t) = P(X \leq t), \qquad \text{para todo $t$ real}\]
El código para escribir la expresión anterior es:
$$ F(t) \; = \;\Phi(t) = P(X \leq t), \qquad \text{para todo $t$ real}$$
En R la función pnorm(x, mean, sd) nos ayuda a utilizar esta función. Aquí, nuevamente:
\(x\) es un vector de números.
“mean” es un valor del parámetro \(\mu\). Por defecto, su valor es 0.
“sd” es un valor de \(\sigma\). Por defecto, su valor es 1.
En el siguiente ejemplo, observamos la gráfica de la función de distribución acumulada para una variable aleatoria \(X\) que tiene distribución normal con parámetros \(\mu=2\) y \(\sigma=1.1\):
# Crear una sucesión de números entre -9 y 9, aumentando en 0.05.
x <- seq(-9, 9, by = 0.05)
# Suponiendo que los parámetros son: mu=2 y sigma=1.1.
y <- pnorm(x, mean = 2, sd = 1.1)
# Gráfica de la densidad normal
plot(x,y)
Con “pnorm” podemos calular probabilidades. Por ejemplo, si \(X\) tiene distribución normal con parámetros \(\mu=2\) y \(\sigma=1.1\), entonces, calcular:
a) La probabilidad de que X sea menor o igual que 3.
b) La probabilidad de que X sea mayor o igual que 3.
La probabilidad de que \(X\) sea menor o igual que 3 es:
\[P(X \leq 3) \; = \; 0.8183\]
El código para escribir la expresión anterior es:
$$P(X \leq 3) \; = \; 0.8183$$
pnorm(3, mean = 2, sd = 1.1)
## [1] 0.8183489
La probabilidad de que \(X\) sea mayor o igual que 3 es: \[P(X \geq 3) \; = \; 0.1817\]
El código para escribir la expresión anterior es:
$$P(X \geq 3) \; = \; 0.1817$$
pnorm(3, mean = 2, sd = 1.1, lower.tail=FALSE)
## [1] 0.1816511
Observe que, en R, se ha utilizado el argumento “lower.tail=FALSE” para calcular esta probabilidad. Además, observe también que se pudo haber calculado la propiedad del complemento para calcula esta probabilidad:
\[P(X \geq 3) \; = \; 1- P(X \leq 3) \; = \; 1- 0.8183 \; = \;0.1817\]
El código para escribir la expresión anterior es:
$$P(X \geq 3) \; = \; 1- P(X \leq 3) \; = \; 1- 0.8183 \; = \;0.1817$$
Si \(X\) es normal con parámetros \(\mu\) y \(\sigma^2\), entonces, \[E(X)=\mu, \qquad V(X)=\sigma^2\]
El código para escribir la expresión anterior es:
$$E(X)=\mu, \qquad V(X)=\sigma^2$$
Hay toda una familia de distribuciones normales. Cada distribución normal específica se distingue por \(\mu\) y \(\sigma\) (compárese con la figura 4.1).
En la figura 4.1 podemos observar que:
La densidad normal es creciente para \(x<\mu\) y decreciente para \(x>\mu\). Es decir, el punto más alto de la densidad normal se obtiene cuando \(x=\mu\) (véase las figuras 4.1a,b).
Las colas, es decir, los extremos o los lados de la densidad normal se prolongan al infinito en ambas direcciones y nunca tocan el eje horizontal (véase las figuras 4.1a,b).
La desviación estándar \(\sigma\) determina el ancho de la curva (véase la figura 4.1b).
En la figura 4.1c se ilustra el comportamiento de dos gráficas de la distribución acumulada normal para \(\sigma_1 <\sigma_2\).
La densidad normal es simétrica con respecto a \(\mu\).
La densidad normal es unimodal.
La media, la mediana y la moda son todas iguales.
Aquella distribución normal con esperanza 0 y varianza 1. La variable aleatoria asociada se simbolizará con \(Z\).
Simétrica con respecto a 0.
De la figura 4.2: El área de la región I es igual al área de la región II.
Sea \(X\) una variable aleatoria que tiene distribución normal con parámetros \(\mu\) y \(\sigma^2\). Entonces, la siguiente variable tiene distribución normal estándar:
\[Z=\frac{X-\mu}{\sigma}\]
El código para escribir la expresión anterior es:
$$Z=\frac{X-\mu}{\sigma}$$
Sea \(X\) una variable aleatoria que tiene distribución normal con parámetros \(\mu\) y \(\sigma^2\). Entonces, para todo número real \(t\), se cumple que:
\[P(X \leq t) \quad =\quad P(X\; -\; \mu \leq t\; -\; \mu) \quad = \quad P\Big(\frac{X-\mu}{\sigma} \leq \frac{t-\mu}{\sigma}\Big) \quad =\quad P\Big(Z \leq \frac{t-\mu}{\sigma}\Big)\]
El código para escribir la expresión anterior es:
$$P(X \leq t) \quad =\quad P(X\; -\; \mu \leq t\; -\; \mu) \quad = \quad
P\Big(\frac{X-\mu}{\sigma} \leq \frac{t-\mu}{\sigma}\Big) \quad =\quad P\Big(Z \leq \frac{t-\mu}{\sigma}\Big)$$
Es decir,
\[P(X \leq t) \; =\; P\Big(Z \leq \frac{t-\mu}{\sigma}\Big)\]
El código para escribir la expresión anterior es:
$$P(X \leq t) \; =\; P\Big(Z \leq \frac{t-\mu}{\sigma}\Big)$$
Si \(X\) es una variable normal con media \(\mu=50\) y varianza \(\sigma^2=100\), calcule las siguientes probabilidades utilizando la distribución normal estándar.
a) La probabilidad de que X sea menor o igual que 40.
b) La probabilidad de que X se encuentre entre -60 y 60 (ambos inclusive).
La probabilidad de que \(X\) sea menor o igual que 40 es: \[P(X\leq 40) \; =\; P\Big(Z \leq \frac{40-50}{10}\Big)\; =\; P(Z\leq -1) \; =\; 0.1587\]
El código para escribir la expresión anterior es:
$$P(X\leq 40) \; =\; P\Big(Z \leq \frac{40-50}{10}\Big)\; =\; P(Z\leq -1) \; =\; 0.1587$$
En R se utiliza solo la función pnorm(z) para la distribución normal estándar:
z <- -1
pnorm(z)
## [1] 0.1586553
La probabilidad de que \(X\) se encuentre entre -60 y 60 (ambos inclusive) es:
\[\begin{eqnarray*} P(|X| \leq 60) &=& P(-60 \leq X \leq 60)\; =\; P(X\leq 60) \; - \; P(X\leq -60) \\ &=& P\Big(Z \leq \frac{60-50}{10}\Big) \; - \; P\Big(Z \leq \frac{-60-50}{10}\Big)\\ &=& P(Z \leq 1) - P(Z\leq -11) = 0.8413 - 0 \; =\; 0.8413 \end{eqnarray*}\]
El código para escribir la expresión anterior es:
\begin{eqnarray*}
P(|X| \leq 60) &=& P(-60 \leq X \leq 60)\; =\; P(X\leq 60) \; - \; P(X\leq -60) \\
&=& P\Big(Z \leq \frac{60-50}{10}\Big) \; - \; P\Big(Z \leq \frac{-60-50}{10}\Big)\\
&=& P(Z \leq 1) - P(Z\leq -11) = 0.8413 - 0 \; =\; 0.8413
\end{eqnarray*}
En R:
z1 <- 1
z2 <- -11
pnorm(z1) - pnorm(z2)
## [1] 0.8413447
Supongamos que \(X\) tiene distribución normal con media \(\mu\) y desviación estándar \(\sigma\). Para \(0 < \alpha < 1\), el símbolo \(x_\alpha\) es un valor cuantil de la distribución normal si cumple con la condición: \[P(X \geq x_\alpha) \;= \; \alpha\]
El código para escribir la expresión anterior es:
$$P(X \geq x_\alpha) \;= \; \alpha$$
En R, un valor cuantil de la distribución normal puede ser calculada con cualquiera de las dos siguientes maneras equivalentes:
qnorm(\(1-\alpha\), mean, sd).
qnorm(\(\alpha\), mean, sd, lower.tail = FALSE).
Aquí:
\(\alpha\) es un vector de probabilidades.
“mean” es un valor de la media muestral. Por defecto, su valor es 0.
“sd” es la desviación estándar. Por defecto, su valor es 1.
En la distribución normal estándar, el cuantil puede ser calculada con cualquiera de las dos siguientes maneras equivalentes:
qnorm(\(1-\alpha\))
qnorm(\(\alpha\), lower.tail = FALSE).
A manera de ejemplo, supongamos que \(X\) tiene distribución normal con media \(\mu=2\) y desviación estándar \(\sigma=1.1\). Sea \(Z\) la variable aleatoria que tiene distribución normal estándar. Hallar el valor de \(k\) tal que:
\(P(X \geq k)= 0.83\).
\(P(X \leq k)= 0.95\).
\(P(k < X < 3.1)= 0.75\).
\(P(-k < Z < k)= 0.95\).
El código para escribir la expresión anterior es:
a) $P(X \geq k)= 0.83$.
b) $P(X \leq k)= 0.95$.
c) $P(k < X < 3.1)= 0.75$.
d) $P(-k < Z < k)= 0.95$.
El valor de \(k\) tal que \(P(X \geq k)= 0.83\) es \(k=0.9504\).
alfa <- 0.83
mean <- 2
sd <- 1.1
qnorm(1-alfa, mean, sd)
## [1] 0.9504182
qnorm(alfa, mean, sd, lower.tail = FALSE)
## [1] 0.9504182
El valor de \(k\) tal que \(P(X \leq k)= 0.95\) es \(k=3.8093\).
alfa <- 0.95
mean <- 2
sd <- 1.1
qnorm(1-alfa, mean, sd, lower.tail = FALSE)
## [1] 3.809339
qnorm(alfa, mean, sd)
## [1] 3.809339
El valor de \(k\) tal que \(P(k < X < 3.1)= 0.75\) no se puede calcular directamente, pero podemos proceder así (estandarizando y utilizando propiedades):
Sea \(t: = \frac{k-2}{1.1}\). Entonces,
\[ 0.75 \; = \; P(k < X < 3.1) \;= \; P\Big(\frac{k-2}{1.1} \; < \; Z \; < \; \frac{3.1-2}{1.1}\Big) \;= \; P(t < Z < 1) \;=\; P(Z < 1) \; - \; P(Z < t) \]
El código para escribir la expresión anterior es:
$$ 0.75 \; = \; P(k < X < 3.1) \;= \; P\Big(\frac{k-2}{1.1} \; < \; Z \; < \; \frac{3.1-2}{1.1}\Big) \;= \; P(t < Z < 1) \;=\; P(Z < 1) \; - \; P(Z < t) $$
En R vemos que \[P(Z < 1) =0.8413\]
El código para escribir la expresión anterior es:
$$P(Z < 1) =0.8413$$
z <- 1
pnorm(z)
## [1] 0.8413447
Por lo tanto,
\[P(Z<t) \; = \; 0.8413 \; -\; 0.75 \;= \; 0.0913\]
El código para escribir la expresión anterior es:
$$P(Z<t) \; = \; 0.8413 \; -\; 0.75 \;= \; 0.0913$$
0.8413-0.75
## [1] 0.0913
Al utilizar R, el valor cuantil es \(t=-1.3328\).
alfa <- 0.0913
qnorm(1-alfa, lower.tail = FALSE)
## [1] -1.332792
Como \(t = \frac{k-2}{1.1}\), entonces \(-1.3328 = \frac{k-2}{1.1}\), de donde \(k=2 - (1.3328)(1.1)= 0.5339\).
2 - (1.3328)*(1.1)
## [1] 0.53392
El valor de \(k\) tal que \(P(-k < Z < k)= 0.95\) no se puede calcular directamente, pero podemos proceder así (utilizando propiedades):
\[ 0.95 \; = \; P(-k < Z < k) \;= \; 1 \; - \; 2 \, P(Z \; > \; k)\]
El código para escribir la expresión anterior es:
$$ 0.95 \; = \; P(-k < Z < k) \;= \; 1 \; - \; 2 \, P(Z \; > \; k)$$
Es decir (despejando), \[P(Z >k) \; = \; \frac{1-0.95}{2} \; = \; 0.025\]
El código para escribir la expresión anterior es:
$$P(Z >k) \; = \; \frac{1-0.95}{2} \; = \; 0.025$$
Al utilizar R, el valor cuantil es \(k=1.96\).
alfa <- 0.025
qnorm(1-alfa)
## [1] 1.959964
Una compañía fabrica bombillos con vida media de 500 horas y desviación estándar de 100. Suponga que los tiempos de vida útil de los bombillos se distribuyen normalmente, esto es que los tiempos de vida forman una distribución normal.
a) Encuentre la probabilidad de que cierta cantidad de focos dure menos de 650 horas.
b) Calcule la probabilidad de que cierta cantidad de focos dure más de 780 horas.
c) Determine la probabilidad de que cierta cantidad de focos dure entre 650 y 780 horas (ambos inclusive).
d) Halle el valor de k tal que el 5% de los bombillos tenga un tiempo de vida mayor que k horas?
e) Si se eligen 10000 bombillos, ¿cuántos tuvieron un tiempo de vida entre 650 y 780 horas (ambos inclusive)?
f) Si se eligen 1200 bombillos, ¿cuál es la probabilidad de que al menos 3 duren más de 780 horas?
g) Si se eligen 20 bombillos, ¿cuál es la probabilidad de que entre 16 y 19 (ambos inclusive) duren menos de 650 horas?
h) Si se eligen 20 bombillos, ¿cuál es la probabilidad de que entre 16 y 19 (ambos inclusive) no duren menos de 650 horas?
Sea \(X\) la variable aleatoria que representa el tiempo de vida útil de los focos. Entonces, \(X\) tiene distribución normal con \(\mu=500\) y \(\sigma=100\).
Nos piden \(P(X< 650)\).
\[P(X< 650) \; = \; 0.9332\]
El código para escribir la expresión anterior es:
$$P(X< 650) \; = \; 0.9332$$
En R:
probabilidad_a <- pnorm(650, mean=500, sd=100);
probabilidad_a
## [1] 0.9331928
\[P(X< 650) \;=\; P\Big(Z< \frac{650-500}{100}\Big) \; = \; P(Z<1.5) \; = \; 0.9332\]
El código para escribir la expresión anterior es:
$$P(X< 650) \;=\; P\Big(Z< \frac{650-500}{100}\Big) \; = \; P(Z<1.5) \; = \; 0.9332$$
En R:
probabilidad_a <- pnorm(1.5)
probabilidad_a
## [1] 0.9331928
Es decir, la probabilidad de que cierta cantidad de focos dure menos de 650 horas es aproximadamente de 0.9332.
Nos piden \(P(X>780)\).
\[P(X>780) \;=\; 0.0026\]
El código para escribir la expresión anterior es:
$$P(X>780) \;=\; 0.0026$$
probabilidad_b <- pnorm(780, mean=500, sd=100,lower.tail=FALSE)
probabilidad_b
## [1] 0.00255513
\[P(X>780) \;=\; P\Big(Z> \frac{780-500}{100}\Big) \; = \; P(Z>2.8) \; = \; 0.0026\]
El código para escribir la expresión anterior es:
$$P(X>780) \;=\; P\Big(Z> \frac{780-500}{100}\Big) \; = \; P(Z>2.8) \; = \; 0.0026$$
probabilidad_b <- pnorm(2.8, lower.tail=FALSE)
probabilidad_b
## [1] 0.00255513
Por lo tanto, la probabilidad de que cierta cantidad de focos dure más de 780 horas es aproximadamente de 0.0026.
Nos piden \(P(650 \leq X \leq 780)\).
\[P(650 \leq X \leq 780) \; = \; P(X\leq 780) \;- \; P(X\leq 650) \; = \; 0.9975\; -\; 0.9332 \; = \; 0.0643\]
El código para escribir la expresión anterior es:
$$P(650 \leq X \leq 780) \; = \; P(X\leq 780) \;- \; P(X\leq 650) \; = \; 0.9975\; -\; 0.9332 \; = \; 0.0643$$
En R:
probabilidad_c <- pnorm(780, mean=500, sd=100) - pnorm(650, mean=500, sd=100)
probabilidad_c
## [1] 0.06425207
probabilidad_c <- pnorm(780, mean=500, sd=100)
probabilidad_c
## [1] 0.9974449
\[\begin{eqnarray*} P(650 \leq X \leq 780) &=& P(X\leq 780) \;- \; P(X\leq 680)\\ &= & P(Z\leq 2.8) \, - \, P(Z\leq 1.5) \;= \; 0.9975 \, - \, 0.9332 \;= \; 0.0643 \end{eqnarray*}\]
El código para escribir la expresión anterior es:
\begin{eqnarray*}
P(650 \leq X \leq 780) &=& P(X\leq 780) \;- \; P(X\leq 680)\\
&= & P(Z\leq 2.8) \, - \, P(Z\leq 1.5) \;= \; 0.9975 \, - \, 0.9332 \;= \; 0.0643
\end{eqnarray*}
En R:
probabilidad_c <- pnorm(2.8) - pnorm(1.5);
probabilidad_c
## [1] 0.06425207
Por consiguiente, la probabilidad de que cierta cantidad de bombillos duren entre 650 y 780 horas es aproximadamente 0.0642.
Debemos hallar el valor de \(k\) tal que el 5% de los bombillos tenga un tiempo de vida mayor que k horas. Es decir, hallar \(k\) tal que \[P(X >k) \;= \; 0.05\]
El código para escribir la expresión anterior es:
$$P(X >k) \;= \; 0.05$$
En este caso, \(k=664.45\), valor calculado con R:
qnorm(1-0.05, mean=500, sd=100)
## [1] 664.4854
Según el inciso (c), la probabilidad de que cierta cantidad de focos dure entre 650 y 780 horas (ambos inclusive) es \(p=0.0643\). Si se eligen \(n= 10000\) bombillos, entonces aproximadamente 643 bombillos tuvieron un tiempo de vida entre 650 y 780 horas (ambos inclusive):
\[ \text{Cantidad} \;= \; n p \;= \; (10000)(0.0643)\;= \; 642.5207 \;\approx \; 643\]
El código para escribir la expresión anterior es:
$$ \text{Cantidad} \;= \; n p \;= \; (10000)(0.0643)\;= \; 642.5207 \;\approx \; 643$$
n <- 10000
p <- probabilidad_c
n*p
## [1] 642.5207
Según el inciso (b), la probabilidad de que cierta cantidad de focos dure más de 780 horas es \(p=0.0026\). Se eligen \(n= 1200\) bombillos. Definamos como \(Y\) la variable aleatoria que representa al número de bombillos en la muestra que duran más de 780 horas. Entonces, \(Y\) tiene distribución binomial con parámetros \(n=1200\) y \(p=0.0026\).
Nos piden calcular la probabilidad de que al menos 3 duren más de 780 horas. Es decir,
\[P(Y\geq 3) \; = \; 1 \; -\; P(Y \leq 2) \; = \; 0.5917\]
El código para escribir la expresión anterior es:
$$P(Y\geq 3) \; = \; 1 \; -\; P(Y \leq 2) \; = \; 0.5917$$
n <- 1200
p <- probabilidad_b
k <- 2
probabilidad_f <- 1 - pbinom(k, n, p)
probabilidad_f
## [1] 0.5917659
Por consiguiente, si se toma una muestra de 1200 bombillos, la probabilidad de que al menos 3 duren más de 780 horas es aproximadamente 0.5917.
Según el inciso (a), la probabilidad de que cierta cantidad de focos dure menos de 650 horas es \(p=0.9332\). Se eligen \(n= 20\) bombillos. Definamos como \(W\) la variable aleatoria que representa al número de bombillos en la muestra que duran menos de 650 horas. Entonces, \(W\) tiene distribución binomial con parámetros \(n=20\) y \(p=0.9332\).
Nos piden calcular la probabilidad de que entre 16 y 19 (ambos inclusive) duren menos de 650 horas. Es decir,
\[P(16 \leq W\leq 19) \; = \; P(W \leq 19) \; -\; P(W \leq 15) \; = \; 0.7491 \;- \; 0.0088 \; = \; 0.7403\]
El código para escribir la expresión anterior es:
$$P(16 \leq W\leq 19) \; = \; P(W \leq 19) \; -\; P(W \leq 15) \; = \; 0.7491 \;- \; 0.0088 \; = \; 0.7403$$
n <- 20
p <- probabilidad_a
probabilidad_g <- pbinom(19, n, p) - pbinom(15, n, p)
probabilidad_g
## [1] 0.7403082
Por lo tanto, si se toma una muestra de 20 bombillos, la probabilidad de que entre 4 y 7 (ambos inclusive) duren menos de 650 horas es aproximadamente 0.7403.
Según el inciso (a), la probabilidad de que cierta cantidad de focos dure menos de 650 horas es \(0.9332\). O sea, la probabilidad que no dure menos de ese tiempo es \[p\; = \; 1\; - \; 0.9332\; = \; 0.0668\]
El código para escribir la expresión anterior es:
$$p\; = \; 1\; - \; 0.9332\; = \; 0.0668$$
Se eligen \(n= 20\) bombillos. Sea \(V\) la variable que representa al número de bombillos en la muestra que no duran menos de 650 horas. Entonces, \(V\) tiene distribución binomial con parámetros \(n=20\) y \(p=0.0668\).
Nos piden calcular la probabilidad de que entre 16 y 19 (ambos inclusive) duren no menos de 650 horas. Es decir,
\[P(16 \leq V\leq 19) \; = \; P(V \leq 19) \; -\; P(V \leq 15) \; = \; 1 \;- \; 1 \; = \; 0\]
El código para escribir la expresión anterior es:
$$P(16 \leq V\leq 19) \; = \; P(V \leq 19) \; -\; P(V \leq 15) \; = \; 1 \;- \; 1 \; = \; 0$$
n <- 20
p <- 1-probabilidad_a
probabilidad_h <- pbinom(19, n, p) - pbinom(15, n, p)
probabilidad_h
## [1] 6.661338e-16
Por lo tanto, si se toma una muestra de 20 bombillos, la probabilidad de que entre 4 y 7 (ambos inclusive) NO duren menos de 650 horas es aproximadamente 0.
Observe que esta probabilidad no es el complemento de la hallada en el inciso (g), como se comprueba con R:
probabilidad_h == (1-probabilidad_g)
## [1] FALSE
El objetivo de esta sección es rrecordar ambas distribuciones, las cuales se mencionará y utilizarán más adelante. Para má detalles, puede verse las secciones 10.3 y 10.5 de https://rpubs.com/hllinas/toc.
\[P(X=k) \;=\; {n\choose x} p^k\, (1-p)^{n-k}, \qquad x=0,1,2, \ldots, n\]
El código para escribir la expresión anterior es:
$$P(X=k) \;=\; {n\choose x} p^k\, (1-p)^{n-k}, \qquad x=0,1,2, \ldots, n$$
\[E(X)= np, \qquad V(X)= np(1-p)\]
El código para escribir la expresión anterior es:
$$E(X)= np, \qquad V(X)= np(1-p)$$
El código correspondiente para calcular la función de probabilidad \(f(k)=P(X=k)\) de la variable aleatoria \(X\) es “dbinom(k, size = n, prob = p)”.
El código correspondiente para calcular la función de distribución acumulada \(F(k) = P(X\leq k)\) de la variable aleatoria \(X\) es “pbinom(k, size = n, prob = p)”.
\[ P(X=k)\;= \; \frac{{M\choose k}\,{N-M\choose n-k}}{{N\choose n}}, \qquad \text{donde}\quad k=0,1,2, \ldots, n \quad \text{y}\quad n\leq N \]
El código para escribir la expresión anterior es:
$$ P(X=k)\;= \; \frac{{M\choose k}\,{N-M\choose n-k}}{{N\choose n}}, \qquad \text{donde}\quad k=0,1,2, \ldots, n \quad \text{y}\quad n\leq N $$
El código para escribir la expresión anterior es:
$$ E(X)\;=\; np \qquad \text{y}\qquad V(X)\;= \; n p(1-p)\cdot \left(\frac{N-n}{N-1}\right)$$
El código correspondiente para calcular la función de probabilidad \(f(k)=P(X=k)\) de la variable aleatoria \(X\) es “dhyper(k, M, N-M, n)”.
El código correspondiente para calcular la función de distribución acumulada \(F(k)=P(X\leq k)\) de la variable aleatoria \(X\) es “phyper(k, M, N-M, n)”.
Las distribuciones binomial e hipergeométrica coinciden cuando \(\frac{n}{N}\leq 0,05\). En este caso, el factor \(\frac{N-n}{N-1}\) se aproxima a 1 y la razón \(p= M/N\) es la proporción de los éxitos de la población. En resumen, tendríamos:
\[p\; = \; \frac{M}{N}, \qquad E(X)\;=\; np \qquad \text{y}\qquad V(X)\;= \; n p (1-p)\]
El código para escribir la expresión anterior es:
$$p\; = \, \frac{M}{N}, \qquad E(X)\;=\; np \qquad \text{y}\qquad V(X)\;= \; n p (1-p)$$
De manera gráfica, esta aproximación se puede visualizar así:
El código para escribir la expresión anterior es:
(i) $n\geq 30$
(ii) $np\geq 5$ y $nq\geq 5$
El código para escribir la expresión anterior es:
$$\mu=np, \qquad \sigma^2=npq$$
\[P(X\leq k) \;\approx \; P\left(Z\leq \frac{k + 0,5 - np}{\sqrt{npq}}\right)\]
El código para escribir la expresión anterior es:
$$P(X\leq k) \;\approx \; P\left(Z\leq \frac{k + 0,5 - np}{\sqrt{npq}}\right)$$
En la figura de abajo se puede visualizar un resumen de algunas aproximaciones de distribuciones discretas a la distribución normal.
Un fabricante sabe por experiencia que de 17000 productos, el 4% es rechazado por defectos. Supongamos que un nuevo lote de 800 unidades va a ser inspeccionado.
a) Defina una variable que represente el número de productos rechazados y otra que número de productos no rechazados. Determine sus respectivas distribuciones, indicando también sus parámetros.
b) Verifique si la podemos aproximar la distribución hipergeómetrica a la binomial.
c) En caso que la respuesta en el inciso (b) sea afirmativa, determine la distribución discreta aproximada de cada una de las variables definidas en el inciso (a).
d) Verifique si podemos aproximar a la distribución normal. En caso que la respuesta sea afirmativa, calcule los parámetros correspondientes.
e) Calcule la probabilidad aproximada de que menos de 35 productos sean rechazados.
f) Calcule la probabilidad aproximada de que a lo más 760 productos no sean rechazados
g) Calcule la probabilidad aproximada de que al menos 761 productos no sean rechazados.
h) Calcule la probabilidad aproximada de que más de 45 productos sean rechazados.
i) Calcule la probabilidad aproximada de que menos de 35 o más de 45 productos sean rechazados.
j) Calcule la probabilidad aproximada de que menos de 35 y más de 45 productos sean rechazados.
k) Calcule la probabilidad aproximada de que por lo menos 766 productos no sean rechazados.
l) Calcule la probabilidad aproximada de que el número de productos no rechazados no exceda a 767.
m) Calcule la probabilidad aproximada de que entre 761 (inclusive) y 768 (no inclusive) productos no sean rechazados.
El enunciado nos dice que el 4% de los productos es rechazado por defectos. Por esta razón, en la población hay: \[(17000)(0.04) = 680 \; \text{rechazados}\quad \text{y} \quad (17000)(0.96) = 16320\; \text{no rechazados}\]
El código para escribir la expresión anterior es:
$$(17000)(0.04) = 680 \; \text{rechazados}\quad \text{y} \quad (17000)(0.96) = 16320\; \text{no rechazados}$$
Con base en lo anterior, definimos las siguientes dos variables aleatorias, con sus respectivos distribuciones:
Definamos en R, los parámetros correspondientes:
p <- 0.04 #A) Proporción de rechazados
q <- 1-p #B) Proporción de no rechazados
N <- 17000 #C) Tamaño de la población N
Msi <- N*p #D) Éxitos M (Número de rechazados)
Mno <- N*q #E) Éxitos M (Número de no rechazados)
n <- 800 #F) Tamaño de la muestra n
Se observa que:
\[\frac{n}{N} \; = \; \frac{800}{17000} \; = \; 0.047 \; < \; 0.05\]
El código para escribir la expresión anterior es:
$$ \frac{n}{N} \; = \; \frac{800}{17000} \; = \; 0.047 \; < \; 0.05$$
n/N
## [1] 0.04705882
O sea, podemos aplicar el teorema de aproximación de la hipergeométrica a la binomial.
Como \(\frac{n}{N}= \frac{800}{17000} =0.047 \leq 0.05\), ya se explicó en el inciso (b) que podemos aplicar el teorema de aproximación de la hipergeométrica a la binomial. Entonces:
Definamos en R, los parámetros correspondientes:
p <- 0.04 #A) Proporción de rechazados
q <- 1-p #B) Proporción de no rechazados
n <- 800 #C) Tamaño de la muestra n
Como \(n=800 \geq 30\), entonces:
El código para escribir la expresión anterior es:
$$\mu=np=(800)(0.04)=32\qquad \text{y} \qquad \sigma^2=npq=(800)(0.04)(0.96)=30.72$$
El código para escribir la expresión anterior es:
$$\mu=nq=(800)(0.96)=768\qquad \text{y} \qquad \sigma^2=npq=(800)(0.04)(0.96)=30.72$$
Observemos que también podemos aplicar la segunda condición del teorema de aproximación, puesto que se cumple \[np=(800)(0.0.4)=32 \geq 5 \qquad \text{y} \qquad nq=(800)(0.96)=768\geq 5\]
El código para escribir la expresión anterior es:
$$np=(800)(0.04)=32 \geq 5 \quad \text{y} \quad nq=(800)(0.96)=768\geq 5$$
n*p
## [1] 32
n*q
## [1] 768
Definamos en R, los parámetros correspondientes:
muSi <- n*p
muNo <- n*q
varianza <- n*p*q
sigma <- sqrt(varianza)
Nos piden calcular la probabilidad aproximada de que menos de 35 productos sean rechazados: \(P(X<35)\). Aplicaremos el teorema de aproximación de la binomial a la normal, pero utilizando la variable \(X\). Es decir, consideraremos la expresión:
\[P(X\leq k) \;\approx \; P\left(Z\leq \frac{k + 0,5 - np}{\sqrt{npq}}\right)\]
El código para escribir la expresión anterior es:
$$P(X\leq k) \;\approx \; P\left(Z\leq \frac{k + 0,5 - np}{\sqrt{npq}}\right)$$
Teniendo en cuenta los resultados encontrados en (d) con respecto a la variable \(X\), obtenemos:
\[P(X<35) \;=\; P(X\leq 34) \;\approx \;P\left(Z\leq \frac{34 + 0.5 -32}{\sqrt{30.72}}\right) \;= \; P(Z\leq 0.4511) \;= \; 0.6740 \]
El código para escribir la expresión anterior es:
$$P(X<35) \;=\; P(X\leq 34) \;\approx \;P\left(Z\leq \frac{34 + 0.5 -32}{\sqrt{30.72}}\right) \;= \; P(Z\leq 0.4511) \;= \; 0.6740 $$
En R, esta probabilidad se puede calcular así (con la función “pnorm”):
k <- 34
n <- 800
p <- 0.04
q <- 1-p
muSi <- n*p
muNo <- n*q
mu <- muSi
sigma <- sqrt(n*p*q)
z <- (k +0.5-mu)/sigma
probabilidad_e <- pnorm(z)
probabilidad_e
## [1] 0.674025
Por consiguiente, la probabilidad aproximada de que menos de 35 unidades sean rechazadas es de 0.6740.
Nos piden calcular la probabilidad aproximada de que a lo más 760 productos no sean rechazados: \(P(Y\leq 760)\). Aplicaremos el teorema de aproximación de la binomial a la normal, pero utilizando la variable \(Y\). Es decir, consideraremos la expresión:
\[P(Y\leq k) \;\approx \; P\left(Z\leq \frac{k + 0,5 - nq}{\sqrt{npq}}\right)\]
El código para escribir la expresión anterior es:
$$P(Y\leq k) \;\approx \; P\left(Z\leq \frac{k + 0,5 - nq}{\sqrt{npq}}\right)$$
Teniendo en cuenta los resultados encontrados en (d) con respecto a la variable \(Y\), obtenemos:
\[P(Y\leq 760) \;\approx \; P\left(Z\leq \frac{760 + 0.5 -768}{\sqrt{30.72}}\right) \;= \; P(Z\leq -1.3532) \;= \; 0.088 \]
El código para escribir la expresión anterior es:
$$P(Y\leq 760) \;\approx \; P\left(Z\leq \frac{760 + 0.5 -768}{\sqrt{30.72}}\right) \;= \; P(Z\leq -1.3532) \;= \; 0.088 $$
En R, esta probabilidad se puede calcular así (con la función “pnorm”):
k <- 760
n <- 800
p <- 0.04
q <- 1-p
muSi <- n*p
muNo <- n*q
mu <- muNo
sigma <- sqrt(n*p*q)
z <- (k +0.5-mu)/sigma
probabilidad_f <- pnorm(z)
probabilidad_f
## [1] 0.08800151
Por consiguiente, la probabilidad aproximada de que a lo más 760 productos no sean rechazados es 0.088.
Nos piden calcular la probabilidad aproximada de que al menos 761 productos no sean rechazados: \(P(Y\geq 761)\). Por la ley del complemento y el inciso (f), tenemos que:
\[P(Y \geq 761) \;= \; 1 \; - \; P(Y < 761) \;= \; 1 \; - \; P(Y \leq 760)\;= \; 1 \; - \; 0.088 \;= \; 0.912\]
El código para escribir la expresión anterior es:
$$P(Y \geq 761) \;= \; 1 \; - \; P(Y < 761) \;= \; 1 \; - \; P(Y \leq 760)\;= \; 1 \; - \; 0.088 \;= \; 0.912$$
En R, la probabilidad se calcula así:
probabilidad_g <- 1- probabilidad_f
probabilidad_g
## [1] 0.9119985
Por consiguiente, la probabilidad aproximada de que al menos 761 productos no sean rechazados es 0.912.
Nos piden calcular la probabilidad aproximada de que más de 45 productos sean rechazados: \(P(X>45)\). Al aplicar la propiedad del complemento, tenemos:
\[P(X > 45) \;= \; 1 \; - \; P(X \leq 45)\]
El código para escribir la expresión anterior es:
$$P(X > 45) \;= \; 1 \; - \; P(X \leq 45)$$
Primero hallaremos \(P(X \leq 45)\). Primero, aplicaremos el teorema de aproximación de la binomial a la normal, pero utilizando la variable \(X\). Es decir, consideraremos la expresión:
\[P(X\leq k) \;\approx \; P\left(Z\leq \frac{k + 0,5 - np}{\sqrt{npq}}\right)\]
El código para escribir la expresión anterior es:
$$P(X\leq k) \;\approx \; P\left(Z\leq \frac{k + 0,5 - np}{\sqrt{npq}}\right)$$
Teniendo en cuenta los resultados encontrados en (d) con respecto a la variable \(X\), obtenemos:
\[P(X\leq 45) \;\approx \; P\left(Z\leq \frac{45 + 0.5 -32}{\sqrt{30.72}}\right) \;= \; P(Z\leq 2.4357) \;= \; 0.9926 \]
El código para escribir la expresión anterior es:
$$P(X\leq 45) \;\approx \; P\left(Z\leq \frac{45 + 0.5 -32}{\sqrt{30.72}}\right) \;= \; P(Z\leq 2.4357) \;= \; 0.9926 $$
En R, esta probabilidad se puede calcular así (con la función “pnorm”):
k <- 45
n <- 800
p <- 0.04
q <- 1-p
muSi <- n*p
muNo <- n*q
mu <- muSi
sigma <- sqrt(n*p*q)
z <- (k +0.5-mu)/sigma
probabilidad_h1 <- pnorm(z)
probabilidad_h1
## [1] 0.9925684
\[P(X > 45) \;= \; 1 \; - \; P(X \leq 45)\;= \; 1 \; - \; 0.9926 \;= \; 0.0074\]
El código para escribir la expresión anterior es:
$$P(X > 45) \;= \; 1 \; - \; P(X \leq 45)\;= \; 1 \; - \; 0.9926 \;= \; 0.0074$$
En R, la probabilidad se calcula así:
probabilidad_h <- 1- probabilidad_h1
probabilidad_h
## [1] 0.007431576
Por consiguiente, la probabilidad aproximada de que más de 45 productos sean rechazados es 0.0074.
Nos piden calcular la probabilidad aproximada de que menos de 35 o más de 45 productos sean rechazados: \(P(X<35) + P(X>45)\). Teniendo en cuenta los incisos (e) y (h), la probabilidad pedida es: \[P(X<35) + P(X>45) \;= \; 0.6740 \; + \; 0.0074 \; = \; 0.6816\]
El código para escribir la expresión anterior es:
$$P(X<35) + P(X>45) \;= \; 0.6740 \; + \; 0.0074 \; = \; 0.6816$$
En R, la probabilidad se calcula así:
probabilidad_i <- probabilidad_e + probabilidad_h
probabilidad_i
## [1] 0.6814566
Por lo tanto, la probabilidad aproximada de que menos de 35 o más de 45 productos sean rechazados es 0.6816.
Nos piden calcular la probabilidad aproximada de que menos de 35 y más de 45 productos sean rechazados. Como los eventos “menos de 35” y “más de 45” no se pueden cumplir al mismo tiempo, entonces, la probabilidad pedida es 0. En R:
probabilidad_j <- 0
probabilidad_j
## [1] 0
Nos piden calcular la probabilidad aproximada de que por lo menos 766 productos no sean rechazados: \(P(Y \geq 766)\). En la tabla de abajo se muestra la relación entre los números de artículos rechazados y no rechazados.
En ella observamos que los eventos “por lo menos 766 productos no rechazados”, “más de 765 productos rechazados” y “menos de 35 productos rechazados” equivalentes. Es decir, las probabilidades correspondientes son iguales. Por consiguiente, por el inciso (e), se tiene que:
\[P(Y\geq 766) \; = \; P(Y>765) \; = \; P(X < 35) \; = \; 0.674\]
El código para escribir la expresión anterior es:
$$P(Y\geq 766) \; = \; P(Y>765) \; = \; P(X < 35) \; = \; 0.674$$
En R: la probabilidad se calcula así:
probabilidad_k <- probabilidad_e
probabilidad_k
## [1] 0.674025
Por lo tanto, la probabilidad aproximada de que por lo menos 766 productos no sean rechazados es 0.6740.
Nos piden calcular la probabilidad aproximada de que el número de productos no rechazados no exceda a 767: \(P(Y \leq 767)\). Por la propiedad del complemento y el inciso (k), tenemos:
\[P(Y \leq 767) \;= \; 1 \;- \; P(Y\geq 766)\;= \; 1 \;- \; 0.674 \;= \;0.3259 \]
El código para escribir la expresión anterior es:
$$P(Y \leq 767) \;= \; 1 \;- \; P(Y\geq 766)\;= \; 1 \;- \; 0.674 \;= \;0.3259 $$
En R:
probabilidad_l <- 1 - probabilidad_k
probabilidad_l
## [1] 0.325975
Por consiguiente, la probabilidad aproximada de que el número de productos no rechazados no exceda a 767 es 0.3259.
Nos piden calcular la probabilidad aproximada de que entre 761 (inclusive) y 768 (no inclusive) productos no sean rechazados: \(P(761 \leq Y < 768)\).
Teniendo en cuenta los incisos (f) y (l), obtenemos:
\[P(761 \leq Y < 768) \;=\; P(Y \leq 767) \;-\; P(Y\leq 760) \;= \; 0.3259 - 0.0880\;= \;0.2379\]
El código para escribir la expresión anterior es:
$$P(761 \leq Y < 768) \;=\; P(Y \leq 767) \;-\; P(Y\leq 760) \;= \; 0.3259 - 0.0880\;= \;0.2379$$
En R:
probabilidad_m <- probabilidad_l - probabilidad_f
probabilidad_m
## [1] 0.2379735
Crear un nuevo documento R Markdown, realizando los ejercicios que se indican abajo. Interprete los resultados hallados.
Se ha comprobado que el tiempo que tardan los contribuyentes en diligenciar el formulario para la declaración de renta sigue una distribución normal con media 100 minutos y desviación estándar 30 minutos.
Se estima que la cantidad de dinero que gastan en gasolina los clientes de una estación de servicio sigue una distribución normal con desviación estándar de 15000 pesos.
Un grupo grande de estudiantes hace un examen de economía. Las notas se distribuyen según una normal con media 3.2.
Una empresa ofrece a sus empleados un seguro de atención dental. Un estudio reciente demuestra que el costo anual por empleado tuvo una distribución normal, con media de 1280 USD y una desviación estándar de 420 USD anuales
Un administrador estima el costo de ejecutar determinadas labores como una variable normal con media 500000 COP y desviación estándar de 50000 COP.
El precio de las acciones de un banco al final de cada jornada de comercialización del año previo se rigió por una distribución normal. Suponga que durante el año hubo 240 jornadas de comercialización, que el precio medio fue de $42 por acción y la desviación estándar, de $2.25.
El tiempo de vida de un neumático puede representarse mediante una distribución normal con media 35000 kilómetros y desviación estándar de 4000 kilómetros.
Los puntos en una prueba de aptitud se distribuyen según una normal con media 420 y desviación típica 80.
Una determinada librería recientemente inaugurada ofrece, además de la propia consulta de libros, los servicios de cafetería. Para una próxima exposición en la Feria del libro, la empresa ha decidido solicitar a una fábrica textil la elaboración de camisetas promocionales de la librería. La fábrica textil, decide hacer camisetas de tres tallas: L, XL, XXL. Dado que todas las camisetas serán bastante anchas, lo que hará optar por una talla u otra será la altura. Para ello, la fábrica, tras realizar el estudio pertinente, concluye que las alturas de los posibles compradores potenciales seguirán una distribución normal, con media 165,4 cm. y desviación estándar 8,3 cm.
Se supone que los resultados de un examen tienen una distribución normal con una media de 4.0 y una desviación estándar de 0.3.
Un abogado se traslada diariamente desde su casa (en los suburbios) a su oficina en el centro de la ciudad. En promedio, el viaje le toma 24 minutos con una desviación estándar de 3.8 minutos. Asuma que la distribución de los tiempos de traslado está normalmente distribuida.
De una producción de 6000 tornillos se sabe que el 4% está defectuosos. Supongamos que se selecciona un muestra al azar de 33 tornillos.
Un fabricante de celulares desea controlar la calidad de su producto y rechazar cualquier lote en el que la proporción de celulares defectuosos sea demasiado alta. Con este fin, de un lote de 30.000 celulares selecciona y prueba 35. Si por lo menos 4 de éstos están defectuosos, todo el lote será rechazado. Suponga que 20% de los celulares de todo el lote está defectuoso.
Una institución de beneficiencia contrata personal para que soliciten donaciones por teléfono. Después de un breve período de preparación, las personas telefonean a los potenciales donantes y se les paga una comisión. La experiencia indica que normalmente estas personas logran sólo un éxito moderado, y el 80% de 4000 de ellas deja el trabajo en las tres primeras semanas. La institución contrata 36 personas, las cuales se pueden considerar como una muestra aleatoria.
Una empresa se dedica a la instalación de nuevos paquetes computacionales. Se ha comprobado que en el 15% de 2500 instalaciones es necesario volver para realizar algunas modificaciones. En una semana determinada se realizaron 35 instalaciones. Asumir independencia en los resultados de esas instalaciones.
Al realizar una entrevista a un grupo de personas con el fin de ingresar en un programa de televisión, se encuentra que 30% de 1500 personas no cumplen con los requisitos requeridos. Se entrevistan a 34 personas.
Una investigación en cierto país arrojó que aproximadamente 80% de 1000 personas cree el actual presidente de ese país está haciendo las cosas bien. Se seleccionan 33 personas al azar.
LLinás, H., Rojas, C. (2005); Estadística descriptiva y distribuciones de probabilidad. Barranquilla: Editorial Universidad del Norte.
Consultar mis Notas de clase: Cap. 4 (Continua).
Consultar el documento RPubs :: Enlace y materiales de ayuda.