21/07/25
Abstract
La teoría mencionada puede revisarse en el capítulo 3 de mis notas de clase que aparecen en el siguiente documento: 1.1. Estadística básica. En Rpubs:: toc se pueden ver otros documentos de posible interés.
En general, un experimento hipergeométrico con parámetros \(n\), \(M\) y \(N\) está basado en las siguientes suposiciones (véase la figura 3.3, abajo):
La población o conjunto donde deba hacerse el muestreo es una población finita con \(N\) elementos.
Cada elemento de la población puede ser caracterizado como un éxito o un fracaso.
Hay \(M\) éxitos en la población.
Se elige una muestra sin reemplazo de \(n\) individuos, de tal forma que sea igualmente probable seleccionar cada subconjunto de tamaño \(n\).
Sea \(X\) el número de éxitos obtenidos en una muestra escogida al azar al realizar un experimento hipergeométrico con parámetros \(n\), \(M\) y \(N\). Entonces, la probabilidad de elegir de manera exacta \(k\) éxitos en \(n\) intentos está dada por la función de probabilidad \(f\):
\[ f(k) \;=\; P(X=k)\;= \; \frac{{M\choose k}\,{N-M\choose n-k}}{{N\choose n}}, \qquad \text{donde}\quad k=0,1,2, \ldots, n \quad \text{y}\quad n\leq N \]
La correspondiente distribución de \(X\) se conoce con el nombre de distribución hipergeométrica con parámetros \(n\), \(M\) y \(N\).
El código para escribir la expresión anterior es:
$$ f(k) \;=\; P(X=k)\;= \; \frac{{M\choose k}\,{N-M\choose n-k}}{{N\choose n}}, \qquad \text{donde}\quad k=0,1,2, \ldots, n \quad \text{y}\quad n\leq N $$
En las gráficas de abajo se muestran diferentes representaciones gráficas de la función de probabilidad hipergeométrica con diferentes \(n=3, 5, 10, 15, 30, 100\) y los mismos valores de \(N=200\) y \(M=60\).
Si \(f\) es la función de probabilidad hipergeométrica, entonces la función de distribución acumulada hipergeométrica \(F\) se calcula así:
\[F(t)\; =\; P(X\leq t) \;= \; \sum\limits_{x; \, x\leq t} f(x), \quad \text{para todo $t$ real}\]
En las gráficas de abajo se muestran diferentes representaciones gráficas de \(F\) con diferentes \(n=3, 5, 10, 15, 30, 100\) y los mismos valores de \(N=200\) y \(M=60\).
Si \(p=\frac{M}{N}\) es la proporción de éxitos en la población, entonces: \[ E(X)\;=\; np \qquad \text{y}\qquad V(X)\;= \; n p(1-p)\cdot \left(\frac{N-n}{N-1}\right)\]
El código para escribir la expresión anterior es:
$$ E(X)\;=\; np \qquad \text{y}\qquad V(X)\;= \; n p(1-p)\cdot \left(\frac{N-n}{N-1}\right)$$
Las distribuciones binomial e hipergeométrica coinciden cuando \(\frac{n}{N}\leq 0.05\). En este caso, el factor \(\frac{N-n}{N-1}\) se aproxima a 1 y la razón \(p= M/N\) es la proporción de los éxitos de la población. En resumen, tendríamos:
\[p\; = \; \frac{M}{N}, \qquad E(X)\;=\; np \qquad \text{y}\qquad V(X)\;= \; n p (1-p)\]
El código para escribir la expresión anterior es:
$$p\; = \, \frac{M}{N}, \qquad E(X)\;=\; np \qquad \text{y}\qquad V(X)\;= \; n p (1-p)$$
De manera gráfica, esta aproximación se puede visualizar así:
Sean \(N\) el tamaño poblacional, \(M\) el número de éxitos en la población y \(n\) el tamaño muestral. Entonces:
El código correspondiente para calcular la función de probabilidad \(f(k)=P(X=k)\) de la variable aleatoria \(X\) es “dhyper(k, M, N-M, n)”.
El código correspondiente para calcular la función de distribución acumulada \(F(k) = P(X\leq k)\) de la variable aleatoria \(X\) es “phyper(k, M, N-M, n)”.
Una cantidad de 75 componentes eléctricas están sujetas a control de calidad. Se encontró que 15 de las componentes estaban defectuosas y las restantes no lo estaban. Se escoge una muestra aleatoria de 5 componentes de este lote y sea \(X\) el número de componentes defectuosos escogidos en la muestra. Resuelva los siguientes incisos, siempre escribiendo los resultados hallados en términos de \(X\):
a) La probabilidad de que el número de componentes defectuosos sea igual a 3 (utilizando la fórmula hipergeométrica).
b) La probabilidad de que el número de componentes defectuosos sea igual a 3 (utilizando la función "dhyper").
c) La probabilidad de que el número de componentes defectuosos sea menor o igual que 3 (utilizando la fórmula hipergeométrica).
d) La probabilidad de que el número de componentes defectuosos sea menor o igual que 3 (utilizando la función "phyper").
e) La probabilidad de que el número de componentes defectuosos sea mayor que 3 (utilizando la fórmula hipergeométrica).
f) La probabilidad de que el número de componentes defectuosos sea mayor que 3 (utilizando la función "phyper").
g) La probabilidad de que el número de componentes defectuosos se encuentre entre 1 y 4 (ambos inclusive).
h) La probabilidad de que el número de componentes defectuosos se encuentre entre 1 y 4 (ambos no inclusive).
i) La esperanza de X, es decir, la esperanza del número de componentes defectuosos.
j) La varianza de X, es decir, la varianza del número de componentes defectuosos.
k) La desviación de X, es decir, la desviación del número de componentes defectuosos.
l) Verifique si este ejercicio se puede resolver también con la binomial. En caso afirmativo (o negativo), utilice la distribución binomial para calcular las dos probabilidades que se piden en los incisos (m) y (n). Compare estos resultados con los hallados en los incisos (a) y (d), respectivamente.
m) La probabilidad de que el número de componentes defectuosos sea igual a 3.
n) La probabilidad de que el número de componentes defectuosos sea menor o igual que 3.
La variable \(X\) tiene distribución hipergeométrica con parámetros \(N=75\), \(M=15\) y \(n=5\).
N <- 75
M <- 15
n<- 5
Utilizando la fórmula hipergeométrica, la probabilidad de que el número de componentes defectuosos sea igual a 3 se calcula así:
\[P(X= 3) \;= \; \frac{{15\choose 3}\,{60\choose 2}}{{75\choose 5}} = 0.0467\]
El código para escribir la expresión anterior es:
$$P(X= 3) \;= \; \frac{{15\choose 3}\,{60\choose 2}}{{75\choose 5}} = 0.0467$$
k <- 3
w <- choose(N,n)
defectuoso <- choose(M,k)
bueno <- choose(N-M,n-k)
probabilidad_a <- defectuoso* bueno/w
probabilidad_a
## [1] 0.04666156
Es decir, la probabilidad de que el número de componentes defectuosos sea igual a 3 es 0.0467.
Con la función “dhyper”, la probabilidad se calcula así:
exito <- M
fracaso <- N-M
muestra <- n
k <- 3
probabilidad_b <- dhyper(k, exito, fracaso, muestra)
probabilidad_b
## [1] 0.04666156
Es decir, la probabilidad de que el número de componentes defectuosos sea igual a 3 es 0.0467.
Utilizando la fórmula hipergeométrica, la probabilidad de que el número de componentes defectuosos sea menor o igual que 3 se calcula así: \[\begin{eqnarray*} P(X\leq 2) &=& P(X=0) \; +\; P(X=1) \; +\; P(X=2) \; +\; P(X=3)\\ &=& \frac{{15\choose 0}\,{60\choose 3}}{{75\choose 3}} \; +\; \frac{{15\choose 1}\,{60\choose 2}}{{75\choose 3}} \; +\; \frac{{15\choose 2}\,{60\choose 1}}{{75\choose 3}} \; +\; \frac{{15\choose 3}\,{60\choose 2}}{{75\choose 5}}\\ &=& 0.9951 \end{eqnarray*}\]
El código para escribir la expresión anterior es:
\begin{eqnarray*}
P(X\leq 2) &=& P(X=0) \; +\; P(X=1) \; +\; P(X=2) \; +\; P(X=3)\\
&=& \frac{{15\choose 0}\,{60\choose 3}}{{75\choose 3}} \; +\; \frac{{15\choose 1}\,{60\choose 2}}{{75\choose 3}} \; +\; \frac{{15\choose 2}\,{60\choose 1}}{{75\choose 3}} \; +\; \frac{{15\choose 3}\,{60\choose 2}}{{75\choose 5}}\\
&=& 0.9951
\end{eqnarray*}
En R se calcula así
k <- 0:3
w <- choose(N,n)
defectuoso <- choose(M,k)
bueno <- choose(N-M,n-k)
probabilidades <- defectuoso* bueno/w
probabilidad_c <- sum(probabilidades)
probabilidad_c
## [1] 0.9950808
Es decir, la probabilidad de que el número de componentes defectuosos sea menor o igual que 3 es 0.9951.
Con la función “phyper”, la probabilidad se calcula así:
exito <- M
fracaso <- N-M
muestra <- n
k <- 3
probabilidad_d <- phyper(k, exito, fracaso, muestra)
probabilidad_d
## [1] 0.9950808
Es decir, la probabilidad de que el número de componentes defectuosos sea menor o igual que 3 es 0.9951.
Utilizando la fórmula hipergeométrica, la probabilidad de que el número de componentes defectuosos sea mayor que 3 se calcula así:
\[P(X>3) \; = \; P(X=4) \; +\; P(X=5)\; = \; 0.0049\]
El código para escribir la expresión anterior es:
$$P(X>3) \; = \; P(X=4) \; +\; P(X=5)\; = \; 0.0049$$
En R se calcula así:
k <- 4:5
w <- choose(N,n)
defectuoso <- choose(M,k)
bueno <- choose(N-M,n-k)
probabilidades <- defectuoso* bueno/w
probabilidad_e <- sum(probabilidades)
probabilidad_e
## [1] 0.004919235
Es decir, la probabilidad de que el número de componentes defectuosos sea mayor que 3 es 0.0049.
Por la propiedad del complemento:
\[P(X> 3) \; = \; 1\; -\; P(X \leq 3)\; = \;1\; -\;0.9951 \; = \; 0.0049\]
El código para escribir la expresión anterior es:
$$P(X> 3) \; = \; 1\; -\; P(X \leq 3)\; = \;1\; -\;0.9951\; = \; 0.0049$$
Con la función “phyper”, la probabilidad se calcula así:
probabilidad_f <- 1 - probabilidad_c
probabilidad_f
## [1] 0.004919235
Es decir, la probabilidad de que el número de componentes defectuosos sea menor o igual que 3 es 0.0049.
La probabilidad de que el número de componentes defectuosos se encuentre entre 1 y 4 (ambos inclusive) se calcula así:
\[\begin{eqnarray*} P(1 \leq X \leq 4) &=& P(X=1, 2, 3, 4)\; = \; P(X=0, 1, 2, 3, 4)\, - \, P(X=0) \\ &=& P(X\leq 4) \, - \, P(X\leq 0) \; = \; 0.9998 \, - \, 0.03164 \; = \; 0.6834 \end{eqnarray*}\]
El código para escribir la expresión anterior es:
\begin{eqnarray*}
P(1 \leq X \leq 4) &=& P(X=1, 2, 3, 4)\; = \; P(X=0, 1, 2, 3, 4)\, - \, P(X=0) \\
&=& P(X\leq 4) \, - \, P(X\leq 0) \; = \; 0.9998 \, - \, 0.03164 \; = \; 0.6834
\end{eqnarray*}
Es decir, la probabilidad de que el número de componentes defectuosos se encuentre entre 1 y 4 (ambos inclusive) es 0.6834.
En R:
exito <- M
fracaso <- N-M
muestra <- n
probabilidad_g <- phyper(4, exito,fracaso, muestra) - phyper(0, exito,fracaso, muestra)
probabilidad_g
## [1] 0.6833889
Es decir, la probabilidad de que el número de componentes defectuosos se encuentre entre 1 y 4 (ambos inclusive) es 0.6834.
La probabilidad de que el número de componentes defectuosos se encuentre entre 1 y 4 (ambos no inclusive) se halla así:
\[\begin{eqnarray*} P(1 < X < 4) &=& P(X=2, 3)\; = \; P(X=0, 1, 2, 3)\, - \, P(X=0, 1) \\ &=& P(X\leq 3) \, - \, P(X\leq 1) \; = \; 0.9951 \, - \, 0.7402 \; = \; 0.2548 \end{eqnarray*}\]
Es decir, la probabilidad de que el número de componentes defectuosos se encuentre entre 1 y 4 (ambos no inclusive) es 0.2548.
El código para escribir la expresión anterior es:
\begin{eqnarray*}
P(1 < X < 4) &=& P(X=2, 3)\; = \; P(X=0, 1, 2, 3)\, - \, P(X=0, 1) \\
&=& P(X\leq 3) \, - \, P(X\leq 1) \; = \; 0.9951 \, - \, 0.7402 \; = \; 0.2548
\end{eqnarray*}
En R:
exito <- M
fracaso <- N-M
muestra <- n
probabilidad_h <- phyper(3, exito,fracaso, muestra) - phyper(1, exito,fracaso, muestra)
probabilidad_h
## [1] 0.2548439
Es decir, la probabilidad de que el número de componentes defectuosos se encuentre entre 1 y 4 (ambos no inclusive) es 0.2548.
La proporción de artículos defectuosos en la población es \[p\;=\; \frac{M}{N}\;=\; \frac{15}{75}\;=\;0.2\]
El código para escribir la expresión anterior es:
$$p\;=\; \frac{M}{N}\;=\; \frac{15}{75}\;=\;0.2$$
En R:
p <- M/N
p
## [1] 0.2
Entonces, la esperanza de \(X\) es 1:
\[E(X) \; = \; np \; = \; (5) (0.2) \; = \; 1\]
El código para escribir la expresión anterior es:
$$E(X) \; = \; np \; = \; (5) (0.2) \; = \; 1$$
En R:
Esperanza <- n*p
Esperanza
## [1] 1
Hallamos valor del factor que aparece en la fórmula de la varianza: \[\left(\frac{N-n}{N-1}\right) \; = \; \left(\frac{75-5}{75-1}\right) \; = \; 0.9459\]
El código para escribir la expresión anterior es:
$$\left(\frac{N-n}{N-1}\right) \; = \; \left(\frac{75-5}{75-1}\right) \; = \; 0.9459$$
En R:
factor <- (N-n)/(N-1)
factor
## [1] 0.9459459
Por lo tanto, la varianza de \(X\) es 1.25:
\[V(X) \; = \; np(1-p) \cdot \left(\frac{N-n}{N-1}\right) \; = \; (5) \,(0.2)\, (1-0.2)\, (0.9459) \; = \; 0.7567\]
El código para escribir la expresión anterior es:
$$V(X) \; = \; np(1-p) \cdot \left(\frac{N-n}{N-1}\right) \; = \; (5) \,(0.2)\, (1-0.2)\, (0.9459) \; = \; 0.7567$$
En R:
Varianza <- n*p*(1-p)*factor
Varianza
## [1] 0.7567568
La desviación es la raiz cuadrada de la varianza:
\[\sigma \; =\; \sqrt{V(X)} \; =\; \sqrt{0.7567} \; = \; 0.8699\]
El código para escribir la expresión anterior es:
$$\sigma \; =\; \sqrt{V(X)} \; =\; \sqrt{0.7567} \; = \; 0.8699$$
En R:
Desviacion <- sqrt(Varianza)
Desviacion
## [1] 0.8699177
Se observa que:
\[\frac{n}{N} \; = \; \frac{5}{75} \; = \; 0.067 \; > \; 0.05\]
El código para escribir la expresión anterior es:
$$\frac{n}{N} \; = \; \frac{5}{75} \; = \; 0.067 \; > \; 0.05$$
n/N
## [1] 0.06666667
Este resultado indica que las probabilidades que se halle con la distribución binomial no serán valores correctos. Esto se puede comprobar en los incisos (m) y (n).
Calculando directamente con la función “dbinom”, la probabilidad de que el número de componentes defectuosos sea igual a 3 se calcula así:
k <- 3
probabilidad_m <- dbinom(k, size=n, prob=p)
probabilidad_m
## [1] 0.0512
Es decir, aplicando la distribución binomial, la probabilidad de que el número de componentes defectuosos sea igual a 3 es 0.0512.
En (a), la probabilidad hallada fue de 0.0467.
probabilidad_a
## [1] 0.04666156
Se observa que estos dos valores no son muy aproximados. Esto es debido a que el valor de la fracción \(n/N\) no fue menor que 0.05. Ver inciso (l).
Calculando directamente con la función “pbinom”, la probabilidad de que el número de componentes defectuosos sea menor o igual que 3 se calcula así:
k <- 3
probabilidad_n <- pbinom(k, size=n, prob=p)
probabilidad_n
## [1] 0.99328
Es decir, aplicando la distribución binomial, la probabilidad de que el número de componentes defectuosos sea menor o igual que 3 es 0.9933.
En (d), la probabilidad hallada fue de 0.9951.
probabilidad_d
## [1] 0.9950808
Se observa que estos dos valores no son muy aproximados. Esto es debido a que el valor de la fracción \(n/N\) no fue menor que 0.05. Ver inciso (l).
Los siguientes datos representan los resultados obtenidos al realizar una encuesta a 400 estudiantes universitarios. En este documento, se importará la base de datos desde una dirección web (dos opciones):
Opción A (web, desde github): Para esta opción, se necesita cargar la librería “repmis”:
library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?raw=false")
datosCompleto <- Estudiantes
Opción B (web, desde Google Drive):
url.dat<- "http://bit.ly/Database-Estudiantes"
datosCompleto <- read.delim(url.dat)
Recuérdense las otras opciones, si tienen las bases de datos descargadas en su sesión de trabajo (ya sea en extensiones en Rdata, en excel o en otros formatos). Para más detalles, véase el documento R básico. A manera de ejemplo:
Opción C (local, con archivo en Rdata):
load(file="Estudiantes.Rdata")
datosCompleto <- Estudiantes
Opción D (local, con archivo en excel):
datosCompleto <- read.delim('clipboard')
El objetivo es utilizar esta información para calcular probabilidades hipergeométricas y, en la medida de lo posible, probabilidades binomiales y compararlas con las hipergeométricas.
Considere solamente las primeras 100 observaciones. Supongamos que se seleccionan cuatro estudiantes al azar.
a) Defina como "datos" al data frame con las 100 primeras observaciones y verifique su tamaño.
b) Defina como "Sexo" al objeto que represente el sexo de los estudiantes. Conviértalo en factor. Construya una tabla de frecuencias para la variable Sexo y el diagrama de barras correspondiente.
c) Defina dos variables aleatorias: una que represente el número de mujeres y otra, el número de hombres. Determine sus respectivas distribuciones, indicando también sus parámetros. Utilice estas informaciones para resolver los incisos que se presentan abajo, escribiendo siempre los resultados hallados en términos de estas dos variables.
d) ¿Cuál es la probabilidad de seleccionar dos mujeres?
e) ¿Cuál es la probabilidad de seleccionar cuatro hombres?
f) ¿Cuál es la probabilidad de seleccionar cuatro mujeres?
g) ¿Cuál es la probabilidad de seleccionar tres hombres?
h) ¿Cuál es la probabilidad de seleccionar menos de tres mujeres?
i) ¿Cuál es la probabilidad de seleccionar al menos tres mujeres?
j) ¿Cuál es la probabilidad de que no seleccionemos hombres?
k) ¿Cuál es la probabilidad de que seleccionemos un hombre?
l) ¿Cuál es la probabilidad de que seleccionemos dos hombres?
m) ¿Cuál es la probabilidad de seleccionar máximo dos hombres?
n) ¿Cuál es la probabilidad de seleccionar al menos tres hombres?
o) ¿Cuál es la probabilidad de seleccionar máximo dos mujeres?
p) Halle la esperanza, varianza y desviación estándar del número de hombres.
q) Halle la esperanza, varianza y desviación estándar del número de mujeres.
r) Verifique si este ejercicio se puede resolver también con la binomial. En caso afirmativo (o negativo), utilice la distribución binomial para calcular las dos probabilidades que se piden en los incisos (s) y (t). Compare estos resultados con los hallados en los incisos (d) y (n), respectivamente.
s) La probabilidad de seleccionar dos mujeres.
t) La probabilidad de seleccionar al menos tres hombres.
Filtramos y definimos como “datos” al data frame con las 100 primeras observaciones:
datos <- datosCompleto[1:100,] #A) La nueva base de datos
El número de observaciones es 100 y se obtiene así:
N <- nrow(datos); N #B) Tamaño de la población
## [1] 100
Definimos la variable categórica y revisamos sus niveles:
Sexo <- as.factor(datos$Sexo) #C) La variable
levels(Sexo) #D) Sus niveles
## [1] "Femenino" "Masculino"
La tabla de frecuencia es:
Cuentas <- table(Sexo); Cuentas #F) Tabla de frecuencia
## Sexo
## Femenino Masculino
## 49 51
Observamos que, en la población de \(N=\) 100 estudiantes, hay 49 mujeres y 51 hombres.
El diagrama de barras:
barplot(Cuentas, main="Diagrama de barras", xlab="Sexo", ylab="Frecuencias", legend = rownames(Cuentas), col=c("pink","blue"), ylim = c(0, 80))
Definamos las siguientes dos variables aleatorias:
Definamos en R, los parámetros correspondientes:
N <- nrow(datos) #C) Tamaño de la población N
Mm <- 49 #D) Éxitos M (Número de mujeres)
Mh <- 51 #E) Éxitos M (Número de hombres)
n <- 4 #F) Tamaño de la muestra n
Nos piden hallar la probabilidad de seleccionar dos mujeres. Utilizaremos combinaciones (no importa el orden) y aplicaremos probabilidad clásica. Tenemos:
M <- Mm
k <- 2
w <- choose(N,n); w #G) Tamaño del espacio muestral
## [1] 3921225
exito <- choose(M,k); exito #H) Combinaciones de los éxitos
## [1] 1176
fracaso<- choose(N-M,n-k); fracaso #I) Combinaciones de los fracasos
## [1] 1275
La probabilidad de seleccionar dos mujeres es \[ P(X=2) \; = \; \frac{(1176)(1275)}{3921225} \; = \; 0.3824\]
El código para escribir la expresión anterior es:
$$ P(X=2) \; = \; \frac{(1176)(1275)}{3921225} \; = \; 0.3824$$
Probabilidad_d <- (exito * fracaso)/w; Probabilidad_d #J) Probabilidad pedida
## [1] 0.3823805
Otra forma de calcular la probabilidad con R:
M <- Mm
k <- 2
exito <- M
fracaso <- N-M
muestra <- n
probabilidad_d <- dhyper(k, exito, fracaso, muestra)
probabilidad_d
## [1] 0.3823805
Nos piden hallar la probabilidad de seleccionar cuatro hombres. Utilizaremos combinaciones (no importa el orden) y aplicaremos probabilidad clásica. Tenemos:
M <- Mh
k <- 4
w <- choose(N,n); w #G) Tamaño del espacio muestral
## [1] 3921225
exito <- choose(M,k); exito #H) Combinaciones de los éxitos
## [1] 249900
fracaso<- choose(N-M,n-k); fracaso #I) Combinaciones de los fracasos
## [1] 1
La probabilidad de seleccionar cuatro hombres es \[P(Y=4) \; = \; \frac{(249900)(1)}{3921225} \; = \; 0.06373\]
El código para escribir la expresión anterior es:
$$ P(Y=4) \; = \; \frac{(249900)(1)}{3921225} \; = \; 0.06373$$
Probabilidad_e <- (exito * fracaso)/w; Probabilidad_e #J) Probabilidad pedida
## [1] 0.06373008
Otra forma de calcular la probabilidad con R:
M <- Mh
exito <- M
fracaso <- N-M
muestra <- n
k <- 4
probabilidad_e <- dhyper(k, exito, fracaso, muestra)
probabilidad_e
## [1] 0.06373008
Nos piden hallar la probabilidad de seleccionar cuatro mujeres. Utilizaremos combinaciones y aplicaremos probabilidad clásica. Tenemos:
M <- Mm
k <- 4
w <- choose(N,n); w #G) Tamaño del espacio muestral
## [1] 3921225
exito <- choose(M,k); exito #H) Combinaciones de los éxitos
## [1] 211876
fracaso<- choose(N-M,n-k); fracaso #I) Combinaciones de los fracasos
## [1] 1
La probabilidad de seleccionar cuatro mujeres es \[ P(X=4)\; = \; \frac{(211876)(1)}{3921225}\; = \;0.054\]
El código para escribir la expresión anterior es:
$$ P(X=4)\; = \; \frac{(211876)(1)}{3921225}\; = \;0.054$$
Probabilidad_f <- exito*fracaso/w; Probabilidad_f #Q) Probabilidad pedida
## [1] 0.05403311
Otra forma de calcular la probabilidad con R:
M <- Mm
exito <- M
fracaso <- N-M
muestra <- n
k <- 4
probabilidad_f <- dhyper(k, exito, fracaso, muestra)
probabilidad_f
## [1] 0.05403311
Nos piden hallar la probabilidad de seleccionar tres hombres. Utilizaremos combinaciones (no importa el orden) y aplicaremos probabilidad clásica. Tenemos:
M <- Mh
k <- 3
w <- choose(N,n); w #G) Tamaño del espacio muestral
## [1] 3921225
exito <- choose(M,k); exito #H) Combinaciones de los éxitos
## [1] 20825
fracaso<- choose(N-M,n-k); fracaso #I) Combinaciones de los fracasos
## [1] 49
La probabilidad de seleccionar cuatro hombres es \[ P(Y=3) \; = \; \frac{(20825)(49)}{3921225} \; = \; 0.26023\]
El código para escribir la expresión anterior es:
$$ P(Y=3) \; = \; \frac{(20825)(49)}{3921225} \; = \; 0.26023$$
Probabilidad_e <- (exito * fracaso)/w; Probabilidad_e #U) Probabilidad pedida
## [1] 0.2602312
Otra forma de calcular la probabilidad con R:
M <- Mh
exito <- M
fracaso <- N-M
muestra <- n
k <- 3
probabilidad_e <- dhyper(k, exito, fracaso, muestra)
probabilidad_e
## [1] 0.2602312
Seleccionar menos de tres mujeres es equivalente a seleccionar un número menor o igual que dos mujeres. Utilizaremos combinaciones (no importa el orden) y aplicaremos probabilidad clásica. Tenemos:
M <- Mm
k <- 0:2
w <- choose(N,n); w #G) Tamaño del espacio muestral
## [1] 3921225
exito <- choose(M,k); exito #H) Combinaciones de los éxitos
## [1] 1 49 1176
fracaso<- choose(N-M,n-k); fracaso #I) Combinaciones de los fracasos
## [1] 249900 20825 1275
Total <- exito * fracaso
Suma <- sum(Total)
La probabilidad de seleccionar menos de tres mujeres es:
\[\begin{eqnarray*} P(X < 3) &=& P(X \leq 2) \; = \; P(X=0) \; +\; P(X=1) \; +\; P(X=2)\\ &&\\ &=& \frac{(1)(249900) \; +\; (49)(20825) \; +\; (1176)(1275)}{3921225} \\ &&\\ &=& \frac{ 249900 \; +\; 1020425 \; +\; 1499400}{3921225} \\ &&\\ &=& \frac{2769725}{3921225}\; = \; 0.7063 \end{eqnarray*}\]
Es decir, la probabilidad de seleccionar menos de tres mujeres es 0.7063.
El código para escribir la expresión anterior es:
\begin{eqnarray*}
P(X < 3) &=& P(X \leq 2) \; = \; P(X=0) \; +\; P(X=1) \; +\; P(X=2)\\
&&\\
&=& \frac{(1)(249900) \; +\; (49)(20825) \; +\; (1176)(1275)}{3921225} \\
&&\\
&=& \frac{ 249900 \; +\; 1020425 \; +\; 1499400}{3921225} \\
&&\\
&=& \frac{2769725}{3921225}\; = \; 0.7063
\end{eqnarray*}
Probabilidad_h <- Suma/w; Probabilidad_h #U) Probabilidad pedida
## [1] 0.7063418
Otra forma de calcular la probabilidad con R:
M <- Mm
exito <- M
fracaso <- N-M
muestra <- n
k <- 2
probabilidad_e <- phyper(k, exito, fracaso, muestra)
probabilidad_e
## [1] 0.7063418
Seleccionar al menos tres mujeres es equivalente a seleccionar tres o cuatro mujeres. Utilizaremos combinaciones (no importa el orden) y aplicaremos probabilidad clásica. Tenemos:
M <- Mm
k <- 3:4
w <- choose(N,n); w #G) Tamaño del espacio muestral
## [1] 3921225
exito <- choose(M,k); exito #H) Combinaciones de los éxitos
## [1] 18424 211876
fracaso<- choose(N-M,n-k); fracaso #I) Combinaciones de los fracasos
## [1] 51 1
Total <- exito * fracaso
Suma <- sum(Total)
La probabilidad de seleccionar al menos tres mujeres es:
\[\begin{eqnarray*} P(X \geq 3) &=& P(X=3) \; +\; P(X=4) \; = \; \frac{(18424)(51) \; +\; (211876)(1)}{3921225} \\ &&\\ &=& \frac{ 939624 \; +\; 211876 }{3921225} \; = \; \frac{1151500}{3921225}\; = \; 0.2937 \end{eqnarray*}\]
Es decir, la probabilidad de seleccionar al menos tres mujeres es 0.2937.
El código para escribir la expresión anterior es:
\begin{eqnarray*}
P(X \geq 3) &=& P(X=3) \; +\; P(X=4) \; = \; \frac{(18424)(51) \; +\; (211876)(1)}{3921225} \\
&&\
&=& \frac{ 939624 \; +\; 211876 }{3921225} \; = \; \frac{1151500}{3921225}\; = \; 0.2937
\end{eqnarray*}
Probabilidad_i <- Suma/w; Probabilidad_i #U) Probabilidad pedida
## [1] 0.2936582
Calcularemos esta probabilidad de otra manera. Por la propiedad del complemento, recuerde que: \[P(X \geq 3) \; = \; 1\; - \; P(X \leq 2) \; = \; 1\; - \; 0.7063 \; = \; 0.2937\]
El código para escribir la expresión anterior es:
$$ P(X \geq 3) \; = \; 1\; - \; P(X \leq 2) \; = \; 1\; - \; 0.7063 \; = \; 0.2937$$
Por esta razón, otra forma de calcular la probabilidad con R:
M <- Mm
exito <- M
fracaso <- N-M
muestra <- n
k <- 2
probabilidad_i <- 1- phyper(k, exito, fracaso, muestra)
probabilidad_i
## [1] 0.2936582
Nos piden hallar la probabilidad de que no seleccionemos hombres. Entonces, si no se seleccionan hombres, entonces, hemos seleccionado cuatro mujeres. Por lo tanto, por la parte (f), la probabilidad de que no seleccionemos hombres es 0.0540.
\[P(Y=0) \; = \; P(X=4) \; = \; 0.0540\]
El código para escribir la expresión anterior es:
$$ P(Y=0) \; = \; P(X=4) \; = \; 0.0540$$
En R:
Probabilidad_j <- Probabilidad_f; Probabilidad_j #A) Probabilidad pedida
## [1] 0.05403311
Nos piden hallar la probabilidad de seleccionar un hombre. Utilizaremos combinaciones (no importa el orden) y aplicaremos probabilidad clásica. Tenemos:
M <- Mh
k <- 1
w <- choose(N,n); w #G) Tamaño del espacio muestral
## [1] 3921225
exito <- choose(M,k); exito #H) Combinaciones de los éxitos
## [1] 51
fracaso<- choose(N-M,n-k); fracaso #I) Combinaciones de los fracasos
## [1] 18424
La probabilidad de seleccionar un hombre es \[P(Y=1) \; = \; \frac{(51)(18424)}{3921225} \; = \; 0.2396\]
El código para escribir la expresión anterior es:
$$ P(Y=1) \; = \; \frac{(51)(18424)}{3921225} \; = \; 0.2396$$
Probabilidad_k <- (exito * fracaso)/w; Probabilidad_k #U) Probabilidad pedida
## [1] 0.2396251
Otra forma de calcular la probabilidad con R:
M <- Mh
exito <- M
fracaso <- N-M
muestra <- n
k <- 1
probabilidad_k <- dhyper(k, exito, fracaso, muestra)
probabilidad_k
## [1] 0.2396251
Nos piden hallar la probabilidad de que seleccionemos dos hombres. Entonces, al seleccionar dos hombres, también estaremos seleccionando dos mujeres. Por lo tanto, por la parte (d), la probabilidad de que seleccionemos dos hombres es 0.3824.
\[P(Y=2) \; = \; P(X=2) \; = \; 0.3824\]
El código para escribir la expresión anterior es:
$$ P(Y=2) \; = \; P(X=2) \; = \; 0.3824$$
En R:
Probabilidad_l <- Probabilidad_d; Probabilidad_l #F) Probabilidad pedida
## [1] 0.3823805
Nos piden hallar la probabilidad de seleccionar máximo dos hombres. Para ello, solo debemos sumar las probabilidades de seleccionar 0, 1 y 2 hombres. Entonces, por las partes (j), (k) y (l), tenemos que \[P(Y \leq 2) \; = \; 0.0540 \;+\; 0.2396 \;+\; 0.3824 \; = \; 0.6760\]
El código para escribir la expresión anterior es:
$$ P(Y \leq 2) \; = \;0.0540 \;+\; 0.2396 \;+\; 0.3824 \; = \; 0.6760$$
Probabilidad_m <- Probabilidad_j + Probabilidad_k + Probabilidad_l; Probabilidad_m #G) Probabilidad pedida
## [1] 0.6760387
Otra forma de calcular la probabilidad con R:
M <- Mh
exito <- M
fracaso <- N-M
muestra <- n
k <- 2
probabilidad_m <- phyper(k, exito, fracaso, muestra)
probabilidad_m
## [1] 0.6760387
Nos piden hallar la probabilidad de seleccionar al menos tres hombres. Observe que el evento “seleccionar al menos tres hombres” es el complemento del evento “seleccionar máximo dos hombres”. Por lo tanto, por la parte (m), la probabilidad pedida es: \[P(Y\geq 3)\; = \; 1 \; -\; P(Y\leq 2) \; = \; 1 \; -\; 0.6760 \; = \; 0.3239\]
El código para escribir la expresión anterior es:
$$ P(Y\geq 3)\; = \; 1 \; -\; P(Y\leq 2) \; = \; 1 \; -\; 0.6760 \; = \; 0.3239$$
En R:
Probabilidad_n <- 1 - Probabilidad_m; Probabilidad_n #H) Probabilidad pedida
## [1] 0.3239613
Otra forma de calcular la probabilidad con R:
M <- Mh
exito <- M
fracaso <- N-M
muestra <- n
k <- 2
probabilidad_n <- 1- phyper(k, exito, fracaso, muestra)
probabilidad_n
## [1] 0.3239613
Nos piden hallar la probabilidad de seleccionar máximo dos mujeres. El evento “seleccionar máximo dos mujeres” es el complemento del evento “seleccionar al menos tres mujeres”. Y la probabilidad de este evento (“seleccionar al menos tres mujeres”) es igual a la probabilidad hallada en (i). Por lo tanto, la probabilidad pedida es: 0.7064.
\[P(X\leq 2)\; = \; 1 \; -\; P(X\geq 3) \; = \; 1 \; -\; 0.2937\; = \; 0.7063\]
El código para escribir la expresión anterior es:
$$ P(X\leq 2)\; = \; 1 \; -\; P(X\geq 3) \; = \; 1 \; -\; 0.2937\; = \; 0.7063$$
Probabilidad_o <- 1- Probabilidad_i; Probabilidad_o #I) Probabilidad pedida
## [1] 0.7063418
Otra forma de calcular la probabilidad con R:
M <- Mm
exito <- M
fracaso <- N-M
muestra <- n
k <- 2
probabilidad_i <- phyper(k, exito, fracaso, muestra)
probabilidad_i
## [1] 0.7063418
Para hallar la esperanza, varianza y desviación estándar del número de hombres, primero calculamos la proporción \(p\) de hombres en la población y valor del factor que aparece en la varianza:
\[p= \frac{M}{N}= \frac{51}{100}=0.51, \qquad \left(\frac{N-n}{N-1}\right)=\left(\frac{100-4}{100-1}\right)=0.9697\]
El código para escribir la expresión anterior es:
$$p= \frac{M}{N}= \frac{51}{100}=0.51, \qquad \left(\frac{N-n}{N-1}\right)=\left(\frac{100-4}{100-1}\right)=0.9697$$
En R:
M <- Mh
p <- M/N
p
## [1] 0.51
factor <- (N-n)/(N-1)
factor
## [1] 0.969697
Entonces, los valores de la esperanza, varianza y desviación estándar de \(Y\) son:
\[\begin{eqnarray*} E(Y) &=& np \; = \; (4) (0.51) \; = \; 2.04\\ V(Y) &=& np(1-p) \cdot \left(\frac{N-n}{N-1}\right) \; = \; (4) \,(0.51)\, (1-0.51)\, (0.9697) \; = \; 0.9693\\ \sigma &=& \sqrt{V(X)} \; =\; \sqrt{0.9693} \; = \; 0.9845 \end{eqnarray*}\]
\begin{eqnarray*}
E(Y) &=& np \; = \; (4) (0.51) \; = \; 2.04\\
V(Y) &=& np(1-p) \cdot \left(\frac{N-n}{N-1}\right) \; = \; (4) \,(0.51)\, (1-0.51)\, (0.9697) \; = \; 0.9693\\
\sigma &=& \sqrt{V(X)} \; =\; \sqrt{0.9693} \; = \; 0.9845
\end{eqnarray*}
En R:
Esperanza <- n*p
Esperanza
## [1] 2.04
Varianza <- n*p*(1-p)*factor
Varianza
## [1] 0.9693091
Desviacion <- sqrt(Varianza)
Desviacion
## [1] 0.984535
Para hallar la esperanza, varianza y desviación estándar del número de mujeres, primero calculamos la proporción \(p\) de mujeres en la población y valor del factor que aparece en la varianza:
\[p= \frac{M}{N}= \frac{49}{100}=0.49, \qquad \left(\frac{N-n}{N-1}\right)=\left(\frac{100-4}{100-1}\right)=0.9697\]
El código para escribir la expresión anterior es:
$$p= \frac{M}{N}= \frac{49}{100}=0.49, \qquad \left(\frac{N-n}{N-1}\right)=\left(\frac{100-4}{100-1}\right)=0.9697$$
En R:
M <- Mm
p <- M/N
p
## [1] 0.49
factor <- (N-n)/(N-1)
factor
## [1] 0.969697
Entonces, los valores de la esperanza, varianza y desviación estándar de \(X\) son:
\[\begin{eqnarray*} E(X) &=& np \; = \; (4) (0.49) \; = \; 1.96\\ V(X) &=& np(1-p) \cdot \left(\frac{N-n}{N-1}\right) \; = \; (4) \,(0.49)\, (1-0.49)\, (0.9697) \; = \; 0.9693\\ \sigma &=& \sqrt{V(X)} \; =\; \sqrt{0.9693} \; = \; 0.9845 \end{eqnarray*}\]
\begin{eqnarray*}
E(X) &=& np \; = \; (4) (0.49) \; = \; 1.96\\
V(X) &=& np(1-p) \cdot \left(\frac{N-n}{N-1}\right) \; = \; (4) \,(0.49)\, (1-0.49)\, (0.9697) \; = \; 0.9693\\
\sigma &=& \sqrt{V(X)} \; =\; \sqrt{0.9693} \; = \; 0.9845
\end{eqnarray*}
En R:
Esperanza <- n*p
Esperanza
## [1] 1.96
Varianza <- n*p*(1-p)*factor
Varianza
## [1] 0.9693091
Desviacion <- sqrt(Varianza)
Desviacion
## [1] 0.984535
Se observa que:
\[\frac{n}{N} \; = \; \frac{4}{100} \; = \; 0.04 \; < \; 0.05\]
El código para escribir la expresión anterior es:
$$ \frac{n}{N} \; = \; \frac{4}{100} \; = \; 0.04 \; < \; 0.05$$
n/N
## [1] 0.04
Este resultado indica que las probabilidades que se halle con la distribución binomial serán valores muy aproximados a los hallados con las probabilidades hipergeométricas. Esto se puede comprobar en los incisos (s) y (t). En este contexto, podemos afirmar lo siguiente:
\(X\) (que representa el número de mujeres) tiene distribución binomial aproximada con parámetros \(n=4\) y \(p=0.49\).
\(Y\) (que representa el número de hombres) tiene distribución binomial aproximada con parámetros \(n=4\) y \(p=0.51\).
Definamos en R, los parámetros correspondientes:
N <- nrow(datos) #C) Tamaño de la población N
Mm <- 49 #D) Éxitos M (Número de mujeres)
Mh <- 51 #E) Éxitos M (Número de hombres)
pm <- Mm/N #F) Proporción de éxitos (de mujeres)
ph <- Mh/N #F) Proporción de éxitos (de hombres)
n <- 4 #F) Tamaño de la muestra n
Teniendo en cuenta los parámetros en el inciso (r), la probabilidad de seleccionar dos mujeres es: \[P(X=2) \; = \; {4\choose 2} (0.49)^2\, (1-0.49)^{4-2} \; = \; 0.3747\]
Calculando directamente con la función “dbinom”, la probabilidad de seleccionar dos mujeres se calcula así:
p <- pm
k <- 2
probabilidad_s <- dbinom(k, size=n, prob=p)
probabilidad_s
## [1] 0.3747001
Es decir, aplicando la distribución binomial, la probabilidad de seleccionar dos mujeres es 0.3747.
En (d), la probabilidad hallada fue de 0.3824.
probabilidad_d
## [1] 0.3823805
Se observa que estos dos valores son aproximados. Esto es debido a que el valor de la fracción \(n/N\) fue menor que 0.05. Ver inciso (r).
Teniendo en cuenta los parámetros en el inciso (r), la probabilidad de seleccionar al menos tres hombres es: \[\begin{eqnarray*} P(Y\geq 3) &=& P(Y=3) \; + \;P(Y=4) \\ &=& {4\choose 3} (0.51)^3\, (1-0.51)^{4-3} \; +\; {4\choose 4} (0.51)^4\, (1-0.51)^{4-4} \\ &=& 0.2600 + 0.0677 \; = \; 0.3276 \end{eqnarray*}\]
Calculando directamente con la función “pbinom”, la probabilidad de seleccionar al menos tres hombres se calcula así:
p <- ph
k <- 3:4
probabilidades <- dbinom(k, size=n, prob=p)
probabilidad_t <- sum(probabilidades)
probabilidad_t
## [1] 0.327648
Es decir, aplicando la distribución binomial, la probabilidad de seleccionar al menos tres hombres es 0.3276.
En (d), la probabilidad hallada fue de 0.324.
probabilidad_n
## [1] 0.3239613
Se observa que estos dos valores son muy aproximados. Esto es debido a que el valor de la fracción \(n/N\) fue menor que 0.05. Ver inciso (r).
Crear un nuevo documento R Markdown, realizando los ejercicios que se indican abajo. Interprete los resultados hallados.
NOTA: Al final de la sección 3.7 de la referencia 2 (ver abajo), se pueden revisar más ejercicios.
Repita el ejemplo 1, suponiendo que se seleccionan 6 componentes.
Repita el ejemplo 1, suponiendo que se seleccionan 8 componentes.
Repita el ejemplo 2, suponiendo que se seleccionan 5 estudiantes.
Repita el ejemplo 2, suponiendo que se seleccionan 7 estudiantes.
Un producto industrial se envía en lotes de 20 unidades. Efectuar pruebas para determinar si un artículo tiene defectos es costoso; así que el fabricante toma muestras de su producción en vez de probar el 100%. Un plan de muestreo elaborado para reducir al mínimo la cantidad de artículos defectuosos que se envían a los consumidores requiere que se muestreen 5 artículos de cada lote y el rechazo del lote completo si se encuentra más de un artículo defectuoso. Si el lote es rechazado, se prueba cada artículo del lote. Si un lote contiene 4 artículos defectuosos, ¿cuál es la probabilidad de que sea rechazado?
Una empresa recibe un pedido de 1.000 artículos. Se analiza una muestra aleatoria de 15 artículos y se acepta el pedido si menos de tres resultan defectuosos. ¿Cuál es la probabilidad de aceptar un envío que contenga un 5% de artículos defectuosos?
Se selecciona al azar un comité de 3 personas entre 3 matemáticos y 5 físicos.
Considere solamente las observaciones que van desde la 132 hasta la 193. Supongamos que se seleccionan cinco estudiantes al azar.
El propietario de un local comercial ha comprobado que, de 30 clientes que entran allí, 18 hacen alguna compra. Cierta tarde, entraron \(n\) personas. Halle lo que se pide en los incisos de abajo para cada uno de los siguientes tres casos: CASO 1: \(n=6\), CASO 2: \(n=7\) y CASO 3: \(n=8\). Sugerencia: defina \(X\) como el número de clientes que hicieron alguna compra y \(Y\) como el número de clientes que no hicieron compra. Utilícelas en los incisos donde sea el caso.
El propietario de un local comercial ha comprobado que, de 160 clientes que entran allí, 64 hacen alguna compra. Cierta tarde, entraron \(n\) personas. Halle lo que se pide en los incisos de abajo para cada uno de los siguientes tres casos: CASO 1: \(n=6\), CASO 2: \(n=7\) y CASO 3: \(n=8\). Sugerencia: defina \(X\) como el número de clientes que hicieron alguna compra y \(Y\) como el número de clientes que no hicieron compra. Utilícelas en los incisos donde sea el caso.
LLinás, H., Rojas, C. (2005); Estadística descriptiva y distribuciones de probabilidad. Barranquilla: Editorial Universidad del Norte.
Consultar mis Notas de clase: Cap. 3 (Discreta).
Consultar el documento RPubs :: Enlace y materiales de ayuda.
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.