Este manual fue generado por R Markdown. La teoría mencionada puede revisarse en el capítulo 1 de mis notas de clase que aparecen en el siguiente documento: 1.2. Estadística inferencial. Al final de esta guía, usted encontrará una serie de: (a) ejercicios, y (b) enlaces y materiales relacionados con la temática que se explica aquí. Usted encontrará otros documentos de posible interés en el siguiente enlace: https://rpubs.com/hllinas/toc.
library(dplyr) #A) Para filtrar data frames
Los siguientes datos representan los resultados obtenidos al realizar una encuesta a 400 estudiantes universitarios. En este documento, se importará la base de datos desde una dirección web (dos opciones):
Opción A (web, desde github): Para esta opción, se necesita cargar la librería “repmis”:
library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?raw=false")
datosCompleto <- Estudiantes
Opción B (web, desde Google Drive):
url.dat<- "http://bit.ly/Database-Estudiantes"
datosCompleto <- read.delim(url.dat)
Recuérdense las otras opciones, si tienen las bases de datos descargadas en su sesión de trabajo (ya sea en extensiones en Rdata, en excel o en otros formatos). Para más detalles, véase el documento R básico. A manera de ejemplo:
Opción C (local, con archivo en Rdata):
load(file="Estudiantes.Rdata")
datosCompleto <- Estudiantes
Opción D (local, con archivo en excel):
datosCompleto <- read.delim('clipboard')
El objetivo es realizar los ejercicios que se indican en las secciones de abajo.
Para más detalles, puede verse el documento Estadística descriptiva (teoría).
Unidades experimentales: Objetos que hacen parte del estudio.
Población: Información obtenida de las unidades experimentales.
Muestra: Subconjunto de unidades experimentales o de una población. La muestra debe ser: representativa y aleatoria.
Censo: Enumeración completa de las unidades experimentales.
Variable (estadística): es una característica de una muestra o población de datos que puede asumir diferentes valores o datos.
Dato: Es un valor que toma la variable estadística.
Observación: Es el vector cuyos elementos son los datos de cada una de las variables estadísticas.
Parámetro: Medida obtenida a partir de una población.
Estadístico: Medida obtenida a partir de una muestra.
Estadística descriptiva: Parte de la estadística encargada de recoger, sistematizar, presentar y obtener medidas estadísticas.
Estadística inferencial: Parte de la estadística que se encarga de encontrar el valor aproximado de un parámetro, basado en una muestra (sin hacer un censo).
Supongamos que se ha extraído una muestra aleatoria de una población y que se desea hacer inferencia sobre ciertas características de la distribución de la población. Esta inferencia estará basada en algún ESTADÍSTICO MUESTRAL, es decir, en alguna función particular de la información muestral.
Matemáticamente, un estadístico muestral puede definirse de la siguiente manera: Sean \(X_1, \ldots,X_n\) variables aleatorias de tal forma que el vector aleatorio \((X_1, \ldots ,X_n)\) conforme una muestra aleatoria extraida de alguna población. Entonces, un ESTADÍSTICO MUESTRAL para esta muestra es un funcíon que depende sólo de las variables aleatorias \(X_1, \ldots ,X_n\).
La distribución de un estadístico muestral recibe el nombre de DISTRIBUCIÓN MUESTRAL, o DISTRIBUCIÓN EN EL MUESTREO.
Se define como la distribución de probabilidades de los valores que puede tomar el estadístico a lo largo de todas las posibles muestras con el mismo número de observaciones que pueden ser extraídas de la población.
En este documento, el objetivo es determinar la distribución muestral de la proporción muestral, teniendo en cuenta la tabla de supuestos que se muestra en la siguiente sección.
La tabla correspondiente es la que se refiere a los casos 1 y 2 del Cuadro A.2.
El denominador \[\mbox{ES} \;= \; \sqrt{\frac{p(1-p)}{n}}\]
que aparece en la fórmula, se llama error estándar y corresponde a la desviación del estadístico (en este caso, el estadístico es \(\overline(p)\).
En la siguiente sección se presentará un ejemplo modelo. En general, para algunos incisos, su solución siempre debe escribirse como se propone en la siguiente plantilla:
1. Datos:
+ Unidades experimentales: TAL.
+ Población: Respuesta a la pregunta: ¿TAL?
+ Estadístico: la proporción muestral de TAL.
+ Parámetro: la proporción poblacional de TAL.
+ Tamaño muestral n: TAL.
+ Tamaño poblacional N: TAL
+ Otros datos: proporción poblacional=TAL.
2. Verificación de supuestos:
De acuerdo a los datos y a la tabla de supuestos (Cuadro A.2), tenemos que:
+ ¿El tamaño muestral es mayor o igual que 30? TAL (caso 1).
En caso que no se cumpla el caso 1, se verifica el caso 2 (de lo contrario, se omite):
+ ¿np y n(1-p) son mayores o iguales que 5? TAL (caso 2).
3. Conclusión:
La distribución muestral de la proporción muestral es TAL.
4. Fórmula:
Es la que aparece en la última columna del caso TAL, es decir, TAL.
Realizar los siguientes ejercicios. Considere los datos recogidos a través de la encuesta realizada a 400 estudiantes universitarios (ver secciones anteriores). Suponga que la proporción poblacional de mujeres es igual a 0.55. Interprete todas sus respuestas.
a) Considere solamente las observaciones que van desde la 1 hasta la 38. Defina el siguiente data frame:
- "datos1a38": con estas observaciones. Verifique su tamaño.
b) Defina el siguiente objeto.
- "Sexo" como el género de los estudiantes (dentro de "datos1a38").
Utilícelo en los incisos (c)-(o).
d) ¿Cuáles son los niveles de esta variable?
c) Construya una tabla de frecuencias y el diagrama de barras correspondientes.
e) ¿Cuántos estudiantes son mujeres? ¿Proporción? orción?
g) ¿Cuántos estudiantes son hombres o mujeres? ¿Proporción?
h) ¿Cuántos estudiantes son hombres y mujeres? ¿Proporción?
i) Escriba un resumen del enunciado del problema, verifique los supuestos, concluya y diga cuál es la fórmula que va a aplicar para calcular las probabilidades que se piden abajo.
j) Calcule la probabilidad de que la proporción muestral de mujeres sea menor o igual que 0.6.
k) Calcule la probabilidad de que la proporción muestral de mujeres sea más de 0.7.
l) Calcule la probabilidad de que la proporción muestral de hombres esté entre 0.45 y 0.65.
m) Calcule la probabilidad de que la proporción muestral de mujeres sea menor que 0.6 o mayor que 0.7.
n) Calcule la probabilidad de que la proporción muestral de hombres sea menor que 0.6 y mayor que 0.7.
o) Calcule la probabilidad de que la proporción muestral de mujeres sea igual a 0.7.
p) Calcule la probabilidad de que la proporción muestral de mujeres exceda a la proporción poblacional en menos de 0.05 unidades.
q) Calcule la probabilidad de que la proporción muestral de hombres se halle más de 0.05 unidades por debajo de la proporción poblacional.
r) Calcule la probabilidad de que la proporción muestral de hombres difiera de la proporción poblacional en más de 0.05 unidades.
s) Halle un valor K tal que la probabilidad de que la proporción muestral de hombres exceda a la proporción poblacional en más de K unidades sea 0.06.
t) Halle un valor K tal que la probabilidad de que la proporción muestral de hombres se halle menos de K unidades por encima de la proporción poblacional sea 0.94.
u) Halle un valor K tal que la probabilidad de que la proporción muestral de mujeres difiera de la proporción poblacional en menos de K unidades sea 0.90.
Filtramos nuestra base de datos:
datos1a38 <- datosCompleto[1:38,] #A) La nueva base de datos
d<- dim(datos1a38) #B) Número observacions y número de variables
n <- nrow(datos1a38); n #C) Número observaciones (tamaño muestral)
## [1] 38
La nueva base datos tiene \(n=\) 38 observaciones.
Definimos la variable categórica:
Sexo <- as.factor(datos1a38$Sexo) #D) La variable Sexo en "datos1a78"
Con el siguiente código vemos que los niveles de “Sexo” son “Femenino” y “Masculino”.
levels(Sexo)
## [1] "Femenino" "Masculino"
Construimos la tabla de frecuencias para “Sexo”.
Cuentas <- table(Sexo); Cuentas
## Sexo
## Femenino Masculino
## 23 15
A continuación, se muestra el diagrama de barras correspondientes.
barplot(Cuentas, main="Diagrama de barras", xlab="Sexo", ylab="Frecuencias",
legend = rownames(Cuentas), col=c("pink","blue"), ylim = c(0, 45))
Observamos que hay fm= 23 mujeres, lo que corresponde al 60.53%.
fm <- 23
(fm/n)*100
## [1] 60.52632
Observamos que hay fh= 15 hombres, lo que corresponde al 39.47%.
fh <- 15
(fh/n)*100
## [1] 39.47368
Observamos que hay f= 23 + 15 = 38 hombres o mujeres, lo que corresponde al 100%. El conectivo “o” indica que debemos sumar las frecuencias correspondientes.
f <- 23+15
(f/n)*100
## [1] 100
Observamos que hay f= 0 hombres y mujeres, lo que corresponde al 0%. El conectivo “y” indica que los dos eventos (ser hombre y ser mujer) se deben cumplir al mismo tiempo. Esto es imposible que se cumpla en esta muestra.
f <- 0
(f/n)*100
## [1] 0
1. Datos:
+ Unidades experimentales: Los estudiantes.
+ Población: Respuesta a la pregunta: ¿Género?.
+ Estadístico: la proporción muestral de mujeres.
+ Parámetro: la proporción poblacional de mujeres.
+ Tamaño muestral: n=38.
+ Tamaño poblacional: N es desconocido.
+ Otros datos: proporción poblacional de mujeres es 0.55 y la de hombres es 0.45.
2. Verificación de supuestos:
De acuerdo a los datos y a la tabla de supuestos (Cuadro A.2, caso 1), tenemos que:
+ ¿El tamaño muestral es mayor o igual que 30? Si, es grande (n> 30).
3. Conclusión:
La distribución muestral de la proporción muestral es normal.
4. Fórmula:
Es la que aparece en la última columna del caso 1, es decir,
\[Z= \frac{\overline{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\]
El código para escribir la expresión anterior es:
$$Z= \frac{\overline{p}-p}{\sqrt{\frac{p(1-p)}{n}}}$$
Nos piden \(P(\overline{p}\leq 0.6)\). Tenemos que:
pbarra <- 0.6 #A) Proporción muestral
pM <- 0.55 #B) Proporción poblacional de mujeres
pH <- 1-pM #C) Proporción poblacional de hombres
p <- pM #D) Proporción poblacional que se va a utilizar
ES <- sqrt(p*(1-p)/n) #E) Error estándar (desviación del estadístico)
Con ayuda de lo anterior y de la fórmula, se calcula el valor de \(Z\).
Z <- (pbarra-p)/ES; Z #F) Valor de Z
## [1] 0.6195469
Es decir, \(Z=\) 0.6195469. Por lo tanto, \[P(\overline{p}\leq 0.6)\; = \; P\left(Z \leq \frac{0.6 - 0.55}{0.08070414} \right)\; =\; P(Z<0.6195469)\; = \; 0.73222\]
El código para escribir la expresión anterior es:
$$P(\overline{p}\leq 0.6)\; = \; P\left(Z \leq \frac{0.6 - 0.55}{0.08070414} \right)\; =\; P(Z<0.6195469)\; = \; 0.73222$$
En R, esta probabilidad se calcula con la función “pnorm()”:
probabilidad_j <- pnorm(Z); probabilidad_j #G) Probabilidad pedida
## [1] 0.7322219
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, la probabilidad de que la proporción muestral de mujeres sea menor o igual que 0.6 es 0.73222.
Nos piden \(P(\overline{X}>0.7)\). Tenemos que:
pbarra <- 0.7 #A) Proporción muestral
pM <- 0.55 #B) Proporción poblacional de mujeres
pH <- 1-pM #C) Proporción poblacional de hombres
p <- pM #D) Proporción poblacional que se va a utilizar
ES <- sqrt(p*(1-p)/n) #E) Error estándar (desviación del estadístico)
Con ayuda de lo anterior y de la fórmula, se calcula el valor de \(Z\).
Z <- (pbarra-p)/ES; Z #F) Valor de Z
## [1] 1.858641
Por lo tanto, \[P(\overline{p}>0.7) \; = \; P\left(Z > \frac{0.7 - 0.55}{0.08070414} \right)\; =\; P(Z>1.85864)\; =\; 1- P(Z<1.85864) \; = \; 1- 0.96846 \;= \; 0.03154\]
El código para escribir la expresión anterior es:
$$P(\overline{p}>0.7) \; = \; P\left(Z > \frac{0.7 - 0.55}{0.08070414} \right)\; =\; P(Z>1.858641)\; =\; 1- P(Z<11.45743) \; = \; 1- 0.96846 \;= \; 0.03154$$
En R, esta probabilidad se calcula con la función “pnorm()”:
probabilidad_k <- 1-pnorm(Z); probabilidad_k #G) Probabilidad pedida
## [1] 0.03153904
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, la probabilidad de que la proporción muestral de mujeres sea más de 0.7 es 0.03154.
Nos piden \(P(0.45<\overline{X}<0.65)\). Tenemos que:
pbarra1 <- 0.45
pbarra2 <- 0.65
pM <- 0.55 #B) Proporción poblacional de mujeres
pH <- 1-pM #C) Proporción poblacional de hombres
p <- pH #D) Proporción poblacional que se va a utilizar
ES <- sqrt(p*(1-p)/n) #E) Error estándar (desviación del estadístico)
Z1 <- (pbarra1-p)/ES
Z2 <- (pbarra2-p)/ES
cbind(Z1,Z2)
## Z1 Z2
## [1,] 6.878353e-16 2.478188
Los valores de \(Z\) son: 0 y 2.47819. Por lo tanto, \[P(0.45<\overline{p}<0.65) \; = \; P(0 < Z < 2.47819) \; = \; P(Z< 2.47819) - P(Z< 0) \;= \; 0.4934\]
El código para escribir la expresión anterior es:
$$P(0.45<\overline{p}<0.65) \; = \; P(0 < Z < 2.47819) \; = \; P(Z< 2.47819) - P(Z< 0) \;= \; 0.4934$$
En R, esta probabilidad se calcula con la función “pnorm()”:
probabilidad_l <- pnorm(Z2)- pnorm(Z1); probabilidad_l # Probabilidad pedida
## [1] 0.4933974
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, la probabilidad de que la proporción muestral de hombres esté entre 0.45 y 0.65 es 0.4934.
Nos piden \[Prob \; =\; P(\overline{p}<0.6) + P(\overline{p}>0.7)\]
ya que el “o” indica una suma de probabilidades. Cada una de estas probabilidades fue calculada en los incisos (j) y (k), respectivamente. Por lo tanto, teniendo en cuenta los resultados en estos incisos, tenemos:
\[Prob=P(\overline{p}<3.5) + P(\overline{p}>4.0) \; =\; 0.73222 + 0.03154 \; =\; 0.76376\]
El código para escribir la expresión anterior es:
$$Prob=P(\overline{p}<3.5) + P(\overline{p}>4.0) \; =\; 0.73222 + 0.03154 \; =\; 0.76376$$
En R, esta probabilidad se calcula así:
probabilidad_m <- probabilidad_j + probabilidad_k; probabilidad_m # Probabilidad pedida
## [1] 0.763761
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, la probabilidad de que la proporción muestral de mujeres sea menor que 0.6 o mayor que 0.7 es 0.76376.
La probabilidad de que la proporción muestral de hombres sea menor que 0.6 y mayor que 0.7 es cero, ya que es imposible que, al mismo tiempo, la proporción satisfaga las dos condiciones mencionadas. Es decir,
\[P(\overline{p}<0.6 \; \mbox{y} \; \overline{p}>0.7) \; =\; 0 \]
El código para escribir la expresión anterior es:
$$P(\overline{p}<0.6 \; \mbox{y} \; \overline{p}>0.7) \; =\; 0 $$
Recuerde que, para toda variable continua \(V\), se cumple que \(P(V=k)=0\). Por esta razón, la proporción muestral de mujeres sea igual a 0.7 es cero. Es decir, \[P(\overline{p}=0.7)\; =\;0\]
El código para escribir la expresión anterior es:
$$P(\overline{p}=0.7)\; =\;0$$
Nos piden calcular \(P(\overline{p}-p < 0.05)\) (véase la figura de abajo).
Por consiguiente, sabiendo que el error estándar es \(ES= \sqrt{\frac{p(1-p)}{n}} = 0.08070414\), tenemos que:
\[P(\overline{p}-p < 0.05) \;= \; P\left(Z < \frac{0.05}{\sqrt{\frac{p(1-p)}{n}}} \right)\;= \; P\left(Z < \frac{0.05}{0.08070414} \right)\; =\; P(Z P(Z < 0.619547) \; = \; 0.73222\]
El código para escribir la expresión anterior es:
$$P(\overline{p}-p < 0.05) \;= \; P\left(Z < \frac{0.05}{\sqrt{\frac{p(1-p)}{n}}} \right)\;= \; P\left(Z < \frac{0.05}{0.08070414} \right)\; =\; P(Z P(Z < 0.619547) \; = \; 0.73222$$
En R, la probabilidad se calcula con “pnorm()”:
x <- 0.05
pM <- 0.55 #B) Proporción poblacional de mujeres
pH <- 1-pM #C) Proporción poblacional de hombres
p <- pM #D) Proporción poblacional que se va a utilizar
ES <- sqrt(p*(1-p)/n)
Z <- (x)/ES
probabilidad_p <- pnorm(Z); probabilidad_p
## [1] 0.7322219
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, la probabilidad de que la proporción muestral de mujeres exceda a la proporción poblacional en menos de 0.05 unidades es 0.73222.
Nos piden calcular \(P(p - \overline{p} > 0.05)\) (véase la figura de abajo).
Por consiguiente, sabiendo que el error estándar es \(ES= \sqrt{\frac{p(1-p)}{n}} = 0.08070414\), tenemos que:
\[P(p - \overline{p} > 0.05) \; = \; P(\overline{p} - p < -0.05)\;= \; P\left(Z < \frac{-0.05}{\sqrt{\frac{p(1-p)}{n}}} \right)\;= \; P(Z < -0.30822) \; = \; 0.3406\]
El código para escribir la expresión anterior es:
$$P(p - \overline{p} > 0.05) \; = \; P(\overline{p} - p < -0.05)\;= \; P\left(Z < \frac{-0.05}{\sqrt{\frac{p(1-p)}{n}}} \right)\;= \; P(Z < -0.30822) \; = \; 0.3406$$
En R, el valor de \(Z\) se calcula así:
x <- 0.05
pM <- 0.55 #B) Proporción poblacional de mujeres
pH <- 1-pM #C) Proporción poblacional de hombres
p <- pH #D) Proporción poblacional que se va a utilizar
ES <- sqrt(p*(1-p)/n)
Z <- (x)/ES; Z
## [1] 0.6195469
y la probabilidad, con “pnorm()”:
probabilidad_q <- pnorm(Z); probabilidad_q
## [1] 0.7322219
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, la probabilidad de que la proporción muestral de hombres se halle más de 0.07 unidades por debajo de la proporción poblacional es 0.73222.
El término “diferir” es sinónimo de “ser diferente”. Por lo tanto, si la proporción muestral difiere de la proporción poblacional en más de 0.05 unidades, entonces, \(|\overline{p}-p| > 0.05\). Por definición de valor absoluto, esta es expresión es equivalente a que se cumpla una de las dos condiciones (véanse las figuras de abajo):
Es decir, si se cumplen: \[\overline{p}-p > 0.05 \quad \mbox{o} \quad \overline{p}-p < -0.05\]
El código para escribir la expresión anterior es:
$$\overline{p}-p > 0.05 \quad \mbox{o} \quad \overline{p}-p < -0.05$$
En este caso, como el “o” indica “unión de eventos”, debemos sumar probabilidades. Por lo tanto, nos piden calcular:
\[ P(|\overline{p}-p| > 0.05) \; = \; P(\overline{p}-p > 0.05) + P(\overline{p}-p < -0.05)\]
El código para escribir la expresión anterior es:
$$ P(|\overline{p}-p| > 0.05) \; = \; P(\overline{p}-p > 0.05) + P(\overline{p}-p < -0.05)$$
El cálculo de esta probabilidad se deja como ejercicio al lector.
Nos piden calcular \(K\) tal que \(P(\overline{p}-p >K)=0.06\) (véase la figura de abajo).
En este caso, \[0.06 \;= \; P(\overline{p}-p >K) \;= \; P\left(Z > \frac{K}{\sqrt{\frac{p(1-p)}{n}}} \right)\;= \; P\left(Z > \frac{K}{0.08070414} \right)\]
El código para escribir la expresión anterior es:
$$0.06 \;= \; P(\overline{p}-p >K) \;= \; P\left(Z > \frac{K}{\sqrt{\frac{p(1-p)}{n}}} \right)\;= \; P\left(Z > \frac{K}{0.08070414} \right)$$
En R, el cuantil correspondiente a \(\alpha= 0.06\) se calcula con “qnorm()” y es \(Z=1.5547\):
alfa <- 0.06
Z <- qnorm(1-alfa); Z
## [1] 1.554774
En la imagen de abajo se puede observar el resultado (de cálculo del cuantil) encontrado con Geogebra.
Por lo tanto,
\[\frac{K}{0.08070414} = 1.5547, \quad \mbox{de donde} \quad K= (0.08070414)(1.5547)=0.12547\]
El código para escribir la expresión anterior es:
$$\frac{K}{0.08070414} = 1.5547, \quad \mbox{de donde} \quad K= (0.08070414)(1.5547)=0.12547$$
En R:
K <- Z*ES; K
## [1] 0.1254767
En conclusión, el valor K tal que la probabilidad de que la proporción muestral de hombres exceda a la proporción poblacional en más de K unidades sea 0.06 es de 0.1255.
Nos piden hallar \(K\) tal que \(P(\overline{p}-p <K)=0.94\) (véase figura de abajo).
El valor de \(K\) tal que \(P(\overline{p}-p <K)=0.94\) es exactamente el mismo valor \(K\) que cumple con la condición \(P(\overline{p}-p >K)=0.06\) (ya que corresponde al mismo cuantil \(Z= 1.55477\)). En la imagen de abajo se puede observar lo anterior con ayuda de Geogebra.
O sea, por la parte (s), el hallado en el inciso (m): \(K=\) 0.1255.
El término “diferir” es sinónimo de “ser diferente”. Por lo tanto, si la proporción muestral difiere de la proporción poblacional en menos de \(K\) unidades, entonces, \(|\overline{p}-p| < K\). Por definición de valor absoluto, esta es expresión es equivalente a (véanse las figuras de abajo):
\[-K < \overline{p}-p < K\]
El código para escribir la expresión anterior es:
$$-K < \overline{p}-p < K$$
Por lo tanto, nos piden calcular:
\[ 0.90 \; = \; P(|\overline{p}-p| < K) \; = \; P(-K < \overline{p}-p < K) \;= \; P\left(-\frac{K}{\sqrt{\frac{p(1-p)}{n}}} < Z < \frac{K}{\sqrt{\frac{p(1-p)}{n}}} \right) \]
El código para escribir la expresión anterior es:
$$ 0.90 \; = \; P(|\overline{p}-p| < K) \; = \; P(-K < \overline{p}-p < K) \;= \; P\left(-\frac{K}{\sqrt{\frac{p(1-p)}{n}}} < Z < \frac{K}{\sqrt{\frac{p(1-p)}{n}}} \right) $$
Sabiendo que el error estándar es \(ES=\sqrt{\frac{p(1-p)}{n}}= 0.08070414\), tenemos que:
\[ 0.90 \; = \; P\left(-\frac{K}{0.08070414} < Z < \frac{K}{0.08070414} \right) \]
El código para escribir la expresión anterior es:
$$$ 0.90 \; = \; P\left(-\frac{K}{0.08070414} < Z < \frac{K}{0.08070414} \right) $$
Utilizando propiedades de la normal, se tiene que:
\[P\left(Z >\frac{K}{0.08070414} \right) \; = \; \frac{1-0.90}{2} \; = \; 0.05\]
El código para escribir la expresión anterior es:
$$P\left(Z >\frac{K}{0.08070414} \right) \; = \; \frac{1-0.90}{2} \; = \; 0.05$$
En R, el cuantil correspondiente a \(\alpha= 0.05\) se calcula con “qnorm()” y es $Z=1.6449:
alfa <- 0.05
Z <- qnorm(1-alfa); Z
## [1] 1.644854
En la imagen de abajo se puede observar el resultado (de cálculo del cuantil) encontrado con Geogebra.
Por lo tanto,
\[\frac{K}{0.08070414} = 1.6449, \quad \mbox{de donde} \quad K= (0.08070414)(1.6449)=0.132747\]
El código para escribir la expresión anterior es:
$$\frac{K}{0.08070414} = 1.6449, \quad \mbox{de donde} \quad K= (0.08070414)(1.6449)=0.132747$$
En R:
K <- Z*ES; K
## [1] 0.1327465
En conclusión, el valor K tal que la probabilidad de que la proporción muestral de mujeres difiera de la proporción poblacional en menos de K unidades sea 0.90 es de 0.1327.
Considere el data frame “datos1a38” creado en el inciso (a) del ejemplo 1. Suponga que la proporción poblacional de mujeres es igual a 0.55. Interprete todas sus respuestas.
a) Defina el siguiente data frame:
- "Fumadores": obtenido al filtrar "datos1a38" y representa a los estudiantes fumadores.
Verifique su tamaño.
Defina el siguiente objeto.
- "SexoF" como el género de los estudiantes (dentro de "Fumadores").
Utilícelo en los incisos (c) - (o).
c) Construya una tabla de frecuencias y el diagrama de barras correspondientes.
d) ¿Cuáles son los niveles de esta variable?
c) Construya una tabla de frecuencias.
e) ¿Cuántos estudiantes son mujeres? ¿Proporción?
f) ¿Cuántos estudiantes son hombres? ¿Proporción?
g) ¿Cuántos estudiantes son hombres o mujeres? ¿Proporción?
h) ¿Cuántos estudiantes son hombres y mujeres? ¿Proporción?
i) Escriba un resumen del enunciado del problema, verifique los supuestos, concluya y diga cuál es la fórmula que va a aplicar para calcular las probabilidades que se piden abajo.
j) Calcule la probabilidad de que la proporción muestral de mujeres sea menor o igual que 0.6.
k) Calcule la probabilidad de que la proporción muestral de mujeres sea más de 0.7.
l) Calcule la probabilidad de que la proporción muestral de hombres esté entre 0.45 y 0.65.
m) Calcule la probabilidad de que la proporción muestral de mujeres sea menor que 0.6 o mayor que 0.7.
n) Calcule la probabilidad de que la proporción muestral de hombres sea menor que 0.6 y mayor que 0.7.
o) Calcule la probabilidad de que la proporción muestral de mujeres sea igual a 0.7.
p) Calcule la probabilidad de que la proporción muestral de mujeres exceda a la proporción poblacional en menos de 0.05 unidades.
q) Calcule la probabilidad de que la proporción muestral de hombres se halle más de 0.07 unidades por debajo de la proporción poblacional.
r) Calcule la probabilidad de que la proporción muestral de hombres difiera de la proporción poblacional en más de 0.05 unidades.
s) Halle un valor K tal que la probabilidad de que la proporción muestral de hombres exceda a la proporción poblacional en más de K unidades sea 0.06.
t) Halle un valor K tal que la probabilidad de que la proporción muestral de hombres se halle menos de K unidades por encima de la proporción poblacional sea 0.94.
u) Halle un valor K tal que la probabilidad de que la proporción muestral de mujeres difiera de la proporción poblacional en menos de K unidades sea 0.90.
Filtramos nuestra base de datos:
datos1a38 <- datosCompleto[1:38,] #A) La base de datos completa
Fumadores <- datos1a38 %>% filter(Fuma=="Si") #B) La nueva base de datos
d <- dim(Fumadores) #C) Número observacions y número de variables
n <- nrow(Fumadores); n #D) Número observaciones (tamaño muestral)
## [1] 22
La nueva base datos “Fumadores” tiene \(n=\) 22 observaciones.
Definimos la variable categórica:
SexoF <- as.factor(Fumadores$Sexo) #D) La variable Sexo en "Fumadores"
Con el siguiente código vemos que los niveles de “Sexo” son “Femenino” y “Masculino”.
levels(SexoF)
## [1] "Femenino" "Masculino"
Construimos la tabla de frecuencias para “Sexo”.
CuentasF <- table(SexoF); CuentasF
## SexoF
## Femenino Masculino
## 13 9
A continuación, se muestra el diagrama de barras correspondientes.
barplot(CuentasF, main="Diagrama de barras", xlab="Sexo", ylab="Frecuencias",
legend = rownames(CuentasF), col=c("pink","blue"), ylim = c(0, 45))
Observamos que hay fm= 13 mujeres, lo que corresponde al 59.09%.
fm <- 13
(fm/n)*100
## [1] 59.09091
Observamos que hay fh= 9 hombres, lo que corresponde al 40.91%.
fh <- 9
(fh/n)*100
## [1] 40.90909
Observamos que hay f= 13 + 9 = 22 hombres o mujeres, lo que corresponde al 100%. El conectivo “o” indica que debemos sumar las frecuencias correspondientes.
f <- 13+9
(f/n)*100
## [1] 100
Observamos que hay f= 0 hombres y mujeres, lo que corresponde al 0%. El conectivo “y” indica que los dos eventos (ser hombre y ser mujer) se deben cumplir al mismo tiempo. Esto es imposible que se cumpla en esta muestra.
f <- 0
(f/n)*100
## [1] 0
Hay algunos datos que han cambiado. Se les sugiere comparar con la parte (i) del eejemplo 1.
1. Datos:
+ Unidades experimentales: Los estudiantes fumadores.
+ Población: Dentro de los fumadores, respuesta a la pregunta: ¿Género?.
+ Estadístico: la proporción muestral de mujeres dentro de los fumadores.
+ Parámetro: la proporción poblacional de mujeres dentros de los fumadores.
+ Tamaño muestral: n=22.
+ Tamaño poblacional: N es desconocido.
+ Otros datos: proporción poblacional de mujeres es 0.55 y la de hombres es 0.45.
2. Verificación de supuestos:
De acuerdo a los datos y a la tabla de supuestos (Cuadro A.2), tenemos que:
+ ¿El tamaño muestral es mayor o igual que 30? No (caso 1).
Como no se cumple el caso 1, se verifica el caso 2:
+ ¿np y n(1-p) son mayores o iguales que 5? Sí se cumplen ambas condiciones (ver verificación con R).
n*0.55 > 5
## [1] TRUE
n*(1-0.55) > 5
## [1] TRUE
3. Conclusión:
La distribución muestral de la proporción muestral es normal.
4. Fórmula:
Es la que aparece en la última columna del caso 1, es decir,
\[Z= \frac{\overline{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\]
El código para escribir la expresión anterior es:
$$Z= \frac{\overline{p}-p}{\sqrt{\frac{p(1-p)}{n}}}$$
Nos piden \(P(\overline{p}\leq 0.6)\). Tenemos que:
pbarra <- 0.6 #A) Proporción muestral
pM <- 0.55 #B) Proporción poblacional de mujeres
pH <- 1-pM #C) Proporción poblacional de hombres
p <- pM #D) Proporción poblacional que se va a utilizar
ES <- sqrt(p*(1-p)/n) #E) Error estándar (desviación del estadístico)
Z <- (pbarra-p)/ES #F) Valor de Z
probabilidad2_j <- pnorm(Z); probabilidad2_j #G) Probabilidad pedida
## [1] 0.6813241
Ahora, el error estándar es \(ES=\) 0.106066 y \(Z=\) 0.4714045. Los detalles del cálculo de la probabilidad se dejan como ejercicio al lector. Puede seguir la metodología implementada en la parte (j) en el ejemplo 1. En conclusión, la probabilidad de que la proporción muestral de mujeres sea menor o igual que 0.6 es 0.68132.
Nos piden \(P(\overline{X}>0.7)\). Tenemos que:
pbarra <- 0.7 #A) Proporción muestral
pM <- 0.55 #B) Proporción poblacional de mujeres
pH <- 1-pM #C) Proporción poblacional de hombres
p <- pM #D) Proporción poblacional que se va a utilizar
ES <- sqrt(p*(1-p)/n) #E) Error estándar (desviación del estadístico)
Z <- (pbarra-p)/ES #F) Valor de Z
probabilidad2_k <- 1-pnorm(Z); probabilidad2_k #G) Probabilidad pedida
## [1] 0.0786496
Ahora, el error estándar es \(ES=\) 0.106066 y \(Z=\) 1.4142136. Los detalles del cálculo de la probabilidad se dejan como ejercicio al lector. Puede seguir la metodología implementada en la parte (k) en el ejemplo 1. En conclusión, la probabilidad de que la proporción muestral de mujeres sea más de 0.7 es 0.07865.
Nos piden \(P(0.45<\overline{X}<0.65)\). Tenemos que:
pbarra1 <- 0.45
pbarra2 <- 0.65
pM <- 0.55 #B) Proporción poblacional de mujeres
pH <- 1-pM #C) Proporción poblacional de hombres
p <- pH #D) Proporción poblacional que se va a utilizar
ES <- sqrt(p*(1-p)/n) #E) Error estándar (desviación del estadístico)
Z1 <- (pbarra1-p)/ES
Z2 <- (pbarra2-p)/ES
probabilidad2_l <- pnorm(Z2)- pnorm(Z1); probabilidad2_l # Probabilidad pedida
## [1] 0.4703268
Ahora, el error estándar es \(ES=\) 0.106066 y los valores de \(Z=\) son 5.233641510^{-16} y 1.8856181. Los detalles del cálculo de la probabilidad se dejan como ejercicio al lector. Puede seguir la metodología implementada en la parte (l) en el ejemplo 1. En conclusión, la probabilidad de que la proporción muestral de hombres esté entre 0.45 y 0.65 es 0.47033.
Nos piden \[Prob \; =\; P(\overline{p}<0.6) + P(\overline{p}>0.7)\]
ya que el “o” indica una suma de probabilidades. Cada una de estas probabilidades fue calculada en los incisos (j) y (k), respectivamente.
probabilidad2_m <- probabilidad2_j + probabilidad2_k; probabilidad2_m # Probabilidad pedida
## [1] 0.7599737
Los detalles del cálculo de la probabilidad se dejan como ejercicio al lector. Puede seguir la metodología implementada en la parte (m) en el ejemplo 1. En conclusión, la probabilidad de que la proporción muestral de mujeres sea menor que 0.6 o mayor que 0.7 es 0.75997.
La probabilidad de que la proporción muestral de hombres sea menor que 0.6 y mayor que 0.7 es cero, ya que es imposible que, al mismo tiempo, la proporción satisfaga las dos condiciones mencionadas. Es decir,
\[P(\overline{p}<0.6 \; \mbox{y} \; \overline{p}>0.7) \; =\; 0 \]
El código para escribir la expresión anterior es:
$$P(\overline{p}<0.6 \; \mbox{y} \; \overline{p}>0.7) \; =\; 0 $$
Recuerde que, para toda variable continua \(V\), se cumple que \(P(V=k)=0\). Por esta razón, la proporción muestral de mujeres sea igual a 0.7 es cero. Es decir, \[P(\overline{p}=0.7)\; =\;0\]
El código para escribir la expresión anterior es:
$$P(\overline{p}=0.7)\; =\;0$$
Nos piden calcular \(P(\overline{p}-p < 0.05)\) (véase la figura de abajo).
En R:
x <- 0.05
pM <- 0.55 #B) Proporción poblacional de mujeres
pH <- 1-pM #C) Proporción poblacional de hombres
p <- pM #D) Proporción poblacional que se va a utilizar
ES <- sqrt(p*(1-p)/n)
Z <- (x)/ES
probabilidad2_p <- pnorm(Z); probabilidad2_p
## [1] 0.6813241
Ahora, el error estándar es \(ES=\) 0.106066 y \(Z=\) 0.4714045. Los detalles del cálculo de la probabilidad se dejan como ejercicio al lector. Puede seguir la metodología implementada en la parte (p) en el ejemplo 1. En conclusión, la probabilidad de que la proporción muestral de mujeres exceda a la proporción poblacional en menos de 0.05 unidades es 0.68132.
Nos piden calcular \(P(p - \overline{p} > 0.05)\) (véase la figura de abajo).
En R:
x <- 0.05
pM <- 0.55 #B) Proporción poblacional de mujeres
pH <- 1-pM #C) Proporción poblacional de hombres
p <- pH #D) Proporción poblacional que se va a utilizar
ES <- sqrt(p*(1-p)/n)
probabilidad2_q <- pnorm(Z); probabilidad2_q
## [1] 0.6813241
Ahora, el error estándar es \(ES=\) 0.106066 y \(Z=\) 0.4714045. Los detalles del cálculo de la probabilidad se dejan como ejercicio al lector. Puede seguir la metodología implementada en la parte (q) en el ejemplo 1. En conclusión, la probabilidad de que la proporción muestral de hombres se halle más de 0.07 unidades por debajo de la proporción poblacional es 0.68132.
El término “diferir” es sinónimo de “ser diferente”. Por lo tanto, si la proporción muestral difiere de la proporción poblacional en más de 0.05 unidades, entonces, \(|\overline{p}-p| > 0.05\). Por definición de valor absoluto, esta es expresión es equivalente a que se cumpla una de las dos condiciones (véanse las figuras de abajo):
Es decir, si se cumplen: \[\overline{p}-p > 0.05 \quad \mbox{o} \quad \overline{p}-p < -0.05\]
El código para escribir la expresión anterior es:
$$\overline{p}-p > 0.05 \quad \mbox{o} \quad \overline{p}-p < -0.05$$
En este caso, como el “o” indica “unión de eventos”, debemos sumar probabilidades. Por lo tanto, nos piden calcular:
\[ P(|\overline{p}-p| > 0.05) \; = \; P(\overline{p}-p > 0.05) + P(\overline{p}-p < -0.05)\]
El código para escribir la expresión anterior es:
$$ P(|\overline{p}-p| > 0.05) \; = \; P(\overline{p}-p > 0.05) + P(\overline{p}-p < -0.05)$$
El cálculo de esta probabilidad se deja como ejercicio al lector.
Nos piden calcular \(K\) tal que \(P(\overline{p}-p >K)=0.06\) (véase la figura de abajo).
En este caso, el error estándar es \(ES=\) 0.106066:
ES
## [1] 0.106066
Por lo tanto,
\[0.06 \;= \; P(\overline{p}-p >K) \;= \; P\left(Z > \frac{K}{\sqrt{\frac{p(1-p)}{n}}} \right)\;= \; P\left(Z > \frac{K}{0.0106066} \right)\]
El código para escribir la expresión anterior es:
$$0.06 \;= \; P(\overline{p}-p >K) \;= \; P\left(Z > \frac{K}{\sqrt{\frac{p(1-p)}{n}}} \right)\;= \; P\left(Z > \frac{K}{0.0106066} \right)$$
Por lo tanto,
alfa <- 0.06
Z <- qnorm(1-alfa)
K <- Z*ES; K
## [1] 0.1649086
Observe que el cuantil correspondiente a \(\alpha= 0.06\) se calcula con “qnorm()” y es \(Z=\) 1.5547736. En conclusión, el valor K tal que la probabilidad de que la proporción muestral de hombres exceda a la proporción poblacional en más de K unidades sea 0.06 es de 0.1649.
Nos piden hallar \(K\) tal que \(P(\overline{p}-p <K)=0.94\) (véase figura de abajo).
El valor de \(K\) tal que \(P(\overline{p}-p <K)=0.94\) es exactamente el mismo valor \(K\) que cumple con la condición \(P(\overline{p}-p >K)=0.06\) (ya que corresponde al mismo cuantil \(Z= 1.55477\)). En la imagen de abajo se puede observar lo anterior con ayuda de Geogebra.
O sea, por la parte (s), el hallado en el inciso (m): \(K=\) 0.1649.
El término “diferir” es sinónimo de “ser diferente”. Por lo tanto, si la proporción muestral difiere de la proporción poblacional en menos de \(K\) unidades, entonces, \(|\overline{p}-p| < K\). Por definición de valor absoluto, esta es expresión es equivalente a (véanse las figuras de abajo):
\[-K < \overline{p}-p < K\]
El código para escribir la expresión anterior es:
$$-K < \overline{p}-p < K$$
Por lo tanto, nos piden calcular:
\[ 0.90 \; = \; P(|\overline{p}-p| < K) \; = \; P(-K < \overline{p}-p < K) \;= \; P\left(-\frac{K}{\sqrt{\frac{p(1-p)}{n}}} < Z < \frac{K}{\sqrt{\frac{p(1-p)}{n}}} \right) \]
El código para escribir la expresión anterior es:
$$ 0.90 \; = \; P(|\overline{p}-p| < K) \; = \; P(-K < \overline{p}-p < K) \;= \; P\left(-\frac{K}{\sqrt{\frac{p(1-p)}{n}}} < Z < \frac{K}{\sqrt{\frac{p(1-p)}{n}}} \right) $$
Sabiendo que el error estándar es \(ES=\sqrt{\frac{p(1-p)}{n}}=\) 0.106066, tenemos que:
\[ 0.90 \; = \; P\left(-\frac{K}{0.0106066} < Z < \frac{K}{0.0106066} \right) \]
El código para escribir la expresión anterior es:
$$ 0.90 \; = \; P\left(-\frac{K}{0.0106066} < Z < \frac{K}{0.0106066} \right) $$
Utilizando propiedades de la normal, se tiene que:
\[P\left(Z >\frac{K}{0.0106066} \right) \; = \; \frac{1-0.90}{2} \; = \; 0.05\]
El código para escribir la expresión anterior es:
$$P\left(Z >\frac{K}{0.0106066} \right) \; = \; \frac{1-0.90}{2} \; = \; 0.05$$
Por lo tanto,
alfa <- 0.05
Z <- qnorm(1-alfa)
K <- Z*ES; K
## [1] 0.1744631
Observe que el cuantil correspondiente a \(\alpha= 0.06\) se calcula con “qnorm()” y es \(Z=\) 1.6448536. En conclusión, el valor K tal que la probabilidad de que la proporción muestral de mujeres difiera de la proporción poblacional en menos de K unidades sea 0.90 es de 0.1745.
Crear un nuevo documento R Markdown, realizando los ejercicios que se indican abajo.
Repita el ejemplo 1, pero considerando los datos del 1 al 39.
Repita el ejemplo 2, pero considerando los datos del 1 al 39.
Repita el ejemplo 2, pero considerando los datos del 1 al 38 y el grupo de los no fumadores (definiendo un data frame llamado “NoFumadores”).
Repita el ejemplo 2, pero considerando los datos del 1 al 39 y el grupo de los no fumadores (definiendo un data frame llamado “NoFumadores”).
Repita el ejercicio 1, pero suponiendo que la proporción poblacional de mujeres es igual a 0.65.
Repita el ejercicio 2, pero suponiendo que la proporción poblacional de mujeres es igual a 0.65.
Repita el ejercicio 3, pero suponiendo que la proporción poblacional de mujeres es igual a 0.65.
Repita el ejercicio 4, pero suponiendo que la proporción poblacional de mujeres es igual a 0.65.
LLinás, H., Estadística inferencial. Barranquilla: Editorial Universidad del Norte, 2006.
Geogebra: https://www.geogebra.org