22/07/25
Abstract
Este manual fue generado por R Markdown. La teoría mencionada puede revisarse en el capítulo 1 de mis notas de clase que aparecen en el siguiente documento: 1.2. Estadística inferencial. Al final de esta guía, usted encontrará una serie de: (a) ejercicios, y (b) enlaces y materiales relacionados con la temática que se explica aquí. Usted encontrará otros documentos de posible interés en el siguiente enlace: https://rpubs.com/hllinas/toc.
library(dplyr) #A) Para filtrar data frames
Los siguientes datos representan los resultados obtenidos al realizar una encuesta a 400 estudiantes universitarios. En este documento, se importará la base de datos desde una dirección web (dos opciones):
Opción A (web, desde github): Para esta opción, se necesita cargar la librería “repmis”:
library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?raw=false")
datosCompleto <- Estudiantes
Opción B (web, desde Google Drive):
url.dat<- "http://bit.ly/Database-Estudiantes"
datosCompleto <- read.delim(url.dat)
Recuérdense las otras opciones, si tienen las bases de datos descargadas en su sesión de trabajo (ya sea en extensiones en Rdata, en excel o en otros formatos). Para más detalles, véase el documento R básico. A manera de ejemplo:
Opción C (local, con archivo en Rdata):
load(file="Estudiantes.Rdata")
datosCompleto <- Estudiantes
Opción D (local, con archivo en excel):
datosCompleto <- read.delim('clipboard')
El objetivo es realizar los ejercicios que se indican en las secciones de abajo.
Para más detalles, puede verse el documento Estadística descriptiva (teoría).
Unidades experimentales: Objetos que hacen parte del estudio.
Población: Información obtenida de las unidades experimentales.
Muestra: Subconjunto de unidades experimentales o de una población. La muestra debe ser: representativa y aleatoria.
Censo: Enumeración completa de las unidades experimentales.
Variable (estadística): es una característica de una muestra o población de datos que puede asumir diferentes valores o datos.
Dato: Es un valor que toma la variable estadística.
Observación: Es el vector cuyos elementos son los datos de cada una de las variables estadísticas.
Parámetro: Medida obtenida a partir de una población.
Estadístico: Medida obtenida a partir de una muestra.
Estadística descriptiva: Parte de la estadística encargada de recoger, sistematizar, presentar y obtener medidas estadísticas.
Estadística inferencial: Parte de la estadística que se encarga de encontrar el valor aproximado de un parámetro, basado en una muestra (sin hacer un censo).
Supongamos que se ha extraído una muestra aleatoria de una población y que se desea hacer inferencia sobre ciertas características de la distribución de la población. Esta inferencia estará basada en algún ESTADÍSTICO MUESTRAL, es decir, en alguna función particular de la información muestral.
Matemáticamente, un estadístico muestral puede definirse de la siguiente manera: Sean \(X_1, \ldots,X_n\) variables aleatorias de tal forma que el vector aleatorio \((X_1, \ldots ,X_n)\) conforme una muestra aleatoria extraida de alguna población. Entonces, un ESTADÍSTICO MUESTRAL para esta muestra es un funcíon que depende sólo de las variables aleatorias \(X_1, \ldots ,X_n\).
La distribución de un estadístico muestral recibe el nombre de DISTRIBUCIÓN MUESTRAL, o DISTRIBUCIÓN EN EL MUESTREO.
Se define como la distribución de probabilidades de los valores que puede tomar el estadístico a lo largo de todas las posibles muestras con el mismo número de observaciones que pueden ser extraídas de la población.
En este documento, el objetivo es determinar la distribución muestral de la media muestral, teniendo en cuenta la tabla de supuestos que se muestra en la siguiente sección.
El denominador que aparece en la fórmula se llama error estándar y corresponde a la desviación del estadístico (en este caso, el estadístico es \(\overline(X)\)).
En la siguiente sección se presentará un ejemplo modelo. En general, para algunos incisos, su solución siempre debe escribirse como se propone en la siguiente plantilla:
1. Datos:
+ Unidades experimentales: TAL.
+ Población: TAL.
+ Estadístico: la media muestral de TAL.
+ Parámetro: la media poblacional de TAL.
+ Tamaño muestral n: TAL.
+ Tamaño poblacional N: TAL
+ Otros datos: media poblacional=TAL y desviación=TAL.
2. Verificación de supuestos:
De acuerdo a los datos y a la tabla de supuestos C.1, tenemos que:
+ La forma de la población TAL.
+ La varianza poblacional TAL.
+ El tamaño muestral TAL.
3. Conclusión:
La distribución muestral de la media muestral es TAL.
4. Fórmula:
Es la que aparece en la última columna del caso 2, es decir, TAL.
Realizar los siguientes ejercicios. Considere los datos recogidos a través de la encuesta realizada a 400 estudiantes universitarios (ver secciones anteriores). Suponga que la media poblacional es igual a 3.7 y que la población es normal. Interprete todas sus respuestas.
a) Considere solamente las observaciones que van desde la 2 hasta la 31. Defina el siguiente data frame:
- "datos2a31": con estas observaciones. Verifique su tamaño.
b) Defina el siguiente objeto y halle su media, varianza y desviación estándar.
- "P3" como las calificaciones del tercer parcial (dentro de "datos2a31").
Utilícelo en los incisos (c)-(o).
c) Escriba un resumen del enunciado del problema, verifique los supuestos, concluya y diga cuál es la fórmula que va a aplicar para calcular las probabilidades que se piden abajo.
d) Calcule la probabilidad de que la media muestral sea menor que 4.0.
e) Calcule la probabilidad de que la media muestral sea mayor que 3.5.
f) Calcule la probabilidad de que la media muestral esté entre 3.6 y 4.1.
g) Calcule la probabilidad de que media muestral sea menor que 3.5 o mayor que 4.0.
h) Calcule la probabilidad de que la media muestral sea menor que 2.9 y mayor que 4.3.
i) Calcule la probabilidad de que la media muestral sea igual a 3.0.
j) Calcule la probabilidad de que la media muestral exceda a la media poblacional en menos de 0.05 unidades.
k) Calcule la probabilidad de que la media muestral se halle más de 0.05 unidades por debajo de la media poblacional.
l) Calcule la probabilidad de que la media muestral difiera de la media poblacional en más de 0.05 unidades.
m) Halle un valor K tal que la probabilidad de que la media muestral exceda a la media poblacional en más de K unidades sea 0.06.
n) Halle un valor K tal que la probabilidad de que la media muestral se halle menos de K unidades por encima de la media poblacional sea 0.94.
o) Halle un valor K tal que la probabilidad de que la media muestral difiera de la media poblaciona en menos de K unidades sea 0.90.
p) Defina el siguiente data frame:
- "Fumadores": obtenido al filtrar "datos2a31" y representa a los estudiantes fumadores.
Verifique su tamaño.
q) Defina el siguiente objeto y utilícelo en los incisos (r)-(y):
- "P3F": como las calificaciones del tercer parcial (dentro de "Fumadores").
r) Halle la media, la varianza y la desviación estándar.
s) Escriba nuevamente un resumen del enunciado del problema, verifique los supuestos, concluya y diga cuál es la fórmula que va a aplicar para calcular las probabilidades que se piden abajo.
t) Dentro de "Fumadores": Calcule la probabilidad de que media muestral sea menor que 4.0.
u) Dentro de "Fumadores": Calcule la probabilidad de que la media muestral esté entre 3.6 y 4.1.
v) Dentro de "Fumadores": Calcule la probabilidad de que la media muestral no esté entre 3.6 y 4.1.
x) Dentro de "Fumadores": Calcule la probabilidad de que la media muestral se halle más de 0.05 por encima de la media poblacional.
y) Dentro de "Fumadores": Calcule la probabilidad de que la media muestral difiera de la media poblacional en menos de 0.05 unidades.
z) Dentro de "Fumadores": Halle un valor K tal que la probabilidad de que la media muestral exceda a la media poblacional en menos de K unidades sea 0.06.
aa) Dentro de "Fumadores": Halle un valor K tal que la probabilidad de que la media muestral se halle más de K unidades por debajo de la media poblacional sea 0.94.
Filtramos nuestra base de datos:
datos2a31 <- datosCompleto[2:31,] #A) La nueva base de datos
d <- dim(datos2a31) #B) Número observacions y número de variables
n <- nrow(datos2a31); n #C) Número observaciones (tamaño muestral)
## [1] 30
La nueva base datos tiene \(n=\) 30 observaciones.
Definimos la variable numérica:
P3 <- as.numeric(datos2a31$P3) #D) La variable P3 en "datos2a31"
Calculamos la media, varianza y desviación de las calificaciones del tercer parcial (P3):
media <- mean(P3) #E) Media de la muestra
s2 <- var(P3) #F) Varianza de la muestra
s <- sd(P3) #G) Desviación estándar de la muestra
La media, varianza y desviación estándar de P3 son media= 3.67, \(s^2=\) 0.44424 y \(s=\) 0.66651, respectivamente.
1. Datos:
+ Unidades experimentales: Los estudiantes.
+ Población: Las calificaciones del tercer parcial.
+ Estadístico: la media muestral de las calificaciones.
+ Parámetro: la media poblacional de las calificaciones.
+ Tamaño muestral: n=30.
+ Tamaño poblacional: N es desconocido.
+ Otros datos: media poblacional= 3.7, media de la muestra= 3.67 y desviación muestral=0.66651.
2. Verificación de supuestos:
+ De acuerdo a los datos y a la tabla de supuestos C.1, tenemos que:
+ La forma de la población es normal.
+ La varianza poblacional es desconocida.
+ El tamaño muestral es grande (n> 30).
3. Conclusión:
La distribución muestral de la media muestral es normal.
4. Fórmula:
Es la que aparece en la última columna del caso 2, es decir,
\[Z= \frac{\overline{x}-\mu}{s/\sqrt{n}}\]
El código para escribir la expresión anterior es:
$$Z= \frac{\overline{x}-\mu}{s/\sqrt{n}}$$
Nos piden \(P(\overline{X}<4.0)\). Tenemos que:
xbarra <- 4.0 #A) Media muestral
mu <- 3.7 #B) Media poblacional
ES <- s/sqrt(n) #C) Error estándar (desviación del estadístico)
Con ayuda de lo anterior y de la fórmula, se calcula el valor de \(Z\).
Z <- (xbarra-mu)/ES; Z #D) Valor de Z
## [1] 2.465315
Es decir, \(Z=\) 2.4653148. Por lo tanto, \[P(\overline{X}<4.0)\; = \; P\left(Z < \frac{4.0 - 3.7}{0.121688} \right)\; =\; P(Z<2.4653)\; = \; 0.99315\]
El código para escribir la expresión anterior es:
$$P(\overline{X}<4.0)\; = \; P\left(Z < \frac{4.0 - 3.7}{0.121688} \right)\; =\; P(Z<2.4653)\; = \; 0.99315$$
En R, esta probabilidad se calcula con la función “pnorm()”:
probabilidad_d <- pnorm(Z); probabilidad_d #E) Probabilidad pedida
## [1] 0.9931554
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, la probabilidad de que la media muestral de las calificaciones del tercer parcial sea menor que 4.0 es 0.99316.
Nos piden \(P(\overline{X}>3.5)\). Tenemos que:
xbarra <- 3.5 #A) Media muestral
mu <- 3.7 #B) Media poblacional
ES <- s/sqrt(n) #C) Error estándar (desviación del estadístico)
Con ayuda de lo anterior y de la fórmula, se calcula el valor de \(Z\).
Z <- (xbarra-mu)/ES; Z #D) Valor de Z
## [1] -1.643543
Por lo tanto, \[P(\overline{X}>3.5) \; = \; P\left(Z > \frac{3.5 - 3.7}{0.121688} \right)\; =\; P(Z>-1.6435)\; =\; 1- P(Z<-1.6435) \; = \; 1- 0.0501 \;= \; 0.9499\]
El código para escribir la expresión anterior es:
$$P(\overline{X}>3.5) \; = \; P\left(Z > \frac{3.5 - 3.7}{0.121688} \right)\; =\; P(Z>-1.6435)\; =\; 1- P(Z<-1.6435) \; = \; 1- 0.0501 \;= \; 0.9499$$
En R, esta probabilidad se calcula con la función “pnorm()”:
probabilidad_e <- 1- pnorm(Z); probabilidad_e #E) Probabilidad pedida
## [1] 0.9498647
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, la probabilidad de que la media muestral de las calificaciones del tercer parcial sea mayor que 3.5 es 0.94986.
Nos piden \(P(3.6<\overline{X}<4.1)\). Tenemos que:
xbarra1 <- 3.6
xbarra2 <- 4.1
mu <- 3.7
ES <- s/sqrt(n)
Z1 <- (xbarra1-mu)/ES
Z2 <- (xbarra2-mu)/ES
cbind(Z1,Z2)
## Z1 Z2
## [1,] -0.8217716 3.287086
Los valores de \(Z\) son: -0.82177 y 3.28708. Por lo tanto, \[P(3.6<\overline{X}<4.1) \; = \; P(-0.82177 < Z < 3.28708) \; = \; P(Z< 3.28708) - P(Z< -0.82177) \;= \; 0.79389\]
El código para escribir la expresión anterior es:
$$P(3.6<\overline{X}<4.1) \; = \; P(-0.82177 < Z < 3.28708) \; = \; P(Z< 3.28708) - P(Z< -0.82177) \;= \; 0.79389$$
En R, esta probabilidad se calcula con la función “pnorm()”:
probabilidad_f <- pnorm(Z2)- pnorm(Z1); probabilidad_f # Probabilidad pedida
## [1] 0.7938904
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, la probabilidad de que la media muestral de las calificaciones del tercer parcial esté entre 3.6 y 4.1 es 0.79389.
Nos piden \[Prob \; =\; P(\overline{X}<3.5) + P(\overline{X}>4.0)\]
ya que el “o” indica una suma de probabilidades. Los complementos de cada una de estas probabilidades ya fueron calculadas en los incisos (e) y (d), respectivamente. Por lo tanto, teniendo en cuenta los resultados en estos incisos y aplicando la propiedad \(P(A)+P(\overline{A})=1\), tenemos:
\[Prob=P(\overline{X}<3.5) + P(\overline{X}>4.0) \; =\; [1- P(\overline{X}>3.5)] + [1-P(\overline{X}<4.0)] \; =\; 0.0569\]
El código para escribir la expresión anterior es:
$$Prob=P(\overline{X}<3.5) + P(\overline{X}>4.0) \; =\; [1- P(\overline{X}>3.5)] + [1-P(\overline{X}<4.0)] \; =\; 0.0569$$
En R, esta probabilidad se calcula así:
probabilidad_g <- (1-probabilidad_e) + (1-probabilidad_d); probabilidad_g # Probabilidad pedida
## [1] 0.05697995
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, la probabilidad de que la media muestral de las calificaciones del tercer parcial sea menor que 3.5 o mayor que 4.1 es 0.05698.
La probabilidad de que la media muestral sea menor que 2.9 y mayor que 4.3 es cero, ya que es imposible que, al mismo tiempo, la media satisfaga las dos condiciones mencionadas. Es decir,
\[P(\overline{X}<2.9 \; \mbox{y} \; \overline{X}>4.3) \; =\; 0 \]
El código para escribir la expresión anterior es:
$$P(\overline{X}<2.9 \; \mbox{y} \; \overline{X}>4.3) \; =\; 0 $$
Recuerde que, para toda variable continua \(V\), se cumple que \(P(V=k)=0\). Por esta razón, la probabilidad de que la media muestral sea igual a 3.0 es cero. Es decir, \[P(\overline{X}=3.0)\; =\;0\]
El código para escribir la expresión anterior es:
$$P(\overline{X}=3.0)\; =\;0$$
Nos piden calcular \(P(\overline{X}-\mu < 0.05)\) (véase la figura de abajo).
Por consiguiente, sabiendo que el error estándar es \(ES= \frac{s}{\sqrt{n}} = 0.121688\), tenemos que:
\[P(\overline{X}-\mu < 0.05) \;= \; P\left(Z < \frac{0.05}{s/\sqrt{n}} \right)\;= \; P\left(Z < \frac{0.05}{0.121688} \right)\; =\; P(Z < 0.41088) \; = \; 0.65942\]
El código para escribir la expresión anterior es:
$$P(\overline{X}-\mu < 0.05) \;= \; P\left(Z < \frac{0.05}{s/\sqrt{n}} \right)\;= \; P\left(Z < \frac{0.05}{0.121688} \right)\; =\; P(Z < 4.1088) \; = \; 0.65942$$
En R, la probabilidad se calcula con “pnorm()”:
x <- 0.05
ES <- s/sqrt(n)
Z <- (x)/ES; Z
## [1] 0.4108858
probabilidad_j <- pnorm(Z); probabilidad_j
## [1] 0.6594219
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, la probabilidad de que la media muestral exceda a la media poblacional en menos de 0.05 unidades es 0.65942.
Nos piden calcular \(P(\mu - \overline{X} > 0.05)\) (véase la figura de abajo).
Por consiguiente, sabiendo que el error estándar es \(ES= \frac{s}{\sqrt{n}} = 0.121688\), tenemos que:
\[P(\mu - \overline{X} > 0.05) \; = \; P(\overline{X} - \mu < -0.05)\;= \; P\left(Z < \frac{-0.05}{s/\sqrt{n}} \right)\;= \; P(Z < -0.41088) \; = \; 0.3406\]
El código para escribir la expresión anterior es:
$$P(\mu - \overline{X} > 0.05) \; = \; P(\overline{X} - \mu < -0.05)\;= \; P\left(Z < \frac{-0.05}{s/\sqrt{n}} \right)\;= \; P(Z < -0.41088) \; = \; 0.3406$$
En R, el valor de \(Z\) se calcula así:
x <- -0.05
ES <- s/sqrt(n)
Z <- (x)/ES; Z
## [1] -0.4108858
y la probabilidad, con “pnorm()”:
probabilidad_k <- pnorm(Z); probabilidad_k
## [1] 0.3405781
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, la probabilidad de que la media muestral se halle más de 0.7 por debajo de la media poblacional es 0.34058.
El término “diferir” es sinónimo de “ser diferente”. Por lo tanto, si la media muestral difiere de la media poblacional en más de 0.05, entonces, \(|\overline{X}-\mu| > 0.05\). Por definición de valor absoluto, esta es expresión es equivalente a que se cumpla una de las dos condiciones (véanse las figuras de abajo):
Es decir, si se cumplen: \[\overline{X}-\mu > 0.05 \quad \mbox{o} \quad \overline{X}-\mu < -0.05\]
El código para escribir la expresión anterior es:
$$\overline{X}-\mu > 0.05 \quad \mbox{o} \quad \overline{X}-\mu < -0.05$$
En este caso, como el “o” indica “unión de eventos”, debemos sumar probabilidades. Por lo tanto, nos piden calcular:
\[ P(|\overline{X}-\mu| > 0.05) \; = \; P(\overline{X}-\mu > 0.05) + P(\overline{X}-\mu < -0.05)\]
El código para escribir la expresión anterior es:
$$ P(|\overline{X}-\mu| > 0.05) \; = \; P(\overline{X}-\mu > 0.05) + P(\overline{X}-\mu < -0.05)$$
El cálculo de esta probabilidad se deja como ejercicio al lector.
Nos piden calcular \(K\) tal que \(P(\overline{X}-\mu >K)=0.06\) (véase la figura de abajo).
En este caso, \[0.06 \;= \; P(\overline{X}-\mu >K) \;= \; P\left(Z > \frac{K}{s/\sqrt{n}} \right)\;= \; P\left(Z > \frac{K}{0.121688} \right)\]
El código para escribir la expresión anterior es:
$$0.06 \;= \; P(\overline{X}-\mu >K) \;= \; P\left(Z > \frac{K}{s/\sqrt{n}} \right)\;= \; P\left(Z > \frac{K}{0.121688} \right)$$
En R, el cuantil correspondiente a \(\alpha= 0.06\) se calcula con “qnorm()” y es \(Z=1.5547\):
alfa <- 0.06
Z <- qnorm(1-alfa); Z
## [1] 1.554774
En la imagen de abajo se puede observar el resultado (de cálculo del cuantil) encontrado con Geogebra.
Por lo tanto,
\[\frac{K}{0.121688} = 1.5547, \quad \mbox{de donde} \quad K= (0.121688)(1.5547)=0.1892\]
El código para escribir la expresión anterior es:
$$\frac{K}{0.121688} = 1.5547, \quad \mbox{de donde} \quad K= (0.121688)(1.5547)=0.1892$$
En R:
K <- Z*ES; K
## [1] 0.1891978
En conclusión, el valor K tal que la probabilidad de que la media muestral exceda a la media poblacional en más de K unidades sea 0.06 es de 0.1892.
Nos piden hallar \(K\) tal que \(P(\overline{X}-\mu <K)=0.94\) (véase figura de abajo).
El valor de \(K\) tal que \(P(\overline{X}-\mu <K)=0.94\) es exactamente el mismo valor \(K\) que cumple con la condición \(P(\overline{X}-\mu >K)=0.06\) (ya que corresponde al mismo cuantil \(Z= 1.55477\)). En la imagen de abajo se puede observar lo anterior con ayuda de Geogebra.
O sea, por la parte (m), el hallado en el inciso (m): \(K=\) 0.1892.
El término “diferir” es sinónimo de “ser diferente”. Por lo tanto, si la media muestral difiere de la media poblacional en menos de \(K\) unidades, entonces, \(|\overline{X}-\mu| < K\). Por definición de valor absoluto, esta es expresión es equivalente a (véanse las figuras de abajo):
\[-K < \overline{X}-\mu < K\]
El código para escribir la expresión anterior es:
$$-K < \overline{X}-\mu < K$$
Por lo tanto, nos piden calcular:
\[ 0.90 \; = \; P(|\overline{X}-\mu| < K) \; = \; P(-K < \overline{X}-\mu < K) \;= \; P\left(-\frac{K}{s/\sqrt{n}} < Z < \frac{K}{s/\sqrt{n}} \right) \]
El código para escribir la expresión anterior es:
$$ 0.90 \; = \; P(|\overline{X}-\mu| < K) \; = \; P(-K < \overline{X}-\mu < K) \;= \; P\left(-\frac{K}{s/\sqrt{n}} < Z < \frac{K}{s/\sqrt{n}} \right) $$
Sabiendo que el error estándar es \(ES=\frac{s}{\sqrt{n}}= 0.121688\), tenemos que:
\[ 0.90 \; = \; P\left(-\frac{K}{0.121688} < Z < \frac{K}{0.121688} \right) \]
Utilizando propiedades de la normal, se tiene que:
\[P\left(Z >\frac{K}{0.121688} \right) \; = \; \frac{1-0.90}{2} \; = \; 0.05\]
El código para escribir la expresión anterior es:
$$P\left(Z >\frac{K}{0.121688} \right) \; = \; \frac{1-0.90}{2} \; = \; 0.05$$
En R, el cuantil correspondiente a \(\alpha= 0.05\) se calcula con “qnorm()” y es $Z=1.6449:
alfa <- 0.05
Z <- qnorm(1-alfa); Z
## [1] 1.644854
En la imagen de abajo se puede observar el resultado (de cálculo del cuantil) encontrado con Geogebra.
Por lo tanto,
\[\frac{K}{0.121688} = 1.6449, \quad \mbox{de donde} \quad K= (0.121688)(1.6449)=0.20016\]
El código para escribir la expresión anterior es:
$$\frac{K}{0.121688} = 1.6449, \quad \mbox{de donde} \quad K= (0.121688)(1.6449)=0.20016$$
En R:
K <- Z*ES; K
## [1] 0.2001595
En conclusión, el valor K tal que la probabilidad de que la media muestral exceda a la media poblacional en más de K unidades sea 0.06 es de 0.2002.
Filtramos nuestra base de datos (tiene tamaño \(n=16\)):
Fumadores <- datos2a31 %>% filter(Fuma=="Si") #A) La nueva base de datos
d <- dim(Fumadores) #B) Número observacions y número de variables
n <- nrow(Fumadores); n #C) Número observaciones (tamaño muestral)
## [1] 16
La nueva base datos “Fumadores” tiene \(n=\) 16 observaciones.
Definimos la variable numérica:
P3F <- as.numeric(Fumadores$P3) #D) La variable P3 en "datos2a31"
Primero, hallamos la media, varianza y desviación estándar de P3F. Con R, se calculan así:
media <- mean(P3F) #E) Media
s2 <- var(P3F) #F) Varianza (muestral)
s <- sd(P3F) #G) Desviación estándar (muestral)
La media, varianza y desviación estándar de P3F son media= 3.65, \(s^2=\) 0.66 y \(s=\) 0.8124, respectivamente.
1. Datos:
+ Unidades experimentales: Los estudiantes que son fumadores.
+ Población: Las calificaciones del tercer parcial en el grupo de estudiantes fumadores.
+ Estadístico: la media muestral de las calificaciones del tercer parcial de los estudiantes fumadores.
+ Parámetro: la media poblacional de las calificaciones del tercer parcial de los estudiantes fumadores.
+ Tamaño muestral: n=16.
+ Tamaño poblacional: N es desconocido.
+ Otros datos: media poblacional= 3.7, media de la muestra= 3.65 y desviación muestral=0.8124.
2. Verificación de supuestos:
+ De acuerdo a los datos y a la tabla de supuestos C.1, tenemos que:
+ La forma de la población es normal.
+ La varianza poblacional es desconocida.
+ El tamaño muestral es grande (n> 30).
3. Conclusión:
La distribución muestral de la media muestral es la $t$ de Student con $v= n-1= 16-1= 15$ grados de libertad.
4. Fórmula:
Es la que aparece en la última columna del caso 3, es decir,
\[t= \frac{\overline{x}-\mu}{s/\sqrt{n}}\]
El código para escribir la expresión anterior es:
$$t= \frac{\overline{x}-\mu}{s/\sqrt{n}}$$
Cuando los estudiantes son fumadores, nos piden \(P(\overline{X}<4.0)\). Tenemos que:
xbarra <- 4.0 #A) Media muestral
mu <- 3.7 #B) Media poblacional
ES <- s/sqrt(n) #C) Error estándar (desviación del estadístico)
t <- (xbarra-mu)/ES; t #D) Valor del estadístico t
## [1] 1.477098
Es decir, \(t=\) 1.4770979. Por lo tanto,
\[P(\overline{X}<4.0)\; = \; P\left(t < \frac{4.0 - 3.7}{0.121688} \right)\; =\; P(t<1.477098)\; = \; 0.91983\]
El código para escribir la expresión anterior es:
$$P(\overline{X}<4.0)\; = \; P\left(t < \frac{4.0 - 3.7}{0.121688} \right)\; =\; P(t<1.477098)\; = \; 0.91983$$
En R, esta probabilidad se calcula con la función “pt()”:
glib <- n-1
probabilidad_t <- pt(t,glib); probabilidad_t #E) Probabilidad pedida
## [1] 0.9198321
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, cuando los estudiantes son fumadores, la probabilidad de que la media muestral de las calificaciones del tercer parcial sea menor que 4.0 es 0.91983.
Cuando los estudiantes son fumadores, nos piden \(P(3.6<\overline{X}<4.1)\). Tenemos que:
xbarra1 <- 3.6
xbarra2 <- 4.1
mu <- 3.7
ES <- s/sqrt(n)
t1 <- (xbarra1-mu)/ES; t1
## [1] -0.492366
t2 <- (xbarra2-mu)/ES; t2
## [1] 1.969464
Los valores de \(t\) son: -0.49237 y 1.96946. Por lo tanto, \[P(3.6<\overline{X}<4.1) \; = \; P(-0.49237 < t < 1.96946) \; = \; P(Z< 1.96946) - P(Z< -0.49237) \;= \; 0.65138\]
El código para escribir la expresión anterior es:
$$P(3.6<\overline{X}<4.1) \; = \; P(-0.49237 < t < 1.96946) \; = \; P(Z< 1.96946) - P(Z< -0.49237) \;= \; 0.65138$$
En R, esta probabilidad se calcula con la función “pnorm()”:
glib <- n-1
probabilidad_u <- pt(t2, glib)- pt(t1, glib); probabilidad_u # Probabilidad pedida
## [1] 0.6513778
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, cuando los estudiantes son fumadores, la probabilidad de que la media muestral de las calificaciones del tercer parcial esté entre 3.6 y 4.1 es 0.65138.
Consideremos solo elgrupo de los estudiantes fumadores. Si la media muestral no está entre 3.6 y 4.1, entonces, quiere decir que la media muestral será menor que 3.5 o mayor que 3.8. Por lo tanto, nos piden \[Prob=P(\overline{X}<3.5) + P(\overline{X}>3.8)\]
ya que el “o” indica una suma de probabilidades. Pero, la probabilidad pedida es el complemento de la hallada en en el inciso (u). Es decir, \[Prob \; =\; P(\overline{X}<3.5) + P(\overline{X}>3.8) \; = \; 1- P(3.6<\overline{X}<4.1) \;= \; 1- 0.65138\;= \; 0.34862\]
El código para escribir la expresión anterior es:
$$Prob \; =\; P(\overline{X}<3.5) + P(\overline{X}>3.8) \; = \; 1- P(3.6<\overline{X}<4.1) \;= \; 1- 0.65138\;= \; 0.34862$$
En R, esta probabilidad se calcula con la función “pnorm()”:
probabilidad_v <- 1 - probabilidad_u; probabilidad_v
## [1] 0.3486222
En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.
Es decir, cuando los estudiantes son fumadores, la probabilidad de que la media muestral de las calificaciones del tercer parcial no esté entre entre 3.6 y 4.1 es 0.65138.
Se dejan como ejercicio al lector. Se resuelven de manera similar a los incisos (j) a (o).
Crear un nuevo documento R Markdown, realizando los ejercicios que se indican abajo.
Repita el ejemplo 1, pero considerando P1, las calificaciones del primer parcial.
Repita el ejemplo 1, pero considerando P2 (las calificaciones del segundo parcial) y, en los incios (p) a (aa), el grupo de los no fumadores (definiendo un data frame llamado “NoFumadores”).
Realizar los siguientes ejercicios. Considere los datos recogidos a través de la encuesta realizada a 400 estudiantes universitarios (ver secciones anteriores). Suponga que la media poblacional es igual a 3.7 y que la población es normal. Interprete todas sus respuestas.
Repita el ejercicio 3, pero considerando P1, las calificaciones del primer parcial.
Repita el ejercicio 3, pero considerando P2, las calificaciones del segundo parcial y, en los incisos (p)-(x), el grupo de los fumadores.
LLinás, H., Estadística inferencial. Barranquilla: Editorial Universidad del Norte, 2006.
Geogebra: https://www.geogebra.org