Distribución muestral (con R)

Media muestral

Dr. rer. nat. Humberto LLinás Solano

Departamento de Matemáticas y Estadística, Universidad del Norte (Barranquilla, Colombia)

hllinas@uninorte.edu.co

22/07/25

Abstract

Este manual fue generado por R Markdown. La teoría mencionada puede revisarse en el capítulo 1 de mis notas de clase que aparecen en el siguiente documento: 1.2. Estadística inferencial. Al final de esta guía, usted encontrará una serie de: (a) ejercicios, y (b) enlaces y materiales relacionados con la temática que se explica aquí. Usted encontrará otros documentos de posible interés en el siguiente enlace: https://rpubs.com/hllinas/toc.

1 Paquetes

library(dplyr)  #A) Para filtrar data frames

2 Nuestro data frame

Los siguientes datos representan los resultados obtenidos al realizar una encuesta a 400 estudiantes universitarios. En este documento, se importará la base de datos desde una dirección web (dos opciones):

Opción A (web, desde github): Para esta opción, se necesita cargar la librería “repmis”:

library(repmis)
source_data("https://github.com/hllinas/DatosPublicos/blob/main/Estudiantes.Rdata?raw=false")
datosCompleto <- Estudiantes

Opción B (web, desde Google Drive):

url.dat<- "http://bit.ly/Database-Estudiantes"
datosCompleto <- read.delim(url.dat)

Recuérdense las otras opciones, si tienen las bases de datos descargadas en su sesión de trabajo (ya sea en extensiones en Rdata, en excel o en otros formatos). Para más detalles, véase el documento R básico. A manera de ejemplo:

Opción C (local, con archivo en Rdata):

load(file="Estudiantes.Rdata")
datosCompleto <- Estudiantes

Opción D (local, con archivo en excel):

datosCompleto <- read.delim('clipboard')

El objetivo es realizar los ejercicios que se indican en las secciones de abajo.

3 Términos básicos

Para más detalles, puede verse el documento Estadística descriptiva (teoría).

Unidades experimentales: Objetos que hacen parte del estudio.
Población: Información obtenida de las unidades experimentales.
Muestra: Subconjunto de unidades experimentales o de una población. La muestra debe ser: representativa y aleatoria.
Censo: Enumeración completa de las unidades experimentales.
Variable (estadística): es una característica de una muestra o población de datos que puede asumir diferentes valores o datos.
Dato: Es un valor que toma la variable estadística.
Observación: Es el vector cuyos elementos son los datos de cada una de las variables estadísticas.
Parámetro: Medida obtenida a partir de una población.
Estadístico: Medida obtenida a partir de una muestra.
Estadística descriptiva: Parte de la estadística encargada de recoger, sistematizar, presentar y obtener medidas estadísticas.
Estadística inferencial: Parte de la estadística que se encarga de encontrar el valor aproximado de un parámetro, basado en una muestra (sin hacer un censo).

4 Estadístico

Supongamos que se ha extraído una muestra aleatoria de una población y que se desea hacer inferencia sobre ciertas características de la distribución de la población. Esta inferencia estará basada en algún ESTADÍSTICO MUESTRAL, es decir, en alguna función particular de la información muestral.
Matemáticamente, un estadístico muestral puede definirse de la siguiente manera: Sean $X_1, \ldots,X_n$ variables aleatorias de tal forma que el vector aleatorio $(X_1, \ldots ,X_n)$ conforme una muestra aleatoria extraida de alguna población. Entonces, un ESTADÍSTICO MUESTRAL para esta muestra es un funcíon que depende sólo de las variables aleatorias $X_1, \ldots ,X_n$.

5 Ejemplos de estadísticos

La media muestral ($\overline{X}$).
La proporción muestral ($\overline{p}$).
la diferencia de medias muestrales ($\overline{X}_1-\overline{X}_2$).
La diferencia de proporciones muestrales ($\overline{p}_1-\overline{p}_2$).
La varianza muestral ($S^2$).
La razón de varianzas muestrales ($\frac{S_1^2}{S_2^2}$).
Otros: mediana muestral, moda muestral, etc.

6 Distribución muestral

La distribución de un estadístico muestral recibe el nombre de DISTRIBUCIÓN MUESTRAL, o DISTRIBUCIÓN EN EL MUESTREO.
Se define como la distribución de probabilidades de los valores que puede tomar el estadístico a lo largo de todas las posibles muestras con el mismo número de observaciones que pueden ser extraídas de la población.
En este documento, el objetivo es determinar la distribución muestral de la media muestral, teniendo en cuenta la tabla de supuestos que se muestra en la siguiente sección.

7 Tabla de supuestos

El denominador que aparece en la fórmula se llama error estándar y corresponde a la desviación del estadístico (en este caso, el estadístico es $\overline(X)$).

8 Plantilla

En la siguiente sección se presentará un ejemplo modelo. En general, para algunos incisos, su solución siempre debe escribirse como se propone en la siguiente plantilla:

1. Datos:
    + Unidades experimentales: TAL.
    + Población: TAL.
    + Estadístico: la media muestral de TAL.
    + Parámetro: la media poblacional de TAL.
    + Tamaño muestral n: TAL.
    + Tamaño poblacional N: TAL
    + Otros datos: media poblacional=TAL y desviación=TAL.

2. Verificación de supuestos:
    De acuerdo a los datos y a la tabla de supuestos C.1, tenemos que:
    + La forma de la población TAL.
    + La varianza poblacional TAL.
    + El tamaño muestral TAL.

3. Conclusión: 
   La distribución muestral de la media muestral es TAL.

4. Fórmula: 
   Es la que aparece en la última columna del caso 2, es decir, TAL.

9 Ejemplo 1: Enunciado

Realizar los siguientes ejercicios. Considere los datos recogidos a través de la encuesta realizada a 400 estudiantes universitarios (ver secciones anteriores). Suponga que la media poblacional es igual a 3.7 y que la población es normal. Interprete todas sus respuestas.

a) Considere solamente las observaciones que van desde la 2 hasta la 31. Defina el siguiente data frame: 
   - "datos2a31": con estas observaciones. Verifique su tamaño.
b) Defina el siguiente objeto y halle su media,  varianza y  desviación estándar. 
   - "P3" como las calificaciones del tercer parcial (dentro de "datos2a31").
     Utilícelo en los incisos (c)-(o).
c) Escriba un resumen del enunciado del problema, verifique los supuestos, concluya y diga cuál es la fórmula que va a aplicar para calcular las probabilidades que se piden abajo. 
d) Calcule la probabilidad de que la media muestral sea menor que 4.0.
e) Calcule la probabilidad de que la media muestral sea mayor que 3.5.
f) Calcule la probabilidad de que la media muestral esté entre 3.6 y 4.1.
g) Calcule la probabilidad de que media muestral sea menor que 3.5 o mayor que 4.0.
h) Calcule la probabilidad de que la media muestral sea menor que 2.9 y mayor que 4.3.
i) Calcule la probabilidad de que la media muestral sea igual a 3.0.
j) Calcule la probabilidad de que la media muestral exceda a la media poblacional en menos de 0.05 unidades.
k) Calcule la probabilidad de que la media muestral se halle más de 0.05 unidades por debajo de la media poblacional.
l) Calcule la probabilidad de que la media muestral difiera de la media poblacional en más de 0.05 unidades.
m) Halle un valor K tal que la probabilidad de que la media muestral exceda a la media poblacional en más de K unidades sea 0.06.
n) Halle un valor K tal que la probabilidad de que la media muestral se halle menos de K unidades por encima de la media poblacional sea 0.94.
o) Halle un valor K tal que la probabilidad de que la media muestral difiera de la media poblaciona en menos de K unidades sea 0.90.
p) Defina el siguiente data frame: 
    - "Fumadores": obtenido al filtrar "datos2a31" y representa a los estudiantes fumadores. 
       Verifique su tamaño. 
q) Defina el siguiente objeto y utilícelo en los incisos (r)-(y): 
   - "P3F": como las calificaciones del tercer parcial (dentro de "Fumadores").    
r) Halle la media, la varianza y la desviación estándar.
s) Escriba nuevamente un resumen del enunciado del problema, verifique los supuestos, concluya y diga cuál es la fórmula que va a aplicar para calcular las probabilidades que se piden abajo. 
t) Dentro de "Fumadores": Calcule la probabilidad de que media muestral sea menor que 4.0.
u) Dentro de "Fumadores": Calcule la probabilidad de que la media muestral esté entre 3.6 y 4.1.
v) Dentro de "Fumadores": Calcule la probabilidad de que la media muestral no esté entre 3.6 y 4.1.
x) Dentro de "Fumadores": Calcule la probabilidad de que la media muestral se halle más de 0.05 por encima de la media poblacional.
y) Dentro de "Fumadores": Calcule la probabilidad de que la media muestral difiera de la media poblacional en menos de 0.05 unidades.
z) Dentro de "Fumadores": Halle un valor K tal que la probabilidad de que la media muestral exceda a la media poblacional en menos de K unidades sea 0.06.
aa) Dentro de "Fumadores": Halle un valor K tal que la probabilidad de que la media muestral se halle más de K unidades por debajo de la media poblacional sea 0.94.

10 Ejemplo 1: Solución

10.0.1 Solución parte (a)

Filtramos nuestra base de datos:

datos2a31 <- datosCompleto[2:31,]    #A) La nueva base de datos
d <- dim(datos2a31)                  #B) Número observacions y número de variables 
n <- nrow(datos2a31); n              #C) Número observaciones (tamaño muestral)

## [1] 30

La nueva base datos tiene $n=$ 30 observaciones.

10.0.2 Solución parte (b)

Definimos la variable numérica:

P3 <- as.numeric(datos2a31$P3)         #D) La variable P3 en "datos2a31"

Calculamos la media, varianza y desviación de las calificaciones del tercer parcial (P3):

media <- mean(P3)  #E) Media de la muestra
s2 <- var(P3)      #F) Varianza de la muestra
s <- sd(P3)        #G) Desviación estándar de la muestra

La media, varianza y desviación estándar de P3 son media= 3.67, $s^2=$ 0.44424 y $s=$ 0.66651, respectivamente.

10.0.3 Solución parte (c)

1. Datos:
    + Unidades experimentales: Los estudiantes.
    + Población: Las calificaciones del tercer parcial.
    + Estadístico: la media muestral de las calificaciones.
    + Parámetro: la media poblacional de las calificaciones.
    + Tamaño muestral: n=30.
    + Tamaño poblacional: N es desconocido.
    + Otros datos: media poblacional= 3.7, media de la muestra= 3.67 y desviación muestral=0.66651.

2. Verificación de supuestos:
    + De acuerdo a los datos y a la tabla de supuestos C.1, tenemos que:
    + La forma de la población es normal.
    + La varianza poblacional es desconocida.
    + El tamaño muestral es grande (n> 30).

3. Conclusión: 
   La distribución muestral de la media muestral es normal.

4. Fórmula: 
   Es la que aparece en la última columna del caso 2, es decir,

\[Z= \frac{\overline{x}-\mu}{s/\sqrt{n}}\]

El código para escribir la expresión anterior es:

$$Z= \frac{\overline{x}-\mu}{s/\sqrt{n}}$$

10.0.4 Solución parte (d)

Nos piden $P(\overline{X}<4.0)$. Tenemos que:

xbarra <- 4.0    #A)  Media muestral
mu <- 3.7        #B)  Media poblacional
ES <- s/sqrt(n)  #C)  Error estándar (desviación del estadístico)

Con ayuda de lo anterior y de la fórmula, se calcula el valor de $Z$.

Z <- (xbarra-mu)/ES; Z  #D) Valor de Z

## [1] 2.465315

Es decir, $Z=$ 2.4653148. Por lo tanto, \[P(\overline{X}<4.0)\; = \; P\left(Z < \frac{4.0 - 3.7}{0.121688} \right)\; =\; P(Z<2.4653)\; = \; 0.99315\]

El código para escribir la expresión anterior es:

$$P(\overline{X}<4.0)\;  = \; P\left(Z < \frac{4.0 - 3.7}{0.121688} \right)\; =\;   P(Z<2.4653)\;  = \; 0.99315$$

En R, esta probabilidad se calcula con la función “pnorm()”:

probabilidad_d <- pnorm(Z); probabilidad_d    #E) Probabilidad pedida

## [1] 0.9931554

En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.

Es decir, la probabilidad de que la media muestral de las calificaciones del tercer parcial sea menor que 4.0 es 0.99316.

10.0.5 Solución parte (e)

Nos piden $P(\overline{X}>3.5)$. Tenemos que:

xbarra <- 3.5    #A)  Media muestral
mu <- 3.7        #B)  Media poblacional
ES <- s/sqrt(n)  #C)  Error estándar (desviación del estadístico)

Con ayuda de lo anterior y de la fórmula, se calcula el valor de $Z$.

Z <- (xbarra-mu)/ES; Z    #D) Valor de Z

## [1] -1.643543

Por lo tanto, \[P(\overline{X}>3.5) \; = \; P\left(Z > \frac{3.5 - 3.7}{0.121688} \right)\; =\; P(Z>-1.6435)\; =\; 1- P(Z<-1.6435) \; = \; 1- 0.0501 \;= \; 0.9499\]

El código para escribir la expresión anterior es:

$$P(\overline{X}>3.5) \;  = \; P\left(Z > \frac{3.5 - 3.7}{0.121688} \right)\; =\; P(Z>-1.6435)\; =\; 1- P(Z<-1.6435) \; = \; 1-  0.0501 \;= \; 0.9499$$

En R, esta probabilidad se calcula con la función “pnorm()”:

probabilidad_e <- 1- pnorm(Z); probabilidad_e    #E) Probabilidad pedida

## [1] 0.9498647

En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.

Es decir, la probabilidad de que la media muestral de las calificaciones del tercer parcial sea mayor que 3.5 es 0.94986.

10.0.6 Solución parte (f)

Nos piden $P(3.6<\overline{X}<4.1)$. Tenemos que:

xbarra1 <- 3.6
xbarra2 <- 4.1
mu <- 3.7
ES <- s/sqrt(n)
Z1 <- (xbarra1-mu)/ES
Z2 <- (xbarra2-mu)/ES
cbind(Z1,Z2)

##              Z1       Z2
## [1,] -0.8217716 3.287086

Los valores de $Z$ son: -0.82177 y 3.28708. Por lo tanto, \[P(3.6<\overline{X}<4.1) \; = \; P(-0.82177 < Z < 3.28708) \; = \; P(Z< 3.28708) - P(Z< -0.82177) \;= \; 0.79389\]

El código para escribir la expresión anterior es:

$$P(3.6<\overline{X}<4.1) \; = \; P(-0.82177 < Z < 3.28708) \;  = \; P(Z< 3.28708) - P(Z< -0.82177)  \;= \; 0.79389$$

En R, esta probabilidad se calcula con la función “pnorm()”:

probabilidad_f <- pnorm(Z2)- pnorm(Z1); probabilidad_f    # Probabilidad pedida

## [1] 0.7938904

En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.

Es decir, la probabilidad de que la media muestral de las calificaciones del tercer parcial esté entre 3.6 y 4.1 es 0.79389.

10.0.7 Solución parte (g)

Nos piden \[Prob \; =\; P(\overline{X}<3.5) + P(\overline{X}>4.0)\]

ya que el “o” indica una suma de probabilidades. Los complementos de cada una de estas probabilidades ya fueron calculadas en los incisos (e) y (d), respectivamente. Por lo tanto, teniendo en cuenta los resultados en estos incisos y aplicando la propiedad $P(A)+P(\overline{A})=1$, tenemos:

\[Prob=P(\overline{X}<3.5) + P(\overline{X}>4.0) \; =\; [1- P(\overline{X}>3.5)] + [1-P(\overline{X}<4.0)] \; =\; 0.0569\]

El código para escribir la expresión anterior es:

$$Prob=P(\overline{X}<3.5) + P(\overline{X}>4.0) \; =\; [1- P(\overline{X}>3.5)] + [1-P(\overline{X}<4.0)]  \; =\; 0.0569$$

En R, esta probabilidad se calcula así:

probabilidad_g <- (1-probabilidad_e) + (1-probabilidad_d); probabilidad_g    # Probabilidad pedida

## [1] 0.05697995

En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.

Es decir, la probabilidad de que la media muestral de las calificaciones del tercer parcial sea menor que 3.5 o mayor que 4.1 es 0.05698.

10.0.8 Solución parte (h)

La probabilidad de que la media muestral sea menor que 2.9 y mayor que 4.3 es cero, ya que es imposible que, al mismo tiempo, la media satisfaga las dos condiciones mencionadas. Es decir,

\[P(\overline{X}<2.9 \; \mbox{y} \; \overline{X}>4.3) \; =\; 0 \]

El código para escribir la expresión anterior es:

$$P(\overline{X}<2.9 \; \mbox{y} \; \overline{X}>4.3) \; =\; 0 $$

10.0.9 Solución parte (i)

Recuerde que, para toda variable continua $V$, se cumple que $P(V=k)=0$. Por esta razón, la probabilidad de que la media muestral sea igual a 3.0 es cero. Es decir, \[P(\overline{X}=3.0)\; =\;0\]

El código para escribir la expresión anterior es:

$$P(\overline{X}=3.0)\; =\;0$$

10.0.10 Solución partes (j)

Nos piden calcular $P(\overline{X}-\mu < 0.05)$ (véase la figura de abajo).

Por consiguiente, sabiendo que el error estándar es $ES= \frac{s}{\sqrt{n}} = 0.121688$, tenemos que:

\[P(\overline{X}-\mu < 0.05) \;= \; P\left(Z < \frac{0.05}{s/\sqrt{n}} \right)\;= \; P\left(Z < \frac{0.05}{0.121688} \right)\; =\; P(Z < 0.41088) \; = \; 0.65942\]

El código para escribir la expresión anterior es:

$$P(\overline{X}-\mu < 0.05) \;= \;  P\left(Z < \frac{0.05}{s/\sqrt{n}} \right)\;= \;  P\left(Z < \frac{0.05}{0.121688} \right)\; =\; P(Z < 4.1088) \; = \; 0.65942$$

En R, la probabilidad se calcula con “pnorm()”:

x <- 0.05
ES <- s/sqrt(n)
Z <- (x)/ES; Z

## [1] 0.4108858

probabilidad_j <- pnorm(Z); probabilidad_j

## [1] 0.6594219

En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.

Es decir, la probabilidad de que la media muestral exceda a la media poblacional en menos de 0.05 unidades es 0.65942.

10.0.11 Solución partes (k)

Nos piden calcular $P(\mu - \overline{X} > 0.05)$ (véase la figura de abajo).

Por consiguiente, sabiendo que el error estándar es $ES= \frac{s}{\sqrt{n}} = 0.121688$, tenemos que:

\[P(\mu - \overline{X} > 0.05) \; = \; P(\overline{X} - \mu < -0.05)\;= \; P\left(Z < \frac{-0.05}{s/\sqrt{n}} \right)\;= \; P(Z < -0.41088) \; = \; 0.3406\]

El código para escribir la expresión anterior es:

$$P(\mu - \overline{X} > 0.05) \; = \; P(\overline{X} - \mu < -0.05)\;= \;  P\left(Z < \frac{-0.05}{s/\sqrt{n}} \right)\;= \;  P(Z < -0.41088) \; = \; 0.3406$$

En R, el valor de $Z$ se calcula así:

x <- -0.05
ES <- s/sqrt(n)
Z <- (x)/ES; Z

## [1] -0.4108858

y la probabilidad, con “pnorm()”:

probabilidad_k <- pnorm(Z); probabilidad_k

## [1] 0.3405781

En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.

Es decir, la probabilidad de que la media muestral se halle más de 0.7 por debajo de la media poblacional es 0.34058.

10.0.12 Solución partes (l)

El término “diferir” es sinónimo de “ser diferente”. Por lo tanto, si la media muestral difiere de la media poblacional en más de 0.05, entonces, $|\overline{X}-\mu| > 0.05$. Por definición de valor absoluto, esta es expresión es equivalente a que se cumpla una de las dos condiciones (véanse las figuras de abajo):

Si $\overline{X} > \mu$, entonces, $\overline{X}-\mu > 0.05$ (figura 1, expresión en rojo).
Si $\overline{X} < \mu$, entonces, $\overline{X}-\mu < -0.05$ (figura 2, expresión en azul).

Es decir, si se cumplen: \[\overline{X}-\mu > 0.05 \quad \mbox{o} \quad \overline{X}-\mu < -0.05\]

El código para escribir la expresión anterior es:

$$\overline{X}-\mu > 0.05 \quad \mbox{o} \quad \overline{X}-\mu < -0.05$$

En este caso, como el “o” indica “unión de eventos”, debemos sumar probabilidades. Por lo tanto, nos piden calcular:

\[ P(|\overline{X}-\mu| > 0.05) \; = \; P(\overline{X}-\mu > 0.05) + P(\overline{X}-\mu < -0.05)\]

El código para escribir la expresión anterior es:

$$ P(|\overline{X}-\mu| > 0.05) \; = \; P(\overline{X}-\mu > 0.05) + P(\overline{X}-\mu < -0.05)$$

El cálculo de esta probabilidad se deja como ejercicio al lector.

10.0.13 Solución partes (m)

Nos piden calcular $K$ tal que $P(\overline{X}-\mu >K)=0.06$ (véase la figura de abajo).

En este caso, \[0.06 \;= \; P(\overline{X}-\mu >K) \;= \; P\left(Z > \frac{K}{s/\sqrt{n}} \right)\;= \; P\left(Z > \frac{K}{0.121688} \right)\]

El código para escribir la expresión anterior es:

$$0.06 \;= \; P(\overline{X}-\mu >K) \;= \;  P\left(Z > \frac{K}{s/\sqrt{n}} \right)\;= \;  P\left(Z > \frac{K}{0.121688} \right)$$

En R, el cuantil correspondiente a $\alpha= 0.06$ se calcula con “qnorm()” y es $Z=1.5547$:

alfa <- 0.06
Z <- qnorm(1-alfa); Z

## [1] 1.554774

En la imagen de abajo se puede observar el resultado (de cálculo del cuantil) encontrado con Geogebra.

Por lo tanto,

\[\frac{K}{0.121688} = 1.5547, \quad \mbox{de donde} \quad K= (0.121688)(1.5547)=0.1892\]

El código para escribir la expresión anterior es:

$$\frac{K}{0.121688} = 1.5547, \quad \mbox{de donde} \quad K= (0.121688)(1.5547)=0.1892$$

En R:

K <- Z*ES; K

## [1] 0.1891978

En conclusión, el valor K tal que la probabilidad de que la media muestral exceda a la media poblacional en más de K unidades sea 0.06 es de 0.1892.

10.0.14 Solución partes (n)

Nos piden hallar $K$ tal que $P(\overline{X}-\mu <K)=0.94$ (véase figura de abajo).

El valor de $K$ tal que $P(\overline{X}-\mu <K)=0.94$ es exactamente el mismo valor $K$ que cumple con la condición $P(\overline{X}-\mu >K)=0.06$ (ya que corresponde al mismo cuantil $Z= 1.55477$). En la imagen de abajo se puede observar lo anterior con ayuda de Geogebra.

O sea, por la parte (m), el hallado en el inciso (m): $K=$ 0.1892.

10.0.15 Solución partes (o)

El término “diferir” es sinónimo de “ser diferente”. Por lo tanto, si la media muestral difiere de la media poblacional en menos de $K$ unidades, entonces, $|\overline{X}-\mu| < K$. Por definición de valor absoluto, esta es expresión es equivalente a (véanse las figuras de abajo):

\[-K < \overline{X}-\mu < K\]

El código para escribir la expresión anterior es:

$$-K < \overline{X}-\mu  < K$$

Por lo tanto, nos piden calcular:

\[ 0.90 \; = \; P(|\overline{X}-\mu| < K) \; = \; P(-K < \overline{X}-\mu < K) \;= \; P\left(-\frac{K}{s/\sqrt{n}} < Z < \frac{K}{s/\sqrt{n}} \right) \]


El código para escribir la expresión anterior es:

$$ 0.90 \; = \; P(|\overline{X}-\mu| < K) \; = \; P(-K < \overline{X}-\mu  < K) \;= \; P\left(-\frac{K}{s/\sqrt{n}} < Z  < \frac{K}{s/\sqrt{n}} \right) $$

Sabiendo que el error estándar es $ES=\frac{s}{\sqrt{n}}= 0.121688$, tenemos que:

\[ 0.90 \; = \; P\left(-\frac{K}{0.121688} < Z < \frac{K}{0.121688} \right) \]

Utilizando propiedades de la normal, se tiene que:

\[P\left(Z >\frac{K}{0.121688} \right) \; = \; \frac{1-0.90}{2} \; = \; 0.05\]

El código para escribir la expresión anterior es:

$$P\left(Z  >\frac{K}{0.121688} \right) \; = \; \frac{1-0.90}{2} \; = \; 0.05$$

En R, el cuantil correspondiente a $\alpha= 0.05$ se calcula con “qnorm()” y es $Z=1.6449:

alfa <- 0.05
Z <- qnorm(1-alfa); Z

## [1] 1.644854

En la imagen de abajo se puede observar el resultado (de cálculo del cuantil) encontrado con Geogebra.

Por lo tanto,

\[\frac{K}{0.121688} = 1.6449, \quad \mbox{de donde} \quad K= (0.121688)(1.6449)=0.20016\]

El código para escribir la expresión anterior es:

$$\frac{K}{0.121688} = 1.6449, \quad \mbox{de donde} \quad K= (0.121688)(1.6449)=0.20016$$

En R:

K <- Z*ES; K

## [1] 0.2001595

En conclusión, el valor K tal que la probabilidad de que la media muestral exceda a la media poblacional en más de K unidades sea 0.06 es de 0.2002.

10.0.16 Solución parte (p)

Filtramos nuestra base de datos (tiene tamaño $n=16$):

Fumadores <- datos2a31 %>%  filter(Fuma=="Si")   #A) La nueva base de datos
d <- dim(Fumadores)                              #B) Número observacions y número de variables 
n <- nrow(Fumadores); n                          #C) Número observaciones (tamaño muestral)

## [1] 16

La nueva base datos “Fumadores” tiene $n=$ 16 observaciones.

10.0.17 Solución parte (q)

Definimos la variable numérica:

P3F <- as.numeric(Fumadores$P3)         #D) La variable P3 en "datos2a31"

10.0.18 Solución parte (r)

Primero, hallamos la media, varianza y desviación estándar de P3F. Con R, se calculan así:

media <- mean(P3F)  #E) Media
s2 <- var(P3F)      #F) Varianza (muestral)
s <- sd(P3F)        #G) Desviación estándar (muestral)

La media, varianza y desviación estándar de P3F son media= 3.65, $s^2=$ 0.66 y $s=$ 0.8124, respectivamente.

10.0.19 Solución parte (s)

1. Datos:
    + Unidades experimentales: Los estudiantes que son fumadores.
    + Población: Las calificaciones del tercer parcial en el grupo de estudiantes fumadores.
    + Estadístico: la media muestral de las calificaciones del tercer parcial de los estudiantes fumadores.
    + Parámetro: la media poblacional de las calificaciones del tercer parcial de los estudiantes fumadores.
    + Tamaño muestral: n=16.
    + Tamaño poblacional: N es desconocido.
    + Otros datos: media poblacional= 3.7, media de la muestra= 3.65 y desviación muestral=0.8124.

2. Verificación de supuestos:
    + De acuerdo a los datos y a la tabla de supuestos C.1, tenemos que:
    + La forma de la población es normal.
    + La varianza poblacional es desconocida.
    + El tamaño muestral es grande (n> 30).

3. Conclusión: 
   La distribución muestral de la media muestral es la $t$ de Student con $v= n-1= 16-1= 15$ grados de libertad.

4. Fórmula: 
   Es la que aparece en la última columna del caso 3, es decir,

\[t= \frac{\overline{x}-\mu}{s/\sqrt{n}}\]

El código para escribir la expresión anterior es:

$$t= \frac{\overline{x}-\mu}{s/\sqrt{n}}$$

10.0.20 Solución parte (t)

Cuando los estudiantes son fumadores, nos piden $P(\overline{X}<4.0)$. Tenemos que:

xbarra <- 4.0            #A) Media muestral
mu <- 3.7                #B) Media poblacional
ES <- s/sqrt(n)          #C) Error estándar (desviación del estadístico)
t <- (xbarra-mu)/ES; t   #D) Valor del estadístico t

## [1] 1.477098

Es decir, $t=$ 1.4770979. Por lo tanto,

\[P(\overline{X}<4.0)\; = \; P\left(t < \frac{4.0 - 3.7}{0.121688} \right)\; =\; P(t<1.477098)\; = \; 0.91983\]

El código para escribir la expresión anterior es:

$$P(\overline{X}<4.0)\;  = \; P\left(t < \frac{4.0 - 3.7}{0.121688} \right)\; =\;   P(t<1.477098)\;  = \; 0.91983$$

En R, esta probabilidad se calcula con la función “pt()”:

glib <- n-1
probabilidad_t <- pt(t,glib); probabilidad_t    #E) Probabilidad pedida

## [1] 0.9198321

En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.

Es decir, cuando los estudiantes son fumadores, la probabilidad de que la media muestral de las calificaciones del tercer parcial sea menor que 4.0 es 0.91983.

10.0.21 Solución parte (u)

Cuando los estudiantes son fumadores, nos piden $P(3.6<\overline{X}<4.1)$. Tenemos que:

xbarra1 <- 3.6
xbarra2 <- 4.1
mu <- 3.7
ES <- s/sqrt(n)
t1 <- (xbarra1-mu)/ES; t1

## [1] -0.492366

t2 <- (xbarra2-mu)/ES; t2

## [1] 1.969464

Los valores de $t$ son: -0.49237 y 1.96946. Por lo tanto, \[P(3.6<\overline{X}<4.1) \; = \; P(-0.49237 < t < 1.96946) \; = \; P(Z< 1.96946) - P(Z< -0.49237) \;= \; 0.65138\]

El código para escribir la expresión anterior es:

$$P(3.6<\overline{X}<4.1) \; = \; P(-0.49237 < t < 1.96946) \;  = \; P(Z< 1.96946) - P(Z< -0.49237)  \;= \; 0.65138$$

En R, esta probabilidad se calcula con la función “pnorm()”:

glib <- n-1
probabilidad_u <- pt(t2, glib)- pt(t1, glib); probabilidad_u    # Probabilidad pedida

## [1] 0.6513778

En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.

Es decir, cuando los estudiantes son fumadores, la probabilidad de que la media muestral de las calificaciones del tercer parcial esté entre 3.6 y 4.1 es 0.65138.

10.0.22 Solución parte (v)

Consideremos solo elgrupo de los estudiantes fumadores. Si la media muestral no está entre 3.6 y 4.1, entonces, quiere decir que la media muestral será menor que 3.5 o mayor que 3.8. Por lo tanto, nos piden \[Prob=P(\overline{X}<3.5) + P(\overline{X}>3.8)\]

ya que el “o” indica una suma de probabilidades. Pero, la probabilidad pedida es el complemento de la hallada en en el inciso (u). Es decir, \[Prob \; =\; P(\overline{X}<3.5) + P(\overline{X}>3.8) \; = \; 1- P(3.6<\overline{X}<4.1) \;= \; 1- 0.65138\;= \; 0.34862\]

El código para escribir la expresión anterior es:

$$Prob \; =\; P(\overline{X}<3.5) + P(\overline{X}>3.8) \; = \; 1- P(3.6<\overline{X}<4.1)   \;= \; 1- 0.65138\;= \; 0.34862$$

En R, esta probabilidad se calcula con la función “pnorm()”:

probabilidad_v <- 1 - probabilidad_u; probabilidad_v

## [1] 0.3486222

En la imagen de abajo se puede observar el resultado (de la probabilidad) encontrado con Geogebra.

Es decir, cuando los estudiantes son fumadores, la probabilidad de que la media muestral de las calificaciones del tercer parcial no esté entre entre 3.6 y 4.1 es 0.65138.

10.0.23 Solución partes (x) a (aa)

Se dejan como ejercicio al lector. Se resuelven de manera similar a los incisos (j) a (o).

11 Ejercicios

Crear un nuevo documento R Markdown, realizando los ejercicios que se indican abajo.

Repita el ejemplo 1, pero considerando P1, las calificaciones del primer parcial.
Repita el ejemplo 1, pero considerando P2 (las calificaciones del segundo parcial) y, en los incios (p) a (aa), el grupo de los no fumadores (definiendo un data frame llamado “NoFumadores”).
Realizar los siguientes ejercicios. Considere los datos recogidos a través de la encuesta realizada a 400 estudiantes universitarios (ver secciones anteriores). Suponga que la media poblacional es igual a 3.7 y que la población es normal. Interprete todas sus respuestas.
1. Considere solamente las observaciones que van desde la 3 hasta la 34. Defina el siguiente data frame:
  - “datos3a34”: con estas observaciones. Verifique su tamaño.
2. Defina el siguiente objeto y halle su media, varianza y desviación estándar.
  - “P3” como las calificaciones del tercer parcial (dentro de “datos3a34”). Utilícelo en los incisos (c)-(o).
3. Escriba un resumen del enunciado del problema, verifique los supuestos, concluya y diga cuál es la fórmula que va a aplicar para calcular las probabilidades que se piden abajo.
4. Calcule la probabilidad de que la media muestral sea mayor que 4.1.
5. Calcule la probabilidad de que la media muestral sea menor que 3.6.
6. Calcule la probabilidad de que la media muestral no esté entre 3.5 y 4.0.
7. Calcule la probabilidad de que media muestral sea menor que 2.6 y mayor que 4.7.
8. Calcule la probabilidad de que la media muestral sea menor que 3.6 y mayor que 3.9.
9. Calcule la probabilidad de que la media muestral sea igual a 3.2.
10. Calcule la probabilidad de que la media muestral exceda a la media poblacional en menos de 0.5.
11. Calcule la probabilidad de que la media muestral se halle más de 0.7 por debajo de la media poblacional.
12. Calcule la probabilidad de que la media muestral difiera de la media poblacional en más de 0.3.
13. Halle un valor K tal que la probabilidad de que la media muestral exceda a la media poblacional en más de K unidades sea 0.06.
14. Halle un valor K tal que la probabilidad de que la media muestral se halle más de K unidades por encima de la media poblacional sea 0.02.
15. Halle un valor K tal que la probabilidad de que la media muestral difiera de la media poblacional en menos de K unidades sea 0.18.
16. Defina el siguiente data frame:
  - “NoFumadores”: obtenido al filtrar “datos3a34” y representa a los estudiantes no fumadores. Verifique su tamaño.
17. Defina el siguiente objeto y utilícelo en los incisos (r)-(x):
  - “P3NoF”: como las calificaciones del tercer parcial (dentro de “NoFumadores”).
18. Halle la media, la varianza y la desviación estándar.
19. Dentro de “NoFumadores”: Calcule la probabilidad de que media muestral no sea menor que 3.6.
20. Dentro de “NoFumadores”: Calcule la probabilidad de que la media muestral sea mayor que 3.4, pero mayor que 3.9.
21. Dentro de “NoFumadores”: Calcule la probabilidad de que la media muestral se halle más de 0.4 por encima de la media poblacional.
22. Dentro de “NoFumadores”: Calcule la probabilidad de que la media muestral difiera de la media poblacional en menos de 0.2.
23. Dentro de “NoFumadores”: Halle un valor K tal que la probabilidad de que la media muestral exceda a la media poblacional en menos de K unidades sea 0.08.
24. Dentro de “NoFumadores”: Halle un valor K tal que la probabilidad de que la media muestral se halle más de K unidades por debajo de la media poblacional sea 0.10.
Repita el ejercicio 3, pero considerando P1, las calificaciones del primer parcial.
Repita el ejercicio 3, pero considerando P2, las calificaciones del segundo parcial y, en los incisos (p)-(x), el grupo de los fumadores.

12 Enlaces y materiales de ayuda

LLinás, H., Estadística inferencial. Barranquilla: Editorial Universidad del Norte, 2006.
Geogebra: https://www.geogebra.org