1 Muestreo por Bola de Nieve

El muestreo por bola de nieve es un método de muestreo que no usa el azar, utilizado principalmente en investigación social y cualitativa. Consiste en seleccionar un grupo pequeño de participantes iniciales (“semillas”) que cumplen con los requisitos del estudio. Luego, se les pide a estas “semillas” que remitan o recomienden a otros individuos de sus redes sociales que también califiquen para la investigación. Este proceso de remisión en cadena se repite en fases hasta que se consigue una muestra suficiente para el estudio.

Se le conoce también como muestreo en cadena o muestreo de red.

1.1 Tipos de Muestreo por Bola de Nieve

El muestreo por bola de nieve no es un método único; tiene variantes que se adaptan a las metas del investigador:

Tipo de Muestreo por Bola de Nieve Mecanismo de Reclutamiento Propósito/Características
Lineal Cada participante inicial recluta a un único nuevo participante, formando una cadena sencilla. Asegura un crecimiento controlado y constante. Útil para investigación cualitativa donde se requieren datos muy detallados.
Exponencial No Discriminatorio Cada participante recluta a múltiples nuevos sujetos, y el investigador incluye a todos los referidos en la muestra, sin restricciones. Provoca una rápida expansión de la muestra. Ideal para estudios exploratorios donde se desea una amplia gama de perspectivas.
Exponencial Discriminatorio Los participantes dan múltiples referencias, pero el investigador aplica criterios específicos para seleccionar cuáles de esas referencias serán incluidas. Se enfoca en un subconjunto específico de la población, aumentando la relevancia de los datos al descartar referencias que no cumplen los requisitos clave.

1.2 Fórmulas para la Estimación del Tamaño de la Muestra

El tamaño de la muestra generalmente se define por el criterio de saturación (cuando ya no surgen nuevas recomendaciones o información). No obstante, es posible estimar el tamaño de la muestra (\(S_n\)), si se asumen condiciones específicas para el número de fases (\(n\)) y el número de referencias.

1.2.1 Modelo Lineal

Si cada persona refiere exactamente a otra persona (\(q=1\)), y asumimos que se comienza con \(a_1\) semillas y se avanza \(n\) fases, el crecimiento total es la suma de términos iguales.

Si se asume que cada fase tiene el mismo tamaño (\(n_{fase}=a_1\)), el crecimiento es:

\[S_n = a_1 \times n\] Donde: * \(S_n\): Tamaño total de la muestra. * \(a_1\): Número de participantes iniciales (semillas). * \(n\): Número de fases de reclutamiento.

Ejemplo: Si comenzamos con \(a_1=5\) semillas, y cada una recluta solo a una persona en 3 fases (\(n=3\)). Hallar el tamaño total de la muestra:

a_1 = 5
n = 3
S_n = a_1 * n
S_n
## [1] 15

El valor hallado, 15, representa el tamaño total de la muestra que el investigador espera obtener después de completar las 3 etapas, asumiendo un crecimiento constante de 5 participantes por etapa.

1.2.2 Modelo Exponencial No Discriminatorio

Este modelo se caracteriza porque cada participante refiere a múltiples sujetos (\(q > 1\)), y todos los referidos son incluidos.

\[S_n = \frac{a_1(1-q^n)}{1-q}, \quad \text{donde } q \neq 1\] Donde: * \(S_n\): Tamaño total de la muestra. * \(a_1\): Número de participantes iniciales (semillas). * \(q\): Número de referencias proporcionadas por cada participante. * \(n\): Número de fases de reclutamiento.

Ejemplo: Para tres fases de reclutamiento (\(n=3\)) donde se inicia con 2 participantes o semillas (\(a_1=2\)) y cada uno recomienda dos personas (\(q=2\)), la muestra total es:

a_1 = 2
n = 3
q = 2
S_n = (a_1*(1-q^n))/(1-q)
S_n
## [1] 14

Si se comienza un estudio con 2 participantes y cada uno de ellos consistentemente refiere a 2 personas más en 3 etapas sucesivas de reclutamiento, la muestra esperada alcanzará un tamaño total de 14 individuos.

1.2.3 Modelo Exponencial Discriminatorio

En este caso, aunque los participantes refieren a múltiples sujetos, el investigador discrimina (selecciona) solo a aquellos que cumplen criterios específicos.

Existen 2 casos:

a) Si el investigador aplica el “filtro” de manera que el número de personas que logran pasar el filtro y unirse al estudio es el mismo en cada etapa, podemos usar la siguiente fórmula:

Aquí, la variable \(q\) representa el número constante de personas que se seleccionan después de aplicar el filtro.

\[S_n = \frac{a_1(1-q^n)}{1-q}, \quad \text{donde } q \neq 1\]

Donde: * \(S_n\): Tamaño total de la muestra. * \(a_1\): Número de participantes iniciales (semillas). * \(q\): Número de referencias que fueron incluidas después de aplicar el filtro. * \(n\): Número de fases de reclutamiento.

Nota La fórmula entre Modelo Exponencial No Discriminatorio y este caso de Modelo Exponencial Discriminatorio es idéntica porque, desde la perspectiva matemática, ambos modelos cumplen con el requisito de tener un factor de crecimiento (q) constante a lo largo de las fases de reclutamiento (n).

b) Si la selección del investigador hace que el número de personas incluidas en la muestra varíe en cada etapa (es decir, el número de personas reclutadas es diferente en cada paso), el crecimiento de la muestra es irregular.

Para estos casos de crecimiento variable, se utiliza una fórmula que suma el crecimiento de manera secuencial.

\[S_n = a_1 + a_1 a_2 + a_1 a_2 a_3 + \dots + a_1 a_2 \dots a_n\]

Donde: * \(S_n\): Tamaño total de la muestra. * \(a_1\): Número de participantes iniciales (semillas). * \(a_2, a_3, \dots\): Números de referencias incluidas (después de aplicar el filtro) en etapas sucesivas.

Ejemplo: Si se inicia la investigación con 2 participantes o semillas (\(a_1=2\)), en la segunda etapa se seleccionan 5 personas (\(a_2=5\)), y en la tercera etapa se seleccionan 3 (\(a_3=3\)), el tamaño de la muestra es:

a_1 = 2
a_2 = 5
a_3 = 3
S_n = a_1 + a_1*a_2 + a_1*a_2*a_3
S_n
## [1] 42

El número 42 representa el total de personas que el investigador estima tener en la muestra después de pasar por un proceso de reclutamiento de tres etapas donde el filtro selectivo (discriminación) del investigador hizo que el número de personas incluidas variara entre las etapas.


2 Estimadores

Este taller presenta un análisis estadístico sobre el rendimiento académico y hábitos de estudio de estudiantes universitarios. Se utilizan técnicas de muestreo probabilístico y análisis de estimadores para responder preguntas de investigación relevantes.

2.1 Pregunta de Investigación

¿Existe una relación significativa entre las horas de estudio semanales y el promedio académico de los estudiantes universitarios?

2.2 Generación de la Población

2.2.1 Creación de la Base de Datos

Generamos una población de 1000 estudiantes universitarios con las siguientes características:

# Crear población de 1000 estudiantes
n_poblacion = 1000

# Establecer semilla para reproducibilidad de la población
set.seed(1)

poblacion = data.frame(
  id = 1:n_poblacion,
  edad = round(rnorm(n_poblacion, mean = 20, sd = 2)),
  horas_estudio = round(pmax(0, rnorm(n_poblacion, mean = 15, sd = 5)), 1),
  promedio = round(pmax(0, pmin(5, rnorm(n_poblacion, mean = 3.5, sd = 0.6))), 2),
  genero = sample(c("M", "F"), n_poblacion, replace = TRUE),
  semestre = sample(1:10, n_poblacion, replace = TRUE)
)

# Crear variable categórica: aprueba con buen promedio (>3.5) donde 1 indicará que si aprueba y 0 indicará que no aprueba)
poblacion$aprueba = ifelse(poblacion$promedio > 3.5, 1, 0)

#Se visualizan los primeros 25 estudiantes de la población
head(poblacion, 25)
##    id edad horas_estudio promedio genero semestre aprueba
## 1   1   19          20.7     2.97      M       10       0
## 2   2   20          20.6     2.35      F        2       0
## 3   3   18          10.6     4.47      F        5       1
## 4   4   23          16.1     3.81      M        3       1
## 5   5   21          15.3     3.47      F        1       0
## 6   6   18           6.7     3.92      M        7       1
## 7   7   21          19.1     3.53      M        8       1
## 8   8   21           5.4     2.71      M        2       0
## 9   9   21           8.8     2.23      M       10       0
## 10 10   19          20.0     3.38      M        9       0
## 11 11   23          12.3     3.31      M       10       0
## 12 12   21          13.9     2.87      M        9       0
## 13 13   19           6.9     3.75      M        2       1
## 14 14   16           7.7     3.31      M        7       0
## 15 15   22          16.8     4.00      F        5       1
## 16 16   20          14.1     4.27      F        9       1
## 17 17   20          12.0     3.12      M        9       0
## 18 18   22           8.3     2.97      M        4       0
## 19 19   22           9.5     3.59      M        4       1
## 20 20   21          25.2     4.36      F        4       1
## 21 21   22          13.4     2.46      M        6       0
## 22 22   22          18.9     3.00      M        2       0
## 23 23   20          18.9     3.07      F        9       0
## 24 24   16          18.8     3.72      F       10       1
## 25 25   21          16.5     4.93      M        5       1

2.3 Variables de estudio

Las variables a tomar son Horas de Estudio Semanales (horas_estudio) y Promedio Académico (promedio)

2.4 Muestreo Probabilístico

Utilizamos Muestreo Aleatorio Simple (MAS) para garantizar que cada elemento de la población tenga la misma probabilidad de ser seleccionado.

2.4.1 Muestra 1: 70% de la población (n = 700)

# Establecer semilla para reproducibilidad del muestreo
set.seed(2)

n_muestra1 = round(0.70 * n_poblacion)
indices_muestra1 = sample(1:n_poblacion, n_muestra1, replace = FALSE)
muestra1 = poblacion[indices_muestra1, ]

cat("Tamaño de la Muestra 1:", nrow(muestra1), "estudiantes.")
## Tamaño de la Muestra 1: 700 estudiantes.
#Se visualizan los primeros 5 estudiantes de la muestra 2.
head(muestra1, 5)
##      id edad horas_estudio promedio genero semestre aprueba
## 853 853   18          18.7     4.10      F        5       1
## 975 975   14          11.9     3.32      M       10       0
## 710 710   24           7.4     2.95      F        4       0
## 774 774   23          19.4     3.29      F        4       0
## 416 416   21          14.4     4.60      F        4       1

2.4.2 Muestra 2: 30% de la población (n = 300)

# Establecer semilla para reproducibilidad del muestreo
set.seed(3)

n_muestra2 = round(0.30 * n_poblacion)
indices_muestra2 = sample(1:n_poblacion, n_muestra2, replace = FALSE)
muestra2 = poblacion[indices_muestra2, ]

cat("Tamaño de la Muestra 1:", nrow(muestra1), "estudiantes.")
## Tamaño de la Muestra 1: 700 estudiantes.
#Se visualizan los primeros 5 estudiantes de la muestra 2.
head(muestra2, 5)
##      id edad horas_estudio promedio genero semestre aprueba
## 773 773   22          12.2     3.71      F        8       1
## 698 698   21           5.5     3.99      F        3       1
## 652 652   18          12.5     3.48      F        8       0
## 548 548   21          12.5     4.45      F        5       1
## 999 999   17          20.0     2.20      F        7       0

2.5 Estimadores para Variable 1: Horas de Estudio

2.5.1 Media Muestral

# Parámetro poblacional
mu_horas_pob = mean(poblacion$horas_estudio)

# Estimadores muestrales
media_horas_m1 = mean(muestra1$horas_estudio)
media_horas_m2 = mean(muestra2$horas_estudio)

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(mu_horas_pob,2),"\n","Estimador Muestra 1:  ", round(media_horas_m1,2),"\n","Estimador Muestra 2:  ", round(media_horas_m2,2))
##  Parámetro poblacional: 14.92 
##  Estimador Muestra 1:   14.96 
##  Estimador Muestra 2:   15.11

2.5.1.1 Determinación de Sesgo

diferencia_poblacion_m1 = abs(media_horas_m1 - mu_horas_pob)

cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 0.03971429

El estimador de la media muestral presenta una diferencia de aproximadamente 0.04 con respecto a la media poblacional (14.96 vs. 14.92).

Según la tabla de propiedades del estimador, este valor corresponde a un sesgo pequeño, atribuible a la variabilidad muestral y no a un desplazamiento sistemático. Se considera aceptable al no tener impacto significativo sobre el error cuadrático medio (MSE).

diferencia_poblacion_m2 = abs(media_horas_m2 - mu_horas_pob)

cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 0.189

El estimador de la media muestral presenta una diferencia de aproximadamente 0.19 con respecto a la media poblacional (15.11 vs. 14.92).

Según la tabla de propiedades del estimador, este valor corresponde a un sesgo pequeño, atribuible a la variabilidad muestral y no a un desplazamiento sistemático. Se considera aceptable al no tener impacto significativo sobre el error cuadrático medio (MSE).

NOTA: Se debe aclarar que la media muestral es INSESGADA, teóricamente:

\[E[\bar{X}]=\mu\] Según la teoría, las diferencias observadas entre las medias muestrales y la media poblacional son variabilidad aleatoria, NO sesgo.

2.5.1.2 Consistencia

Al validar los resultados obtenidos para la media poblacional y las medias muestrales:

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(mu_horas_pob,2),"\n","Estimador Muestra 1:  ", round(media_horas_m1,2),"\n","Estimador Muestra 2:  ", round(media_horas_m2,2))
##  Parámetro poblacional: 14.92 
##  Estimador Muestra 1:   14.96 
##  Estimador Muestra 2:   15.11

Se evidencia que la media muestral se acerca a la media poblacional cuando se agregan mas datos, es decir, la media muestral converge hacia la media poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la media es consistente.

2.5.1.3 Eficiencia

Es asociada a que tan grande es la varianza de un estimador.

\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\] Para el caso del estimador de la media muestral:

\[Var(\bar{X}) = {\sigma}^2/n\]

# Varianza del estimador de la media = varianza muestral / tamaño de la muestra
var_horas_m1 = var(muestra1$horas_estudio)
var_horas_m2 = var(muestra2$horas_estudio)

var_media_m1 = var_horas_m1 / nrow(muestra1)
var_media_m2 = var_horas_m2 / nrow(muestra2)

cat(" Varianza muestra 1:", round(var_media_m1,2), "\n", "Varianza muestra 2:", round(var_media_m2,2), "\n")
##  Varianza muestra 1: 0.04 
##  Varianza muestra 2: 0.1
if (var_media_m1 < var_media_m2) {
cat("El estimador de la media en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_media_m1 > var_media_m2) {
cat("El estimador de la media en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la media en la Muestra 1 es MÁS EFICIENTE (menor varianza).

2.5.1.4 Suficiencia

Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.

En este, el parámetro poblacional de horas de estudio fue de 14.92.

La media muestral de la muestra 1 (70%) fue de 14.96 horas, mientras que la media muestral de la muestra 2 (30%) fue de 15.11 horas.

Ambas medias muestrales resumen completamente la información relevante de sus respectivas muestras sobre el promedio poblacional de horas de estudio, ya que cada una incorpora todos los valores observados de la variable horas_estudio para estimar el parámetro \(\mu\).

Por tanto, tanto la media muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, pues utilizan toda la información disponible en los datos para representar el comportamiento promedio de la población sin pérdida de información estadística.

2.5.2 Varianza Muestral

# Parámetro poblacional
var_horas_pob = var(poblacion$horas_estudio)

# Estimadores muestrales
var_horas_m1 = var_horas_m1
var_horas_m2 = var_horas_m2

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(var_horas_pob,2),"\n","Estimador Muestra 1:  ", round(var_horas_m1,2),"\n","Estimador Muestra 2:  ", round(var_horas_m2,2))
##  Parámetro poblacional: 26.98 
##  Estimador Muestra 1:   27.95 
##  Estimador Muestra 2:   29.52

2.5.2.1 Determinación de Sesgo

diferencia_poblacion_m1 = abs(var_horas_m1 - var_horas_pob)

cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 0.9703053

La varianza muestral difiere 0.97 unidades de la varianza poblacional (27.95 vs. 26.98).

De acuerdo con la tabla, este tipo de diferencia representa un sesgo corregible analíticamente, que se elimina aplicando la corrección de Bessel (n−1 en el denominador).

diferencia_poblacion_m2 = abs(var_horas_m2 - var_horas_pob)

cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 2.542991

La varianza muestral difiere 2.54 unidades de la varianza poblacional (29.52 vs. 26.98).

De acuerdo con la tabla, este tipo de diferencia representa un sesgo corregible analíticamente, que se elimina aplicando la corrección de Bessel (n−1 en el denominador).

NOTA: La varianza muestral (con n-1) es INSESGADA, teóricamente:

\[E[S^2] = {\sigma}^2\] La función var() usa corrección de Bessel que garantiza esto.

Las diferencias entre las varianzas muestrales y la varianza poblacional son normales porque son valores altos.

2.5.2.2 Consistencia

Al validar los resultados obtenidos para la varianza poblacional y las varianzas muestrales:

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(var_horas_pob,2),"\n","Estimador Muestra 1:  ", round(var_horas_m1,2),"\n","Estimador Muestra 2:  ", round(var_horas_m2,2))
##  Parámetro poblacional: 26.98 
##  Estimador Muestra 1:   27.95 
##  Estimador Muestra 2:   29.52

Se evidencia que la varianza muestral se acerca a la varianza poblacional cuando se agregan mas datos, es decir, la varianza muestral converge hacia la varianza poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la varianza es consistente.

2.5.2.3 Eficiencia

Es asociada a que tan grande es la varianza de un estimador.

\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\]

Para el caso del estimador de la varianza muestral:

\[Var(S^2) = 2{\sigma}^4/(n-1)\]

# Varianza del estimador de la varianza = 2*varianza muestral^2 / (tamaño de la muestra - 1)

var_var_m1 = (2*var_horas_m1^2) / (nrow(muestra1)-1)
var_var_m2 = (2*var_horas_m2^2) / (nrow(muestra2)-1)

cat(" Varianza muestra 1:", round(var_var_m1,2), "\n", "Varianza muestra 2:", round(var_var_m2,2), "\n")
##  Varianza muestra 1: 2.23 
##  Varianza muestra 2: 5.83
if (var_var_m1 < var_var_m2) {
cat("El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_var_m1 > var_var_m2) {
cat("El estimador de la varianza en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).

2.5.2.4 Suficiencia

Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.

En este caso, el parámetro poblacional de varianza fue de 26.98.

La varianza muestral de la muestra 1 (70%) fue de 27.95, mientras que la varianza muestral de la muestra 2 (30%) fue de 29.52.

Ambas varianzas muestrales resumen completamente la información relevante de sus respectivas muestras sobre la dispersión poblacional, ya que cada una incorpora todos los valores observados de la variable para estimar el parámetro \(\sigma^2\).

Por tanto, tanto la varianza muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, pues utilizan toda la información disponible en los datos para representar la variabilidad de la población sin pérdida de información estadística.

2.5.3 Desviación Estándar Muestral

# Parámetro poblacional y estimadores muestrales
sigma_pob = sqrt(var_horas_pob)     # desviación estándar poblacional
sigma_m1 = sqrt(var_horas_m1)        # desviación estándar muestra 1
sigma_m2 = sqrt(var_horas_m2)        # desviación estándar muestra 2

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(sigma_pob,2),"\n","Estimador Muestra 1:  ", round(sigma_m1,2),"\n","Estimador Muestra 2:  ", round(sigma_m2,2))#### Determinación de Sesgo
##  Parámetro poblacional: 5.19 
##  Estimador Muestra 1:   5.29 
##  Estimador Muestra 2:   5.43

2.5.3.1 Determinación de Sesgo

diferencia_poblacion_m1 = abs(sigma_m1 - sigma_pob)

cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 0.09258237

La desviación estándar muestral difiere 0.09 respecto al valor poblacional (5.29 vs. 5.19).

Según la tabla, esta diferencia representa un sesgo pequeño, causado por la variabilidad muestral.

diferencia_poblacion_m2 = abs(sigma_m2 - sigma_pob)

cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 0.2392915

La desviación estándar muestral difiere 0.24 respecto al valor poblacional (5.43 vs. 5.19).

Según la tabla, esta diferencia representa un sesgo pequeño, causado por la variabilidad muestral.

NOTA: La desviación estándar tiene SESGO NEGATIVO pequeño, teóricamente:

\[E[S] < {\sigma}\] Esto es por la desigualdad de Jensen, no por el umbral empírico, desginado por nosotros.

Las diferencias entre las deviaciones estándar muestrales y la desviación estándar poblacional no supera 0.3 (para n=300, que es la diferencia más alta), esto lo hace prácticamente despreciable.

2.5.3.2 Consistencia

Al validar los resultados obtenidos para la varianza poblacional y las varianzas muestrales:

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(sigma_pob,2),"\n","Estimador Muestra 1:  ", round(sigma_m1,2),"\n","Estimador Muestra 2:  ", round(sigma_m2,2))
##  Parámetro poblacional: 5.19 
##  Estimador Muestra 1:   5.29 
##  Estimador Muestra 2:   5.43

Se evidencia que la Desviación Estándar muestral se acerca a la Desviación Estándar poblacional cuando se agregan mas datos, es decir, la Desviación Estándar muestral converge hacia la Desviación Estándar poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la Desviación Estándar es consistente.

2.5.3.3 Eficiencia

Es asociada a que tan grande es la varianza de un estimador.

\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\]

Para el caso del estimador de la Desviación Estándar muestral:

\[Var(s) = {\sigma}^2/2(n-1)\]

# Varianza del estimador de la varianza = varianza muestral / 2*(tamaño de la muestra - 1)

var_desvest_m1 = (var_horas_m1) / (2*(nrow(muestra1)-1))
var_desvest_m2 = (var_horas_m2) / (2*(nrow(muestra2)-1))

cat(" Varianza muestra 1:", round(var_desvest_m1,2), "\n", "Varianza muestra 2:", round(var_desvest_m2,2), "\n")
##  Varianza muestra 1: 0.02 
##  Varianza muestra 2: 0.05
if (var_desvest_m1 < var_desvest_m2) {
cat("El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_desvest_m1 > var_desvest_m2) {
cat("El estimador de la varianza en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).

2.5.3.4 Suficiencia

Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.

En este caso, el parámetro poblacional de la desviación estándar de las horas de estudio fue de 5.19.

La desviación estándar muestral de la muestra 1 (70%) fue de 5.29 horas, mientras que la desviación estándar muestral de la muestra 2 (30%) fue de 5.43 horas.

Cada desviación estándar muestral resume completamente la dispersión de los datos en sus respectivas muestras con relación al promedio de horas de estudio.
Esto significa que aprovechan toda la información relevante contenida en las observaciones individuales de horas_estudio para medir la variabilidad respecto a la media.

Por tanto, tanto la desviación estándar muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, ya que representan de forma completa la variabilidad de la población con base en los datos muestrales, sin pérdida de información estadística.

2.6 Estimadores para Variable 2: Promedio Académico

2.6.1 Media Muestral

# Parámetro poblacional
mu_promedio_pob = mean(poblacion$promedio)

# Estimadores muestrales
media_promedio_m1 = mean(muestra1$promedio)
media_promedio_m2 = mean(muestra2$promedio)

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(mu_promedio_pob,4),"\n","Estimador Muestra 1:  ", round(media_promedio_m1,4),"\n","Estimador Muestra 2:  ", round(media_promedio_m2,4))
##  Parámetro poblacional: 3.5086 
##  Estimador Muestra 1:   3.5086 
##  Estimador Muestra 2:   3.5174

2.6.1.1 Determinación de Sesgo

diferencia_poblacion_m1 = abs(media_promedio_m1 - mu_promedio_pob)

cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 1e-05

El estimador de la media muestral presenta una diferencia de aproximadamente 0.00001 con respecto a la media poblacional (3.5086 vs. 3.5086).

Según la tabla de propiedades del estimador, este valor corresponde a un sesgo pequeño, atribuible a la variabilidad muestral y no a un desplazamiento sistemático. Se considera aceptable al no tener impacto significativo sobre el error cuadrático medio (MSE).

diferencia_poblacion_m2 = abs(media_promedio_m2 - mu_promedio_pob)

cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 0.00879

El estimador de la media muestral presenta una diferencia de aproximadamente 0.00879 con respecto a la media poblacional (3.5174 vs. 3.5086).

Según la tabla de propiedades del estimador, este valor corresponde a un sesgo pequeño, atribuible a la variabilidad muestral y no a un desplazamiento sistemático. Se considera aceptable al no tener impacto significativo sobre el error cuadrático medio (MSE).

NOTA: Se debe aclarar que la media muestral es INSESGADA, teóricamente:

\[E[\bar{X}]=\mu\] Según la teoría, las diferencias observadas entre las medias muestrales y la media poblacional son variabilidad aleatoria, NO sesgo.

2.6.1.2 Consistencia

Al validar los resultados obtenidos para la media poblacional y las medias muestrales:

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(mu_promedio_pob,4),"\n","Estimador Muestra 1:  ", round(media_promedio_m1,4),"\n","Estimador Muestra 2:  ", round(media_promedio_m2,4))
##  Parámetro poblacional: 3.5086 
##  Estimador Muestra 1:   3.5086 
##  Estimador Muestra 2:   3.5174

Se evidencia que la media muestral se acerca a la media poblacional cuando se agregan mas datos, es decir, la media muestral converge hacia la media poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la media es consistente.

2.6.1.3 Eficiencia

Es asociada a que tan grande es la varianza de un estimador.

\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\] Para el caso del estimador de la media muestral:

\[Var(\bar{X}) = {\sigma}^2/n\]

# Varianza del estimador de la media = varianza muestral / tamaño de la muestra
var_promedio_m1 = var(muestra1$promedio)
var_promedio_m2 = var(muestra2$promedio)

var_media_m1 = var_promedio_m1 / nrow(muestra1)
var_media_m2 = var_promedio_m2 / nrow(muestra2)

cat(" Varianza muestra 1:", format(round(var_media_m1,4), scientific = FALSE), "\n", "Varianza muestra 2:", format(round(var_media_m2,4), scientific = FALSE), "\n")
##  Varianza muestra 1: 0.0006 
##  Varianza muestra 2: 0.0013
if (var_media_m1 < var_media_m2) {
cat("El estimador de la media en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_media_m1 > var_media_m2) {
cat("El estimador de la media en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la media en la Muestra 1 es MÁS EFICIENTE (menor varianza).

2.6.1.4 Suficiencia

Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.

En este, el parámetro poblacional de la media para el promedio académico fue de 3.5086.

La media muestral de la muestra 1 (70%) fue de 3.5086, mientras que la media muestral de la muestra 2 (30%) fue de 3.5174.

Ambas medias muestrales resumen completamente la información relevante de sus respectivas muestras sobre el promedio poblacional de promedio académico, ya que cada una incorpora todos los valores observados de la variable promedio para estimar el parámetro \(\mu\).

Por tanto, tanto la media muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, pues utilizan toda la información disponible en los datos para representar el comportamiento promedio de la población sin pérdida de información estadística.

2.6.2 Varianza Muestral

# Parámetro poblacional
var_promedio_pob = var(poblacion$promedio)

# Estimadores muestrales
var_promedio_m1 = var_promedio_m1
var_promedio_m2 = var_promedio_m2

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(var_promedio_pob,4),"\n","Estimador Muestra 1:  ", round(var_promedio_m1,4),"\n","Estimador Muestra 2:  ", round(var_promedio_m2,4))
##  Parámetro poblacional: 0.3811 
##  Estimador Muestra 1:   0.3887 
##  Estimador Muestra 2:   0.3808

2.6.2.1 Determinación de Sesgo

diferencia_poblacion_m1 = abs(var_promedio_m1 - var_promedio_pob)

cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 0.007598559

La varianza muestral difiere 0.0076 unidades de la varianza poblacional (0.3887 vs. 0.3811).

De acuerdo con la tabla, este tipo de diferencia representa un sesgo corregible analíticamente, que se elimina aplicando la corrección de Bessel (n−1 en el denominador).

diferencia_poblacion_m2 = abs(var_promedio_m2 - var_promedio_pob)

cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 0.0003412027

La varianza muestral difiere 0.000341 unidades de la varianza poblacional (0.3808 vs. 0.3811).

De acuerdo con la tabla, este tipo de diferencia representa un sesgo corregible analíticamente, que se elimina aplicando la corrección de Bessel (n−1 en el denominador).

NOTA: La varianza muestral (con n-1) es INSESGADA, teóricamente:

\[E[S^2] = {\sigma}^2\] La función var() usa corrección de Bessel que garantiza esto.

Las diferencias entre las varianzas muestrales y la varianza poblacional son normales porque son valores altos.

2.6.2.2 Consistencia

Al validar los resultados obtenidos para la varianza poblacional y las varianzas muestrales:

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(var_promedio_pob,4),"\n","Estimador Muestra 1:  ", round(var_promedio_m1,4),"\n","Estimador Muestra 2:  ", round(var_promedio_m2,4))
##  Parámetro poblacional: 0.3811 
##  Estimador Muestra 1:   0.3887 
##  Estimador Muestra 2:   0.3808

Se evidencia que la varianza muestral se acerca a la varianza poblacional cuando se agregan mas datos, es decir, la varianza muestral converge hacia la varianza poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la varianza es consistente.

NOTA: La coincidencia del valor de la varianza calculada para la muestra 2 con respecto al parámetro poblacional no significa inconsistencia, solo una fluctuación muestral aleatoria.

2.6.2.3 Eficiencia

Es asociada a que tan grande es la varianza de un estimador.

\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\]

Para el caso del estimador de la varianza muestral:

\[Var(S^2) = 2{\sigma}^4/(n-1)\]

# Varianza del estimador de la varianza = 2*varianza muestral^2 / (tamaño de la muestra - 1)

var_var_m1 = (2*var_promedio_m1^2) / (nrow(muestra1)-1)
var_var_m2 = (2*var_promedio_m2^2) / (nrow(muestra2)-1)

cat(" Varianza muestra 1:", format(round(var_var_m1,4), scientific = FALSE), "\n", "Varianza muestra 2:", format(round(var_var_m2,4), scientific = FALSE), "\n")
##  Varianza muestra 1: 0.0004 
##  Varianza muestra 2: 0.001
if (var_var_m1 < var_var_m2) {
cat("El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_var_m1 > var_var_m2) {
cat("El estimador de la varianza en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).

2.6.2.4 Suficiencia

Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.

En este caso, el parámetro poblacional de varianza fue de 0.3811.

La varianza muestral de la muestra 1 (70%) fue de 0.3887, mientras que la varianza muestral de la muestra 2 (30%) fue de 0.3808.

Ambas varianzas muestrales resumen completamente la información relevante de sus respectivas muestras sobre la dispersión poblacional, ya que cada una incorpora todos los valores observados de la variable para estimar el parámetro \(\sigma^2\).

Por tanto, tanto la varianza muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, pues utilizan toda la información disponible en los datos para representar la variabilidad de la población sin pérdida de información estadística.

2.6.3 Desviación Estándar Muestral

# Parámetro poblacional y estimadores muestrales
sigma_pob = sqrt(var_promedio_pob)     # desviación estándar poblacional
sigma_m1 = sqrt(var_promedio_m1)        # desviación estándar muestra 1
sigma_m2 = sqrt(var_promedio_m2)        # desviación estándar muestra 2

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(sigma_pob,4),"\n","Estimador Muestra 1:  ", round(sigma_m1,4),"\n","Estimador Muestra 2:  ", round(sigma_m2,4))#### Determinación de Sesgo
##  Parámetro poblacional: 0.6174 
##  Estimador Muestra 1:   0.6235 
##  Estimador Muestra 2:   0.6171

2.6.3.1 Determinación de Sesgo

diferencia_poblacion_m1 = abs(sigma_m1 - sigma_pob)

cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 0.006123642

La desviación estándar muestral difiere 0.00612 respecto al valor poblacional (0.6235 vs. 0.6174).

Según la tabla, esta diferencia representa un sesgo pequeño, causado por la variabilidad muestral.

diferencia_poblacion_m2 = abs(sigma_m2 - sigma_pob)

cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 0.0002763992

La desviación estándar muestral difiere 0.00612 respecto al valor poblacional (0.6171 vs. 0.6174).

Según la tabla, esta diferencia representa un sesgo pequeño, causado por la variabilidad muestral.

NOTA: La desviación estándar tiene SESGO NEGATIVO pequeño, teóricamente:

\[E[S] < {\sigma}\] Esto es por la desigualdad de Jensen, no por el umbral empírico, desginado por nosotros.

Las diferencias entre las deviaciones estándar muestrales y la desviación estándar poblacional no supera 0.01 (para n=700, que es la diferencia más alta), esto lo hace prácticamente despreciable.

2.6.3.2 Consistencia

Al validar los resultados obtenidos para la varianza poblacional y las varianzas muestrales:

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(sigma_pob,4),"\n","Estimador Muestra 1:  ", round(sigma_m1,4),"\n","Estimador Muestra 2:  ", round(sigma_m2,4))
##  Parámetro poblacional: 0.6174 
##  Estimador Muestra 1:   0.6235 
##  Estimador Muestra 2:   0.6171

Se evidencia que la Desviación Estándar muestral se acerca a la Desviación Estándar poblacional cuando se agregan mas datos, es decir, la Desviación Estándar muestral converge hacia la Desviación Estándar poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la Desviación Estándar es consistente.

NOTA: La coincidencia del valor de la desviación estándar calculada para la muestra 2 con respecto al parámetro poblacional no significa inconsistencia, solo una fluctuación muestral aleatoria.

2.6.3.3 Eficiencia

Es asociada a que tan grande es la varianza de un estimador.

\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\]

Para el caso del estimador de la Desviación Estándar muestral:

\[Var(s) = {\sigma}^2/2(n-1)\]

# Varianza del estimador de la varianza = varianza muestral / 2*(tamaño de la muestra - 1)

var_desvest_m1 = (var_promedio_m1) / (2*(nrow(muestra1)-1))
var_desvest_m2 = (var_promedio_m2) / (2*(nrow(muestra2)-1))

cat(" Varianza muestra 1:", format(round(var_desvest_m1,4), scientific = FALSE), "\n", "Varianza muestra 2:", format(round(var_desvest_m2,4), scientific = FALSE), "\n")
##  Varianza muestra 1: 0.0003 
##  Varianza muestra 2: 0.0006
if (var_desvest_m1 < var_desvest_m2) {
cat("El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_desvest_m1 > var_desvest_m2) {
cat("El estimador de la varianza en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).

2.6.3.4 Suficiencia

Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.

En este caso, el parámetro poblacional de la desviación estándar del promedio académico fue de 0.6174.

La desviación estándar muestral de la muestra 1 (70%) fue de 0.6235, mientras que la desviación estándar muestral de la muestra 2 (30%) fue de 0.6171.

Cada desviación estándar muestral resume completamente la dispersión de los datos en sus respectivas muestras con relación al promedio académico.

Esto significa que aprovechan toda la información relevante contenida en las observaciones individuales de promedio para medir la variabilidad respecto a la media.

Por tanto, tanto la desviación estándar muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, ya que representan de forma completa la variabilidad de la población con base en los datos muestrales, sin pérdida de información estadística.


3 Intervalos de confianza

3.1 Estimador Media

3.1.1 Variable Horas de Estudio

3.1.1.1 Intervalo de confianza para Muestra 1

# Calcular el intervalo de confianza para la media
nivel_confianza_muestra1_horas_estudio = 0.95
muestra1_media_horas_estudio = mean(muestra1$horas_estudio)
desviacion_estandar_muestra1_horas_estudio = sd(muestra1$horas_estudio)
tamano_muestra1_horas_estudio = length(muestra1$horas_estudio)
desviacion_estandar_poblacional_horas_estudio = sd(poblacion$horas_estudio)

# Calcular el error estándar de la media 
error_estandar_muestra1_horas_estudio = desviacion_estandar_poblacional_horas_estudio / sqrt(tamano_muestra1_horas_estudio)

# Calcular el valor crítico de la distribución normal
# Valor crítico de la distribución Normal ESTÁNDAR (μ=0, σ=1)
# NO se usan los parámetros de nuestros datos (media_m1, sigma_pob) porque:
# - El valor crítico es un número fijo que solo depende del nivel de confianza
# - Viene de la distribución Normal ESTÁNDAR, no de nuestros datos específicos
# - Para IC 95% siempre es 1.96, sin importar nuestros datos
# - Los datos entran en el MARGEN DE ERROR, no en el valor crítico
valor_critico_muestra1_horas_estudio = qnorm((1 + nivel_confianza_muestra1_horas_estudio)/2)

# Calcular el margen de error
margen_error_muestra1_horas_estudio = valor_critico_muestra1_horas_estudio * error_estandar_muestra1_horas_estudio

# Calcular el intervalo de confianza
intervalo_confianza_muestra1_horas_estudio = c(muestra1_media_horas_estudio - margen_error_muestra1_horas_estudio, muestra1_media_horas_estudio + margen_error_muestra1_horas_estudio)

# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza_muestra1_horas_estudio * 100, "% para la media de la muestra 1 de la variable Horas de Estudio:", intervalo_confianza_muestra1_horas_estudio[1], "-", intervalo_confianza_muestra1_horas_estudio[2])
## Intervalo de confianza del 95 % para la media de la muestra 1 de la variable Horas de Estudio: 14.57595 - 15.34548

Se evidencia lo siguiente:

  • Media muestral: 14.96 horas
  • IC 95%: [14.58, 15.35]
  • Amplitud: 0.77 horas
  • El parámetro poblacional (miu = 14.92) SÍ está dentro del IC

Interpretación: Con 95% de confianza, estimamos que la media poblacional de horas de estudio semanales está entre 14.58 y 15.35 horas. Esto significa que si repitiéramos este muestreo muchas veces, aproximadamente el 95% de los intervalos construidos contendrían la verdadera media poblacional.

3.1.1.2 Intervalo de confianza para Muestra 2

# Calcular el intervalo de confianza para la media
nivel_confianza_muestra2_horas_estudio = 0.95
muestra2_media_horas_estudio = mean(muestra2$horas_estudio)
desviacion_estandar_muestra2_horas_estudio = sd(muestra2$horas_estudio)
tamano_muestra2_horas_estudio = length(muestra2$horas_estudio)
desviacion_estandar_poblacional_horas_estudio = sd(poblacion$horas_estudio)

# Calcular el error estándar de la media 
error_estandar_muestra2_horas_estudio = desviacion_estandar_poblacional_horas_estudio / sqrt(tamano_muestra2_horas_estudio)

# Calcular el valor crítico de la distribución normal
# Valor crítico de la distribución Normal ESTÁNDAR (μ=0, σ=1)
# NO se usan los parámetros de nuestros datos (media_m1, sigma_pob) porque:
# - El valor crítico es un número fijo que solo depende del nivel de confianza
# - Viene de la distribución Normal ESTÁNDAR, no de nuestros datos específicos
# - Para IC 95% siempre es 1.96, sin importar nuestros datos
# - Los datos entran en el MARGEN DE ERROR, no en el valor crítico
valor_critico_muestra2_horas_estudio = qnorm((1 + nivel_confianza_muestra2_horas_estudio) / 2)

# Calcular el margen de error
margen_error_muestra2_horas_estudio = valor_critico_muestra2_horas_estudio * error_estandar_muestra2_horas_estudio

# Calcular el intervalo de confianza
intervalo_confianza_muestra2_horas_estudio = c(muestra2_media_horas_estudio - margen_error_muestra2_horas_estudio, muestra2_media_horas_estudio + margen_error_muestra2_horas_estudio)

# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza_muestra2_horas_estudio * 100, "% para la media de la muestra 2 de la variable Horas de Estudio:", intervalo_confianza_muestra2_horas_estudio[1], "-", intervalo_confianza_muestra2_horas_estudio[2])
## Intervalo de confianza del 95 % para la media de la muestra 2 de la variable Horas de Estudio: 14.52226 - 15.69774

Se evidencia lo siguiente:

  • Media muestral: 15.11 horas
  • IC 95%: [14.52, 15.70]
  • Amplitud: 1.18 horas
  • El parámetro poblacional (miu = 14.92) SÍ está dentro del IC

Interpretación: Con 95% de confianza, estimamos que la media poblacional de horas de estudio semanales está entre 14.52 y 15.70 horas.

Las dos muestras producen estimaciones válidas y consistentes de la media poblacional. La Muestra 1, al ser más grande, ofrece mayor precisión (intervalo más estrecho), lo que es deseable en inferencia estadística.

3.1.2 Variable Promedio

3.1.2.1 Intervalo de confianza para Muestra 1

# Calcular el intervalo de confianza para la media
nivel_confianza_muestra1_promedio = 0.95
muestra1_media_promedio = mean(muestra1$promedio)
desviacion_estandar_muestra1_promedio = sd(muestra1$promedio)
tamano_muestra1_promedio = length(muestra1$promedio)
desviacion_estandar_poblacional_promedio = sd(poblacion$promedio)

# Calcular el error estándar de la media 
error_estandar_muestra1_promedio = desviacion_estandar_poblacional_promedio / sqrt(tamano_muestra1_promedio)

# Calcular el valor crítico de la distribución normal
# Valor crítico de la distribución Normal ESTÁNDAR (μ=0, σ=1)
# NO se usan los parámetros de nuestros datos (media_m1, sigma_pob) porque:
# - El valor crítico es un número fijo que solo depende del nivel de confianza
# - Viene de la distribución Normal ESTÁNDAR, no de nuestros datos específicos
# - Para IC 95% siempre es 1.96, sin importar nuestros datos
# - Los datos entran en el MARGEN DE ERROR, no en el valor crítico
valor_critico_muestra1_promedio = qnorm((1 + nivel_confianza_muestra1_promedio)/2)

# Calcular el margen de error
margen_error_muestra1_promedio = valor_critico_muestra1_promedio * error_estandar_muestra1_promedio

# Calcular el intervalo de confianza
intervalo_confianza_muestra1_promedio = c(muestra1_media_promedio - margen_error_muestra1_promedio, muestra1_media_promedio + margen_error_muestra1_promedio)

# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza_muestra1_promedio * 100, "% para la media de la muestra 1 de la variable Promedio:", intervalo_confianza_muestra1_promedio[1], "-", intervalo_confianza_muestra1_promedio[2])
## Intervalo de confianza del 95 % para la media de la muestra 1 de la variable Promedio: 3.462866 - 3.554334

Se evidencia lo siguiente:

  • Media muestral: 3.5086 puntos
  • IC 95%: [3.4629, 3.5543]
  • Amplitud: 0.0914 puntos
  • El parámetro poblacional (miu = 3.5086) SÍ está dentro del IC

Interpretación: Con 95% de confianza, estimamos que la media poblacional del promedio académico está entre 3.4629 y 3.5543 puntos. Este intervalo es muy estrecho, indicando alta precisión en la estimación.

3.1.2.2 Intervalo de confianza para Muestra 2

# Calcular el intervalo de confianza para la media
nivel_confianza_muestra2_promedio = 0.95
muestra2_media_promedio = mean(muestra2$promedio)
desviacion_estandar_muestra2_horas_estudio = sd(muestra2$promedio)
tamano_muestra2_promedio = length(muestra2$promedio)
desviacion_estandar_poblacional_promedio = sd(poblacion$promedio)

# Calcular el error estándar de la media 
error_estandar_muestra2_promedio = desviacion_estandar_poblacional_promedio / sqrt(tamano_muestra2_promedio)

# Calcular el valor crítico de la distribución normal
# Valor crítico de la distribución Normal ESTÁNDAR (μ=0, σ=1)
# NO se usan los parámetros de nuestros datos (media_m1, sigma_pob) porque:
# - El valor crítico es un número fijo que solo depende del nivel de confianza
# - Viene de la distribución Normal ESTÁNDAR, no de nuestros datos específicos
# - Para IC 95% siempre es 1.96, sin importar nuestros datos
# - Los datos entran en el MARGEN DE ERROR, no en el valor crítico
valor_critico_muestra2_promedio = qnorm((1 + nivel_confianza_muestra2_promedio) / 2)

# Calcular el margen de error
margen_error_muestra2_promedio = valor_critico_muestra2_promedio * error_estandar_muestra2_promedio

# Calcular el intervalo de confianza
intervalo_confianza_muestra2_promedio = c(muestra2_media_promedio - margen_error_muestra2_promedio, muestra2_media_promedio + margen_error_muestra2_promedio)

# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza_muestra2_promedio * 100, "% para la media de la muestra 2 de la variable Promedio:", intervalo_confianza_muestra2_promedio[1], "-", intervalo_confianza_muestra2_promedio[2])
## Intervalo de confianza del 95 % para la media de la muestra 2 de la variable Promedio: 3.44754 - 3.58726

Se evidencia lo siguiente:

  • Media muestral: 3.5174 puntos
  • IC 95%: [3.4475, 3.5873]
  • Amplitud: 0.1398 puntos
  • El parámetro poblacional (μ = 3.5086) SÍ está dentro del IC

Interpretación: Con 95% de confianza, estimamos que la media poblacional del promedio académico está entre 3.4475 y 3.5873 puntos.

Ambas muestras producen estimaciones válidas del promedio académico poblacional. La Muestra 1 ofrece mayor precisión debido a su mayor tamaño. La diferencia mínima entre las medias muestrales (menos de 0.01 puntos) confirma que ambas muestras son altamente representativas de la población.