El muestreo por bola de nieve es un método de muestreo que no usa el azar, utilizado principalmente en investigación social y cualitativa. Consiste en seleccionar un grupo pequeño de participantes iniciales (“semillas”) que cumplen con los requisitos del estudio. Luego, se les pide a estas “semillas” que remitan o recomienden a otros individuos de sus redes sociales que también califiquen para la investigación. Este proceso de remisión en cadena se repite en fases hasta que se consigue una muestra suficiente para el estudio.
Se le conoce también como muestreo en cadena o muestreo de red.
El muestreo por bola de nieve no es un método único; tiene variantes que se adaptan a las metas del investigador:
| Tipo de Muestreo por Bola de Nieve | Mecanismo de Reclutamiento | Propósito/Características | |
|---|---|---|---|
| Lineal | Cada participante inicial recluta a un único nuevo participante, formando una cadena sencilla. | Asegura un crecimiento controlado y constante. Útil para investigación cualitativa donde se requieren datos muy detallados. | |
| Exponencial No Discriminatorio | Cada participante recluta a múltiples nuevos sujetos, y el investigador incluye a todos los referidos en la muestra, sin restricciones. | Provoca una rápida expansión de la muestra. Ideal para estudios exploratorios donde se desea una amplia gama de perspectivas. | |
| Exponencial Discriminatorio | Los participantes dan múltiples referencias, pero el investigador aplica criterios específicos para seleccionar cuáles de esas referencias serán incluidas. | Se enfoca en un subconjunto específico de la población, aumentando la relevancia de los datos al descartar referencias que no cumplen los requisitos clave. |
El tamaño de la muestra generalmente se define por el criterio de saturación (cuando ya no surgen nuevas recomendaciones o información). No obstante, es posible estimar el tamaño de la muestra (\(S_n\)), si se asumen condiciones específicas para el número de fases (\(n\)) y el número de referencias.
Si cada persona refiere exactamente a otra persona (\(q=1\)), y asumimos que se comienza con \(a_1\) semillas y se avanza \(n\) fases, el crecimiento total es la suma de términos iguales.
Si se asume que cada fase tiene el mismo tamaño (\(n_{fase}=a_1\)), el crecimiento es:
\[S_n = a_1 \times n\] Donde: * \(S_n\): Tamaño total de la muestra. * \(a_1\): Número de participantes iniciales (semillas). * \(n\): Número de fases de reclutamiento.
Este modelo \(S_n\) = \(a_1\) × n asume condiciones idealizadas:
CRECIMIENTO CONSTANTE:
SIN SOLAPAMIENTO:
SIN PÉRDIDAS:
RECLUTAMIENTO PERFECTO:
En estudios reales, estos supuestos rara vez se cumplen completamente.
Si comenzamos con \(a_1=5\) semillas, y cada una recluta solo a una persona en 3 fases (\(n=3\)). Hallar el tamaño total de la muestra:
a_1 = 5
n = 3
S_n = a_1 * n
S_n
## [1] 15
El valor hallado, 15, representa el tamaño total de la muestra que el investigador espera obtener después de completar las 3 etapas, asumiendo un crecimiento constante de 5 participantes por etapa.
Este modelo se caracteriza porque cada participante refiere a múltiples sujetos (\(q > 1\)), y todos los referidos son incluidos.
\[S_n = \frac{a_1(1-q^n)}{1-q}, \quad \text{donde } q \neq 1\] Donde: * \(S_n\): Tamaño total de la muestra. * \(a_1\): Número de participantes iniciales (semillas). * \(q\): Número de referencias proporcionadas por cada participante. * \(n\): Número de fases de reclutamiento.
SUPUESTO TEÓRICO:
REALIDAD PRÁCTICA:
INTERPRETACIÓN CORRECTA:
Este modelo muestra el CRECIMIENTO POTENCIAL MÁXIMO si todas las condiciones ideales se cumplen. En aplicaciones reales, el crecimiento observado suele ser menor y más irregular.
Para tres fases de reclutamiento (\(n=3\)) donde se inicia con 2 participantes o semillas (\(a_1=2\)) y cada uno recomienda dos personas (\(q=2\)), la muestra total es:
a_1 = 2
n = 3
q = 2
S_n = (a_1*(1-q^n))/(1-q)
S_n
## [1] 14
Si se comienza un estudio con 2 participantes y cada uno de ellos consistentemente refiere a 2 personas más en 3 etapas sucesivas de reclutamiento, la muestra esperada alcanzará un tamaño total de 14 individuos.
En este caso, aunque los participantes refieren a múltiples sujetos, el investigador discrimina (selecciona) solo a aquellos que cumplen criterios específicos.
Existen 2 casos:
a) Si el investigador aplica el “filtro” de manera que el número de personas que logran pasar el filtro y unirse al estudio es el mismo en cada etapa, podemos usar la siguiente fórmula:
Aquí, la variable \(q\) representa el número constante de personas que se seleccionan después de aplicar el filtro.
\[S_n = \frac{a_1(1-q^n)}{1-q}, \quad \text{donde } q \neq 1\]
Donde: * \(S_n\): Tamaño total de la muestra. * \(a_1\): Número de participantes iniciales (semillas). * \(q\): Número de referencias que fueron incluidas después de aplicar el filtro. * \(n\): Número de fases de reclutamiento.
Nota La fórmula entre Modelo Exponencial No Discriminatorio y este caso de Modelo Exponencial Discriminatorio es idéntica porque, desde la perspectiva matemática, ambos modelos cumplen con el requisito de tener un factor de crecimiento (q) constante a lo largo de las fases de reclutamiento (n).
b) Si la selección del investigador hace que el número de personas incluidas en la muestra varíe en cada etapa (es decir, el número de personas reclutadas es diferente en cada paso), el crecimiento de la muestra es irregular.
Para estos casos de crecimiento variable, se utiliza una fórmula que suma el crecimiento de manera secuencial.
\[S_n = a_1 + a_1 a_2 + a_1 a_2 a_3 + \dots + a_1 a_2 \dots a_n\]
Donde: * \(S_n\): Tamaño total de la muestra. * \(a_1\): Número de participantes iniciales (semillas). * \(a_2, a_3, \dots\): Números de referencias incluidas (después de aplicar el filtro) en etapas sucesivas.
Si se inicia la investigación con 2 participantes o semillas (\(a_1=2\)), en la segunda etapa se seleccionan 5 personas (\(a_2=5\)), y en la tercera etapa se seleccionan 3 (\(a_3=3\)), el tamaño de la muestra es:
a_1 = 2
a_2 = 5
a_3 = 3
S_n = a_1 + a_1*a_2 + a_1*a_2*a_3
S_n
## [1] 42
El número 42 representa el total de personas que el investigador estima tener en la muestra después de pasar por un proceso de reclutamiento de tres etapas donde el filtro selectivo (discriminación) del investigador hizo que el número de personas incluidas variara entre las etapas.
LIMITACIONES DE LOS MODELOS TEÓRICOS:
Las expresiones matemáticas para \(S_n\) presentadas anteriormente son MODELOS SIMPLIFICADOS del crecimiento de la muestra.
Estos modelos asumen:
EN LA PRÁCTICA REAL:
El muestreo por bola de nieve NO ES PROBABILÍSTICO, por lo que:
CONCLUSIÓN:
Las fórmulas son HERRAMIENTAS TEÓRICAS de apoyo para entender el crecimiento potencial, pero NO deben usarse como herramientas de cálculo del tamaño muestral en aplicaciones reales.
Este taller presenta un análisis estadístico sobre el rendimiento académico y hábitos de estudio de estudiantes universitarios. Se utilizan técnicas de muestreo probabilístico y análisis de estimadores para responder preguntas de investigación relevantes.
¿Existe una relación significativa entre las horas de estudio semanales y el promedio académico de los estudiantes universitarios?
Generamos una población de 1000 estudiantes universitarios con las siguientes características:
# Crear población de 1000 estudiantes
n_poblacion = 1000
# Establecer semilla para reproducibilidad de la población
set.seed(1)
poblacion = data.frame(
id = 1:n_poblacion,
edad = round(rnorm(n_poblacion, mean = 20, sd = 2)),
horas_estudio = round(pmax(0, rnorm(n_poblacion, mean = 15, sd = 5)), 1),
promedio = round(pmax(0, pmin(5, rnorm(n_poblacion, mean = 3.5, sd = 0.6))), 2),
genero = sample(c("M", "F"), n_poblacion, replace = TRUE),
semestre = sample(1:10, n_poblacion, replace = TRUE)
)
# Crear variable categórica: aprueba con buen promedio (>3.5) donde 1 indicará que si aprueba y 0 indicará que no aprueba)
poblacion$aprueba = ifelse(poblacion$promedio > 3.5, 1, 0)
#Se visualizan los primeros 25 estudiantes de la población
head(poblacion, 25)
## id edad horas_estudio promedio genero semestre aprueba
## 1 1 19 20.7 2.97 M 10 0
## 2 2 20 20.6 2.35 F 2 0
## 3 3 18 10.6 4.47 F 5 1
## 4 4 23 16.1 3.81 M 3 1
## 5 5 21 15.3 3.47 F 1 0
## 6 6 18 6.7 3.92 M 7 1
## 7 7 21 19.1 3.53 M 8 1
## 8 8 21 5.4 2.71 M 2 0
## 9 9 21 8.8 2.23 M 10 0
## 10 10 19 20.0 3.38 M 9 0
## 11 11 23 12.3 3.31 M 10 0
## 12 12 21 13.9 2.87 M 9 0
## 13 13 19 6.9 3.75 M 2 1
## 14 14 16 7.7 3.31 M 7 0
## 15 15 22 16.8 4.00 F 5 1
## 16 16 20 14.1 4.27 F 9 1
## 17 17 20 12.0 3.12 M 9 0
## 18 18 22 8.3 2.97 M 4 0
## 19 19 22 9.5 3.59 M 4 1
## 20 20 21 25.2 4.36 F 4 1
## 21 21 22 13.4 2.46 M 6 0
## 22 22 22 18.9 3.00 M 2 0
## 23 23 20 18.9 3.07 F 9 0
## 24 24 16 18.8 3.72 F 10 1
## 25 25 21 16.5 4.93 M 5 1
Las variables a tomar son Horas de Estudio Semanales (horas_estudio) y Promedio Académico (promedio)
Utilizamos Muestreo Aleatorio Simple (MAS) para garantizar que cada elemento de la población tenga la misma probabilidad de ser seleccionado.
# Establecer semilla para reproducibilidad del muestreo
set.seed(2)
n_muestra1 = round(0.70 * n_poblacion)
indices_muestra1 = sample(1:n_poblacion, n_muestra1, replace = FALSE)
muestra1 = poblacion[indices_muestra1, ]
cat("Tamaño de la Muestra 1:", nrow(muestra1), "estudiantes.")
## Tamaño de la Muestra 1: 700 estudiantes.
#Se visualizan los primeros 5 estudiantes de la muestra 2.
head(muestra1, 5)
## id edad horas_estudio promedio genero semestre aprueba
## 853 853 18 18.7 4.10 F 5 1
## 975 975 14 11.9 3.32 M 10 0
## 710 710 24 7.4 2.95 F 4 0
## 774 774 23 19.4 3.29 F 4 0
## 416 416 21 14.4 4.60 F 4 1
# Establecer semilla para reproducibilidad del muestreo
set.seed(3)
n_muestra2 = round(0.30 * n_poblacion)
indices_muestra2 = sample(1:n_poblacion, n_muestra2, replace = FALSE)
muestra2 = poblacion[indices_muestra2, ]
cat("Tamaño de la Muestra 1:", nrow(muestra1), "estudiantes.")
## Tamaño de la Muestra 1: 700 estudiantes.
#Se visualizan los primeros 5 estudiantes de la muestra 2.
head(muestra2, 5)
## id edad horas_estudio promedio genero semestre aprueba
## 773 773 22 12.2 3.71 F 8 1
## 698 698 21 5.5 3.99 F 3 1
## 652 652 18 12.5 3.48 F 8 0
## 548 548 21 12.5 4.45 F 5 1
## 999 999 17 20.0 2.20 F 7 0
# Parámetro poblacional
mu_horas_pob = mean(poblacion$horas_estudio)
# Estimadores muestrales
media_horas_m1 = mean(muestra1$horas_estudio)
media_horas_m2 = mean(muestra2$horas_estudio)
#Se visualizan los resultados
cat(" Parámetro poblacional:", round(mu_horas_pob,2),"\n","Estimador Muestra 1: ", round(media_horas_m1,2),"\n","Estimador Muestra 2: ", round(media_horas_m2,2))
## Parámetro poblacional: 14.92
## Estimador Muestra 1: 14.96
## Estimador Muestra 2: 15.11
diferencia_poblacion_m1 = abs(media_horas_m1 - mu_horas_pob)
cat("Diferencia observada entre media muestral y poblacional:", diferencia_poblacion_m1)
## Diferencia observada entre media muestral y poblacional: 0.03971429
El estimador de la media muestral presenta una diferencia de aproximadamente 0.04 con respecto a la media poblacional (14.96 vs. 14.92).
Según la tabla de propiedades del estimador, este valor corresponde a un sesgo pequeño, atribuible a la variabilidad muestral y no a un desplazamiento sistemático. Se considera aceptable al no tener impacto significativo sobre el error cuadrático medio (MSE). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).
diferencia_poblacion_m2 = abs(media_horas_m2 - mu_horas_pob)
cat("Diferencia observada entre media muestral y poblacional:", diferencia_poblacion_m2)
## Diferencia observada entre media muestral y poblacional: 0.189
El estimador de la media muestral presenta una diferencia de aproximadamente 0.19 con respecto a la media poblacional (15.11 vs. 14.92).
Según la tabla de propiedades del estimador, este valor corresponde a un sesgo pequeño, atribuible a la variabilidad muestral y no a un desplazamiento sistemático. Se considera aceptable al no tener impacto significativo sobre el error cuadrático medio (MSE). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).
NOTA: Se debe aclarar que la media muestral es INSESGADA, teóricamente:
\[E[\bar{X}]=\mu\] Según la teoría, las diferencias observadas entre las medias muestrales y la media poblacional son variabilidad aleatoria, NO sesgo.
En conclusión, las diferencias observadas entre medias muestrales y media poblacional NO representa sesgo del estimador. Esta es VARIABILIDAD MUESTRAL ALEATORIA, esperada en cualquier Muestreo Aleatorio Simple (MAS).
El estimador NO tiene sesgo sistemático. Si repitiéramos el muestreo infinitas veces: E[\(\bar{X}\)] = \(\mu\), la diferencia observada tiende a 0 al promediar sobre muchas muestras posibles.
Al validar los resultados obtenidos para la media poblacional y las medias muestrales:
#Se visualizan los resultados
cat(" Parámetro poblacional:", round(mu_horas_pob,2),"\n","Estimador Muestra 1: ", round(media_horas_m1,2),"\n","Estimador Muestra 2: ", round(media_horas_m2,2))
## Parámetro poblacional: 14.92
## Estimador Muestra 1: 14.96
## Estimador Muestra 2: 15.11
Se evidencia que la media muestral se acerca a la media poblacional cuando se agregan mas datos, es decir, la media muestral converge hacia la media poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la media es consistente.
Es asociada a que tan grande es la varianza de un estimador.
\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\] Para el caso del estimador de la media muestral:
\[Var(\bar{X}) = {\sigma}^2/n\]
# Varianza del estimador de la media = varianza muestral / tamaño de la muestra
var_horas_m1 = var(muestra1$horas_estudio)
var_horas_m2 = var(muestra2$horas_estudio)
var_media_m1 = var_horas_m1 / nrow(muestra1)
var_media_m2 = var_horas_m2 / nrow(muestra2)
cat(" Varianza muestra 1:", round(var_media_m1,2), "\n", "Varianza muestra 2:", round(var_media_m2,2), "\n")
## Varianza muestra 1: 0.04
## Varianza muestra 2: 0.1
if (var_media_m1 < var_media_m2) {
cat("El estimador de la media en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_media_m1 > var_media_m2) {
cat("El estimador de la media en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la media en la Muestra 1 es MÁS EFICIENTE (menor varianza).
Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.
En este, el parámetro poblacional de horas de estudio fue de 14.92.
La media muestral de la muestra 1 (70%) fue de 14.96 horas, mientras que la media muestral de la muestra 2 (30%) fue de 15.11 horas.
Ambas medias muestrales resumen completamente la información relevante de sus respectivas muestras sobre el promedio poblacional de horas de estudio, ya que cada una incorpora todos los valores observados de la variable horas_estudio para estimar el parámetro \(\mu\).
Por tanto, tanto la media muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, pues utilizan toda la información disponible en los datos para representar el comportamiento promedio de la población sin pérdida de información estadística.
En R, la función var() divide entre N-1, es decir, calcula la varianza muestral no la varianza poblacional (\(\sigma^2\) = (1/N)*\(\sum(x_1-\mu)^2\)). Como N=1000, la diferencia numérica es muy pequeña.
Usaremos esta función var() como APROXIMACIÓN PRÁCTICAMENTE EXACTA del parámetro poblacional, reconociendo que técnicamente usa (N-1). Esta aproximación es válida para N grande.
# Parámetro poblacional
var_horas_pob = var(poblacion$horas_estudio)
# Estimadores muestrales
var_horas_m1 = var_horas_m1
var_horas_m2 = var_horas_m2
#Se visualizan los resultados
cat(" Parámetro poblacional:", round(var_horas_pob,2),"\n","Estimador Muestra 1: ", round(var_horas_m1,2),"\n","Estimador Muestra 2: ", round(var_horas_m2,2))
## Parámetro poblacional: 26.98
## Estimador Muestra 1: 27.95
## Estimador Muestra 2: 29.52
diferencia_poblacion_m1 = abs(var_horas_m1 - var_horas_pob)
cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 0.9703053
La varianza muestral difiere 0.97 unidades de la varianza poblacional (27.95 vs. 26.98).
De acuerdo con la tabla, este tipo de diferencia representa un sesgo corregible analíticamente, que se elimina aplicando la corrección de Bessel (n−1 en el denominador). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).
diferencia_poblacion_m2 = abs(var_horas_m2 - var_horas_pob)
cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 2.542991
La varianza muestral difiere 2.54 unidades de la varianza poblacional (29.52 vs. 26.98).
De acuerdo con la tabla, este tipo de diferencia representa un sesgo corregible analíticamente, que se elimina aplicando la corrección de Bessel (n−1 en el denominador). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).
NOTA: La varianza muestral (con n-1) es INSESGADA, teóricamente:
\[E[S^2] = {\sigma}^2\] La función var() usa corrección de Bessel que garantiza esto.
Las diferencias entre las varianzas muestrales y la varianza poblacional son normales porque son valores altos. La diferencia NO representa sesgo, es VARIABILIDAD MUESTRAL ALEATORIA inherente a cualquier estimador.
Aunque hay diferencias numéricas entre \(S^2\) y \(\sigma^2\), teóricamente \(E[S^2]\) = \(\sigma^2\) (insesgado). Las discrepancias observadas se deben a la variabilidad natural de la muestra, no a sesgo estructural.
El estimador \(S^2\) NO tiene sesgo. La corrección de Bessel garantiza \(E[S^2]\) = \(\sigma^2\) y las diferencias observadas son parte de la variabilidad aleatoria.
Al validar los resultados obtenidos para la varianza poblacional y las varianzas muestrales:
#Se visualizan los resultados
cat(" Parámetro poblacional:", round(var_horas_pob,2),"\n","Estimador Muestra 1: ", round(var_horas_m1,2),"\n","Estimador Muestra 2: ", round(var_horas_m2,2))
## Parámetro poblacional: 26.98
## Estimador Muestra 1: 27.95
## Estimador Muestra 2: 29.52
Se evidencia que la varianza muestral se acerca a la varianza poblacional cuando se agregan mas datos, es decir, la varianza muestral converge hacia la varianza poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la varianza es consistente.
Es asociada a que tan grande es la varianza de un estimador.
\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\]
Para el caso del estimador de la varianza muestral:
\[Var(S^2) = 2{\sigma}^4/(n-1)\]
# Varianza del estimador de la varianza = 2*varianza muestral^2 / (tamaño de la muestra - 1)
var_var_m1 = (2*var_horas_m1^2) / (nrow(muestra1)-1)
var_var_m2 = (2*var_horas_m2^2) / (nrow(muestra2)-1)
cat(" Varianza muestra 1:", round(var_var_m1,2), "\n", "Varianza muestra 2:", round(var_var_m2,2), "\n")
## Varianza muestra 1: 2.23
## Varianza muestra 2: 5.83
if (var_var_m1 < var_var_m2) {
cat("El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_var_m1 > var_var_m2) {
cat("El estimador de la varianza en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).
Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.
En este caso, el parámetro poblacional de varianza fue de 26.98.
La varianza muestral de la muestra 1 (70%) fue de 27.95, mientras que la varianza muestral de la muestra 2 (30%) fue de 29.52.
Ambas varianzas muestrales resumen completamente la información relevante de sus respectivas muestras sobre la dispersión poblacional, ya que cada una incorpora todos los valores observados de la variable para estimar el parámetro \(\sigma^2\).
Por tanto, tanto la varianza muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, pues utilizan toda la información disponible en los datos para representar la variabilidad de la población sin pérdida de información estadística.
# Parámetro poblacional y estimadores muestrales
sigma_pob = sqrt(var_horas_pob) # desviación estándar poblacional
sigma_m1 = sqrt(var_horas_m1) # desviación estándar muestra 1
sigma_m2 = sqrt(var_horas_m2) # desviación estándar muestra 2
#Se visualizan los resultados
cat(" Parámetro poblacional:", round(sigma_pob,2),"\n","Estimador Muestra 1: ", round(sigma_m1,2),"\n","Estimador Muestra 2: ", round(sigma_m2,2))#### Determinación de Sesgo
## Parámetro poblacional: 5.19
## Estimador Muestra 1: 5.29
## Estimador Muestra 2: 5.43
diferencia_poblacion_m1 = abs(sigma_m1 - sigma_pob)
cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 0.09258237
La desviación estándar muestral difiere 0.09 respecto al valor poblacional (5.29 vs. 5.19).
Según la tabla, esta diferencia representa un sesgo pequeño, causado por la variabilidad muestral. Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).
diferencia_poblacion_m2 = abs(sigma_m2 - sigma_pob)
cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 0.2392915
La desviación estándar muestral difiere 0.24 respecto al valor poblacional (5.43 vs. 5.19).
Según la tabla, esta diferencia representa un sesgo pequeño, causado por la variabilidad muestral. Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).
NOTA: La desviación estándar tiene SESGO NEGATIVO pequeño, teóricamente:
\[E[S] < {\sigma}\] Esto es por la desigualdad de Jensen, no por el umbral empírico, desginado por nosotros.
Las diferencias entre las deviaciones estándar muestrales y la desviación estándar poblacional no supera 0.3 (para n=300, que es la diferencia más alta), esto lo hace prácticamente despreciable.
La diferencia numérica NO es ‘el sesgo’:
Para n grande, el sesgo de S es aproximadamente DESPRECIABLE en la práctica. Para n \(\ge\) 30, se considera prácticamente insesgado.
Al validar los resultados obtenidos para la varianza poblacional y las varianzas muestrales:
#Se visualizan los resultados
cat(" Parámetro poblacional:", round(sigma_pob,2),"\n","Estimador Muestra 1: ", round(sigma_m1,2),"\n","Estimador Muestra 2: ", round(sigma_m2,2))
## Parámetro poblacional: 5.19
## Estimador Muestra 1: 5.29
## Estimador Muestra 2: 5.43
Se evidencia que la Desviación Estándar muestral se acerca a la Desviación Estándar poblacional cuando se agregan mas datos, es decir, la Desviación Estándar muestral converge hacia la Desviación Estándar poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la Desviación Estándar es consistente.
Es asociada a que tan grande es la varianza de un estimador.
\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\]
Para el caso del estimador de la Desviación Estándar muestral:
\[Var(s) = {\sigma}^2/2(n-1)\]
# Varianza del estimador de la varianza = varianza muestral / 2*(tamaño de la muestra - 1)
var_desvest_m1 = (var_horas_m1) / (2*(nrow(muestra1)-1))
var_desvest_m2 = (var_horas_m2) / (2*(nrow(muestra2)-1))
cat(" Varianza muestra 1:", round(var_desvest_m1,2), "\n", "Varianza muestra 2:", round(var_desvest_m2,2), "\n")
## Varianza muestra 1: 0.02
## Varianza muestra 2: 0.05
if (var_desvest_m1 < var_desvest_m2) {
cat("El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_desvest_m1 > var_desvest_m2) {
cat("El estimador de la varianza en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).
Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.
En este caso, el parámetro poblacional de la desviación estándar de las horas de estudio fue de 5.19.
La desviación estándar muestral de la muestra 1 (70%) fue de 5.29 horas, mientras que la desviación estándar muestral de la muestra 2 (30%) fue de 5.43 horas.
Cada desviación estándar muestral resume completamente la dispersión
de los datos en sus respectivas muestras con relación al promedio de
horas de estudio.
Esto significa que aprovechan toda la información relevante contenida en
las observaciones individuales de horas_estudio para medir la
variabilidad respecto a la media.
Por tanto, tanto la desviación estándar muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, ya que representan de forma completa la variabilidad de la población con base en los datos muestrales, sin pérdida de información estadística.
# Parámetro poblacional
mu_promedio_pob = mean(poblacion$promedio)
# Estimadores muestrales
media_promedio_m1 = mean(muestra1$promedio)
media_promedio_m2 = mean(muestra2$promedio)
#Se visualizan los resultados
cat(" Parámetro poblacional:", round(mu_promedio_pob,4),"\n","Estimador Muestra 1: ", round(media_promedio_m1,4),"\n","Estimador Muestra 2: ", round(media_promedio_m2,4))
## Parámetro poblacional: 3.5086
## Estimador Muestra 1: 3.5086
## Estimador Muestra 2: 3.5174
diferencia_poblacion_m1 = abs(media_promedio_m1 - mu_promedio_pob)
cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 1e-05
El estimador de la media muestral presenta una diferencia de aproximadamente 0.00001 con respecto a la media poblacional (3.5086 vs. 3.5086).
Según la tabla de propiedades del estimador, este valor corresponde a un sesgo pequeño, atribuible a la variabilidad muestral y no a un desplazamiento sistemático. Se considera aceptable al no tener impacto significativo sobre el error cuadrático medio (MSE). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).
diferencia_poblacion_m2 = abs(media_promedio_m2 - mu_promedio_pob)
cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 0.00879
El estimador de la media muestral presenta una diferencia de aproximadamente 0.00879 con respecto a la media poblacional (3.5174 vs. 3.5086).
Según la tabla de propiedades del estimador, este valor corresponde a un sesgo pequeño, atribuible a la variabilidad muestral y no a un desplazamiento sistemático. Se considera aceptable al no tener impacto significativo sobre el error cuadrático medio (MSE). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).
NOTA: Se debe aclarar que la media muestral es INSESGADA, teóricamente:
\[E[\bar{X}]=\mu\] Según la teoría, las diferencias observadas entre las medias muestrales y la media poblacional son variabilidad aleatoria, NO sesgo.
En conclusión, las diferencias observadas entre medias muestrales y media poblacional NO representa sesgo del estimador. Esta es VARIABILIDAD MUESTRAL ALEATORIA, esperada en cualquier Muestreo Aleatorio Simple (MAS).
El estimador NO tiene sesgo sistemático. Si repitiéramos el muestreo infinitas veces: \(E[\bar{X}]\) = \(\mu\), la diferencia observada tiende a 0 al promediar sobre muchas muestras posibles.
Al validar los resultados obtenidos para la media poblacional y las medias muestrales:
#Se visualizan los resultados
cat(" Parámetro poblacional:", round(mu_promedio_pob,4),"\n","Estimador Muestra 1: ", round(media_promedio_m1,4),"\n","Estimador Muestra 2: ", round(media_promedio_m2,4))
## Parámetro poblacional: 3.5086
## Estimador Muestra 1: 3.5086
## Estimador Muestra 2: 3.5174
Se evidencia que la media muestral se acerca a la media poblacional cuando se agregan mas datos, es decir, la media muestral converge hacia la media poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la media es consistente.
Es asociada a que tan grande es la varianza de un estimador.
\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\] Para el caso del estimador de la media muestral:
\[Var(\bar{X}) = {\sigma}^2/n\]
# Varianza del estimador de la media = varianza muestral / tamaño de la muestra
var_promedio_m1 = var(muestra1$promedio)
var_promedio_m2 = var(muestra2$promedio)
var_media_m1 = var_promedio_m1 / nrow(muestra1)
var_media_m2 = var_promedio_m2 / nrow(muestra2)
cat(" Varianza muestra 1:", format(round(var_media_m1,4), scientific = FALSE), "\n", "Varianza muestra 2:", format(round(var_media_m2,4), scientific = FALSE), "\n")
## Varianza muestra 1: 0.0006
## Varianza muestra 2: 0.0013
if (var_media_m1 < var_media_m2) {
cat("El estimador de la media en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_media_m1 > var_media_m2) {
cat("El estimador de la media en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la media en la Muestra 1 es MÁS EFICIENTE (menor varianza).
Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.
En este, el parámetro poblacional de la media para el promedio académico fue de 3.5086.
La media muestral de la muestra 1 (70%) fue de 3.5086, mientras que la media muestral de la muestra 2 (30%) fue de 3.5174.
Ambas medias muestrales resumen completamente la información relevante de sus respectivas muestras sobre el promedio poblacional de promedio académico, ya que cada una incorpora todos los valores observados de la variable promedio para estimar el parámetro \(\mu\).
Por tanto, tanto la media muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, pues utilizan toda la información disponible en los datos para representar el comportamiento promedio de la población sin pérdida de información estadística.
En R, la función var() divide entre N-1, es decir, calcula la varianza muestral no la varianza poblacional (\(\sigma^2\) = (1/N)*\(\sum(x_1-\mu)^2\)). Como N=1000, la diferencia numérica es muy pequeña.
Usaremos esta función var() como APROXIMACIÓN PRÁCTICAMENTE EXACTA del parámetro poblacional, reconociendo que técnicamente usa (N-1). Esta aproximación es válida para N grande.
# Parámetro poblacional
var_promedio_pob = var(poblacion$promedio)
# Estimadores muestrales
var_promedio_m1 = var_promedio_m1
var_promedio_m2 = var_promedio_m2
#Se visualizan los resultados
cat(" Parámetro poblacional:", round(var_promedio_pob,4),"\n","Estimador Muestra 1: ", round(var_promedio_m1,4),"\n","Estimador Muestra 2: ", round(var_promedio_m2,4))
## Parámetro poblacional: 0.3811
## Estimador Muestra 1: 0.3887
## Estimador Muestra 2: 0.3808
diferencia_poblacion_m1 = abs(var_promedio_m1 - var_promedio_pob)
cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 0.007598559
La varianza muestral difiere 0.0076 unidades de la varianza poblacional (0.3887 vs. 0.3811).
De acuerdo con la tabla, este tipo de diferencia representa un sesgo corregible analíticamente, que se elimina aplicando la corrección de Bessel (n−1 en el denominador). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).
diferencia_poblacion_m2 = abs(var_promedio_m2 - var_promedio_pob)
cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 0.0003412027
La varianza muestral difiere 0.000341 unidades de la varianza poblacional (0.3808 vs. 0.3811).
De acuerdo con la tabla, este tipo de diferencia representa un sesgo corregible analíticamente, que se elimina aplicando la corrección de Bessel (n−1 en el denominador). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).
NOTA: La varianza muestral (con n-1) es INSESGADA, teóricamente:
\[E[S^2] = {\sigma}^2\] La función var() usa corrección de Bessel que garantiza esto.
Las diferencias entre las varianzas muestrales y la varianza poblacional son normales porque son valores altos. La diferencia NO representa sesgo, es VARIABILIDAD MUESTRAL ALEATORIA inherente a cualquier estimador.
Aunque hay diferencias numéricas entre \(S^2\) y \(\sigma^2\), teóricamente \(E[S^2]\) = \(\sigma^2\) (insesgado). Las discrepancias observadas se deben a la variabilidad natural de la muestra, no a sesgo estructural.
El estimador \(S^2\) NO tiene sesgo. La corrección de Bessel garantiza \(E[S^2]\) = \(\sigma^2\) y las diferencias observadas son parte de la variabilidad aleatoria.
Al validar los resultados obtenidos para la varianza poblacional y las varianzas muestrales:
#Se visualizan los resultados
cat(" Parámetro poblacional:", round(var_promedio_pob,4),"\n","Estimador Muestra 1: ", round(var_promedio_m1,4),"\n","Estimador Muestra 2: ", round(var_promedio_m2,4))
## Parámetro poblacional: 0.3811
## Estimador Muestra 1: 0.3887
## Estimador Muestra 2: 0.3808
Se evidencia que la varianza muestral se acerca a la varianza poblacional cuando se agregan mas datos, es decir, la varianza muestral converge hacia la varianza poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la varianza es consistente.
NOTA: La coincidencia del valor de la varianza calculada para la muestra 2 con respecto al parámetro poblacional no significa inconsistencia, solo una fluctuación muestral aleatoria.
Es asociada a que tan grande es la varianza de un estimador.
\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\]
Para el caso del estimador de la varianza muestral:
\[Var(S^2) = 2{\sigma}^4/(n-1)\]
# Varianza del estimador de la varianza = 2*varianza muestral^2 / (tamaño de la muestra - 1)
var_var_m1 = (2*var_promedio_m1^2) / (nrow(muestra1)-1)
var_var_m2 = (2*var_promedio_m2^2) / (nrow(muestra2)-1)
cat(" Varianza muestra 1:", format(round(var_var_m1,4), scientific = FALSE), "\n", "Varianza muestra 2:", format(round(var_var_m2,4), scientific = FALSE), "\n")
## Varianza muestra 1: 0.0004
## Varianza muestra 2: 0.001
if (var_var_m1 < var_var_m2) {
cat("El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_var_m1 > var_var_m2) {
cat("El estimador de la varianza en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).
Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.
En este caso, el parámetro poblacional de varianza fue de 0.3811.
La varianza muestral de la muestra 1 (70%) fue de 0.3887, mientras que la varianza muestral de la muestra 2 (30%) fue de 0.3808.
Ambas varianzas muestrales resumen completamente la información relevante de sus respectivas muestras sobre la dispersión poblacional, ya que cada una incorpora todos los valores observados de la variable para estimar el parámetro \(\sigma^2\).
Por tanto, tanto la varianza muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, pues utilizan toda la información disponible en los datos para representar la variabilidad de la población sin pérdida de información estadística.
# Parámetro poblacional y estimadores muestrales
sigma_pob = sqrt(var_promedio_pob) # desviación estándar poblacional
sigma_m1 = sqrt(var_promedio_m1) # desviación estándar muestra 1
sigma_m2 = sqrt(var_promedio_m2) # desviación estándar muestra 2
#Se visualizan los resultados
cat(" Parámetro poblacional:", round(sigma_pob,4),"\n","Estimador Muestra 1: ", round(sigma_m1,4),"\n","Estimador Muestra 2: ", round(sigma_m2,4))#### Determinación de Sesgo
## Parámetro poblacional: 0.6174
## Estimador Muestra 1: 0.6235
## Estimador Muestra 2: 0.6171
diferencia_poblacion_m1 = abs(sigma_m1 - sigma_pob)
cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 0.006123642
La desviación estándar muestral difiere 0.00612 respecto al valor poblacional (0.6235 vs. 0.6174).
Según la tabla, esta diferencia representa un sesgo pequeño, causado por la variabilidad muestral. Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).
diferencia_poblacion_m2 = abs(sigma_m2 - sigma_pob)
cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 0.0002763992
La desviación estándar muestral difiere 0.00612 respecto al valor poblacional (0.6171 vs. 0.6174).
Según la tabla, esta diferencia representa un sesgo pequeño, causado por la variabilidad muestral. Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).
NOTA: La desviación estándar tiene SESGO NEGATIVO pequeño, teóricamente:
\[E[S] < {\sigma}\] Esto es por la desigualdad de Jensen, no por el umbral empírico, desginado por nosotros.
Las diferencias entre las deviaciones estándar muestrales y la desviación estándar poblacional no supera 0.01 (para n=700, que es la diferencia más alta), esto lo hace prácticamente despreciable.
La diferencia numérica NO es ‘el sesgo’:
Para n grande, el sesgo de S es aproximadamente DESPRECIABLE en la práctica. Para n \(\ge\) 30, se considera prácticamente insesgado.
Al validar los resultados obtenidos para la varianza poblacional y las varianzas muestrales:
#Se visualizan los resultados
cat(" Parámetro poblacional:", round(sigma_pob,4),"\n","Estimador Muestra 1: ", round(sigma_m1,4),"\n","Estimador Muestra 2: ", round(sigma_m2,4))
## Parámetro poblacional: 0.6174
## Estimador Muestra 1: 0.6235
## Estimador Muestra 2: 0.6171
Se evidencia que la Desviación Estándar muestral se acerca a la Desviación Estándar poblacional cuando se agregan mas datos, es decir, la Desviación Estándar muestral converge hacia la Desviación Estándar poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la Desviación Estándar es consistente.
NOTA: La coincidencia del valor de la desviación estándar calculada para la muestra 2 con respecto al parámetro poblacional no significa inconsistencia, solo una fluctuación muestral aleatoria.
Es asociada a que tan grande es la varianza de un estimador.
\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\]
Para el caso del estimador de la Desviación Estándar muestral:
\[Var(s) = {\sigma}^2/2(n-1)\]
# Varianza del estimador de la varianza = varianza muestral / 2*(tamaño de la muestra - 1)
var_desvest_m1 = (var_promedio_m1) / (2*(nrow(muestra1)-1))
var_desvest_m2 = (var_promedio_m2) / (2*(nrow(muestra2)-1))
cat(" Varianza muestra 1:", format(round(var_desvest_m1,4), scientific = FALSE), "\n", "Varianza muestra 2:", format(round(var_desvest_m2,4), scientific = FALSE), "\n")
## Varianza muestra 1: 0.0003
## Varianza muestra 2: 0.0006
if (var_desvest_m1 < var_desvest_m2) {
cat("El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_desvest_m1 > var_desvest_m2) {
cat("El estimador de la varianza en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).
Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.
En este caso, el parámetro poblacional de la desviación estándar del promedio académico fue de 0.6174.
La desviación estándar muestral de la muestra 1 (70%) fue de 0.6235, mientras que la desviación estándar muestral de la muestra 2 (30%) fue de 0.6171.
Cada desviación estándar muestral resume completamente la dispersión de los datos en sus respectivas muestras con relación al promedio académico.
Esto significa que aprovechan toda la información relevante contenida en las observaciones individuales de promedio para medir la variabilidad respecto a la media.
Por tanto, tanto la desviación estándar muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, ya que representan de forma completa la variabilidad de la población con base en los datos muestrales, sin pérdida de información estadística.
Dado que trabajamos con una POBLACIÓN SIMULADA donde conocemos todos los valores (N=1000), podemos calcular directamente:
Tratamos \(\sigma\) como CONOCIDA, entonces usamos la distribución NORMAL ESTÁNDAR (Z).
En un estudio real, donde \(\sigma\) es desconocida, se usaría s (estimador) y distribución t de Student.
Cuando n es grande (n \(\ge\) 30), la distribución t se aproxima a Z, por lo que los resultados son muy similares. Sin embargo, el procedimiento correcto es usar t student cuando \(\sigma\) es desconocida, independientemente del tamaño muestral.
# Calcular el intervalo de confianza para la media
nivel_confianza_muestra1_horas_estudio = 0.95
muestra1_media_horas_estudio = mean(muestra1$horas_estudio)
desviacion_estandar_muestra1_horas_estudio = sd(muestra1$horas_estudio)
tamano_muestra1_horas_estudio = length(muestra1$horas_estudio)
desviacion_estandar_poblacional_horas_estudio = sd(poblacion$horas_estudio)
# Calcular el error estándar de la media
error_estandar_muestra1_horas_estudio = desviacion_estandar_poblacional_horas_estudio / sqrt(tamano_muestra1_horas_estudio)
# Calcular el valor crítico de la distribución normal
# Valor crítico de la distribución Normal ESTÁNDAR (μ=0, σ=1)
# NO se usan los parámetros de nuestros datos (media_m1, sigma_pob) porque:
# - El valor crítico es un número fijo que solo depende del nivel de confianza
# - Viene de la distribución Normal ESTÁNDAR, no de nuestros datos específicos
# - Para IC 95% siempre es 1.96, sin importar nuestros datos
# - Los datos entran en el MARGEN DE ERROR, no en el valor crítico
valor_critico_muestra1_horas_estudio = qnorm((1 + nivel_confianza_muestra1_horas_estudio)/2)
# Calcular el margen de error
margen_error_muestra1_horas_estudio = valor_critico_muestra1_horas_estudio * error_estandar_muestra1_horas_estudio
# Calcular el intervalo de confianza
intervalo_confianza_muestra1_horas_estudio = c(muestra1_media_horas_estudio - margen_error_muestra1_horas_estudio, muestra1_media_horas_estudio + margen_error_muestra1_horas_estudio)
# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza_muestra1_horas_estudio * 100, "% para la media de la muestra 1 de la variable Horas de Estudio:", intervalo_confianza_muestra1_horas_estudio[1], "-", intervalo_confianza_muestra1_horas_estudio[2])
## Intervalo de confianza del 95 % para la media de la muestra 1 de la variable Horas de Estudio: 14.57595 - 15.34548
Se evidencia lo siguiente:
Interpretación: Con 95% de confianza, estimamos que la media poblacional de horas de estudio semanales está entre 14.58 y 15.35 horas. Esto significa que si repitiéramos este muestreo muchas veces, aproximadamente el 95% de los intervalos construidos contendrían la verdadera media poblacional.
# Calcular el intervalo de confianza para la media
nivel_confianza_muestra2_horas_estudio = 0.95
muestra2_media_horas_estudio = mean(muestra2$horas_estudio)
desviacion_estandar_muestra2_horas_estudio = sd(muestra2$horas_estudio)
tamano_muestra2_horas_estudio = length(muestra2$horas_estudio)
desviacion_estandar_poblacional_horas_estudio = sd(poblacion$horas_estudio)
# Calcular el error estándar de la media
error_estandar_muestra2_horas_estudio = desviacion_estandar_poblacional_horas_estudio / sqrt(tamano_muestra2_horas_estudio)
# Calcular el valor crítico de la distribución normal
# Valor crítico de la distribución Normal ESTÁNDAR (μ=0, σ=1)
# NO se usan los parámetros de nuestros datos (media_m1, sigma_pob) porque:
# - El valor crítico es un número fijo que solo depende del nivel de confianza
# - Viene de la distribución Normal ESTÁNDAR, no de nuestros datos específicos
# - Para IC 95% siempre es 1.96, sin importar nuestros datos
# - Los datos entran en el MARGEN DE ERROR, no en el valor crítico
valor_critico_muestra2_horas_estudio = qnorm((1 + nivel_confianza_muestra2_horas_estudio) / 2)
# Calcular el margen de error
margen_error_muestra2_horas_estudio = valor_critico_muestra2_horas_estudio * error_estandar_muestra2_horas_estudio
# Calcular el intervalo de confianza
intervalo_confianza_muestra2_horas_estudio = c(muestra2_media_horas_estudio - margen_error_muestra2_horas_estudio, muestra2_media_horas_estudio + margen_error_muestra2_horas_estudio)
# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza_muestra2_horas_estudio * 100, "% para la media de la muestra 2 de la variable Horas de Estudio:", intervalo_confianza_muestra2_horas_estudio[1], "-", intervalo_confianza_muestra2_horas_estudio[2])
## Intervalo de confianza del 95 % para la media de la muestra 2 de la variable Horas de Estudio: 14.52226 - 15.69774
Se evidencia lo siguiente:
Interpretación: Con 95% de confianza, estimamos que la media poblacional de horas de estudio semanales está entre 14.52 y 15.70 horas.
Las dos muestras producen estimaciones válidas y consistentes de la media poblacional. La Muestra 1, al ser más grande, ofrece mayor precisión (intervalo más estrecho), lo que es deseable en inferencia estadística.
# Calcular el intervalo de confianza para la media
nivel_confianza_muestra1_promedio = 0.95
muestra1_media_promedio = mean(muestra1$promedio)
desviacion_estandar_muestra1_promedio = sd(muestra1$promedio)
tamano_muestra1_promedio = length(muestra1$promedio)
desviacion_estandar_poblacional_promedio = sd(poblacion$promedio)
# Calcular el error estándar de la media
error_estandar_muestra1_promedio = desviacion_estandar_poblacional_promedio / sqrt(tamano_muestra1_promedio)
# Calcular el valor crítico de la distribución normal
# Valor crítico de la distribución Normal ESTÁNDAR (μ=0, σ=1)
# NO se usan los parámetros de nuestros datos (media_m1, sigma_pob) porque:
# - El valor crítico es un número fijo que solo depende del nivel de confianza
# - Viene de la distribución Normal ESTÁNDAR, no de nuestros datos específicos
# - Para IC 95% siempre es 1.96, sin importar nuestros datos
# - Los datos entran en el MARGEN DE ERROR, no en el valor crítico
valor_critico_muestra1_promedio = qnorm((1 + nivel_confianza_muestra1_promedio)/2)
# Calcular el margen de error
margen_error_muestra1_promedio = valor_critico_muestra1_promedio * error_estandar_muestra1_promedio
# Calcular el intervalo de confianza
intervalo_confianza_muestra1_promedio = c(muestra1_media_promedio - margen_error_muestra1_promedio, muestra1_media_promedio + margen_error_muestra1_promedio)
# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza_muestra1_promedio * 100, "% para la media de la muestra 1 de la variable Promedio:", intervalo_confianza_muestra1_promedio[1], "-", intervalo_confianza_muestra1_promedio[2])
## Intervalo de confianza del 95 % para la media de la muestra 1 de la variable Promedio: 3.462866 - 3.554334
Se evidencia lo siguiente:
Interpretación: Con 95% de confianza, estimamos que la media poblacional del promedio académico está entre 3.4629 y 3.5543 puntos. Este intervalo es muy estrecho, indicando alta precisión en la estimación.
# Calcular el intervalo de confianza para la media
nivel_confianza_muestra2_promedio = 0.95
muestra2_media_promedio = mean(muestra2$promedio)
desviacion_estandar_muestra2_horas_estudio = sd(muestra2$promedio)
tamano_muestra2_promedio = length(muestra2$promedio)
desviacion_estandar_poblacional_promedio = sd(poblacion$promedio)
# Calcular el error estándar de la media
error_estandar_muestra2_promedio = desviacion_estandar_poblacional_promedio / sqrt(tamano_muestra2_promedio)
# Calcular el valor crítico de la distribución normal
# Valor crítico de la distribución Normal ESTÁNDAR (μ=0, σ=1)
# NO se usan los parámetros de nuestros datos (media_m1, sigma_pob) porque:
# - El valor crítico es un número fijo que solo depende del nivel de confianza
# - Viene de la distribución Normal ESTÁNDAR, no de nuestros datos específicos
# - Para IC 95% siempre es 1.96, sin importar nuestros datos
# - Los datos entran en el MARGEN DE ERROR, no en el valor crítico
valor_critico_muestra2_promedio = qnorm((1 + nivel_confianza_muestra2_promedio) / 2)
# Calcular el margen de error
margen_error_muestra2_promedio = valor_critico_muestra2_promedio * error_estandar_muestra2_promedio
# Calcular el intervalo de confianza
intervalo_confianza_muestra2_promedio = c(muestra2_media_promedio - margen_error_muestra2_promedio, muestra2_media_promedio + margen_error_muestra2_promedio)
# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza_muestra2_promedio * 100, "% para la media de la muestra 2 de la variable Promedio:", intervalo_confianza_muestra2_promedio[1], "-", intervalo_confianza_muestra2_promedio[2])
## Intervalo de confianza del 95 % para la media de la muestra 2 de la variable Promedio: 3.44754 - 3.58726
Se evidencia lo siguiente:
Interpretación: Con 95% de confianza, estimamos que la media poblacional del promedio académico está entre 3.4475 y 3.5873 puntos.
Ambas muestras producen estimaciones válidas del promedio académico poblacional. La Muestra 1 ofrece mayor precisión debido a su mayor tamaño. La diferencia mínima entre las medias muestrales (menos de 0.01 puntos) confirma que ambas muestras son altamente representativas de la población.
Con el fin de continuar con los datos que hemos venido utilizando (estudiantes universitarios), para la prueba de hipótesis tomaremos la Muestra 1 (700 estudiantes), asumiendo que desconocemos la población con el fin de realizar Inferencia.
También indicamos que el nivel de significancia que tomamos es \({\alpha}\)=0.05. Significa que estamos dispuestos a aceptar un 5% de probabilidad de rechazar \(H_0\) cuando en realidad es verdadera (Error Tipo I).
Basándonos en la pregunta de investigación, relacionada en el punto 2 del presente taller:
No existe relación significativa entre las horas de estudio semanales y el promedio académico de los estudiantes universitarios.
Basándonos en la pregunta de investigación, relacionada en el punto 2 del presente taller:
Sí existe relación significativa entre las horas de estudio semanales y el promedio académico de los estudiantes universitarios.
Se genera gráfico Q-Q plot para las variables Horas de Estudio y Promedio Académico.
par(mfrow = c(1, 2))
#Horas de Estudio
qqnorm(muestra1$horas_estudio, main = "Q-Q Plot: Horas de Estudio")
qqline(muestra1$horas_estudio, col = 2)
#Horas de Promedio
qqnorm(muestra1$promedio, main = "Q-Q Plot: Promedio Académico")
qqline(muestra1$promedio, col = 2)
Según los puntos observados en el Q-Q plot, de ambas variables (Horas de estudio y Promedio académico), visualmente se evidencia que se alinean aproximadamente en una línea diagonal, en ese caso se considera que los datos son aproximadamente normales.
Debido a que el tamaño de nuestra muestar es grande (n=700), teniendo en cuenta la población (simulación de 1000 estudiantes universitarios), utilizamos la prueba de Kolmogorov-Smirnov.
Contamos con un nivel de significancia de 0.05.
ks.test(muestra1$horas_estudio, "pnorm", mean = mean(muestra1$horas_estudio), sd = sd(muestra1$horas_estudio))
## Warning in ks.test.default(muestra1$horas_estudio, "pnorm", mean =
## mean(muestra1$horas_estudio), : ties should not be present for the one-sample
## Kolmogorov-Smirnov test
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: muestra1$horas_estudio
## D = 0.024731, p-value = 0.7853
## alternative hypothesis: two-sided
Ya que el p-valor es mayor que el nivel de significancia elegido (\({\alpha}\)=0.05), se acepta la hipótesis nula (\(H_0\)). De acuerdo a esto, los datos de la variable Horas de estudio presenta un comportamiento normal.
ks.test(muestra1$promedio, "pnorm", mean = mean(muestra1$promedio), sd = sd(muestra1$promedio))
## Warning in ks.test.default(muestra1$promedio, "pnorm", mean =
## mean(muestra1$promedio), : ties should not be present for the one-sample
## Kolmogorov-Smirnov test
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: muestra1$promedio
## D = 0.033266, p-value = 0.4207
## alternative hypothesis: two-sided
Ya que el p-valor es mayor que el nivel de significancia elegido (\({\alpha}\)=0.05), se acepta la hipótesis nula (\(H_0\)). De acuerdo a esto, los datos de la variable Promedio académico presenta un comportamiento normal.
En nuestro caso, como nuestros datos tienen un comportamiento normal, se debe usar una prueba de hipótesis Paramétrica.
Específicamente, como se está buscando la existencia de relación significativa entre las horas de estudio semanales y el promedio académico de los estudiantes universitarios, utilizamos la Prueba de Correlación de Pearson.
# Realizar la prueba de correlación de Pearson
resultado_correlacion = cor.test(muestra1$horas_estudio, muestra1$promedio, method = "pearson")
coef_correlacion = resultado_correlacion$estimate
p_valor = resultado_correlacion$p.value
print(resultado_correlacion)
##
## Pearson's product-moment correlation
##
## data: muestra1$horas_estudio and muestra1$promedio
## t = 0.4338, df = 698, p-value = 0.6646
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.05775556 0.09041040
## sample estimates:
## cor
## 0.01641755
Se evidencia que p-value es de 0.6645641 y el coeficiente de correlación es 0.01641755, esto nos indica que podemos aceptar la Hipótesis nula (\(H_0\)) y que NO existe relación lineal entre las horas de estudio semanales y el promedio académico de los estudiantes universitarios.
Esto tiene sentido ya que dedicar muchas horas a estudiar no garantiza que se obtengan buenos resultados. Para obtener un buen promedio, entran otras variables que deben tenerse en cuenta además de las horas dedicadas a estudiar: Horas de descanso, Historial académico, Metodología de estudio, Bases académicas de cada estudiante, entre otras.