1 Muestreo por Bola de Nieve

El muestreo por bola de nieve es un método de muestreo que no usa el azar, utilizado principalmente en investigación social y cualitativa. Consiste en seleccionar un grupo pequeño de participantes iniciales (“semillas”) que cumplen con los requisitos del estudio. Luego, se les pide a estas “semillas” que remitan o recomienden a otros individuos de sus redes sociales que también califiquen para la investigación. Este proceso de remisión en cadena se repite en fases hasta que se consigue una muestra suficiente para el estudio.

Se le conoce también como muestreo en cadena o muestreo de red.

1.1 Tipos de Muestreo por Bola de Nieve

El muestreo por bola de nieve no es un método único; tiene variantes que se adaptan a las metas del investigador:

Tipo de Muestreo por Bola de Nieve Mecanismo de Reclutamiento Propósito/Características
Lineal Cada participante inicial recluta a un único nuevo participante, formando una cadena sencilla. Asegura un crecimiento controlado y constante. Útil para investigación cualitativa donde se requieren datos muy detallados.
Exponencial No Discriminatorio Cada participante recluta a múltiples nuevos sujetos, y el investigador incluye a todos los referidos en la muestra, sin restricciones. Provoca una rápida expansión de la muestra. Ideal para estudios exploratorios donde se desea una amplia gama de perspectivas.
Exponencial Discriminatorio Los participantes dan múltiples referencias, pero el investigador aplica criterios específicos para seleccionar cuáles de esas referencias serán incluidas. Se enfoca en un subconjunto específico de la población, aumentando la relevancia de los datos al descartar referencias que no cumplen los requisitos clave.

1.2 Fórmulas para la Estimación del Tamaño de la Muestra

El tamaño de la muestra generalmente se define por el criterio de saturación (cuando ya no surgen nuevas recomendaciones o información). No obstante, es posible estimar el tamaño de la muestra (\(S_n\)), si se asumen condiciones específicas para el número de fases (\(n\)) y el número de referencias.

1.2.1 Modelo Lineal

Si cada persona refiere exactamente a otra persona (\(q=1\)), y asumimos que se comienza con \(a_1\) semillas y se avanza \(n\) fases, el crecimiento total es la suma de términos iguales.

Si se asume que cada fase tiene el mismo tamaño (\(n_{fase}=a_1\)), el crecimiento es:

\[S_n = a_1 \times n\] Donde: * \(S_n\): Tamaño total de la muestra. * \(a_1\): Número de participantes iniciales (semillas). * \(n\): Número de fases de reclutamiento.

1.2.1.1 Aclaraciones

Este modelo \(S_n\) = \(a_1\) × n asume condiciones idealizadas:

  1. CRECIMIENTO CONSTANTE:

    • En cada fase se incorporan exactamente a₁ nuevos participantes
    • No hay variabilidad en el número de referencias
  2. SIN SOLAPAMIENTO:

    • Ninguna persona es referida más de una vez
    • Las redes sociales no se cruzan
  3. SIN PÉRDIDAS:

    • Todas las personas contactadas aceptan participar
    • No hay abandonos ni rechazos
  4. RECLUTAMIENTO PERFECTO:

    • Cada participante logra contactar exitosamente a sus referidos
    • No hay fallos en la comunicación

En estudios reales, estos supuestos rara vez se cumplen completamente.

1.2.1.2 Ejemplo

Si comenzamos con \(a_1=5\) semillas, y cada una recluta solo a una persona en 3 fases (\(n=3\)). Hallar el tamaño total de la muestra:

a_1 = 5
n = 3
S_n = a_1 * n
S_n
## [1] 15

El valor hallado, 15, representa el tamaño total de la muestra que el investigador espera obtener después de completar las 3 etapas, asumiendo un crecimiento constante de 5 participantes por etapa.

1.2.2 Modelo Exponencial No Discriminatorio

Este modelo se caracteriza porque cada participante refiere a múltiples sujetos (\(q > 1\)), y todos los referidos son incluidos.

\[S_n = \frac{a_1(1-q^n)}{1-q}, \quad \text{donde } q \neq 1\] Donde: * \(S_n\): Tamaño total de la muestra. * \(a_1\): Número de participantes iniciales (semillas). * \(q\): Número de referencias proporcionadas por cada participante. * \(n\): Número de fases de reclutamiento.

1.2.2.1 Aclaraciones

  1. SUPUESTO TEÓRICO:

    • Cada participante recluta exactamente ‘q’ nuevos sujetos
    • El factor de crecimiento ‘q’ es constante en todas las fases
    • Todos los referidos aceptan participar
  2. REALIDAD PRÁCTICA:

    • El número de referidos aceptados VARÍA entre participantes
    • Algunos pueden referir 0, otros 1, otros 3 o más
    • La tasa de aceptación no es del 100%
    • El factor ‘q’ no permanece constante entre fases
  3. INTERPRETACIÓN CORRECTA:

    Este modelo muestra el CRECIMIENTO POTENCIAL MÁXIMO si todas las condiciones ideales se cumplen. En aplicaciones reales, el crecimiento observado suele ser menor y más irregular.

1.2.2.2 Ejemplo

Para tres fases de reclutamiento (\(n=3\)) donde se inicia con 2 participantes o semillas (\(a_1=2\)) y cada uno recomienda dos personas (\(q=2\)), la muestra total es:

a_1 = 2
n = 3
q = 2
S_n = (a_1*(1-q^n))/(1-q)
S_n
## [1] 14

Si se comienza un estudio con 2 participantes y cada uno de ellos consistentemente refiere a 2 personas más en 3 etapas sucesivas de reclutamiento, la muestra esperada alcanzará un tamaño total de 14 individuos.

1.2.3 Modelo Exponencial Discriminatorio

En este caso, aunque los participantes refieren a múltiples sujetos, el investigador discrimina (selecciona) solo a aquellos que cumplen criterios específicos.

Existen 2 casos:

a) Si el investigador aplica el “filtro” de manera que el número de personas que logran pasar el filtro y unirse al estudio es el mismo en cada etapa, podemos usar la siguiente fórmula:

Aquí, la variable \(q\) representa el número constante de personas que se seleccionan después de aplicar el filtro.

\[S_n = \frac{a_1(1-q^n)}{1-q}, \quad \text{donde } q \neq 1\]

Donde: * \(S_n\): Tamaño total de la muestra. * \(a_1\): Número de participantes iniciales (semillas). * \(q\): Número de referencias que fueron incluidas después de aplicar el filtro. * \(n\): Número de fases de reclutamiento.

Nota La fórmula entre Modelo Exponencial No Discriminatorio y este caso de Modelo Exponencial Discriminatorio es idéntica porque, desde la perspectiva matemática, ambos modelos cumplen con el requisito de tener un factor de crecimiento (q) constante a lo largo de las fases de reclutamiento (n).

b) Si la selección del investigador hace que el número de personas incluidas en la muestra varíe en cada etapa (es decir, el número de personas reclutadas es diferente en cada paso), el crecimiento de la muestra es irregular.

Para estos casos de crecimiento variable, se utiliza una fórmula que suma el crecimiento de manera secuencial.

\[S_n = a_1 + a_1 a_2 + a_1 a_2 a_3 + \dots + a_1 a_2 \dots a_n\]

Donde: * \(S_n\): Tamaño total de la muestra. * \(a_1\): Número de participantes iniciales (semillas). * \(a_2, a_3, \dots\): Números de referencias incluidas (después de aplicar el filtro) en etapas sucesivas.

1.2.3.1 Ejemplo

Si se inicia la investigación con 2 participantes o semillas (\(a_1=2\)), en la segunda etapa se seleccionan 5 personas (\(a_2=5\)), y en la tercera etapa se seleccionan 3 (\(a_3=3\)), el tamaño de la muestra es:

a_1 = 2
a_2 = 5
a_3 = 3
S_n = a_1 + a_1*a_2 + a_1*a_2*a_3
S_n
## [1] 42

El número 42 representa el total de personas que el investigador estima tener en la muestra después de pasar por un proceso de reclutamiento de tres etapas donde el filtro selectivo (discriminación) del investigador hizo que el número de personas incluidas variara entre las etapas.

1.3 Fórmulas vs. Implementación real

LIMITACIONES DE LOS MODELOS TEÓRICOS:

Las expresiones matemáticas para \(S_n\) presentadas anteriormente son MODELOS SIMPLIFICADOS del crecimiento de la muestra.

Estos modelos asumen:

  • No hay rechazos de participación
  • No hay contactos fallidos
  • No existe solapamiento de redes (misma persona referida varias veces)
  • Cada participante recluta exactamente el número esperado de nuevos sujetos

EN LA PRÁCTICA REAL:

El muestreo por bola de nieve NO ES PROBABILÍSTICO, por lo que:

  • No se puede calcular el tamaño muestral con fórmulas exactas
  • El tamaño se determina por SATURACIÓN DE INFORMACIÓN:
    • Cuando ya no surgen nuevos temas o patrones
    • Cuando las nuevas referencias no aportan información adicional
    • También se considera la FACTIBILIDAD práctica: Recursos disponibles (tiempo, presupuesto) y Accesibilidad de la población objetivo

CONCLUSIÓN:

Las fórmulas son HERRAMIENTAS TEÓRICAS de apoyo para entender el crecimiento potencial, pero NO deben usarse como herramientas de cálculo del tamaño muestral en aplicaciones reales.


2 Estimadores

Este taller presenta un análisis estadístico sobre el rendimiento académico y hábitos de estudio de estudiantes universitarios. Se utilizan técnicas de muestreo probabilístico y análisis de estimadores para responder preguntas de investigación relevantes.

2.1 Pregunta de Investigación

¿Existe una relación significativa entre las horas de estudio semanales y el promedio académico de los estudiantes universitarios?

2.2 Generación de la Población

2.2.1 Creación de la Base de Datos

Generamos una población de 1000 estudiantes universitarios con las siguientes características:

# Crear población de 1000 estudiantes
n_poblacion = 1000

# Establecer semilla para reproducibilidad de la población
set.seed(1)

poblacion = data.frame(
  id = 1:n_poblacion,
  edad = round(rnorm(n_poblacion, mean = 20, sd = 2)),
  horas_estudio = round(pmax(0, rnorm(n_poblacion, mean = 15, sd = 5)), 1),
  promedio = round(pmax(0, pmin(5, rnorm(n_poblacion, mean = 3.5, sd = 0.6))), 2),
  genero = sample(c("M", "F"), n_poblacion, replace = TRUE),
  semestre = sample(1:10, n_poblacion, replace = TRUE)
)

# Crear variable categórica: aprueba con buen promedio (>3.5) donde 1 indicará que si aprueba y 0 indicará que no aprueba)
poblacion$aprueba = ifelse(poblacion$promedio > 3.5, 1, 0)

#Se visualizan los primeros 25 estudiantes de la población
head(poblacion, 25)
##    id edad horas_estudio promedio genero semestre aprueba
## 1   1   19          20.7     2.97      M       10       0
## 2   2   20          20.6     2.35      F        2       0
## 3   3   18          10.6     4.47      F        5       1
## 4   4   23          16.1     3.81      M        3       1
## 5   5   21          15.3     3.47      F        1       0
## 6   6   18           6.7     3.92      M        7       1
## 7   7   21          19.1     3.53      M        8       1
## 8   8   21           5.4     2.71      M        2       0
## 9   9   21           8.8     2.23      M       10       0
## 10 10   19          20.0     3.38      M        9       0
## 11 11   23          12.3     3.31      M       10       0
## 12 12   21          13.9     2.87      M        9       0
## 13 13   19           6.9     3.75      M        2       1
## 14 14   16           7.7     3.31      M        7       0
## 15 15   22          16.8     4.00      F        5       1
## 16 16   20          14.1     4.27      F        9       1
## 17 17   20          12.0     3.12      M        9       0
## 18 18   22           8.3     2.97      M        4       0
## 19 19   22           9.5     3.59      M        4       1
## 20 20   21          25.2     4.36      F        4       1
## 21 21   22          13.4     2.46      M        6       0
## 22 22   22          18.9     3.00      M        2       0
## 23 23   20          18.9     3.07      F        9       0
## 24 24   16          18.8     3.72      F       10       1
## 25 25   21          16.5     4.93      M        5       1

2.3 Variables de estudio

Las variables a tomar son Horas de Estudio Semanales (horas_estudio) y Promedio Académico (promedio)

2.4 Muestreo Probabilístico

Utilizamos Muestreo Aleatorio Simple (MAS) para garantizar que cada elemento de la población tenga la misma probabilidad de ser seleccionado.

2.4.1 Muestra 1: 70% de la población (n = 700)

# Establecer semilla para reproducibilidad del muestreo
set.seed(2)

n_muestra1 = round(0.70 * n_poblacion)
indices_muestra1 = sample(1:n_poblacion, n_muestra1, replace = FALSE)
muestra1 = poblacion[indices_muestra1, ]

cat("Tamaño de la Muestra 1:", nrow(muestra1), "estudiantes.")
## Tamaño de la Muestra 1: 700 estudiantes.
#Se visualizan los primeros 5 estudiantes de la muestra 2.
head(muestra1, 5)
##      id edad horas_estudio promedio genero semestre aprueba
## 853 853   18          18.7     4.10      F        5       1
## 975 975   14          11.9     3.32      M       10       0
## 710 710   24           7.4     2.95      F        4       0
## 774 774   23          19.4     3.29      F        4       0
## 416 416   21          14.4     4.60      F        4       1

2.4.2 Muestra 2: 30% de la población (n = 300)

# Establecer semilla para reproducibilidad del muestreo
set.seed(3)

n_muestra2 = round(0.30 * n_poblacion)
indices_muestra2 = sample(1:n_poblacion, n_muestra2, replace = FALSE)
muestra2 = poblacion[indices_muestra2, ]

cat("Tamaño de la Muestra 1:", nrow(muestra1), "estudiantes.")
## Tamaño de la Muestra 1: 700 estudiantes.
#Se visualizan los primeros 5 estudiantes de la muestra 2.
head(muestra2, 5)
##      id edad horas_estudio promedio genero semestre aprueba
## 773 773   22          12.2     3.71      F        8       1
## 698 698   21           5.5     3.99      F        3       1
## 652 652   18          12.5     3.48      F        8       0
## 548 548   21          12.5     4.45      F        5       1
## 999 999   17          20.0     2.20      F        7       0

2.5 Estimadores para Variable 1: Horas de Estudio

2.5.1 Media Muestral

# Parámetro poblacional
mu_horas_pob = mean(poblacion$horas_estudio)

# Estimadores muestrales
media_horas_m1 = mean(muestra1$horas_estudio)
media_horas_m2 = mean(muestra2$horas_estudio)

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(mu_horas_pob,2),"\n","Estimador Muestra 1:  ", round(media_horas_m1,2),"\n","Estimador Muestra 2:  ", round(media_horas_m2,2))
##  Parámetro poblacional: 14.92 
##  Estimador Muestra 1:   14.96 
##  Estimador Muestra 2:   15.11

2.5.1.1 Determinación de Sesgo

diferencia_poblacion_m1 = abs(media_horas_m1 - mu_horas_pob)

cat("Diferencia observada entre media muestral y poblacional:", diferencia_poblacion_m1)
## Diferencia observada entre media muestral y poblacional: 0.03971429

El estimador de la media muestral presenta una diferencia de aproximadamente 0.04 con respecto a la media poblacional (14.96 vs. 14.92).

Según la tabla de propiedades del estimador, este valor corresponde a un sesgo pequeño, atribuible a la variabilidad muestral y no a un desplazamiento sistemático. Se considera aceptable al no tener impacto significativo sobre el error cuadrático medio (MSE). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).

diferencia_poblacion_m2 = abs(media_horas_m2 - mu_horas_pob)

cat("Diferencia observada entre media muestral y poblacional:", diferencia_poblacion_m2)
## Diferencia observada entre media muestral y poblacional: 0.189

El estimador de la media muestral presenta una diferencia de aproximadamente 0.19 con respecto a la media poblacional (15.11 vs. 14.92).

Según la tabla de propiedades del estimador, este valor corresponde a un sesgo pequeño, atribuible a la variabilidad muestral y no a un desplazamiento sistemático. Se considera aceptable al no tener impacto significativo sobre el error cuadrático medio (MSE). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).

NOTA: Se debe aclarar que la media muestral es INSESGADA, teóricamente:

\[E[\bar{X}]=\mu\] Según la teoría, las diferencias observadas entre las medias muestrales y la media poblacional son variabilidad aleatoria, NO sesgo.

En conclusión, las diferencias observadas entre medias muestrales y media poblacional NO representa sesgo del estimador. Esta es VARIABILIDAD MUESTRAL ALEATORIA, esperada en cualquier Muestreo Aleatorio Simple (MAS).

El estimador NO tiene sesgo sistemático. Si repitiéramos el muestreo infinitas veces: E[\(\bar{X}\)] = \(\mu\), la diferencia observada tiende a 0 al promediar sobre muchas muestras posibles.

2.5.1.2 Consistencia

Al validar los resultados obtenidos para la media poblacional y las medias muestrales:

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(mu_horas_pob,2),"\n","Estimador Muestra 1:  ", round(media_horas_m1,2),"\n","Estimador Muestra 2:  ", round(media_horas_m2,2))
##  Parámetro poblacional: 14.92 
##  Estimador Muestra 1:   14.96 
##  Estimador Muestra 2:   15.11

Se evidencia que la media muestral se acerca a la media poblacional cuando se agregan mas datos, es decir, la media muestral converge hacia la media poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la media es consistente.

2.5.1.3 Eficiencia

Es asociada a que tan grande es la varianza de un estimador.

\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\] Para el caso del estimador de la media muestral:

\[Var(\bar{X}) = {\sigma}^2/n\]

# Varianza del estimador de la media = varianza muestral / tamaño de la muestra
var_horas_m1 = var(muestra1$horas_estudio)
var_horas_m2 = var(muestra2$horas_estudio)

var_media_m1 = var_horas_m1 / nrow(muestra1)
var_media_m2 = var_horas_m2 / nrow(muestra2)

cat(" Varianza muestra 1:", round(var_media_m1,2), "\n", "Varianza muestra 2:", round(var_media_m2,2), "\n")
##  Varianza muestra 1: 0.04 
##  Varianza muestra 2: 0.1
if (var_media_m1 < var_media_m2) {
cat("El estimador de la media en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_media_m1 > var_media_m2) {
cat("El estimador de la media en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la media en la Muestra 1 es MÁS EFICIENTE (menor varianza).

2.5.1.4 Suficiencia

Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.

En este, el parámetro poblacional de horas de estudio fue de 14.92.

La media muestral de la muestra 1 (70%) fue de 14.96 horas, mientras que la media muestral de la muestra 2 (30%) fue de 15.11 horas.

Ambas medias muestrales resumen completamente la información relevante de sus respectivas muestras sobre el promedio poblacional de horas de estudio, ya que cada una incorpora todos los valores observados de la variable horas_estudio para estimar el parámetro \(\mu\).

Por tanto, tanto la media muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, pues utilizan toda la información disponible en los datos para representar el comportamiento promedio de la población sin pérdida de información estadística.

2.5.2 Varianza Muestral

En R, la función var() divide entre N-1, es decir, calcula la varianza muestral no la varianza poblacional (\(\sigma^2\) = (1/N)*\(\sum(x_1-\mu)^2\)). Como N=1000, la diferencia numérica es muy pequeña.

Usaremos esta función var() como APROXIMACIÓN PRÁCTICAMENTE EXACTA del parámetro poblacional, reconociendo que técnicamente usa (N-1). Esta aproximación es válida para N grande.

# Parámetro poblacional
var_horas_pob = var(poblacion$horas_estudio)

# Estimadores muestrales
var_horas_m1 = var_horas_m1
var_horas_m2 = var_horas_m2

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(var_horas_pob,2),"\n","Estimador Muestra 1:  ", round(var_horas_m1,2),"\n","Estimador Muestra 2:  ", round(var_horas_m2,2))
##  Parámetro poblacional: 26.98 
##  Estimador Muestra 1:   27.95 
##  Estimador Muestra 2:   29.52

2.5.2.1 Determinación de Sesgo

diferencia_poblacion_m1 = abs(var_horas_m1 - var_horas_pob)

cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 0.9703053

La varianza muestral difiere 0.97 unidades de la varianza poblacional (27.95 vs. 26.98).

De acuerdo con la tabla, este tipo de diferencia representa un sesgo corregible analíticamente, que se elimina aplicando la corrección de Bessel (n−1 en el denominador). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).

diferencia_poblacion_m2 = abs(var_horas_m2 - var_horas_pob)

cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 2.542991

La varianza muestral difiere 2.54 unidades de la varianza poblacional (29.52 vs. 26.98).

De acuerdo con la tabla, este tipo de diferencia representa un sesgo corregible analíticamente, que se elimina aplicando la corrección de Bessel (n−1 en el denominador). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).

NOTA: La varianza muestral (con n-1) es INSESGADA, teóricamente:

\[E[S^2] = {\sigma}^2\] La función var() usa corrección de Bessel que garantiza esto.

Las diferencias entre las varianzas muestrales y la varianza poblacional son normales porque son valores altos. La diferencia NO representa sesgo, es VARIABILIDAD MUESTRAL ALEATORIA inherente a cualquier estimador.

Aunque hay diferencias numéricas entre \(S^2\) y \(\sigma^2\), teóricamente \(E[S^2]\) = \(\sigma^2\) (insesgado). Las discrepancias observadas se deben a la variabilidad natural de la muestra, no a sesgo estructural.

El estimador \(S^2\) NO tiene sesgo. La corrección de Bessel garantiza \(E[S^2]\) = \(\sigma^2\) y las diferencias observadas son parte de la variabilidad aleatoria.

2.5.2.2 Consistencia

Al validar los resultados obtenidos para la varianza poblacional y las varianzas muestrales:

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(var_horas_pob,2),"\n","Estimador Muestra 1:  ", round(var_horas_m1,2),"\n","Estimador Muestra 2:  ", round(var_horas_m2,2))
##  Parámetro poblacional: 26.98 
##  Estimador Muestra 1:   27.95 
##  Estimador Muestra 2:   29.52

Se evidencia que la varianza muestral se acerca a la varianza poblacional cuando se agregan mas datos, es decir, la varianza muestral converge hacia la varianza poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la varianza es consistente.

2.5.2.3 Eficiencia

Es asociada a que tan grande es la varianza de un estimador.

\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\]

Para el caso del estimador de la varianza muestral:

\[Var(S^2) = 2{\sigma}^4/(n-1)\]

# Varianza del estimador de la varianza = 2*varianza muestral^2 / (tamaño de la muestra - 1)

var_var_m1 = (2*var_horas_m1^2) / (nrow(muestra1)-1)
var_var_m2 = (2*var_horas_m2^2) / (nrow(muestra2)-1)

cat(" Varianza muestra 1:", round(var_var_m1,2), "\n", "Varianza muestra 2:", round(var_var_m2,2), "\n")
##  Varianza muestra 1: 2.23 
##  Varianza muestra 2: 5.83
if (var_var_m1 < var_var_m2) {
cat("El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_var_m1 > var_var_m2) {
cat("El estimador de la varianza en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).

2.5.2.4 Suficiencia

Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.

En este caso, el parámetro poblacional de varianza fue de 26.98.

La varianza muestral de la muestra 1 (70%) fue de 27.95, mientras que la varianza muestral de la muestra 2 (30%) fue de 29.52.

Ambas varianzas muestrales resumen completamente la información relevante de sus respectivas muestras sobre la dispersión poblacional, ya que cada una incorpora todos los valores observados de la variable para estimar el parámetro \(\sigma^2\).

Por tanto, tanto la varianza muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, pues utilizan toda la información disponible en los datos para representar la variabilidad de la población sin pérdida de información estadística.

2.5.3 Desviación Estándar Muestral

# Parámetro poblacional y estimadores muestrales
sigma_pob = sqrt(var_horas_pob)     # desviación estándar poblacional
sigma_m1 = sqrt(var_horas_m1)        # desviación estándar muestra 1
sigma_m2 = sqrt(var_horas_m2)        # desviación estándar muestra 2

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(sigma_pob,2),"\n","Estimador Muestra 1:  ", round(sigma_m1,2),"\n","Estimador Muestra 2:  ", round(sigma_m2,2))#### Determinación de Sesgo
##  Parámetro poblacional: 5.19 
##  Estimador Muestra 1:   5.29 
##  Estimador Muestra 2:   5.43

2.5.3.1 Determinación de Sesgo

diferencia_poblacion_m1 = abs(sigma_m1 - sigma_pob)

cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 0.09258237

La desviación estándar muestral difiere 0.09 respecto al valor poblacional (5.29 vs. 5.19).

Según la tabla, esta diferencia representa un sesgo pequeño, causado por la variabilidad muestral. Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).

diferencia_poblacion_m2 = abs(sigma_m2 - sigma_pob)

cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 0.2392915

La desviación estándar muestral difiere 0.24 respecto al valor poblacional (5.43 vs. 5.19).

Según la tabla, esta diferencia representa un sesgo pequeño, causado por la variabilidad muestral. Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).

NOTA: La desviación estándar tiene SESGO NEGATIVO pequeño, teóricamente:

\[E[S] < {\sigma}\] Esto es por la desigualdad de Jensen, no por el umbral empírico, desginado por nosotros.

Las diferencias entre las deviaciones estándar muestrales y la desviación estándar poblacional no supera 0.3 (para n=300, que es la diferencia más alta), esto lo hace prácticamente despreciable.

La diferencia numérica NO es ‘el sesgo’:

  • El SESGO es: Sesgo(S) = E[S] - \(\sigma\) (propiedad del estimador).
  • Lo observado es: S - \(\sigma\).

Para n grande, el sesgo de S es aproximadamente DESPRECIABLE en la práctica. Para n \(\ge\) 30, se considera prácticamente insesgado.

2.5.3.2 Consistencia

Al validar los resultados obtenidos para la varianza poblacional y las varianzas muestrales:

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(sigma_pob,2),"\n","Estimador Muestra 1:  ", round(sigma_m1,2),"\n","Estimador Muestra 2:  ", round(sigma_m2,2))
##  Parámetro poblacional: 5.19 
##  Estimador Muestra 1:   5.29 
##  Estimador Muestra 2:   5.43

Se evidencia que la Desviación Estándar muestral se acerca a la Desviación Estándar poblacional cuando se agregan mas datos, es decir, la Desviación Estándar muestral converge hacia la Desviación Estándar poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la Desviación Estándar es consistente.

2.5.3.3 Eficiencia

Es asociada a que tan grande es la varianza de un estimador.

\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\]

Para el caso del estimador de la Desviación Estándar muestral:

\[Var(s) = {\sigma}^2/2(n-1)\]

# Varianza del estimador de la varianza = varianza muestral / 2*(tamaño de la muestra - 1)

var_desvest_m1 = (var_horas_m1) / (2*(nrow(muestra1)-1))
var_desvest_m2 = (var_horas_m2) / (2*(nrow(muestra2)-1))

cat(" Varianza muestra 1:", round(var_desvest_m1,2), "\n", "Varianza muestra 2:", round(var_desvest_m2,2), "\n")
##  Varianza muestra 1: 0.02 
##  Varianza muestra 2: 0.05
if (var_desvest_m1 < var_desvest_m2) {
cat("El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_desvest_m1 > var_desvest_m2) {
cat("El estimador de la varianza en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).

2.5.3.4 Suficiencia

Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.

En este caso, el parámetro poblacional de la desviación estándar de las horas de estudio fue de 5.19.

La desviación estándar muestral de la muestra 1 (70%) fue de 5.29 horas, mientras que la desviación estándar muestral de la muestra 2 (30%) fue de 5.43 horas.

Cada desviación estándar muestral resume completamente la dispersión de los datos en sus respectivas muestras con relación al promedio de horas de estudio.
Esto significa que aprovechan toda la información relevante contenida en las observaciones individuales de horas_estudio para medir la variabilidad respecto a la media.

Por tanto, tanto la desviación estándar muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, ya que representan de forma completa la variabilidad de la población con base en los datos muestrales, sin pérdida de información estadística.

2.6 Estimadores para Variable 2: Promedio Académico

2.6.1 Media Muestral

# Parámetro poblacional
mu_promedio_pob = mean(poblacion$promedio)

# Estimadores muestrales
media_promedio_m1 = mean(muestra1$promedio)
media_promedio_m2 = mean(muestra2$promedio)

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(mu_promedio_pob,4),"\n","Estimador Muestra 1:  ", round(media_promedio_m1,4),"\n","Estimador Muestra 2:  ", round(media_promedio_m2,4))
##  Parámetro poblacional: 3.5086 
##  Estimador Muestra 1:   3.5086 
##  Estimador Muestra 2:   3.5174

2.6.1.1 Determinación de Sesgo

diferencia_poblacion_m1 = abs(media_promedio_m1 - mu_promedio_pob)

cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 1e-05

El estimador de la media muestral presenta una diferencia de aproximadamente 0.00001 con respecto a la media poblacional (3.5086 vs. 3.5086).

Según la tabla de propiedades del estimador, este valor corresponde a un sesgo pequeño, atribuible a la variabilidad muestral y no a un desplazamiento sistemático. Se considera aceptable al no tener impacto significativo sobre el error cuadrático medio (MSE). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).

diferencia_poblacion_m2 = abs(media_promedio_m2 - mu_promedio_pob)

cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 0.00879

El estimador de la media muestral presenta una diferencia de aproximadamente 0.00879 con respecto a la media poblacional (3.5174 vs. 3.5086).

Según la tabla de propiedades del estimador, este valor corresponde a un sesgo pequeño, atribuible a la variabilidad muestral y no a un desplazamiento sistemático. Se considera aceptable al no tener impacto significativo sobre el error cuadrático medio (MSE). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).

NOTA: Se debe aclarar que la media muestral es INSESGADA, teóricamente:

\[E[\bar{X}]=\mu\] Según la teoría, las diferencias observadas entre las medias muestrales y la media poblacional son variabilidad aleatoria, NO sesgo.

En conclusión, las diferencias observadas entre medias muestrales y media poblacional NO representa sesgo del estimador. Esta es VARIABILIDAD MUESTRAL ALEATORIA, esperada en cualquier Muestreo Aleatorio Simple (MAS).

El estimador NO tiene sesgo sistemático. Si repitiéramos el muestreo infinitas veces: \(E[\bar{X}]\) = \(\mu\), la diferencia observada tiende a 0 al promediar sobre muchas muestras posibles.

2.6.1.2 Consistencia

Al validar los resultados obtenidos para la media poblacional y las medias muestrales:

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(mu_promedio_pob,4),"\n","Estimador Muestra 1:  ", round(media_promedio_m1,4),"\n","Estimador Muestra 2:  ", round(media_promedio_m2,4))
##  Parámetro poblacional: 3.5086 
##  Estimador Muestra 1:   3.5086 
##  Estimador Muestra 2:   3.5174

Se evidencia que la media muestral se acerca a la media poblacional cuando se agregan mas datos, es decir, la media muestral converge hacia la media poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la media es consistente.

2.6.1.3 Eficiencia

Es asociada a que tan grande es la varianza de un estimador.

\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\] Para el caso del estimador de la media muestral:

\[Var(\bar{X}) = {\sigma}^2/n\]

# Varianza del estimador de la media = varianza muestral / tamaño de la muestra
var_promedio_m1 = var(muestra1$promedio)
var_promedio_m2 = var(muestra2$promedio)

var_media_m1 = var_promedio_m1 / nrow(muestra1)
var_media_m2 = var_promedio_m2 / nrow(muestra2)

cat(" Varianza muestra 1:", format(round(var_media_m1,4), scientific = FALSE), "\n", "Varianza muestra 2:", format(round(var_media_m2,4), scientific = FALSE), "\n")
##  Varianza muestra 1: 0.0006 
##  Varianza muestra 2: 0.0013
if (var_media_m1 < var_media_m2) {
cat("El estimador de la media en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_media_m1 > var_media_m2) {
cat("El estimador de la media en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la media en la Muestra 1 es MÁS EFICIENTE (menor varianza).

2.6.1.4 Suficiencia

Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.

En este, el parámetro poblacional de la media para el promedio académico fue de 3.5086.

La media muestral de la muestra 1 (70%) fue de 3.5086, mientras que la media muestral de la muestra 2 (30%) fue de 3.5174.

Ambas medias muestrales resumen completamente la información relevante de sus respectivas muestras sobre el promedio poblacional de promedio académico, ya que cada una incorpora todos los valores observados de la variable promedio para estimar el parámetro \(\mu\).

Por tanto, tanto la media muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, pues utilizan toda la información disponible en los datos para representar el comportamiento promedio de la población sin pérdida de información estadística.

2.6.2 Varianza Muestral

En R, la función var() divide entre N-1, es decir, calcula la varianza muestral no la varianza poblacional (\(\sigma^2\) = (1/N)*\(\sum(x_1-\mu)^2\)). Como N=1000, la diferencia numérica es muy pequeña.

Usaremos esta función var() como APROXIMACIÓN PRÁCTICAMENTE EXACTA del parámetro poblacional, reconociendo que técnicamente usa (N-1). Esta aproximación es válida para N grande.

# Parámetro poblacional
var_promedio_pob = var(poblacion$promedio)

# Estimadores muestrales
var_promedio_m1 = var_promedio_m1
var_promedio_m2 = var_promedio_m2

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(var_promedio_pob,4),"\n","Estimador Muestra 1:  ", round(var_promedio_m1,4),"\n","Estimador Muestra 2:  ", round(var_promedio_m2,4))
##  Parámetro poblacional: 0.3811 
##  Estimador Muestra 1:   0.3887 
##  Estimador Muestra 2:   0.3808

2.6.2.1 Determinación de Sesgo

diferencia_poblacion_m1 = abs(var_promedio_m1 - var_promedio_pob)

cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 0.007598559

La varianza muestral difiere 0.0076 unidades de la varianza poblacional (0.3887 vs. 0.3811).

De acuerdo con la tabla, este tipo de diferencia representa un sesgo corregible analíticamente, que se elimina aplicando la corrección de Bessel (n−1 en el denominador). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).

diferencia_poblacion_m2 = abs(var_promedio_m2 - var_promedio_pob)

cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 0.0003412027

La varianza muestral difiere 0.000341 unidades de la varianza poblacional (0.3808 vs. 0.3811).

De acuerdo con la tabla, este tipo de diferencia representa un sesgo corregible analíticamente, que se elimina aplicando la corrección de Bessel (n−1 en el denominador). Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).

NOTA: La varianza muestral (con n-1) es INSESGADA, teóricamente:

\[E[S^2] = {\sigma}^2\] La función var() usa corrección de Bessel que garantiza esto.

Las diferencias entre las varianzas muestrales y la varianza poblacional son normales porque son valores altos. La diferencia NO representa sesgo, es VARIABILIDAD MUESTRAL ALEATORIA inherente a cualquier estimador.

Aunque hay diferencias numéricas entre \(S^2\) y \(\sigma^2\), teóricamente \(E[S^2]\) = \(\sigma^2\) (insesgado). Las discrepancias observadas se deben a la variabilidad natural de la muestra, no a sesgo estructural.

El estimador \(S^2\) NO tiene sesgo. La corrección de Bessel garantiza \(E[S^2]\) = \(\sigma^2\) y las diferencias observadas son parte de la variabilidad aleatoria.

2.6.2.2 Consistencia

Al validar los resultados obtenidos para la varianza poblacional y las varianzas muestrales:

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(var_promedio_pob,4),"\n","Estimador Muestra 1:  ", round(var_promedio_m1,4),"\n","Estimador Muestra 2:  ", round(var_promedio_m2,4))
##  Parámetro poblacional: 0.3811 
##  Estimador Muestra 1:   0.3887 
##  Estimador Muestra 2:   0.3808

Se evidencia que la varianza muestral se acerca a la varianza poblacional cuando se agregan mas datos, es decir, la varianza muestral converge hacia la varianza poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la varianza es consistente.

NOTA: La coincidencia del valor de la varianza calculada para la muestra 2 con respecto al parámetro poblacional no significa inconsistencia, solo una fluctuación muestral aleatoria.

2.6.2.3 Eficiencia

Es asociada a que tan grande es la varianza de un estimador.

\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\]

Para el caso del estimador de la varianza muestral:

\[Var(S^2) = 2{\sigma}^4/(n-1)\]

# Varianza del estimador de la varianza = 2*varianza muestral^2 / (tamaño de la muestra - 1)

var_var_m1 = (2*var_promedio_m1^2) / (nrow(muestra1)-1)
var_var_m2 = (2*var_promedio_m2^2) / (nrow(muestra2)-1)

cat(" Varianza muestra 1:", format(round(var_var_m1,4), scientific = FALSE), "\n", "Varianza muestra 2:", format(round(var_var_m2,4), scientific = FALSE), "\n")
##  Varianza muestra 1: 0.0004 
##  Varianza muestra 2: 0.001
if (var_var_m1 < var_var_m2) {
cat("El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_var_m1 > var_var_m2) {
cat("El estimador de la varianza en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).

2.6.2.4 Suficiencia

Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.

En este caso, el parámetro poblacional de varianza fue de 0.3811.

La varianza muestral de la muestra 1 (70%) fue de 0.3887, mientras que la varianza muestral de la muestra 2 (30%) fue de 0.3808.

Ambas varianzas muestrales resumen completamente la información relevante de sus respectivas muestras sobre la dispersión poblacional, ya que cada una incorpora todos los valores observados de la variable para estimar el parámetro \(\sigma^2\).

Por tanto, tanto la varianza muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, pues utilizan toda la información disponible en los datos para representar la variabilidad de la población sin pérdida de información estadística.

2.6.3 Desviación Estándar Muestral

# Parámetro poblacional y estimadores muestrales
sigma_pob = sqrt(var_promedio_pob)     # desviación estándar poblacional
sigma_m1 = sqrt(var_promedio_m1)        # desviación estándar muestra 1
sigma_m2 = sqrt(var_promedio_m2)        # desviación estándar muestra 2

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(sigma_pob,4),"\n","Estimador Muestra 1:  ", round(sigma_m1,4),"\n","Estimador Muestra 2:  ", round(sigma_m2,4))#### Determinación de Sesgo
##  Parámetro poblacional: 0.6174 
##  Estimador Muestra 1:   0.6235 
##  Estimador Muestra 2:   0.6171

2.6.3.1 Determinación de Sesgo

diferencia_poblacion_m1 = abs(sigma_m1 - sigma_pob)

cat("La diferencia es:", diferencia_poblacion_m1)
## La diferencia es: 0.006123642

La desviación estándar muestral difiere 0.00612 respecto al valor poblacional (0.6235 vs. 0.6174).

Según la tabla, esta diferencia representa un sesgo pequeño, causado por la variabilidad muestral. Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).

diferencia_poblacion_m2 = abs(sigma_m2 - sigma_pob)

cat("La diferencia es:", diferencia_poblacion_m2)
## La diferencia es: 0.0002763992

La desviación estándar muestral difiere 0.00612 respecto al valor poblacional (0.6171 vs. 0.6174).

Según la tabla, esta diferencia representa un sesgo pequeño, causado por la variabilidad muestral. Pero esta conclusión aplica solo para el ejercicio netamente académico (ver nota).

NOTA: La desviación estándar tiene SESGO NEGATIVO pequeño, teóricamente:

\[E[S] < {\sigma}\] Esto es por la desigualdad de Jensen, no por el umbral empírico, desginado por nosotros.

Las diferencias entre las deviaciones estándar muestrales y la desviación estándar poblacional no supera 0.01 (para n=700, que es la diferencia más alta), esto lo hace prácticamente despreciable.

La diferencia numérica NO es ‘el sesgo’:

  • El SESGO es: Sesgo(S) = E[S] - \(\sigma\) (propiedad del estimador).
  • Lo observado es: S - \(\sigma\).

Para n grande, el sesgo de S es aproximadamente DESPRECIABLE en la práctica. Para n \(\ge\) 30, se considera prácticamente insesgado.

2.6.3.2 Consistencia

Al validar los resultados obtenidos para la varianza poblacional y las varianzas muestrales:

#Se visualizan los resultados
cat(" Parámetro poblacional:", round(sigma_pob,4),"\n","Estimador Muestra 1:  ", round(sigma_m1,4),"\n","Estimador Muestra 2:  ", round(sigma_m2,4))
##  Parámetro poblacional: 0.6174 
##  Estimador Muestra 1:   0.6235 
##  Estimador Muestra 2:   0.6171

Se evidencia que la Desviación Estándar muestral se acerca a la Desviación Estándar poblacional cuando se agregan mas datos, es decir, la Desviación Estándar muestral converge hacia la Desviación Estándar poblacional al aumentar el tamaño de muestra. En conclusión, el estimador de la Desviación Estándar es consistente.

NOTA: La coincidencia del valor de la desviación estándar calculada para la muestra 2 con respecto al parámetro poblacional no significa inconsistencia, solo una fluctuación muestral aleatoria.

2.6.3.3 Eficiencia

Es asociada a que tan grande es la varianza de un estimador.

\[Var(\hat{\theta}_1) < Var(\hat{\theta}_2)\]

Para el caso del estimador de la Desviación Estándar muestral:

\[Var(s) = {\sigma}^2/2(n-1)\]

# Varianza del estimador de la varianza = varianza muestral / 2*(tamaño de la muestra - 1)

var_desvest_m1 = (var_promedio_m1) / (2*(nrow(muestra1)-1))
var_desvest_m2 = (var_promedio_m2) / (2*(nrow(muestra2)-1))

cat(" Varianza muestra 1:", format(round(var_desvest_m1,4), scientific = FALSE), "\n", "Varianza muestra 2:", format(round(var_desvest_m2,4), scientific = FALSE), "\n")
##  Varianza muestra 1: 0.0003 
##  Varianza muestra 2: 0.0006
if (var_desvest_m1 < var_desvest_m2) {
cat("El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).")
} else if (var_desvest_m1 > var_desvest_m2) {
cat("El estimador de la varianza en la Muestra 2 es MÁS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen EFICIENCIA SIMILAR.")
}
## El estimador de la varianza en la Muestra 1 es MÁS EFICIENTE (menor varianza).

2.6.3.4 Suficiencia

Un estimador es suficiente cuando utiliza toda la información contenida en la muestra respecto al parámetro de interés.

En este caso, el parámetro poblacional de la desviación estándar del promedio académico fue de 0.6174.

La desviación estándar muestral de la muestra 1 (70%) fue de 0.6235, mientras que la desviación estándar muestral de la muestra 2 (30%) fue de 0.6171.

Cada desviación estándar muestral resume completamente la dispersión de los datos en sus respectivas muestras con relación al promedio académico.

Esto significa que aprovechan toda la información relevante contenida en las observaciones individuales de promedio para medir la variabilidad respecto a la media.

Por tanto, tanto la desviación estándar muestral de la muestra 1 como la de la muestra 2 son estimadores suficientes, ya que representan de forma completa la variabilidad de la población con base en los datos muestrales, sin pérdida de información estadística.


3 Intervalos de confianza

3.1 Estimador Media

Dado que trabajamos con una POBLACIÓN SIMULADA donde conocemos todos los valores (N=1000), podemos calcular directamente:

  • \(\sigma\) (desviación estándar poblacional)
  • \(\mu\) (media poblacional verdadera)

Tratamos \(\sigma\) como CONOCIDA, entonces usamos la distribución NORMAL ESTÁNDAR (Z).

En un estudio real, donde \(\sigma\) es desconocida, se usaría s (estimador) y distribución t de Student.

Cuando n es grande (n \(\ge\) 30), la distribución t se aproxima a Z, por lo que los resultados son muy similares. Sin embargo, el procedimiento correcto es usar t student cuando \(\sigma\) es desconocida, independientemente del tamaño muestral.

3.1.1 Variable Horas de Estudio

3.1.1.1 Intervalo de confianza para Muestra 1

# Calcular el intervalo de confianza para la media
nivel_confianza_muestra1_horas_estudio = 0.95
muestra1_media_horas_estudio = mean(muestra1$horas_estudio)
desviacion_estandar_muestra1_horas_estudio = sd(muestra1$horas_estudio)
tamano_muestra1_horas_estudio = length(muestra1$horas_estudio)
desviacion_estandar_poblacional_horas_estudio = sd(poblacion$horas_estudio)

# Calcular el error estándar de la media 
error_estandar_muestra1_horas_estudio = desviacion_estandar_poblacional_horas_estudio / sqrt(tamano_muestra1_horas_estudio)

# Calcular el valor crítico de la distribución normal
# Valor crítico de la distribución Normal ESTÁNDAR (μ=0, σ=1)
# NO se usan los parámetros de nuestros datos (media_m1, sigma_pob) porque:
# - El valor crítico es un número fijo que solo depende del nivel de confianza
# - Viene de la distribución Normal ESTÁNDAR, no de nuestros datos específicos
# - Para IC 95% siempre es 1.96, sin importar nuestros datos
# - Los datos entran en el MARGEN DE ERROR, no en el valor crítico
valor_critico_muestra1_horas_estudio = qnorm((1 + nivel_confianza_muestra1_horas_estudio)/2)

# Calcular el margen de error
margen_error_muestra1_horas_estudio = valor_critico_muestra1_horas_estudio * error_estandar_muestra1_horas_estudio

# Calcular el intervalo de confianza
intervalo_confianza_muestra1_horas_estudio = c(muestra1_media_horas_estudio - margen_error_muestra1_horas_estudio, muestra1_media_horas_estudio + margen_error_muestra1_horas_estudio)

# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza_muestra1_horas_estudio * 100, "% para la media de la muestra 1 de la variable Horas de Estudio:", intervalo_confianza_muestra1_horas_estudio[1], "-", intervalo_confianza_muestra1_horas_estudio[2])
## Intervalo de confianza del 95 % para la media de la muestra 1 de la variable Horas de Estudio: 14.57595 - 15.34548

Se evidencia lo siguiente:

  • Media muestral: 14.96 horas
  • IC 95%: [14.58, 15.35]
  • Amplitud: 0.77 horas
  • El parámetro poblacional (miu = 14.92) SÍ está dentro del IC

Interpretación: Con 95% de confianza, estimamos que la media poblacional de horas de estudio semanales está entre 14.58 y 15.35 horas. Esto significa que si repitiéramos este muestreo muchas veces, aproximadamente el 95% de los intervalos construidos contendrían la verdadera media poblacional.

3.1.1.2 Intervalo de confianza para Muestra 2

# Calcular el intervalo de confianza para la media
nivel_confianza_muestra2_horas_estudio = 0.95
muestra2_media_horas_estudio = mean(muestra2$horas_estudio)
desviacion_estandar_muestra2_horas_estudio = sd(muestra2$horas_estudio)
tamano_muestra2_horas_estudio = length(muestra2$horas_estudio)
desviacion_estandar_poblacional_horas_estudio = sd(poblacion$horas_estudio)

# Calcular el error estándar de la media 
error_estandar_muestra2_horas_estudio = desviacion_estandar_poblacional_horas_estudio / sqrt(tamano_muestra2_horas_estudio)

# Calcular el valor crítico de la distribución normal
# Valor crítico de la distribución Normal ESTÁNDAR (μ=0, σ=1)
# NO se usan los parámetros de nuestros datos (media_m1, sigma_pob) porque:
# - El valor crítico es un número fijo que solo depende del nivel de confianza
# - Viene de la distribución Normal ESTÁNDAR, no de nuestros datos específicos
# - Para IC 95% siempre es 1.96, sin importar nuestros datos
# - Los datos entran en el MARGEN DE ERROR, no en el valor crítico
valor_critico_muestra2_horas_estudio = qnorm((1 + nivel_confianza_muestra2_horas_estudio) / 2)

# Calcular el margen de error
margen_error_muestra2_horas_estudio = valor_critico_muestra2_horas_estudio * error_estandar_muestra2_horas_estudio

# Calcular el intervalo de confianza
intervalo_confianza_muestra2_horas_estudio = c(muestra2_media_horas_estudio - margen_error_muestra2_horas_estudio, muestra2_media_horas_estudio + margen_error_muestra2_horas_estudio)

# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza_muestra2_horas_estudio * 100, "% para la media de la muestra 2 de la variable Horas de Estudio:", intervalo_confianza_muestra2_horas_estudio[1], "-", intervalo_confianza_muestra2_horas_estudio[2])
## Intervalo de confianza del 95 % para la media de la muestra 2 de la variable Horas de Estudio: 14.52226 - 15.69774

Se evidencia lo siguiente:

  • Media muestral: 15.11 horas
  • IC 95%: [14.52, 15.70]
  • Amplitud: 1.18 horas
  • El parámetro poblacional (miu = 14.92) SÍ está dentro del IC

Interpretación: Con 95% de confianza, estimamos que la media poblacional de horas de estudio semanales está entre 14.52 y 15.70 horas.

Las dos muestras producen estimaciones válidas y consistentes de la media poblacional. La Muestra 1, al ser más grande, ofrece mayor precisión (intervalo más estrecho), lo que es deseable en inferencia estadística.

3.1.2 Variable Promedio

3.1.2.1 Intervalo de confianza para Muestra 1

# Calcular el intervalo de confianza para la media
nivel_confianza_muestra1_promedio = 0.95
muestra1_media_promedio = mean(muestra1$promedio)
desviacion_estandar_muestra1_promedio = sd(muestra1$promedio)
tamano_muestra1_promedio = length(muestra1$promedio)
desviacion_estandar_poblacional_promedio = sd(poblacion$promedio)

# Calcular el error estándar de la media 
error_estandar_muestra1_promedio = desviacion_estandar_poblacional_promedio / sqrt(tamano_muestra1_promedio)

# Calcular el valor crítico de la distribución normal
# Valor crítico de la distribución Normal ESTÁNDAR (μ=0, σ=1)
# NO se usan los parámetros de nuestros datos (media_m1, sigma_pob) porque:
# - El valor crítico es un número fijo que solo depende del nivel de confianza
# - Viene de la distribución Normal ESTÁNDAR, no de nuestros datos específicos
# - Para IC 95% siempre es 1.96, sin importar nuestros datos
# - Los datos entran en el MARGEN DE ERROR, no en el valor crítico
valor_critico_muestra1_promedio = qnorm((1 + nivel_confianza_muestra1_promedio)/2)

# Calcular el margen de error
margen_error_muestra1_promedio = valor_critico_muestra1_promedio * error_estandar_muestra1_promedio

# Calcular el intervalo de confianza
intervalo_confianza_muestra1_promedio = c(muestra1_media_promedio - margen_error_muestra1_promedio, muestra1_media_promedio + margen_error_muestra1_promedio)

# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza_muestra1_promedio * 100, "% para la media de la muestra 1 de la variable Promedio:", intervalo_confianza_muestra1_promedio[1], "-", intervalo_confianza_muestra1_promedio[2])
## Intervalo de confianza del 95 % para la media de la muestra 1 de la variable Promedio: 3.462866 - 3.554334

Se evidencia lo siguiente:

  • Media muestral: 3.5086 puntos
  • IC 95%: [3.4629, 3.5543]
  • Amplitud: 0.0914 puntos
  • El parámetro poblacional (miu = 3.5086) SÍ está dentro del IC

Interpretación: Con 95% de confianza, estimamos que la media poblacional del promedio académico está entre 3.4629 y 3.5543 puntos. Este intervalo es muy estrecho, indicando alta precisión en la estimación.

3.1.2.2 Intervalo de confianza para Muestra 2

# Calcular el intervalo de confianza para la media
nivel_confianza_muestra2_promedio = 0.95
muestra2_media_promedio = mean(muestra2$promedio)
desviacion_estandar_muestra2_horas_estudio = sd(muestra2$promedio)
tamano_muestra2_promedio = length(muestra2$promedio)
desviacion_estandar_poblacional_promedio = sd(poblacion$promedio)

# Calcular el error estándar de la media 
error_estandar_muestra2_promedio = desviacion_estandar_poblacional_promedio / sqrt(tamano_muestra2_promedio)

# Calcular el valor crítico de la distribución normal
# Valor crítico de la distribución Normal ESTÁNDAR (μ=0, σ=1)
# NO se usan los parámetros de nuestros datos (media_m1, sigma_pob) porque:
# - El valor crítico es un número fijo que solo depende del nivel de confianza
# - Viene de la distribución Normal ESTÁNDAR, no de nuestros datos específicos
# - Para IC 95% siempre es 1.96, sin importar nuestros datos
# - Los datos entran en el MARGEN DE ERROR, no en el valor crítico
valor_critico_muestra2_promedio = qnorm((1 + nivel_confianza_muestra2_promedio) / 2)

# Calcular el margen de error
margen_error_muestra2_promedio = valor_critico_muestra2_promedio * error_estandar_muestra2_promedio

# Calcular el intervalo de confianza
intervalo_confianza_muestra2_promedio = c(muestra2_media_promedio - margen_error_muestra2_promedio, muestra2_media_promedio + margen_error_muestra2_promedio)

# Mostrar resultados
cat("Intervalo de confianza del", nivel_confianza_muestra2_promedio * 100, "% para la media de la muestra 2 de la variable Promedio:", intervalo_confianza_muestra2_promedio[1], "-", intervalo_confianza_muestra2_promedio[2])
## Intervalo de confianza del 95 % para la media de la muestra 2 de la variable Promedio: 3.44754 - 3.58726

Se evidencia lo siguiente:

  • Media muestral: 3.5174 puntos
  • IC 95%: [3.4475, 3.5873]
  • Amplitud: 0.1398 puntos
  • El parámetro poblacional (μ = 3.5086) SÍ está dentro del IC

Interpretación: Con 95% de confianza, estimamos que la media poblacional del promedio académico está entre 3.4475 y 3.5873 puntos.

Ambas muestras producen estimaciones válidas del promedio académico poblacional. La Muestra 1 ofrece mayor precisión debido a su mayor tamaño. La diferencia mínima entre las medias muestrales (menos de 0.01 puntos) confirma que ambas muestras son altamente representativas de la población.


4 Prueba de Hipótesis

Con el fin de continuar con los datos que hemos venido utilizando (estudiantes universitarios), para la prueba de hipótesis tomaremos la Muestra 1 (700 estudiantes), asumiendo que desconocemos la población con el fin de realizar Inferencia.

También indicamos que el nivel de significancia que tomamos es \({\alpha}\)=0.05. Significa que estamos dispuestos a aceptar un 5% de probabilidad de rechazar \(H_0\) cuando en realidad es verdadera (Error Tipo I).

4.1 Plantear hipótesis nula \(H_0\)

Basándonos en la pregunta de investigación, relacionada en el punto 2 del presente taller:

No existe relación significativa entre las horas de estudio semanales y el promedio académico de los estudiantes universitarios.

4.2 Plantear hipótesis alterna \(H_1\)

Basándonos en la pregunta de investigación, relacionada en el punto 2 del presente taller:

Sí existe relación significativa entre las horas de estudio semanales y el promedio académico de los estudiantes universitarios.

4.3 Verificación de distribución normal de los datos

4.3.1 Gráfico Q-Q plot

Se genera gráfico Q-Q plot para las variables Horas de Estudio y Promedio Académico.

par(mfrow = c(1, 2))

#Horas de Estudio
qqnorm(muestra1$horas_estudio, main = "Q-Q Plot: Horas de Estudio")
qqline(muestra1$horas_estudio, col = 2)

#Horas de Promedio
qqnorm(muestra1$promedio, main = "Q-Q Plot: Promedio Académico")
qqline(muestra1$promedio, col = 2)

Según los puntos observados en el Q-Q plot, de ambas variables (Horas de estudio y Promedio académico), visualmente se evidencia que se alinean aproximadamente en una línea diagonal, en ese caso se considera que los datos son aproximadamente normales.

4.3.2 Prueba Kolmogorov-Smirnov

Debido a que el tamaño de nuestra muestar es grande (n=700), teniendo en cuenta la población (simulación de 1000 estudiantes universitarios), utilizamos la prueba de Kolmogorov-Smirnov.

Contamos con un nivel de significancia de 0.05.

4.3.2.1 Horas de Estudio

ks.test(muestra1$horas_estudio, "pnorm", mean = mean(muestra1$horas_estudio), sd = sd(muestra1$horas_estudio))
## Warning in ks.test.default(muestra1$horas_estudio, "pnorm", mean =
## mean(muestra1$horas_estudio), : ties should not be present for the one-sample
## Kolmogorov-Smirnov test
## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  muestra1$horas_estudio
## D = 0.024731, p-value = 0.7853
## alternative hypothesis: two-sided

Ya que el p-valor es mayor que el nivel de significancia elegido (\({\alpha}\)=0.05), se acepta la hipótesis nula (\(H_0\)). De acuerdo a esto, los datos de la variable Horas de estudio presenta un comportamiento normal.

4.3.2.2 Promedio academico

ks.test(muestra1$promedio, "pnorm", mean = mean(muestra1$promedio), sd = sd(muestra1$promedio))
## Warning in ks.test.default(muestra1$promedio, "pnorm", mean =
## mean(muestra1$promedio), : ties should not be present for the one-sample
## Kolmogorov-Smirnov test
## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  muestra1$promedio
## D = 0.033266, p-value = 0.4207
## alternative hypothesis: two-sided

Ya que el p-valor es mayor que el nivel de significancia elegido (\({\alpha}\)=0.05), se acepta la hipótesis nula (\(H_0\)). De acuerdo a esto, los datos de la variable Promedio académico presenta un comportamiento normal.

4.3.3 Pruebas de hipótesis

En nuestro caso, como nuestros datos tienen un comportamiento normal, se debe usar una prueba de hipótesis Paramétrica.

Específicamente, como se está buscando la existencia de relación significativa entre las horas de estudio semanales y el promedio académico de los estudiantes universitarios, utilizamos la Prueba de Correlación de Pearson.

# Realizar la prueba de correlación de Pearson
resultado_correlacion = cor.test(muestra1$horas_estudio, muestra1$promedio, method = "pearson")
coef_correlacion = resultado_correlacion$estimate
p_valor = resultado_correlacion$p.value
print(resultado_correlacion)
## 
##  Pearson's product-moment correlation
## 
## data:  muestra1$horas_estudio and muestra1$promedio
## t = 0.4338, df = 698, p-value = 0.6646
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.05775556  0.09041040
## sample estimates:
##        cor 
## 0.01641755

Se evidencia que p-value es de 0.6645641 y el coeficiente de correlación es 0.01641755, esto nos indica que podemos aceptar la Hipótesis nula (\(H_0\)) y que NO existe relación lineal entre las horas de estudio semanales y el promedio académico de los estudiantes universitarios.

Esto tiene sentido ya que dedicar muchas horas a estudiar no garantiza que se obtengan buenos resultados. Para obtener un buen promedio, entran otras variables que deben tenerse en cuenta además de las horas dedicadas a estudiar: Horas de descanso, Historial académico, Metodología de estudio, Bases académicas de cada estudiante, entre otras.