# Crear poblacion de 1000 personas
n_poblacion <- 1000
set.seed(123)
poblacion <- data.frame(
id = 1:n_poblacion,
# Edad entre 18 y 60
edad = round(pmin(pmax(rnorm(n_poblacion, mean = 30, sd = 10), 18), 60)),
# Horas de estudio por semana (variable clave)
horas_estudio = round(pmax(0, rnorm(n_poblacion, mean = 15, sd = 6)), 1),
# Promedio academico entre 0 y 5 (variable clave)
promedio = round(pmin(pmax(rnorm(n_poblacion, mean = 3.4, sd = 0.5), 0), 5), 2),
# Genero
genero = sample(c("Masculino", "Femenino"), n_poblacion, replace = TRUE),
# Ciudad
ciudad = sample(
c("Bogota", "Medellin", "Cali", "Barranquilla", "Bucaramanga", "Neiva"),
n_poblacion,
replace = TRUE
),
# Nivel educativo
nivel_educativo = sample(
c("Primaria", "Secundaria", "Tecnico", "Tecnologo", "Universitario", "Posgrado"),
n_poblacion,
replace = TRUE,
prob = c(0.10, 0.20, 0.20, 0.20, 0.25, 0.05)
)
)
# Vista previa
head(poblacion, 25)
## id edad horas_estudio promedio genero ciudad nivel_educativo
## 1 1 24 9.0 3.14 Masculino Cali Tecnico
## 2 2 28 8.8 3.52 Femenino Cali Secundaria
## 3 3 46 14.9 3.13 Femenino Barranquilla Tecnologo
## 4 4 31 14.2 4.01 Femenino Neiva Primaria
## 5 5 31 0.0 3.49 Femenino Bogota Primaria
## 6 6 47 21.2 3.09 Femenino Barranquilla Universitario
## 7 7 35 16.5 2.50 Masculino Barranquilla Secundaria
## 8 8 18 29.5 3.08 Femenino Cali Universitario
## 9 9 23 19.1 4.42 Femenino Neiva Tecnico
## 10 10 26 12.3 3.12 Femenino Bogota Tecnologo
## 11 11 42 31.8 2.98 Masculino Barranquilla Tecnico
## 12 12 34 32.0 3.73 Masculino Neiva Tecnico
## 13 13 34 7.7 3.62 Femenino Bucaramanga Universitario
## 14 14 31 17.8 3.78 Masculino Bogota Tecnologo
## 15 15 24 13.7 3.26 Masculino Barranquilla Tecnologo
## 16 16 48 16.1 3.96 Femenino Bucaramanga Tecnico
## 17 17 35 16.4 2.81 Masculino Bogota Tecnico
## 18 18 18 7.4 3.38 Masculino Neiva Tecnico
## 19 19 37 16.7 3.05 Masculino Cali Secundaria
## 20 20 25 25.5 3.74 Femenino Cali Tecnico
## 21 21 19 14.0 3.47 Masculino Bucaramanga Tecnico
## 22 22 28 14.0 3.95 Femenino Neiva Tecnico
## 23 23 20 23.4 4.43 Masculino Bucaramanga Secundaria
## 24 24 23 20.4 3.47 Masculino Barranquilla Tecnologo
## 25 25 24 5.1 3.13 Femenino Neiva Secundaria
¿Los estudiantes que dedican más horas al estudio obtienen un mejor promedio académico?
Para este estudio se seleccionan las siguientes variables principales:
Horas de Estudio Semanales (horas_estudio)
Promedio Académico (promedio)
Ambas permiten analizar si existe relación entre el nivel de dedicación semanal y el rendimiento académico.
Se utiliza Muestreo Aleatorio Simple (MAS) para garantizar que cada estudiante de la población simulada (N = 1000) tenga la misma probabilidad de ser seleccionado.
set.seed(2)
n_muestra1 = round(0.70 * n_poblacion)
indices_muestra1 = sample(1:n_poblacion, n_muestra1, replace = FALSE)
muestra1 = poblacion[indices_muestra1, ]
cat("Tamaño de la Muestra 1:", nrow(muestra1), "estudiantes.")
## Tamaño de la Muestra 1: 700 estudiantes.
head(muestra1, 5)
## id edad horas_estudio promedio genero ciudad nivel_educativo
## 853 853 40 28.6 3.36 Femenino Cali Tecnologo
## 975 975 40 8.2 4.06 Femenino Medellin Universitario
## 710 710 37 22.7 3.09 Femenino Neiva Primaria
## 774 774 18 17.9 3.72 Femenino Bogota Secundaria
## 416 416 18 16.6 2.77 Masculino Bogota Universitario
set.seed(3)
n_muestra2 = round(0.30 * n_poblacion)
indices_muestra2 = sample(1:n_poblacion, n_muestra2, replace = FALSE)
muestra2 = poblacion[indices_muestra2, ]
cat("Tamaño de la Muestra 2:", nrow(muestra2), "estudiantes.")
## Tamaño de la Muestra 2: 300 estudiantes.
head(muestra2, 5)
## id edad horas_estudio promedio genero ciudad nivel_educativo
## 773 773 35 26.6 3.41 Femenino Cali Tecnologo
## 698 698 29 13.2 3.52 Masculino Bucaramanga Tecnologo
## 652 652 31 13.9 2.86 Masculino Bogota Tecnologo
## 548 548 36 18.7 3.67 Femenino Barranquilla Universitario
## 999 999 25 18.2 3.99 Femenino Neiva Tecnologo
El estimador seleccionado es:
Media muestral. Esto permite describir el comportamiento promedio de las variables antes de analizar su relación.
No se usan varianza ni desviación estándar, porque la pregunta de investigación busca determinar relación (correlación), no dispersión.
mu_horas_pob <- mean(poblacion$horas_estudio)
media_horas_m1 <- mean(muestra1$horas_estudio)
media_horas_m2 <- mean(muestra2$horas_estudio)
cat("Parametro poblacional:", round(mu_horas_pob, 2), "\n",
"Estimador Muestra 1:", round(media_horas_m1, 2), "\n",
"Estimador Muestra 2:", round(media_horas_m2, 2), "\n")
## Parametro poblacional: 15.26
## Estimador Muestra 1: 15.37
## Estimador Muestra 2: 15.32
# Diferencia absoluta entre media muestral y poblacional
diferencia_poblacion_m1 <- abs(media_horas_m1 - mu_horas_pob)
cat("Diferencia observada entre media muestral y poblacional (Muestra 1):",
round(diferencia_poblacion_m1, 4), "\n")
## Diferencia observada entre media muestral y poblacional (Muestra 1): 0.1052
diferencia_poblacion_m2 <- abs(media_horas_m2 - mu_horas_pob)
cat("Diferencia observada entre media muestral y poblacional (Muestra 2):",
round(diferencia_poblacion_m2, 4), "\n")
## Diferencia observada entre media muestral y poblacional (Muestra 2): 0.0595
Las diferencias observadas entre:
media muestral de Muestra 1
media muestral de Muestra 2
media poblacional
NO constituyen sesgo, sino variación natural del muestreo. El estimador de la media se considera insesgado y consistente.
cat("Parametro poblacional:", round(mu_horas_pob, 2), "\n",
"Estimador Muestra 1:", round(media_horas_m1, 2), "\n",
"Estimador Muestra 2:", round(media_horas_m2, 2), "\n")
## Parametro poblacional: 15.26
## Estimador Muestra 1: 15.37
## Estimador Muestra 2: 15.32
El estimador de la media es consistente, ya que con muestras grandes se aproxima cada vez más al parámetro poblacional.
var_horas_m1 <- var(muestra1$horas_estudio)
var_horas_m2 <- var(muestra2$horas_estudio)
var_media_m1 <- var_horas_m1 / nrow(muestra1)
var_media_m2 <- var_horas_m2 / nrow(muestra2)
cat("Varianza del estimador (Muestra 1):", round(var_media_m1, 4), "\n",
"Varianza del estimador (Muestra 2):", round(var_media_m2, 4), "\n")
## Varianza del estimador (Muestra 1): 0.0516
## Varianza del estimador (Muestra 2): 0.1232
if (var_media_m1 < var_media_m2) {
cat("El estimador de la media en la Muestra 1 es MAS EFICIENTE (menor varianza).")
} else if (var_media_m1 > var_media_m2) {
cat("El estimador de la media en la Muestra 2 es MAS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen eficiencia similar.")
}
## El estimador de la media en la Muestra 1 es MAS EFICIENTE (menor varianza).
Un estimador es suficiente cuando captura toda la información disponible en la muestra sobre el parámetro de interés, sin pérdida de información.
En nuestro estudio: El parámetro poblacional es la media de horas de estudio μ. La media muestral se calcula usando todos los valores observados de la variable horas_estudio en cada muestra. Dado que la media muestral se define como: Ella utiliza toda la información contenida en los datos de la muestra y no descarta ningún valor. Tanto la media muestral de la muestra 1 (70%) como la de la muestra 2 (30%) son estimadores suficientes, ya que: Incorporan toda la información disponible sobre la variable de estudio. No pierden información estadística. Representan adecuadamente el comportamiento promedio de la población
# Parámetro poblacional
mu_promedio_pob <- mean(poblacion$promedio)
# Estimadores muestrales
media_promedio_m1 <- mean(muestra1$promedio)
media_promedio_m2 <- mean(muestra2$promedio)
# Resultados
cat("Parametro poblacional:", round(mu_promedio_pob,4), "\n",
"Estimador Muestra 1:", round(media_promedio_m1,4), "\n",
"Estimador Muestra 2:", round(media_promedio_m2,4), "\n")
## Parametro poblacional: 3.39
## Estimador Muestra 1: 3.3928
## Estimador Muestra 2: 3.4029
diferencia_poblacion_m1 <- abs(media_promedio_m1 - mu_promedio_pob)
cat("Diferencia Muestra 1:", diferencia_poblacion_m1, "\n")
## Diferencia Muestra 1: 0.002822857
diferencia_poblacion_m2 <- abs(media_promedio_m2 - mu_promedio_pob)
cat("Diferencia Muestra 2:", diferencia_poblacion_m2, "\n")
## Diferencia Muestra 2: 0.01288
Por tanto, estas diferencias NO representan sesgo. Son fluctuaciones esperadas por aleatoriedad muestral.
cat("Parametro poblacional:", round(mu_promedio_pob,4), "\n",
"Estimador Muestra 1:", round(media_promedio_m1,4), "\n",
"Estimador Muestra 2:", round(media_promedio_m2,4), "\n")
## Parametro poblacional: 3.39
## Estimador Muestra 1: 3.3928
## Estimador Muestra 2: 3.4029
El estimador es consistente, pues la media muestral se acerca al valor poblacional conforme aumenta el tamaño de muestra.
# Varianza muestral
var_promedio_m1 <- var(muestra1$promedio)
var_promedio_m2 <- var(muestra2$promedio)
# Varianza del estimador de la media
var_media_m1 <- var_promedio_m1 / nrow(muestra1)
var_media_m2 <- var_promedio_m2 / nrow(muestra2)
cat("Varianza del estimador (Muestra 1):", round(var_media_m1,4), "\n",
"Varianza del estimador (Muestra 2):", round(var_media_m2,4), "\n")
## Varianza del estimador (Muestra 1): 4e-04
## Varianza del estimador (Muestra 2): 7e-04
if (var_media_m1 < var_media_m2) {
cat("El estimador de la media en la Muestra 1 es MAS EFICIENTE (menor varianza).")
} else if (var_media_m1 > var_media_m2) {
cat("El estimador de la media en la Muestra 2 es MAS EFICIENTE (menor varianza).")
} else {
cat("Ambos estimadores tienen eficiencia similar.")
}
## El estimador de la media en la Muestra 1 es MAS EFICIENTE (menor varianza).
El estimador de la media en la muestra 1 (70%) es más eficiente.
La media muestral de la muestra 1 (70%) y la de la muestra 2 (30%) son estimadores suficientes, pues: Resumen completamente la información relevante de sus muestras. Representan adecuadamente el comportamiento promedio de la población. No hay pérdida de información estadística.
No se construyen intervalos de confianza para mu (medias poblacionales) debido a que los IC solo se aplican a parametros que son objetivo directo de inferencia.
La pregunta de investigacion no es: “Cuantas horas estudian los universitarios?” La pregunta es: “Existe relacion entre horas de estudio y promedio academico?” Por lo tanto, la media poblacional no es el parametro que se desea estimar mediante un IC.
Las medias sirven como descripcion de las variables, pero no responden la pregunta central del estudio. Son valores de contexto, no objetivos de inferencia estadistica
Este estudio busca detectar correlacion, es decir, determinar si existe una relacion estadistica entre horas de estudio y promedio academico. Por esta razon, se realiza una prueba de hipotesis, no un intervalo de confianza para parametros individuales.
Para la prueba de hipotesis se utiliza la Muestra 1 (700 estudiantes), asumiendo desconocimiento de la poblacion con el fin de realizar inferencia. Tambien se adopta un nivel de significancia alfa = 0.05, lo que implica aceptar un 5% de probabilidad de rechazar H0 cuando en realidad es verdadera (Error Tipo I).
Segun la pregunta de investigacion:
H0: No existe relacion significativa entre las horas de estudio semanales y el promedio academico de los estudiantes universitarios.
H1: Si existe relacion significativa entre las horas de estudio semanales y el promedio academico de los estudiantes universitarios.
Antes de aplicar la prueba de hipotesis es necesario verificar si las variables siguen una distribucion aproximadamente normal.
##4.3.1 Grafico Q-Q plot
Se genera el grafico Q-Q plot para evaluar la normalidad tanto de las horas de estudio como del promedio academico.
par(mfrow = c(1, 2))
# Horas de Estudio
qqnorm(muestra1$horas_estudio, main = "Q-Q Plot: Horas de Estudio")
qqline(muestra1$horas_estudio, col = 2)
# Promedio Academico
qqnorm(muestra1$promedio, main = "Q-Q Plot: Promedio Academico")
qqline(muestra1$promedio, col = 2)
Ambas variables presentan distribuciones aproximadamente normales. Por lo tanto, se justifica el uso de pruebas parametricas.
Debido a que el tamano de nuestra muestra es grande (n = 700), y considerando que la poblacion simulada es de 1000 estudiantes, se utiliza la prueba de Kolmogorov-Smirnov para verificar la normalidad de las variables.
El nivel de significancia establecido es = 0.05.
ks.test(muestra1$horas_estudio, "pnorm",
mean = mean(muestra1$horas_estudio),
sd = sd(muestra1$horas_estudio))
## Warning in ks.test.default(muestra1$horas_estudio, "pnorm", mean =
## mean(muestra1$horas_estudio), : ties should not be present for the one-sample
## Kolmogorov-Smirnov test
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: muestra1$horas_estudio
## D = 0.02015, p-value = 0.9387
## alternative hypothesis: two-sided
ks.test(muestra1$promedio, "pnorm",
mean = mean(muestra1$promedio),
sd = sd(muestra1$promedio))
## Warning in ks.test.default(muestra1$promedio, "pnorm", mean =
## mean(muestra1$promedio), : ties should not be present for the one-sample
## Kolmogorov-Smirnov test
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: muestra1$promedio
## D = 0.022144, p-value = 0.8824
## alternative hypothesis: two-sided
Dado que en las secciones anteriores se verificó que ambas variables —Horas de estudio y Promedio académico— presentan un comportamiento aproximadamente normal según:
Q-Q plots
Prueba de Kolmogorov–Smirnov (p > 0.05)
corresponde utilizar una prueba paramétrica para evaluar la relación entre ellas.
Como el objetivo del estudio es determinar si existe relación lineal entre las horas de estudio semanales y el promedio académico, se aplica la prueba de correlación de Pearson.
resultado_correlacion = cor.test(muestra1$horas_estudio,
muestra1$promedio,
method = "pearson")
coef_correlacion = resultado_correlacion$estimate
p_valor = resultado_correlacion$p.value
print(resultado_correlacion)
##
## Pearson's product-moment correlation
##
## data: muestra1$horas_estudio and muestra1$promedio
## t = 0.29859, df = 698, p-value = 0.7653
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.06285451 0.08533235
## sample estimates:
## cor
## 0.01130097
La prueba de correlación de Pearson realizada entre las horas de estudio y el promedio académico mostró un coeficiente muy bajo (r = 0.0113), lo cual indica una relación prácticamente nula entre ambas variables. Además, el valor p (p = 0.7653) es mucho mayor que 0.05, por lo que no se rechaza la hipótesis nula. Esto significa que, con la muestra analizada, no existe evidencia estadísticamente significativa de que las horas de estudio semanales estén asociadas al promedio académico de los estudiantes.