INFORME FINAL ESTADISTICA INFERENCIAL

1.Base de datos

# Crear poblacion de 1000 personas
n_poblacion <- 1000

set.seed(123)

poblacion <- data.frame(
  id = 1:n_poblacion,
  
  # Edad entre 18 y 60
  edad = round(pmin(pmax(rnorm(n_poblacion, mean = 30, sd = 10), 18), 60)),
  
  # Horas de estudio por semana (variable clave)
  horas_estudio = round(pmax(0, rnorm(n_poblacion, mean = 15, sd = 6)), 1),
  
  # Promedio academico entre 0 y 5 (variable clave)
  promedio = round(pmin(pmax(rnorm(n_poblacion, mean = 3.4, sd = 0.5), 0), 5), 2),
  
  # Genero
  genero = sample(c("Masculino", "Femenino"), n_poblacion, replace = TRUE),
  
  # Ciudad
  ciudad = sample(
    c("Bogota", "Medellin", "Cali", "Barranquilla", "Bucaramanga", "Neiva"),
    n_poblacion,
    replace = TRUE
  ),
  
  # Nivel educativo
  nivel_educativo = sample(
    c("Primaria", "Secundaria", "Tecnico", "Tecnologo", "Universitario", "Posgrado"),
    n_poblacion,
    replace = TRUE,
    prob = c(0.10, 0.20, 0.20, 0.20, 0.25, 0.05)
  )
)

# Vista previa
head(poblacion, 25)

##    id edad horas_estudio promedio    genero       ciudad nivel_educativo
## 1   1   24           9.0     3.14 Masculino         Cali         Tecnico
## 2   2   28           8.8     3.52  Femenino         Cali      Secundaria
## 3   3   46          14.9     3.13  Femenino Barranquilla       Tecnologo
## 4   4   31          14.2     4.01  Femenino        Neiva        Primaria
## 5   5   31           0.0     3.49  Femenino       Bogota        Primaria
## 6   6   47          21.2     3.09  Femenino Barranquilla   Universitario
## 7   7   35          16.5     2.50 Masculino Barranquilla      Secundaria
## 8   8   18          29.5     3.08  Femenino         Cali   Universitario
## 9   9   23          19.1     4.42  Femenino        Neiva         Tecnico
## 10 10   26          12.3     3.12  Femenino       Bogota       Tecnologo
## 11 11   42          31.8     2.98 Masculino Barranquilla         Tecnico
## 12 12   34          32.0     3.73 Masculino        Neiva         Tecnico
## 13 13   34           7.7     3.62  Femenino  Bucaramanga   Universitario
## 14 14   31          17.8     3.78 Masculino       Bogota       Tecnologo
## 15 15   24          13.7     3.26 Masculino Barranquilla       Tecnologo
## 16 16   48          16.1     3.96  Femenino  Bucaramanga         Tecnico
## 17 17   35          16.4     2.81 Masculino       Bogota         Tecnico
## 18 18   18           7.4     3.38 Masculino        Neiva         Tecnico
## 19 19   37          16.7     3.05 Masculino         Cali      Secundaria
## 20 20   25          25.5     3.74  Femenino         Cali         Tecnico
## 21 21   19          14.0     3.47 Masculino  Bucaramanga         Tecnico
## 22 22   28          14.0     3.95  Femenino        Neiva         Tecnico
## 23 23   20          23.4     4.43 Masculino  Bucaramanga      Secundaria
## 24 24   23          20.4     3.47 Masculino Barranquilla       Tecnologo
## 25 25   24           5.1     3.13  Femenino        Neiva      Secundaria

1.1 Pregunta de Investigacion

¿Los estudiantes que dedican más horas al estudio obtienen un mejor promedio académico?

1.2 Variables de estudio

Para este estudio se seleccionan las siguientes variables principales:

Horas de Estudio Semanales (horas_estudio)

Promedio Académico (promedio)

Ambas permiten analizar si existe relación entre el nivel de dedicación semanal y el rendimiento académico.

1.3 Muestreo Probabilístico

Se utiliza Muestreo Aleatorio Simple (MAS) para garantizar que cada estudiante de la población simulada (N = 1000) tenga la misma probabilidad de ser seleccionado.

1.3.1 Muestra 1: 70% de la población (n = 700)

set.seed(2)

n_muestra1 = round(0.70 * n_poblacion)
indices_muestra1 = sample(1:n_poblacion, n_muestra1, replace = FALSE)
muestra1 = poblacion[indices_muestra1, ]

cat("Tamaño de la Muestra 1:", nrow(muestra1), "estudiantes.")

## Tamaño de la Muestra 1: 700 estudiantes.

head(muestra1, 5)

##      id edad horas_estudio promedio    genero   ciudad nivel_educativo
## 853 853   40          28.6     3.36  Femenino     Cali       Tecnologo
## 975 975   40           8.2     4.06  Femenino Medellin   Universitario
## 710 710   37          22.7     3.09  Femenino    Neiva        Primaria
## 774 774   18          17.9     3.72  Femenino   Bogota      Secundaria
## 416 416   18          16.6     2.77 Masculino   Bogota   Universitario

1.3.2 Muestra 2: 30% de la población (n = 300)

set.seed(3)

n_muestra2 = round(0.30 * n_poblacion)
indices_muestra2 = sample(1:n_poblacion, n_muestra2, replace = FALSE)
muestra2 = poblacion[indices_muestra2, ]

cat("Tamaño de la Muestra 2:", nrow(muestra2), "estudiantes.")

## Tamaño de la Muestra 2: 300 estudiantes.

head(muestra2, 5)

##      id edad horas_estudio promedio    genero       ciudad nivel_educativo
## 773 773   35          26.6     3.41  Femenino         Cali       Tecnologo
## 698 698   29          13.2     3.52 Masculino  Bucaramanga       Tecnologo
## 652 652   31          13.9     2.86 Masculino       Bogota       Tecnologo
## 548 548   36          18.7     3.67  Femenino Barranquilla   Universitario
## 999 999   25          18.2     3.99  Femenino        Neiva       Tecnologo

2 Estimadores

El estimador seleccionado es:

Media muestral. Esto permite describir el comportamiento promedio de las variables antes de analizar su relación.

No se usan varianza ni desviación estándar, porque la pregunta de investigación busca determinar relación (correlación), no dispersión.

2.1 Media Muestral – Horas de Estudio

mu_horas_pob <- mean(poblacion$horas_estudio)
media_horas_m1 <- mean(muestra1$horas_estudio)
media_horas_m2 <- mean(muestra2$horas_estudio)

cat("Parametro poblacional:", round(mu_horas_pob, 2), "\n",
    "Estimador Muestra 1:", round(media_horas_m1, 2), "\n",
    "Estimador Muestra 2:", round(media_horas_m2, 2), "\n")

## Parametro poblacional: 15.26 
##  Estimador Muestra 1: 15.37 
##  Estimador Muestra 2: 15.32

2.1.1 Determinación de Sesgo – Media de Horas de Estudio

# Diferencia absoluta entre media muestral y poblacional
diferencia_poblacion_m1 <- abs(media_horas_m1 - mu_horas_pob)
cat("Diferencia observada entre media muestral y poblacional (Muestra 1):",
    round(diferencia_poblacion_m1, 4), "\n")

## Diferencia observada entre media muestral y poblacional (Muestra 1): 0.1052

diferencia_poblacion_m2 <- abs(media_horas_m2 - mu_horas_pob)
cat("Diferencia observada entre media muestral y poblacional (Muestra 2):",
    round(diferencia_poblacion_m2, 4), "\n")

## Diferencia observada entre media muestral y poblacional (Muestra 2): 0.0595

Las diferencias observadas entre:

media muestral de Muestra 1

media muestral de Muestra 2

media poblacional

NO constituyen sesgo, sino variación natural del muestreo. El estimador de la media se considera insesgado y consistente.

2.1.2 Consistencia

cat("Parametro poblacional:", round(mu_horas_pob, 2), "\n",
    "Estimador Muestra 1:", round(media_horas_m1, 2), "\n",
    "Estimador Muestra 2:", round(media_horas_m2, 2), "\n")

## Parametro poblacional: 15.26 
##  Estimador Muestra 1: 15.37 
##  Estimador Muestra 2: 15.32

El estimador de la media es consistente, ya que con muestras grandes se aproxima cada vez más al parámetro poblacional.

2.1.3 Eficiencia

var_horas_m1 <- var(muestra1$horas_estudio)
var_horas_m2 <- var(muestra2$horas_estudio)

var_media_m1 <- var_horas_m1 / nrow(muestra1)
var_media_m2 <- var_horas_m2 / nrow(muestra2)

cat("Varianza del estimador (Muestra 1):", round(var_media_m1, 4), "\n",
    "Varianza del estimador (Muestra 2):", round(var_media_m2, 4), "\n")

## Varianza del estimador (Muestra 1): 0.0516 
##  Varianza del estimador (Muestra 2): 0.1232

if (var_media_m1 < var_media_m2) {
  cat("El estimador de la media en la Muestra 1 es MAS EFICIENTE (menor varianza).")
} else if (var_media_m1 > var_media_m2) {
  cat("El estimador de la media en la Muestra 2 es MAS EFICIENTE (menor varianza).")
} else {
  cat("Ambos estimadores tienen eficiencia similar.")
}

## El estimador de la media en la Muestra 1 es MAS EFICIENTE (menor varianza).

2.1.4 Suficiencia

Un estimador es suficiente cuando captura toda la información disponible en la muestra sobre el parámetro de interés, sin pérdida de información.

En nuestro estudio: El parámetro poblacional es la media de horas de estudio μ. La media muestral se calcula usando todos los valores observados de la variable horas_estudio en cada muestra. Dado que la media muestral se define como: Ella utiliza toda la información contenida en los datos de la muestra y no descarta ningún valor. Tanto la media muestral de la muestra 1 (70%) como la de la muestra 2 (30%) son estimadores suficientes, ya que: Incorporan toda la información disponible sobre la variable de estudio. No pierden información estadística. Representan adecuadamente el comportamiento promedio de la población

2.2 Media Muestral Variable 2: Promedio Académico

# Parámetro poblacional
mu_promedio_pob <- mean(poblacion$promedio)

# Estimadores muestrales
media_promedio_m1 <- mean(muestra1$promedio)
media_promedio_m2 <- mean(muestra2$promedio)

# Resultados
cat("Parametro poblacional:", round(mu_promedio_pob,4), "\n",
    "Estimador Muestra 1:", round(media_promedio_m1,4), "\n",
    "Estimador Muestra 2:", round(media_promedio_m2,4), "\n")

## Parametro poblacional: 3.39 
##  Estimador Muestra 1: 3.3928 
##  Estimador Muestra 2: 3.4029

2.2.1 Determinación de Sesgo

diferencia_poblacion_m1 <- abs(media_promedio_m1 - mu_promedio_pob)
cat("Diferencia Muestra 1:", diferencia_poblacion_m1, "\n")

## Diferencia Muestra 1: 0.002822857

diferencia_poblacion_m2 <- abs(media_promedio_m2 - mu_promedio_pob)
cat("Diferencia Muestra 2:", diferencia_poblacion_m2, "\n")

## Diferencia Muestra 2: 0.01288

Por tanto, estas diferencias NO representan sesgo. Son fluctuaciones esperadas por aleatoriedad muestral.

2.2.2 Consistencia

cat("Parametro poblacional:", round(mu_promedio_pob,4), "\n",
    "Estimador Muestra 1:", round(media_promedio_m1,4), "\n",
    "Estimador Muestra 2:", round(media_promedio_m2,4), "\n")

## Parametro poblacional: 3.39 
##  Estimador Muestra 1: 3.3928 
##  Estimador Muestra 2: 3.4029

El estimador es consistente, pues la media muestral se acerca al valor poblacional conforme aumenta el tamaño de muestra.

2.2.3 Eficiencia

# Varianza muestral
var_promedio_m1 <- var(muestra1$promedio)
var_promedio_m2 <- var(muestra2$promedio)

# Varianza del estimador de la media
var_media_m1 <- var_promedio_m1 / nrow(muestra1)
var_media_m2 <- var_promedio_m2 / nrow(muestra2)

cat("Varianza del estimador (Muestra 1):", round(var_media_m1,4), "\n",
    "Varianza del estimador (Muestra 2):", round(var_media_m2,4), "\n")

## Varianza del estimador (Muestra 1): 4e-04 
##  Varianza del estimador (Muestra 2): 7e-04

if (var_media_m1 < var_media_m2) {
  cat("El estimador de la media en la Muestra 1 es MAS EFICIENTE (menor varianza).")
} else if (var_media_m1 > var_media_m2) {
  cat("El estimador de la media en la Muestra 2 es MAS EFICIENTE (menor varianza).")
} else {
  cat("Ambos estimadores tienen eficiencia similar.")
}

## El estimador de la media en la Muestra 1 es MAS EFICIENTE (menor varianza).

El estimador de la media en la muestra 1 (70%) es más eficiente.

2.2.4 Suficiencia

La media muestral de la muestra 1 (70%) y la de la muestra 2 (30%) son estimadores suficientes, pues: Resumen completamente la información relevante de sus muestras. Representan adecuadamente el comportamiento promedio de la población. No hay pérdida de información estadística.

3 Intervalos de confianza (IC)

No se construyen intervalos de confianza para mu (medias poblacionales) debido a que los IC solo se aplican a parametros que son objetivo directo de inferencia.

3.1 La media poblacional no es el parametro de interes

La pregunta de investigacion no es: “Cuantas horas estudian los universitarios?” La pregunta es: “Existe relacion entre horas de estudio y promedio academico?” Por lo tanto, la media poblacional no es el parametro que se desea estimar mediante un IC.

3.2 μ es solo un descriptor

Las medias sirven como descripcion de las variables, pero no responden la pregunta central del estudio. Son valores de contexto, no objetivos de inferencia estadistica

3.3 Enfoque en asociacion, no en estimacion

Este estudio busca detectar correlacion, es decir, determinar si existe una relacion estadistica entre horas de estudio y promedio academico. Por esta razon, se realiza una prueba de hipotesis, no un intervalo de confianza para parametros individuales.

4 Prueba de Hipotesis

Para la prueba de hipotesis se utiliza la Muestra 1 (700 estudiantes), asumiendo desconocimiento de la poblacion con el fin de realizar inferencia. Tambien se adopta un nivel de significancia alfa = 0.05, lo que implica aceptar un 5% de probabilidad de rechazar H0 cuando en realidad es verdadera (Error Tipo I).

4.1 Hipotesis nula H0

Segun la pregunta de investigacion:

H0: No existe relacion significativa entre las horas de estudio semanales y el promedio academico de los estudiantes universitarios.

4.2 Hipotesis alterna H1

H1: Si existe relacion significativa entre las horas de estudio semanales y el promedio academico de los estudiantes universitarios.

4.3 Verificacion de distribucion normal de los datos

Antes de aplicar la prueba de hipotesis es necesario verificar si las variables siguen una distribucion aproximadamente normal.

##4.3.1 Grafico Q-Q plot

Se genera el grafico Q-Q plot para evaluar la normalidad tanto de las horas de estudio como del promedio academico.

par(mfrow = c(1, 2))

# Horas de Estudio
qqnorm(muestra1$horas_estudio, main = "Q-Q Plot: Horas de Estudio")
qqline(muestra1$horas_estudio, col = 2)

# Promedio Academico
qqnorm(muestra1$promedio, main = "Q-Q Plot: Promedio Academico")
qqline(muestra1$promedio, col = 2)

Ambas variables presentan distribuciones aproximadamente normales. Por lo tanto, se justifica el uso de pruebas parametricas.

5 Prueba de normalidad Kolmogorov-Smirnov

Debido a que el tamano de nuestra muestra es grande (n = 700), y considerando que la poblacion simulada es de 1000 estudiantes, se utiliza la prueba de Kolmogorov-Smirnov para verificar la normalidad de las variables.

El nivel de significancia establecido es = 0.05.

5.1 Horas de Estudio

ks.test(muestra1$horas_estudio, "pnorm",
        mean = mean(muestra1$horas_estudio),
        sd = sd(muestra1$horas_estudio))

## Warning in ks.test.default(muestra1$horas_estudio, "pnorm", mean =
## mean(muestra1$horas_estudio), : ties should not be present for the one-sample
## Kolmogorov-Smirnov test

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  muestra1$horas_estudio
## D = 0.02015, p-value = 0.9387
## alternative hypothesis: two-sided

5.1.1 Promedio Academico

ks.test(muestra1$promedio, "pnorm",
        mean = mean(muestra1$promedio),
        sd = sd(muestra1$promedio))

## Warning in ks.test.default(muestra1$promedio, "pnorm", mean =
## mean(muestra1$promedio), : ties should not be present for the one-sample
## Kolmogorov-Smirnov test

## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  muestra1$promedio
## D = 0.022144, p-value = 0.8824
## alternative hypothesis: two-sided

5.2 Pruebas de hipótesis

Dado que en las secciones anteriores se verificó que ambas variables —Horas de estudio y Promedio académico— presentan un comportamiento aproximadamente normal según:

Q-Q plots

Prueba de Kolmogorov–Smirnov (p > 0.05)

corresponde utilizar una prueba paramétrica para evaluar la relación entre ellas.

Como el objetivo del estudio es determinar si existe relación lineal entre las horas de estudio semanales y el promedio académico, se aplica la prueba de correlación de Pearson.

resultado_correlacion = cor.test(muestra1$horas_estudio,
                                 muestra1$promedio,
                                 method = "pearson")

coef_correlacion = resultado_correlacion$estimate
p_valor = resultado_correlacion$p.value

print(resultado_correlacion)

## 
##  Pearson's product-moment correlation
## 
## data:  muestra1$horas_estudio and muestra1$promedio
## t = 0.29859, df = 698, p-value = 0.7653
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.06285451  0.08533235
## sample estimates:
##        cor 
## 0.01130097

La prueba de correlación de Pearson realizada entre las horas de estudio y el promedio académico mostró un coeficiente muy bajo (r = 0.0113), lo cual indica una relación prácticamente nula entre ambas variables. Además, el valor p (p = 0.7653) es mucho mayor que 0.05, por lo que no se rechaza la hipótesis nula. Esto significa que, con la muestra analizada, no existe evidencia estadísticamente significativa de que las horas de estudio semanales estén asociadas al promedio académico de los estudiantes.