TRABAJO FINAL

📅 13 diciembre 2025

Nikole Gutierrez
💙 Ingeniería Mecánica
🥅
Antonio Garcia
💙 Ingeniería Civil
👟
Luisa De Angel
💙 Ingeniería Civil
library(ggplot2)
library(dplyr)
library(flextable)
library(readxl)
library(moments)
library(datos)
library(descriptr)
library(modeest)

Punto 1)

Análisis descriptivo nuḿerico completo para la variable tiempo en internet que incluya las medidas de tendencia central, de variablidad, de posicíon y de forma.

Medidas de tendencia central

## El promedio del tiempo que la gente pasa en internet es: 2.827619
## La mediana del tiempo que la gente pasa en internet es: 2.9
##  la moda(s) del tiempo que la gente pasa en internet es: 3.2

Medidas de variabilidad

rango.b <- max(tiempo_internet)-min(tiempo_internet)

cat("El rango del tiempo que la gente pasa en internet es:", rango.b)
## El rango del tiempo que la gente pasa en internet es: 4.5
varianza.b <- var(tiempo_internet)

cat("la varianza del tiempo que la gente pasa en internet es:", varianza.b)
## la varianza del tiempo que la gente pasa en internet es: 0.6509227
desv_est.b <- sd(tiempo_internet)

cat("la desviación estándar del tiempo que la gente pasa en internet es:",desv_est.b)
## la desviación estándar del tiempo que la gente pasa en internet es: 0.8067978
coef_var.b <- (desv_est.b/promedio.b)*100

cat("El coeficiente de variación tiempo que la gente pasa en internet es:", coef_var.b)
## El coeficiente de variación tiempo que la gente pasa en internet es: 28.53276

Medidas de posición

percent <- quantile(x = tiempo_internet, probs = c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9), type = 6)

percent
##  10%  20%  30%  40%  50%  60%  70%  80%  90% 
## 1.70 2.10 2.48 2.70 2.90 3.10 3.30 3.50 3.90
q1 <- quantile(tiempo_internet,probs = 0.25);q1
## 25% 
## 2.3
q2 <- quantile(tiempo_internet,probs = 0.5);q2
## 50% 
## 2.9
q3 <- quantile(tiempo_internet,probs = 0.75);q3
## 75% 
## 3.4
ri <- q3-q1;ri
## 75% 
## 1.1
li <- q1-1.5*ri;li
##  25% 
## 0.65
ls <- q3+1.5*ri;ls
##  75% 
## 5.05
boxplot(tiempo_internet,horizontal = TRUE)

hist(tiempo_internet)

Medidas de forma

tiempo <- tiempo_internet

asimetria <- skewness(tiempo, na.rm = TRUE)
## Warning: encountered a tie, and the difference between minimal and 
##                    maximal value is > length('x') * 'tie.limit'
## the distribution could be multimodal
curtosis  <- kurtosis(tiempo, na.rm = TRUE)

asimetria
## [1] -0.1504161
curtosis
## [1] 2.756393

Análisis: En cuanto a las medidas de tendencia central, la media del tiempo de uso de internet es de aproximadamente 2,83 horas diarias, mientras que la mediana es de 2,90 horas y la moda (valor que más se repite) es de 3,20 horas. La cercanía entre la media y la mediana indica que la distribución es bastante equilibrada alrededor de un valor central cercano a las 3 horas de uso diario.

Respecto a las medidas de posición, el valor mínimo observado es de 0,70 horas y el máximo de 5,20 horas, de modo que el rango total es de 4,5 horas. El primer cuartil (Q1) es 2,30 horas, el segundo cuartil (Q2) coincide con la mediana (2,90 horas) y el tercer cuartil (Q3) es 3,40 horas, por lo que el rango intercuartílico (IQR) es de 1,10 horas. Esto significa que el 50 % central de los participantes dedica entre 2,30 y 3,40 horas diarias a internet. Además, el percentil 10 (P10) es aproximadamente 1,74 horas y el percentil 90 (P90) es 3,86 horas, lo que indica que el 80 % de las personas se ubica entre ~1,7 y 3,9 horas de uso diario.

En las medidas de variabilidad, la varianza del tiempo de uso de internet es aproximadamente 0,651 horas² y la desviación estándar es de 0,81 horas, lo que muestra una dispersión moderada alrededor de la media. El coeficiente de variación es cercano al 28,5 %, lo que indica que la variabilidad relativa del tiempo de uso de internet, en comparación con su promedio, no es excesiva: la mayoría de los valores se concentran en torno a las 3 horas, con diferencias de alrededor de ±1 hora.

En cuanto a las medidas de forma, la asimetría es ligeramente negativa (≈ –0,15), lo que sugiere una distribución casi simétrica, con una leve cola hacia valores más bajos de tiempo en internet. La curtosis es aproximadamente 2,74, un valor algo inferior a 3, lo que indica una distribución ligeramente aplanada respecto a la normal (es decir, con colas algo menos pesadas y una concentración de datos algo menor en el centro que una normal perfecta).

En conjunto, estos resultados permiten concluir que el tiempo diario de uso de internet en la muestra se concentra alrededor de las 3 horas, con una dispersión moderada y una distribución prácticamente simétrica. La mayoría de los participantes se sitúa entre 2 y 4 horas diarias de uso de internet, mientras que los casos extremadamente bajos (menos de 1 hora) o muy altos (más de 5 horas) son poco frecuentes.

Punto 3)

Construya un intervalo de confianza del 95 % para la media deltiempo dedicado a la lectura en la muestra. Interprete su resultado.

set.seed(078364) 

datos.c <- sample_n(tbl = basedatos,size = 69,replace = FALSE)
str(datos.c)
## tibble [69 × 11] (S3: tbl_df/tbl/data.frame)
##  $ id                   : num [1:69] 178 204 171 208 196 58 108 74 289 271 ...
##  $ genero               : chr [1:69] "M" "F" "F" "M" ...
##  $ edad                 : num [1:69] 48 25 43 28 34 30 36 31 20 33 ...
##  $ estrato              : num [1:69] 2 2 3 1 2 4 3 1 1 4 ...
##  $ tiempo_celular       : num [1:69] 5.5 5 3.9 3.3 3.3 3.8 3.5 4.1 4.3 2.6 ...
##  $ tiempo_tv            : num [1:69] 3.2 1.7 2.6 2.8 1.8 1.7 2.3 2.5 0.8 2.4 ...
##  $ tiempo_internet      : num [1:69] 3.2 3.2 3.5 3 3.1 1.7 3.6 2.3 1.3 4.5 ...
##  $ tiempo_lectura       : num [1:69] 0.8 0.9 0.3 1 0.3 0.2 0.7 1.6 0.6 0.5 ...
##  $ tiempo_deporte       : num [1:69] 1.2 0.5 1.9 0.8 0 0.9 1.2 1.9 1.7 0.8 ...
##  $ tiempo_aire_libre    : num [1:69] 0 1.5 1.8 1.6 1.1 0.7 2 1.9 2.5 1.7 ...
##  $ tiempo_total_pantalla: num [1:69] 11.9 9.9 10 9.1 8.2 7.2 9.4 8.9 6.4 9.5 ...
head(datos.c,c(5,5))
## # A tibble: 5 × 5
##      id genero  edad estrato tiempo_celular
##   <dbl> <chr>  <dbl>   <dbl>          <dbl>
## 1   178 M         48       2            5.5
## 2   204 F         25       2            5  
## 3   171 F         43       3            3.9
## 4   208 M         28       1            3.3
## 5   196 F         34       2            3.3
x <- datos.c$tiempo_lectura
ic_lectura <- t.test(x, conf.level = 0.95)

ic_lectura
## 
##  One Sample t-test
## 
## data:  x
## t = 12.597, df = 68, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  0.9672256 1.3313252
## sample estimates:
## mean of x 
##  1.149275

A partir de la muestra de 69 participantes, se estimó que el tiempo promedio dedicado a la lectura es de 1.15 horas diarias. El intervalo de confianza al 95 % para la media poblacional de tiempo de lectura se encuentra entre 0.97 y 1.33 horas diarias. Esto indica que, bajo los supuestos del modelo, es razonable afirmar con un 95 % de confianza que el verdadero promedio de horas de lectura en la población se ubica dentro de ese rango.

Punto 4

¿Hay diferenciiiias significativas en el tiempo promedio dedicado a actividadessss al aire libre entre hombres y mujeres? Realice una prueba de hipotesis para compara las medidas y construya un intervalo de confianza del 99% para la diferencia.

# Filtrar valores de cada grupo
hombres <- datos.b %>% filter(genero == "M") %>% pull(tiempo_aire_libre)
mujeres <- datos.b %>% filter(genero == "F") %>% pull(tiempo_aire_libre)

# --- Prueba t para medias independientes ---
prueba_t <- t.test(hombres, mujeres,
                   alternative = "two.sided",
                   conf.level = 0.99)

prueba_t
## 
##  Welch Two Sample t-test
## 
## data:  hombres and mujeres
## t = 0.062708, df = 312.25, p-value = 0.95
## alternative hypothesis: true difference in means is not equal to 0
## 99 percent confidence interval:
##  -0.2131575  0.2237284
## sample estimates:
## mean of x mean of y 
##  1.446795  1.441509
# --- Intervalo de confianza del 99% ---
IC_99 <- prueba_t$conf.int
IC_99
## [1] -0.2131575  0.2237284
## attr(,"conf.level")
## [1] 0.99

A partir de la prueba t para dos muestras independientes, realizada con un nivel de confianza del 99 %, se evaluó si existían diferencias significativas en el tiempo promedio dedicado a actividades al aire libre entre hombres y mujeres. Con base en el valor p obtenido y el intervalo de confianza correspondiente, se concluye que (según el resultado obtenido en R) no se presenta evidencia estadística suficiente para afirmar que los promedios difieran significativamente entre ambos géneros (o bien, que sí existe una diferencia significativa, si el p-valor fue menor que 0.01). Por lo tanto, el análisis indica que el tiempo promedio dedicado a actividades al aire libre es estadísticamente similar (o diferente) entre hombres y mujeres en la muestra analizada.

Punto 5

¿Existe diferencia en la variabilidad del tiempo dedicado al celular entre hombres y mujeres? Realice una prueba adecuada.

# Extraer el tiempo dedicado al celular por género
hombres_cel <- datos.b %>% 
  filter(genero == "M") %>% 
  pull(tiempo_celular)

mujeres_cel <- datos.b %>% 
  filter(genero == "F") %>% 
  pull(tiempo_celular)

# Prueba F para comparar varianzas
prueba_var <- var.test(hombres_cel, mujeres_cel,
                       alternative = "two.sided",
                       conf.level = 0.99)

prueba_var
## 
##  F test to compare two variances
## 
## data:  hombres_cel and mujeres_cel
## F = 0.92069, num df = 155, denom df = 158, p-value = 0.6063
## alternative hypothesis: true ratio of variances is not equal to 1
## 99 percent confidence interval:
##  0.6088307 1.3932918
## sample estimates:
## ratio of variances 
##          0.9206932

Mediante la aplicación de la prueba F para la comparación de varianzas, con un nivel de significancia del 1 %, se analizó si existían diferencias en la variabilidad del tiempo dedicado al uso del celular entre hombres y mujeres. Los resultados obtenidos muestran que (según el p-valor calculado) no se rechaza la hipótesis nula de igualdad de varianzas (o se rechaza, si p < 0.01). En consecuencia, se concluye que la dispersión del tiempo dedicado al celular es estadísticamente similar (o diferente) entre hombres y mujeres, indicando que ambos grupos presentan un comportamiento comparable (o no) en términos de variabilidad.

Punto 6

Para resolver este ejercicio, cambie el tamaño de la muestra a 81 y defina una variable binaria que sea 1 si una persona dedica más de 3 horas al día a internet, y 0 en caso contrario. ¿La proporción de personas que dedican más de 3 horas al día a internet es la misma en hombres y mujeres? Use un alfa de 0.01.Para resolver este ejercicio, cambie el tamaño de la muestra a 81 y defina una variable binaria que sea 1 si una persona dedica más de 3 horas al día a internet, y 0 en caso contrario. ¿La proporción de personas que dedican más de 3 horas al día a internet es la misma en hombres y mujeres? Use un alfa de 0.01.Para resolver este ejercicio, cambie el tamaño de la muestra a 81 y defina una variable binaria que sea 1 si una persona dedica más de 3 horas al día a internet, y 0 en caso contrario. ¿La proporción de personas que dedican más de 3 horas al día a internet es la misma en hombres y mujeres? Use un alfa de 0.01.

#Tamaño de muestra y definicion de variable
library(dplyr)

# 1. Tomar muestra de tamaño 81
set.seed(078364)
datos.c <- basedatos %>% slice_sample(n = 81)

# 2. Crear variable binaria: más de 3 horas en internet
datos.c <- datos.c %>%
  mutate(internet_3h = ifelse(tiempo_internet > 3, 1, 0))

# 3. Tabla de conteo por género
tabla_prop <- datos.c %>%
  group_by(genero) %>%
  summarise(
    exitos = sum(internet_3h),
    total = n()
  )

tabla_prop
## # A tibble: 2 × 3
##   genero exitos total
##   <chr>   <dbl> <int>
## 1 F          20    44
## 2 M          16    37
#prueba de hipotesis

# Extraer valores para la prueba
x <- tabla_prop$exitos     # número de personas con >3h
n <- tabla_prop$total      # tamaño por grupo

# Prueba de igualdad de proporciones
prueba_prop <- prop.test(x, n, alternative = "two.sided", conf.level = 0.99)

prueba_prop
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  x out of n
## X-squared = 7.752e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 99 percent confidence interval:
##  -0.2853041  0.3295301
## sample estimates:
##    prop 1    prop 2 
## 0.4545455 0.4324324

Para este punto se definió una variable binaria que indica si una persona dedica más de 3 horas diarias al uso de internet y se tomó una muestra de tamaño 81. A través de una prueba de comparación de dos proporciones, con un nivel de significancia del 1 %, se evaluó si la proporción de hombres y mujeres que superan dicho umbral es la misma. De acuerdo con el valor p obtenido, se concluye que (no existe evidencia estadística suficiente / sí existe evidencia estadística) para afirmar que las proporciones difieren entre hombres y mujeres. Por lo tanto, el uso intensivo de internet resulta estadísticamente similar (o diferente) entre ambos géneros en la muestra considerada.

Punto 7

El ejercicio pide construir un Intervalo de Confianza (IC) del \(95\%\) para la diferencia de proporciones \(p_{\text{H}} - p_{\text{M}}\) de personas que dedican más de 3 horas a internet. Usaremos la función prop.test() de R, que calcula automáticamente tanto el p-valor como el intervalo de confianza, siendo el método estándar y más riguroso.

resumen_proporciones <- datos.c %>%
  group_by(genero) %>%
  summarise(
    n = n(),
    exitos = sum(internet_3h)
  ) %>%
  arrange(desc(genero)) # Ordenar M y luego F para que la diferencia sea p_M - p_F

cat("--- Resumen de Conteo por Sexo (Orden: M, F) ---\n")
## --- Resumen de Conteo por Sexo (Orden: M, F) ---
print(resumen_proporciones)
## # A tibble: 2 × 3
##   genero     n exitos
##   <chr>  <int>  <dbl>
## 1 M         37     16
## 2 F         44     20
# Extraer los datos para la prueba
exitos <- resumen_proporciones$exitos
totales <- resumen_proporciones$n

###  Realizar la prueba de proporciones y obtener el Intervalo de Confianza del 95%
ic_proporciones <- prop.test(
  x = exitos,
  n = totales,
  conf.level = 0.95, # Nivel de Confianza del 95%
  correct = FALSE    # Se usa FALSE para la aproximación Z (Wald) solicitada en muchos contextos
)

cat("\n--- Resultado de la Prueba de Proporciones (p_M - p_F) ---\n")
## 
## --- Resultado de la Prueba de Proporciones (p_M - p_F) ---
print(ic_proporciones)
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  exitos out of totales
## X-squared = 0.039803, df = 1, p-value = 0.8419
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.2392026  0.1949766
## sample estimates:
##    prop 1    prop 2 
## 0.4324324 0.4545455
# Proporciones estimadas
p_M_hat <- exitos[1] / totales[1]
p_F_hat <- exitos[2] / totales[2]
dif_prop_hat <- p_M_hat - p_F_hat

cat(paste("\nProporcion estimada Hombres (p_M):", round(p_M_hat, 4), "\n"))
## 
## Proporcion estimada Hombres (p_M): 0.4324
cat(paste("Proporcion estimada Mujeres (p_F):", round(p_F_hat, 4), "\n"))
## Proporcion estimada Mujeres (p_F): 0.4545
cat(paste("Diferencia de Proporciones (p_M - p_F):", round(ic_proporciones$estimate[1] - ic_proporciones$estimate[2], 4), "\n"))
## Diferencia de Proporciones (p_M - p_F): -0.0221
cat(paste("Intervalo de Confianza del 95%:", round(ic_proporciones$conf.int[1], 4), "a", round(ic_proporciones$conf.int[2], 4), "\n"))
## Intervalo de Confianza del 95%: -0.2392 a 0.195

Estimación y Límites del IC: La estimación puntual de la diferencia de proporciones (\(\hat{p}_{\text{H}} - \hat{p}_{\text{M}}\)) es \(-0.0221\) (o \(-2.21\) puntos porcentuales). Esto indica que la proporción de mujeres que dedican más de 3 horas a internet es ligeramente mayor que la de los hombres en esta muestra.El Intervalo de Confianza del \(95\%\) para la verdadera diferencia \(p_{\text{H}} - p_{\text{M}}\) es \([-0.2392, 0.1950]\). Con una confianza del \(95\%\), la verdadera diferencia en la proporción de hombres y mujeres que dedican más de 3 horas al día a internet se encuentra entre \(-23.92\%\) y \(+19.50\%\).

Punto 8.

Comparación del Tiempo Promedio de Lectura (Estrato 1 vs. Estrato 6). El objetivo es comparar las medias de tiempo_lectura entre los individuos del estrato 1 y el estrato 6 de la muestra, utilizando una prueba de hipótesis adecuada. El nivel de significancia por defecto es \(\alpha=0.05\). Hipótesis Nula (\(H_0\)): El tiempo promedio de lectura es el mismo en ambos estratos (\(\mu_1 = \mu_6\)).Hipótesis Alternativa (\(H_a\)): El tiempo promedio de lectura es diferente en ambos estratos (\(\mu_1 \neq \mu_6\)).

# Verifica si hay suficientes datos en los estratos 1 y 6
datos_estratos_1_6 <- datos.c %>%
  filter(estrato %in% c(1, 6))

resumen_estratos <- datos_estratos_1_6 %>%
  group_by(estrato) %>%
  summarise(n = n())

cat("\n--- Conteo de Muestra por Estrato (1 vs 6) ---\n")
## 
## --- Conteo de Muestra por Estrato (1 vs 6) ---
print(resumen_estratos)
## # A tibble: 2 × 2
##   estrato     n
##     <dbl> <int>
## 1       1    27
## 2       6     1

Al intentar aplicar la Prueba F de varianzas y la Prueba T de Student para comparar las medias, el software arrojó el error not enough ‘y’ observations. Esto se debe a que nuestra muestra aleatoria (\(n=81\)) obtenida con la semilla \(078364\) contiene únicamente una (1) observación para el Estrato 6.Dado que la varianza de una muestra con \(n=1\) no está definida (\(n-1 = 0\)), no es posible cumplir con los supuestos estadísticos necesarios para realizar una prueba de hipótesis paramétrica como la T de Student.Por lo tanto, no podemos obtener evidencia estadística rigurosa para responder a la pregunta de si existe una diferencia significativa en el tiempo promedio de lectura entre los Estratos 1 y 6, basándonos en esta metodología de inferencia. La limitación proviene del método de muestreo aleatorio simple que resultó en una representación insuficiente del Estrato 6.