Jhon Sebastian Vargas Fernandez
Ing. Quimica
Carlos Daniel Albarracin Cruz
Ing. Sistemas
Juan Sebastian Parra Cardenas
Ing. Electrica
Juan Diego Blanco Segura
Ing. Quimica
Santiago Cubides
Ing. Sistemas
data<- read_excel("base_encuesta_habitos.xlsx")
attach(data)

En el presente documento se realiza un análisis estadístico de una base de datos correspondiente a una encuesta sobre hábitos de uso del tiempo en la población. El estudio combina herramientas de estadística descriptiva e inferencial con el propósito de caracterizar el comportamiento de distintas variables de interés y evaluar posibles diferencias entre grupos poblacionales, garantizando en todo momento la validez metodológica de los procedimientos utilizados.

1

Inicialmente, se lleva a cabo un análisis descriptivo numérico de la variable tiempo dedicado a internet, con el fin de resumir sus principales características. Para ello, se calculan medidas de tendencia central, dispersión, posición y forma, lo cual permite obtener una visión general del comportamiento de la variable y de su distribución dentro de la muestra.

tabla_tiem_int <- data %>%
  summarise(
    n = sum(!is.na(tiempo_internet)),
    media = mean(tiempo_internet, na.rm = TRUE),
    mediana = median(tiempo_internet, na.rm = TRUE),
    moda = as.numeric(names(sort(table(tiempo_internet), decreasing = TRUE)[1])),
    minimo = min(tiempo_internet, na.rm = TRUE),
    maximo = max(tiempo_internet, na.rm = TRUE),
    rango = maximo - minimo,
    varianza = var(tiempo_internet, na.rm = TRUE),
    desviacion = sd(tiempo_internet, na.rm = TRUE),
    coef_var = desviacion / media,
    q1 = quantile(tiempo_internet, 0.25, na.rm = TRUE),
    q2 = quantile(tiempo_internet, 0.50, na.rm = TRUE),
    q3 = quantile(tiempo_internet, 0.75, na.rm = TRUE),
    asimetria = skewness(tiempo_internet, na.rm = TRUE),
    curtosis = kurtosis(tiempo_internet, na.rm = TRUE)
  )

tabla_tiem_int_vertical <- tabla_tiem_int %>%
  pivot_longer(
    cols = everything(),
    names_to = "Medida",
    values_to = "Valor"
  )

ft_tiem_int <- flextable(tabla_tiem_int_vertical) %>%
  autofit() %>%
  theme_booktabs() %>%
  align(align = "center", part = "all")

ft_tiem_int

Medida

Valor

n

315.0000000

media

2.8276190

mediana

2.9000000

moda

3.2000000

minimo

0.7000000

maximo

5.2000000

rango

4.5000000

varianza

0.6509227

desviacion

0.8067978

coef_var

0.2853276

q1

2.3000000

q2

2.9000000

q3

3.4000000

asimetria

-0.1511352

curtosis

2.7563932

hist(data$tiempo_internet, col = "lightblue",
     main = "Distribución del tiempo dedicado a internet",
     xlab = "Horas por día")

2

Se selecciona una muestra aleatoria simple de tamaño 69, utilizando la semilla fija anteriormente expuesta la cual asegura la reproducibilidad de los resultados. Sobre esta muestra, se evalúa el supuesto de normalidad del tiempo dedicado a la lectura mediante una prueba estadística apropiada. Esta verificación resulta fundamental para justificar la aplicación de métodos paramétricos en los análisis inferenciales posteriores.

set.seed(12977)
muestra_69 <- data %>% sample_n(69)
lillie.test(muestra_69$tiempo_lectura)$p.value
## [1] 0.08528553
hist(muestra_69$tiempo_lectura, col = "blue",
     main = "Distribución del tiempo dedicado a internet",
     xlab = "Horas por día",
    ylim = c(0, 30))

Con base en la prueba de normalidad de Lilliefors aplicada al tiempo dedicado a la lectura en la muestra de 69 observaciones, se obtuvo un p-value de 0.0852. Dado que este valor es mayor que el nivel de significancia del 5%, no se rechaza la hipótesis de normalidad. Por lo tanto, no existe evidencia estadística suficiente para afirmar que el tiempo de lectura no sigue una distribución normal, lo que justifica el uso de métodos paramétricos en los análisis posteriores.

3

Con base en dicha muestra, se construye un intervalo de confianza del 95% para la media del tiempo dedicado a la lectura. Este intervalo proporciona una estimación del rango en el cual se espera que se encuentre el valor promedio poblacional, permitiendo cuantificar la incertidumbre asociada a la estimación muestral.

set.seed(12977)
ic_lectura <- t.test(muestra_69$tiempo_lectura, conf.level = 0.95)$conf.int
ic_lectura
## [1] 0.9368755 1.3095013
## attr(,"conf.level")
## [1] 0.95

A partir de la muestra aleatoria de 69 individuos, se construyó un intervalo de confianza del 95% para la media del tiempo dedicado a la lectura. El intervalo obtenido es (0.9369, 1.3095) horas. Esto indica que, con un 95% de confianza, el tiempo promedio poblacional dedicado a la lectura se encuentra entre aproximadamente 0.94 y 1.31 horas diarias. Este intervalo representa un rango plausible para el verdadero valor medio en la población.

4

A continuación, se analiza si existen diferencias significativas en el tiempo promedio dedicado a actividades al aire libre entre hombres y mujeres. Para ello, se plantea una prueba de hipótesis bilateral para la comparación de medias entre dos muestras independientes, empleando un nivel de significancia del 1%. Este análisis permite evaluar si las diferencias observadas en las medias muestrales pueden atribuirse al azar o si reflejan una diferencia real entre ambos grupos.

\[ \begin{cases} H_0: \mu_h = \mu_m \\[6pt] H_1: \mu_m \neq \mu_m \end{cases} \]

set.seed(12977)
hombres <- muestra_69 %>% filter(genero == "M")
mujeres <- muestra_69 %>% filter(genero == "F")

t.test(
  hombres$tiempo_aire_libre,
  mujeres$tiempo_aire_libre,
  alternative = "two.sided",
  conf.level = 0.99,
  var.equal = FALSE
)$p.value
## [1] 0.232053
boxplot(
  tiempo_aire_libre ~ genero,
  data = muestra_69,
  col = c("lightblue", "lightpink"),
  main = "Tiempo dedicado a actividades al aire libre según género",
  xlab = "Género",
  ylab = "Horas por día"
)

Con un nivel de significancia del 1% = 0.01, no se encontró evidencia estadística suficiente para afirmar que existen diferencias significativas en el tiempo promedio dedicado a actividades al aire libre entre hombres y mujeres pues el valor-p es de 0.2321 el cual es superior al del 1%. Aunque la media muestral del tiempo al aire libre es mayor en hombres que en mujeres, esta diferencia no es estadísticamente significativa. Además, el intervalo de confianza del 99% para la diferencia de medias contiene el valor cero, lo cual es consistente con la decisión de no rechazar la hipótesis nula.

5

De manera complementaria, se estudia la variabilidad del tiempo dedicado al uso del celular entre hombres y mujeres. La comparación se realiza mediante la construcción de un intervalo de confianza del 95% para la razón de varianzas, lo cual posibilita determinar si ambos grupos presentan niveles de dispersión similares en esta variable.

set.seed(12977)
resp5 <- stests::var.test(x=hombres$tiempo_celular, y=mujeres$tiempo_celular, conf.level=0.95)$conf.int
resp5
## [1] 0.4888042 1.9781150
## attr(,"conf.level")
## [1] 0.95
boxplot(tiempo_celular ~ genero,
        data = muestra_69,
        col = "lightblue",
        main = "Variabilidad del tiempo en celular por género",
        ylab = "Horas"
        )

Se construyó un intervalo de confianza del 95% para la razón de las varianzas del tiempo dedicado al celular entre hombres y mujeres, obteniéndose el intervalo (0.4888, 1.9781). Dado que el valor 1 se encuentra dentro del intervalo, no se encontró evidencia estadística suficiente para afirmar que existe una diferencia en la variabilidad del tiempo dedicado al celular entre hombres y mujeres. Por lo tanto, se concluye que las varianzas pueden considerarse iguales.

6

Posteriormente, se selecciona una nueva muestra aleatoria de tamaño 81 y se define una variable binaria que identifica a los individuos que dedican más de tres horas diarias al uso de internet. A partir de esta clasificación, se analiza si la proporción de personas que superan dicho umbral es la misma entre hombres y mujeres, utilizando una prueba de hipótesis para la comparación de proporciones con un nivel de significancia del 1%.

\[ \begin{cases} H_0: P_h = P_m \\[6pt] H_1: P_m \neq P_m \end{cases} \]

set.seed(12977)
muestra_81 <- data %>% sample_n(81)

muestra_81 <- muestra_81 %>%
  mutate(
    internet_3h = ifelse(tiempo_internet > 3, 1, 0)
  )

tabla <- table(muestra_81$internet_3h, muestra_81$genero)
tabla_df <- as.data.frame(tabla)
flextable(tabla_df)

Var1

Var2

Freq

0

F

21

1

F

22

0

M

20

1

M

18

set.seed(12977)
prop.test(tabla, alternative = 'two.sided', conf.level = 0.95)$p.value
## [1] 0.9059058
prop <- prop.table(tabla, margin = 2)

barplot(
  prop,
  beside = TRUE,
  main = "Proporcion de personas con mas de 3 horas de internet",
  ylab = "Proporcion",
  xlab = "Genero"
)

Con un nivel de confiabilidad de = 1%, se obtuvo un p-valor igual a 0.9059 el cual es superior a este por lo que no se puede rechazar la hipotesis nula la cual afirmaba que que las proporciones eran iguales, por lo tanto la proporcion en el uso del celular es la misma en hombres como en mujeres.

Apartir de las graficas, la de color negro representa los hombres y mujeres que duran mas de 3 horas en internet, y son los datos a los cuales se les realizo el analisis.

7

Con el fin de complementar este análisis, se construye un intervalo de confianza del 95% para la diferencia de proporciones entre hombres y mujeres que dedican más de tres horas diarias a internet. Este intervalo permite evaluar la magnitud y el sentido de la posible diferencia, así como verificar la coherencia con los resultados obtenidos en la prueba de hipótesis.

set.seed(12977)
prop.test(tabla,alternative = 'two.sided', )$conf.int
## [1] -0.2797064  0.2040966
## attr(,"conf.level")
## [1] 0.95

El intervalo de confianza del 95% para la diferencia de proporciones entre hombres y mujeres que dedican más de tres horas diarias a internet es (-0.2797, 0.2041). Dado que el intervalo incluye el valor cero, se concluye que no existe evidencia estadística suficiente para afirmar que las proporciones difieren entre ambos grupos. Este resultado es consistente con la conclusión obtenida en el punto 6, donde no se rechazó la hipótesis nula de igualdad de proporciones.

8

Finalmente, se compara el tiempo promedio dedicado a la lectura entre individuos pertenecientes a los estratos socioeconómicos 1 y 6. Para este propósito, se plantea una prueba de hipótesis bilateral adecuada para la comparación de medias entre dos grupos independientes, con el objetivo de determinar si existe evidencia estadística suficiente que indique una diferencia significativa entre dichos estratos, pero para realizar esto primero nos aseguramos de que la muestra tenga suficientes datos para realizar la prueba t.test.

\[ \begin{cases} H_0: \mu_1 = \mu_6 \\[6pt] H_1: \mu_1 \neq \mu_6 \end{cases} \]

set.seed(12977)
estrato_1 <- muestra_81 %>% filter(estrato == 1)
estrato_6 <- muestra_81 %>% filter(estrato == 6)
t.test(
  estrato_1$tiempo_lectura,
  estrato_6$tiempo_lectura,
  alternative = 'two.sided',
  conf.level = 0.95,
  var.equal = FALSE
)$p.value
## [1] 0.6968956
boxplot(tiempo_lectura ~ estrato,
        data = muestra_81[muestra_81$estrato %in% c(1, 6), ],
        main = "Tiempo de lectua por estrato.",
        ylab = "Horas"
        
        )

Con una significancia del 5%, se evidencio un p-value de 0,6968 el cual es superor al 5%, por lo cual no se puede rechazar la hipotesis nula la cual afirmaba que el promedio de personas que se dedicaban mas de 3 horas diarias al uso de internet en hombres y mujeres era el mismo, y se rechaza la hipotesis alternativa que afirmaba que eran diferentes, por lo tanto no hay evidencia estadistica de una diferencia.