Librerías Usadas
library(ggplot2)
library(dplyr)
library (descriptr)
library(readxl)
library(BSDA)
library(nortest)
library(stests)
library(car)
library(knitr)
library(moments)
Trabajo de Estadística Aplicada: Hábitos Diarios en el Uso del Tiempo Libre
Se trae desde el computador la base de datos con la que se va a trabajar.(Cambiar la dirección del archivo según donde se encuentre en un ordenador)
B_E_H = read_excel("C:/Users/Arun/Documents/base_encuesta_habitos.xlsx")
1. Realice un análisis descriptivo numérico completo para la variable tiempo en internet que incluya las medidas de tendencia central, de variabilidad, de posición y de forma.
En el siguiente código se presenta en análisis estadísticos completo.
# Resumen estadístico completo
estadisticos <- B_E_H %>%
summarise(
# Tendencia central
Media = mean(tiempo_internet, na.rm = TRUE),
Mediana = median(tiempo_internet, na.rm = TRUE),
Moda = as.numeric(names(which.max(table(tiempo_internet)))), # Calcula la moda
# Variabilidad
Desviacion_Estandar = sd(tiempo_internet, na.rm = TRUE),
Varianza = var(tiempo_internet, na.rm = TRUE),
Rango = max(tiempo_internet, na.rm = TRUE) - min(tiempo_internet, na.rm = TRUE),
IQR = IQR(tiempo_internet, na.rm = TRUE),
# Extremos
Minimo = min(tiempo_internet, na.rm = TRUE),
Maximo = max(tiempo_internet, na.rm = TRUE),
Rango = Maximo - Minimo,
# Posición (cuartiles)
Q1 = quantile(tiempo_internet, 0.25, na.rm = TRUE),
Q3 = quantile(tiempo_internet, 0.75, na.rm = TRUE),
# Forma
Asimetria = moments::skewness(tiempo_internet, na.rm = TRUE), # Requiere el paquete 'moments'
Curtosis = moments::kurtosis(tiempo_internet, na.rm = TRUE)
)
ggplot(B_E_H, aes(x = tiempo_internet)) +
geom_histogram(aes(y = ..density..), binwidth = 1, fill = "skyblue", color = "black") +
geom_density(alpha = 0.2, fill = "red") +
labs(title = "Distribución del Tiempo en Internet",
x = "Horas por día",
y = "Densidad") +
theme_minimal()
## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
mensaje <- paste0(
"-------------------------------------\n",
"ANÁLISIS DESCRIPTIVO: TIEMPO EN INTERNET\n",
"-------------------------------------\n",
"1. Medidas de Tendencia Central:\n",
" - La media es: ", round(estadisticos$Media, 2), " horas\n",
" - La mediana es: ", estadisticos$Mediana, " horas\n",
" - La moda es: ", estadisticos$Moda, " horas\n\n",
"2. Medidas de Variabilidad:\n",
" - La desviación estándar es: ", round(estadisticos$Desviacion_Estandar, 2), "\n",
" - La varianza es: ", round(estadisticos$Varianza, 2), "\n",
" - El rango es: ", estadisticos$Rango, " horas (Mín = ", estadisticos$Minimo, ", Máx = ", estadisticos$Maximo, ")\n",
" - El IQR (Rango Intercuartílico) es: ", estadisticos$IQR, " horas (Q1 = ", estadisticos$Q1, ", Q3 = ", estadisticos$Q3, ")\n\n",
"3. Medidas de Forma:\n",
" - La asimetría es: ", round(estadisticos$Asimetria, 2),
ifelse(estadisticos$Asimetria > 0, " (Sesgo positivo: cola a la derecha)\n",
ifelse(estadisticos$Asimetria < 0, " (Sesgo negativo: cola a la izquierda)\n", " (Simétrica)\n")),
" - La curtosis es: ", round(estadisticos$Curtosis, 2),
ifelse(estadisticos$Curtosis > 3, " (Distribución leptocúrtica: más picuda que la normal)\n",
ifelse(estadisticos$Curtosis < 3, " (Distribución platicúrtica: más plana que la normal)\n", " (Mesocúrtica: similar a la normal)\n")),
"4. Extremos:\n",
" - El valor mínimo es: ", round(estadisticos$Minimo, 2), " horas\n",
" - El valor máximo es: ", round(estadisticos$Maximo, 2), " horas\n",
" - El rango total es: ", round(estadisticos$Rango, 2), " horas\n",
"-------------------------------------\n"
)
# Imprimir TODO en una sola llamada
cat(mensaje)
## -------------------------------------
## ANÁLISIS DESCRIPTIVO: TIEMPO EN INTERNET
## -------------------------------------
## 1. Medidas de Tendencia Central:
## - La media es: 2.83 horas
## - La mediana es: 2.9 horas
## - La moda es: 3.2 horas
##
## 2. Medidas de Variabilidad:
## - La desviación estándar es: 0.81
## - La varianza es: 0.65
## - El rango es: 4.5 horas (Mín = 0.7, Máx = 5.2)
## - El IQR (Rango Intercuartílico) es: 1.1 horas (Q1 = 2.3, Q3 = 3.4)
##
## 3. Medidas de Forma:
## - La asimetría es: -0.15 (Sesgo negativo: cola a la izquierda)
## - La curtosis es: 2.76 (Distribución platicúrtica: más plana que la normal)
## 4. Extremos:
## - El valor mínimo es: 0.7 horas
## - El valor máximo es: 5.2 horas
## - El rango total es: 4.5 horas
## -------------------------------------
Análisis de lo obtenido
El análisis descriptivo del tiempo en internet muestra que el promedio de uso es de 2.83 horas diarias, con una mediana de 2.9 horas y una moda de 3.2 horas. La cercanía entre estos tres valores indica una distribución relativamente equilibrada, aunque con una ligera tendencia hacia valores más altos. Esto sugiere que mientras la mayoría de las personas pasan alrededor de 3 horas en internet, existe una pequeña asimetría que hace que los valores por encima de la media sean ligeramente más frecuentes que los inferiores.
En cuanto a la variabilidad, los datos presentan una desviación estándar de 0.81 horas y una varianza de 0.65, lo que refleja una dispersión moderada. El rango total es de 4.5 horas, con un mínimo de 0.7 horas y un máximo de 5.2 horas. El rango intercuartílico (IQR) es de 1.1 horas, lo que significa que el 50% central de los datos se encuentra entre 2.3 y 3.4 horas diarias. Esto confirma que la mayoría de los usuarios tienen hábitos de uso bastante similares, con pocos casos en los extremos.
La forma de la distribución presenta un ligero sesgo negativo (-0.15), lo que indica que hay una cola más larga hacia los valores bajos, aunque el efecto es mínimo. La curtosis de 2.76, al ser menor que 3, señala que la distribución es más plana que una normal, con una menor concentración de datos cerca de la media. Esto implica que los valores están distribuidos de manera más uniforme a lo largo del rango, sin picos pronunciados en ninguna zona específica.
En conclusión, el tiempo en internet de los encuestados se concentra principalmente entre 2 y 3.5 horas diarias, con una dispersión moderada y sin valores extremos que dominen la distribución. La ligera asimetría negativa sugiere que hay un pequeño grupo de usuarios con tiempos de uso inferiores al promedio, pero en general los datos reflejan un comportamiento bastante homogéneo. Estos resultados podrían servir como base para estudios más detallados que exploren las diferencias entre los usuarios con tiempos de uso muy bajos o muy altos.
2. Tome una muestra aleatoria de 69 datos utilizando como semilla los ́últimos dígitos del documento de identidad de cada integrante del grupo y, con base en esa muestra, realice los siguientes ejercicios.
#La semilla a ultilizar es
set.seed(1569)
#La muestra de tamaño 69 escogida basada en la semilla es
muestra <- sample_n(B_E_H, 69)
A lo largo del trabajo solo se van a trabajar con las siguientes columnas de la muestra: tiempo_lectura, tiempo_aire_libre, tiempo_celular y tiempo_internet. Se va a realizar la prueba de normalidad para saber si se pueden realizar los estudios pertinentes para cada una de laas categorías, esto se hace porque en ningún momento se menciona que la distribución de cada uno de los tiempos sea normal.
Para tiempo de Lectura
#Para Tiempo Lectura
qqPlot(muestra$tiempo_lectura, pch=19, las=1, id=FALSE,
main='QQplot tiempo lectura',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')
lillie.test(muestra$tiempo_lectura)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: muestra$tiempo_lectura
## D = 0.078322, p-value = 0.3684
En ambos casos se puede concluir que la muestra de tiempo_lectura proviene de una población normal ya sea por medio del qqPlot o por el test de Shapiro_Wilky que da un valor de 6%,que es mayor que el de significacia del 3%.
Para tiempo de Aire libre
#Para Tiempo Aire Libre
qqPlot(muestra$tiempo_aire_libre, pch=19, las=1, id=FALSE,
main='QQplot tiempo aire libre',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')
shapiro.test(muestra$tiempo_aire_libre)
##
## Shapiro-Wilk normality test
##
## data: muestra$tiempo_aire_libre
## W = 0.97861, p-value = 0.2835
En ambos casos se puede concluir que la muestra de tiempo_aire_libre proviene de una población normal ya sea por medio del qqPlot o por el test de Shapiro-Wilky que da un valor de 28%,que es mayor que el de significacia del 3%.
Para tiempo de Celular
#Para Tiempo Aire Libre
qqPlot(muestra$tiempo_celular, pch=19, las=1, id=FALSE,
main='QQplot tiempo celular',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')
shapiro.test(muestra$tiempo_celular)
##
## Shapiro-Wilk normality test
##
## data: muestra$tiempo_celular
## W = 0.99019, p-value = 0.869
En ambos casos se puede concluir que la muestra de tiempo_celular proviene de una población normal ya sea por medio del qqPlot o por el test de Shapiro-Wilky que da un valor de 87%,que es mayor que el de significacia del 3%.
Para tiempo de Internet
#Para Tiempo Aire Libre
qqPlot(muestra$tiempo_internet, pch=19, las=1, id=FALSE,
main='QQplot tiempo celular',
xlab='Cuantiles teóricos',
ylab='Cuantiles muestrales')
shapiro.test(muestra$tiempo_internet)
##
## Shapiro-Wilk normality test
##
## data: muestra$tiempo_internet
## W = 0.98994, p-value = 0.857
En ambos casos se puede concluir que la muestra de tiempo_internet proviene de una población normal ya sea por medio del qqPlot o por el test de Shapiro-Wilky que da un valor de 86%,que es mayor que el de significacia del 3%.
3. Construya un intervalo de confianza del 95 % para la media del tiempo dedicado a la lectura en la muestra. Interprete su resultado.
Se implementa la función pertinente para obtener la media de tiempo para lectura.
var_lectura <- t.test(x=muestra$tiempo_lectura, conf.level=0.95)$conf.int;var_lectura
## [1] 1.031289 1.409291
## attr(,"conf.level")
## [1] 0.95
Según el intervalo de confianza obtenido, que va de 1.03 a 1.41, se puede afirmar con un 95% de confianza que la media de tiempo dedicado a la lectura en la población se encuentra dentro de ese rango. Este resultado resulta preocupante, ya que indicaría que, en promedio, las personas leen aproximadamente una hora al día, lo cual sugiere una posible pérdida de hábitos de lectura.
4. ¿Hay diferencias significativas en el tiempo promedio dedicado a actividades al aire libre entre hombres y mujeres? Realice una prueba de hipótesis para comparar las medias y construya un intervalo de confianza del 99 % para la diferencia.
Se obtienen las dos listas de hombres y mujeres.
muestra_hombres = muestra[muestra$genero == "M", ]
muestra_mujeres = muestra[muestra$genero == "F", ]
Se extrae la variable de tiempo aire libre.
hombres_aire_libre = muestra_hombres$tiempo_aire_libre
mujeres_aire_libre = muestra_mujeres$tiempo_aire_libre
Se plantea la hipótesis nula en que las medias de los tiempos libres entre hombres y mujeres son iguales, para ello se realiza la prueba de hipótesis de diferencia de medias.
t.test(x=hombres_aire_libre, y=mujeres_aire_libre, alternative="two.sided", mu=0, paired=FALSE, var.equal=TRUE, conf.level=0.99)
##
## Two Sample t-test
##
## data: hombres_aire_libre and mujeres_aire_libre
## t = -0.0098701, df = 67, p-value = 0.9922
## alternative hypothesis: true difference in means is not equal to 0
## 99 percent confidence interval:
## -0.4806336 0.4770683
## sample estimates:
## mean of x mean of y
## 1.490323 1.492105
El resultado es particularmente interesante, ya que la prueba de hipótesis indica que la diferencia en las medias del tiempo dedicado al aire libre entre hombres y mujeres es prácticamente nula. Esta conclusión se ve respaldada por el intervalo de confianza del 99%, el cual incluye al 0, lo que sugiere que no existe una diferencia estadísticamente significativa entre ambos grupos en cuanto a este hábito. Una suposición que se puede hacer a partir de este resultado es que muchas de las personas encuestadas podrían haber esta en relación romántica de la forma (hombre -mujer) con otro de los encuestados, dado que las parejas son las mas probables en pasar el tiempo juntos en el aire libre.
5. ¿Existe diferencia en la variabilidad del tiempo dedicado al celular entre hombres y mujeres? Realice una prueba adecuada.
Para la solución de este punto, primero, se crean dos subconjuntos: uno para hombres y otro para mujeres, usando la variable genero, que en este caso es una de las variable de interes.
datos_hombres <- muestra[muestra$genero == "M", ]
datos_mujeres <- muestra[muestra$genero == "F", ]
Posteriormente, se extrae la variable tiempo_celular correspondiente a cada género para trabajarla directamente en los análisis .
cel_hombres <- datos_hombres$tiempo_celular
cel_mujeres <- datos_mujeres$tiempo_celular
Para poder decidir la prueba estadística adecuada se requiere realizar la verificación o prueba de normalidad(prueba de Anderson-Darling para normalidad), dado que si hay normalidad, es posible usar pruebas paramétricas como F de varianzas y t-test.
Según lo discutido en clase la decisión se toma a partir de lo siguiente: Si el valor-p es mayor a 0.03, entonces se considera que los datos son normales y en caso contrario estos no serian datos normales.
ad.test(cel_hombres)$p.value #Si es mayor del 3% es normal
## [1] 0.07432874
ad.test(cel_mujeres)$p.value #Si es mayor del 3% es normal
## [1] 0.9631997
Como resultado de esta prueba, se obtuvo que tanto para los datos obtenidos del tiempo que dedican los hombres y las mujeres en su celular son de tipo normales, no obstante, se corroborará esto con el apoyo gráfico de un histograma, con el cual se valida la normalidad de los datos si estas graficas presentan una forma de distrbución simétrica (en lo posible)
Para decidir esto con los dos subconjuntos de datos se usa la siguiente línea de código que se encarga de dividir la pantalla en una fila y dos columnas
par(mfrow=c(1, 2)) #Divide la pantalla en una fila y dos columnas
Con esto se asegura la vizualización de los dos histogramas al tiempo de los datos obtenidos del tiempo que dedican los hombres y las mujeres en su celular, con los cuales se soporta la primera prueba de normalidad.
hist(cel_hombres, freq=TRUE,
main='Histograma para el tiempo en pantalla de los hombres',
xlab='hombres',
ylab='Horas al día')
hist(cel_mujeres, freq=TRUE,
main='Histograma para el tiempo en pantalla de las mujeres',
xlab='mujeres',
ylab='Horas al día')
Como era de esperarse, ambos histogramas presentan mayoritariamente simetria en su distribución, siendo estas un soporte de la decisión tomada en la prueba de normalidad.
Ahora bien, para realizar un análisis gráfico comparativo mejor, se optó por emplear un gráfico boxplot del tiempo en celular por género, aquí se usa ggplot2 para comparar visualmente el tiempo en celular entre hombres y mujeres, Permitiendo observar la mediana, los cuartiles y posibles outliers:
ggplot(muestra, aes(x = genero, y = tiempo_celular, fill = genero)) +
geom_boxplot() +
labs(title = "Tiempo dedicado al celular por género",
x = "Género",
y = "Horas al día")
Esta gráfica muestra un diagrama de caja (boxplot) del tiempo dedicado al celular por día, separado por género (F = femenino, M = masculino). A partir de lo observado es posible analizar:
La mediana, correspondiente a la línea dentro de la caja, la cual se observa que es muy similar entre ambos géneros y cercana a 3.8–4 horas al día; Esto sugiere que en promedio, ambos grupos usan el celular un tiempo parecido por día.
El rango intercuartílico (IQR), en donde la altura de la caja representa la dispersión entre el 25% y el 75% de los datos (Q1 y Q3). Por lo tanto, ambas cajas tienen tamaños similares, lo que ya visualmente sugiere que las dispersiones o variabilidad no difiere mucho entre géneros.
Valores atípicos (outliers), puesto que en ambos géneros hay valores extremos tanto bajos como altos, como las personas que usan menos de 2 h o más de 6 h al día el celular; Esto afecta la varianza y puede justificar que se haga una prueba para comparar varianzas.
En consecuencia, la prueba estadística que se realizará será la de “Igualdad de varianzas”, para esto se usa la función var.test, esta función realiza una prueba F de comparación de varianzas entre dos grupos (en este caso, masculino y femenino), bajo el supuesto de que los datos siguen una distribución normal (que ya se comprobó anteriormente).
var_cel_h_m = stests::var.test(cel_hombres,cel_mujeres, conf.level=0.95)$conf.int;var_cel_h_m
## [1] 0.3574502 1.4291969
## attr(,"conf.level")
## [1] 0.95
El resultado obtenido es el intervalo de confianza del 95% para la razón de varianzas (varianza grupo 1 / varianza grupo 2), que para la presente situación, el intervalo va de 0.36 a 1.43, dado que Como el valor 1 está dentro del intervalo, no hay evidencia estadística suficiente para afirmar que las varianzas son distintas entre géneros; Sin embargo, según la prueba F, se concluye que no se rechaza la hipótesis nula de igualdad de varianzas entre los géneros (Femenino y Masculino) o en otras palabras, las varianzas del tiempo diario de uso del celular entre hombres y mujeres pueden considerarse iguales a un nivel de confianza del 95%.
6. Para resolver este ejercicio, cambie el tamaño de la muestra a 81 y defina una variable binaria que sea 1 si una persona dedica más de 3 horas al día a internet, y 0 en caso contrario. ¿La proporción de personas que dedican más de 3 horas al día a internet es la misma en hombres y mujeres? Use un alfa de 0.01.
Para iniciar se toma una muestra aleatoria de 81 observaciones del conjunto de datos original usando sample_n() de la libreria dplyr, que es lo que se pide inicialmente
muestra_81 <- sample_n(B_E_H, size = 81)
Seguidamente se crea una nueva variable binaria donde: 1: son las personas que usan internet más de 3 horas/día y 0: son las persona usa internet 3 horas o menos/día
muestra_81$mas_3h_internet <- ifelse(muestra_81$tiempo_internet > 3, 1, 0)
Luego, para poder identificar la cantidad de personas por género (F/M) y por categoría de uso de internet (≤3h/>3h) se crea una tabla de frecuencia para cada una de estas respectivamente:
table(muestra_81$genero)
##
## F M
## 48 33
table(muestra_81$mas_3h_internet)
##
## 0 1
## 42 39
De este modo, se crea una tabla de contingencia mostrando la relación entre género y tiempo de uso de internet, que coincide con el conteo realizado en las dos tablas de frecuencia anteriores.
tabla_cruzada <- table(muestra_81$genero, muestra_81$mas_3h_internet)
colnames(tabla_cruzada) <- c("≤3h", ">3h")
tabla_cruzada
##
## ≤3h >3h
## F 24 24
## M 18 15
De esta tabla se observa que la cantidad de hombres y mujeres que usan por ≤3h el internet es diferente para ambos géneros, tambien se presentan resultados distintos cuando se compara la cantidad de hombres y mujeres que usan por >3h el internet, de manera que las personas de género femenino presentan resultados más signiifcativos que en el género masculino, por lo que a través de un gráfico de barras apiladas se presentará la proporción de personas en cada categoría de uso por género.
Para esta parte del código se observa el uso de una de las funciones de la libreria ggplot2 y a su vez dentro de esta se obseva el uso de position = “fill”, lo cual es util para hacer que las barras representen proporciones que suman al 100%.
ggplot(muestra_81, aes(x = genero, fill = factor(mas_3h_internet))) +
geom_bar(position = "fill") +
labs(title = "Proporción de personas que usan >3h de internet por género",
x = "Género",
y = "Proporción",
fill = "Uso >3h") +
scale_fill_manual(values = c("gray70", "steelblue"),
labels = c("No", "Sí"))
La gráfica presenta la proporción de personas que utilizan Internet por más de 3 horas diarias, diferenciando entre géneros (Femenino y Masculino), en la cual la zona de color azul corresponde a la proporción de personas que usan Internet por más de 3 horas (Sí), por ende con el color gris se presenta la proporción de personas que no usan Internet por más de 3 horas (No).
Como se observa una proporción notable de mujeres utiliza Internet más de 3 horas al día y otra proporción considerable de personas del género femenino no utiliza más de 3 horas el internet; Mientras que la proporción de hombres que usan más de 3 horas el internet también es notable, y comparativa respecto a las mujeres, de lo cual es evidente que las mujeres presentan una mayor proporción usando el internet por más de tres horas, tal y como se evidenció con los resultados de la tabla de frecuencia cruzada.
De este modo, la visualización de los resultados obtenidos sugiere una posible diferencia significativa en los hábitos de uso de internet entre géneros, lo que justifica la prueba estadística posterior.
Correspondiente a la prueba de hipotesis para proporciones, primero se requiere definir las hipotesis que en este caso:
# Sea p_F la proporción de mujeres que usan >3h internet, y p_M la proporción de hombres:
# Se definen las hipótesis
# H0: : p_F = p_M (misma proporción de uso intensivo en ambos géneros)
# H1: p_F ≠ p_M (proporciones difieren)
#Siendo esta una prueba bilateral (two-tailed) de proporciones para dos muestras independientes.
Ahora bien, se procede realizando un conteo de éxitos (personas con >3h) por género, por lo tanto, cuenta cuántas mujeres (F) tienen valor 1 en mas_3h_internet (>3h) (variable binaria 1) e igual para hombres (M)
exitos <- c(
sum(muestra_81$genero == "F" & muestra_81$mas_3h_internet == 1),
sum(muestra_81$genero == "M" & muestra_81$mas_3h_internet == 1)
)
Procediemiendo a determinar el tamaño de la muestra por género, basicamnete se hace un conteo del total de mujeres y hombres en la muestra, esto se hace con la intención de realizar posteriormente la prueba de hipotesis.
n_fm <- c(
sum(muestra_81$genero == "F"),
sum(muestra_81$genero == "M")
)
La prueba a realizar es el test de proporciones (equivalente a chi-cuadrado para dos proporciones), para esto se identifican los parámetros Clave:
x: Vector de “éxitos” (>3h)
n: Vector de tamaños grupales
conf.level = 0.99: Nivel de confianza dado que se enuncia el uso de un alfa de 0,01 (α=0.01)
Con esta prueba se evalua la Hipótesis Nula (HO) y la hipótesis Alternativa (H1)
De modo que el resultado se interpreta con base en el p-valor obtenido:
Si p-valor < 0.01: Se rechaza H0 -> la proporción sí es diferente entre hombres y mujeres.
Si p-valor ≥ 0.01: No se rechaza H0 -> no hay evidencia suficiente para decir que las proporciones son distintas.
prop.test(x = exitos, n = n_fm, conf.level = 0.99)
##
## 2-sample test for equality of proportions with continuity correction
##
## data: exitos out of n_fm
## X-squared = 0.030977, df = 1, p-value = 0.8603
## alternative hypothesis: two.sided
## 99 percent confidence interval:
## -0.2706403 0.3615493
## sample estimates:
## prop 1 prop 2
## 0.5000000 0.4545455
A partir de los resultados de la prueba de proporciones, no se encontró evidencia estadísticamente significativa (p-valor = 0.86 > α = 0.01) para afirmar que existe una diferencia real en la proporción de personas que usan internet más de 3 horas al día entre hombres y mujeres.
Aunque numéricamente se observa una diferencia (50% en hombres vs. 45.5% en mujeres), el amplio intervalo de confianza del 99% [-0.27, 0.36] (que incluye el cero) y el alto p-valor indican que esta discrepancia podría deberse al azar en el muestreo. Por lo tanto, no se puede rechazar la hipótesis nula y se concluye que, con los datos actuales y un nivel de significancia del 1%, no hay suficiente respaldo estadístico para afirmar que el tiempo de uso de internet difiere significativamente entre géneros;Sin embargo, la tendencia observada sugiere que con una muestra más grande, podrían detectarse diferencias relevantes, por lo que una posible recomendación es la de ampliar el estudio para reducir la incertidumbre.
7. Construya un intervalo de confianza del 95% para la diferencia de proporciones entre hombres y mujeres que dedican más de tres horas al día en internet. ¿es consistente el intervalo construido con la conclusión del ejercicio anterior?
Se separa la muestra en masculino y femenino
hombres = muestra %>% filter(genero %in% "M")
mujeres = muestra %>% filter(genero %in% "F")
En cada una de las listas de datos se calcula el número de éxitos, es decir, la cantidad de personas que dedican mas de tres horas al día en internet.
n_hombres = nrow(hombres)
n_mujeres = nrow(mujeres)
exi_hombres = hombres %>% filter(tiempo_internet > 3) %>% nrow();
exi_mujeres = mujeres %>% filter(tiempo_internet > 3) %>% nrow();
Ya con los valores pertinentes se prosigue a hacer el intervalo de confianza bilateral para la diferencia de proporciones.
dif_prop= prop.test(x=c(exi_hombres, exi_mujeres), n=c(n_hombres, n_mujeres), conf.level=0.95)
dif_prop$conf.int
## [1] -0.3822667 0.1326911
## attr(,"conf.level")
## [1] 0.95
Comparando el intervalo de confianza obtenido con los resultados del punto anterior, se evidencia consistencia en los resultados, ya que la diferencia al contener el número 0 dentro del intervalo estadísticamente no hay motivo de rechazar la hipótesis de que las proporciones entre los dos géneros sean diferentes. Hay que recalcar que la obtención de estos resultados proviene de dos muestras diferentes, una de la de tamaño 69 (la usado en este punto), y la otra de la muestra de tamaño 81 (la del punto anterior.)
8. Compare el tiempo promedio dedicado a la lectura entre los estratos 1 y 6. ¿Hay evidencia estadística de una diferencia? Realice una prueba de hípótesis adecuada.
De la muesta de tiempo_lectura solo se quieren los datos de los estratos 1 y 6 por lo que se realiza el filtrado
estrato_1_lectura = muestra %>% filter(estrato %in% 1)
estrato_6_lectura = muestra %>% filter(estrato %in% 6)
Para poder aplicar la prueba correcta de hipótesis nula, se debe que primero saber si se tratan de muestras con varianza igual o diferente, por lo que se va a realizar el test para ello:
prueba_varianza_1_6 = stests::var.test(estrato_1_lectura$tiempo_lectura,
estrato_6_lectura$tiempo_lectura, conf.level=0.95)
prueba_varianza_1_6$conf.int
## [1] 0.00299592 17.59520962
## attr(,"conf.level")
## [1] 0.95
El intervalo contiene el número 1, por lo que se va a realizar la prueba de hipótesis para la diferencia de medias con varianzas iguales.
t.test(x=estrato_1_lectura$tiempo_lectura, y=estrato_6_lectura$tiempo_lectura, alternative="two.sided", mu=0,
paired=FALSE, var.equal=TRUE, conf.level=0.95)
##
## Two Sample t-test
##
## data: estrato_1_lectura$tiempo_lectura and estrato_6_lectura$tiempo_lectura
## t = -2.6814, df = 20, p-value = 0.01435
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -2.5424367 -0.3175633
## sample estimates:
## mean of x mean of y
## 0.97 2.40
El valor de p obtenido es muy pequeño, por lo que estadísticamente se puede concluir que sí existe una diferencia significativa en los tiempos de lectura entre los estratos 1 y 6, con un nivel de confianza del 95%. Esta diferencia, en la que el estrato 6 muestra un mayor tiempo de lectura, podría indicar que las personas provenientes de contextos económicos más favorables tienden a desarrollar hábitos de lectura más sólidos. Esto puede deberse a una mayor estabilidad económica, que les permite disponer de más tiempo libre para actividades relacionadas con el conocimiento, como la lectura.