Realice un análisis descriptivo numérico completo para la variable tiempo en internet que incluya las medidas de tendencia central, de variablidad, de posición y de forma.
A continuación se hace un análisis descriptivo numérico de la variable \(tiempo_internet\) de la base de datos \(base_encustas_hábitos.\)
attach(base_encuesta_habitos)
media <- mean(tiempo_internet)
cat("La media para la varible de tiempo en internet es:", media)## La media para la varible de tiempo en internet es: 2.827619
Se observa como la media (promedio) de tiempo expendido en internet para todos los encustados es de alrededor de 2.8 a 2.9 horas. A su vez, esto representa el punto de equilibrio en la distribución que despúes será analizada.
mediana <- median(tiempo_internet)
cat("La mediana para la varible de tiempo en internet es:",mediana)## La mediana para la varible de tiempo en internet es: 2.9
La mediana representa el valor central ordenado y, en este caso, este valor de 2.9 significa que aproximadamente el 50% de los encuestados reporta menos de 2.9 horas de tiempo en internet, y el otro 50% reporta más de 2.9 horas.
## La moda para la varible de tiempo en internet es: 3.2
Por último, la moda indica que la respuesta más común está en el rango de 3.2 horas. Esto sugiere que este valor es el más típico en la población encuestada.
rango <- max(tiempo_internet)-min(tiempo_internet)
cat("El rango para la varible de tiempo en internet es:",rango)## El rango para la varible de tiempo en internet es: 4.5
El rango representa la diferencia entre el valor máximo y el valor mínimo de la variable. Esto indica que la diferencia entre la persona que pasa más tiempo en internet y la que pasa menos es de 4.5 horas.
varianza <- var(tiempo_internet)
cat("La varianza para la varible de tiempo en internet es:",varianza)## La varianza para la varible de tiempo en internet es: 0.6509227
La varianza representa la dispersión de los datos respecto a la media. En este caso, no tiene una interpretación directa para la variable del tiempo en internet.
desviacion <- sd(tiempo_internet)
cat("La desviación estándar para la varible de tiempo en internet es:",desviacion)## La desviación estándar para la varible de tiempo en internet es: 0.8067978
Esta es la medida de dispersión más importante y representa la desviación promedio de los datos con respecto a la media (2.83 horas) que se calculó anteriormente. Como la desviación es de alrededor de 0.8 indica que los datos están bastante agrupados alrededor de la media y que la mayoría de los encuestados tienen hábitos de tiempo en internet que no se desvían drásticamente del promedio.
coef_var <- (desviacion/media)*100
cat("El coeficiente de variación para la varible de tiempo en internet es:",coef_var)## El coeficiente de variación para la varible de tiempo en internet es: 28.53276
Este coeficiente indica un porcentaje de alrededor del 28%, lo que significa que es menor al 30% y, por lo tanto, los datos de la varible tiempo tienen una baja dispersión. Para nuestro análisis, esto implica que los encuestados tienen hábitos de tiempo en internet que son muy consistentes entre sí y la variación en el uso es relativamente pequeña en comparación con el nivel promedio de uso. Esto refuerza la conclusión anterior obtenida con la desviación estándar.
Finalmente, se gráfica el histograma para obtener una mejor interpretación de todo lo analizado anteriormente:
hist(tiempo_internet, main = "Distribución del Tiempo en Internet", xlab = "Tiempo en Internet (Horas)",
ylab = "Frecuencia",col = "cadetblue3", ylim = c(0, 100), border = "white")
Tal como se observa, la distribución es ligeramente asimétrica y con
sesgo en la izquierda (negativo), debido a que la media es menor que la
mediana \((2.82<2.9)\). Además, se
ve como el pico del histograma está justamente en los valores cercanos a
3, lo que ya se concluía con la moda (3.2).
En conclusión, la mayoría de los encuestados se concentra en el valor más alto (Moda = 3.2), el promedio (Media = 2.82) es ligeramente inferior porque la cola de la distribución se extiende hacia valores más bajos (la izquierda). En el contexto del tiempo en internet, esto significa que la mayoría usa internet con una frecuencia alta, pero el grupo de usuarios que lo usa menos (valores bajos) tiene un impacto en la reducción del promedio.
cuartiles <- quantile(tiempo_internet, probs = c(0.25, 0.50, 0.75), names = TRUE)
cat("Los caurtiles para la varible de tiempo en internet son:", cuartiles)## Los caurtiles para la varible de tiempo en internet son: 2.3 2.9 3.4
Gracias a que los cuartiles dividen los datos en cuatro partes iguales, se puede determinar que:
percentiles_clave <- quantile(tiempo_internet, probs = c(0.10, 0.90), names = TRUE)
cat("Los percentiles clave para la varible de tiempo en internet son:", percentiles_clave)## Los percentiles clave para la varible de tiempo en internet son: 1.74 3.86
Con los percentiles clave (10 y 90) se puede concluir que el 80% de la población (entre \(P_{10}\) y \(P_{90}\)) se concentra en un rango de uso de internet entre 1.74 y 3.86 horas. Esto es una fuerte evidencia de la baja dispersión ya identificada con el coeficiente de variación.
Ahora se gráfica el diagrama de caja para obtener una mejor visualización de los datos explicados anteriormente.
boxplot(tiempo_internet, horizontal = TRUE,main = "Gráfico de Caja para la Varible de Tiempo en Internet",xlab="Horas en Internet",col = "lightblue", border = "darkblue")Como se observa y basándonos en los datos previos (\(Q_1=2.3\), \(Q_2=2.9\), \(Q_3=3.4\)), podemos identificar algunos elementos clave del gráfico:
Gracias a esto, se puede concluir que: la mayor parte del tiempo en internet se concentra entre 2.3 y 3.4 horas (el 50% central), la distribución está ligeramente sesgada a la izquierda, lo que implica que hay una mayor concentración de usuarios en el uso más alto, pero existe al menos un caso extremo de alto uso de internet (el valor atípico). Esto último significa que existe al menos un encuestado que reportó un tiempo en internet excepcionalmente alto (superior a 5 horas) en comparación al promedio.
curtosis <- kurtosis(tiempo_internet)
cat("El coeficiente de curtosis para la varible de tiempo en internet es:",curtosis)## El coeficiente de curtosis para la varible de tiempo en internet es: 2.756393
Este coeficiente mide si la distribución es más “puntiaguda” o “aplanada” en comparación con la distribución normal (mesocúrtica). Como \(2.756 < 3\), según la teoría, la distribución es Platicúrtica, esto significa que los datos están más dispersos horizontalmente y menos concentrados en el pico central de lo que lo estarían en una distribución normal.
asimetria <- skewness(tiempo_internet)
cat("El coeficiente de asimetría para la varible de tiempo en internet es:",curtosis)## El coeficiente de asimetría para la varible de tiempo en internet es: 2.756393
Este coeficiente de asimetría tan alto y positivo indica una fuerte cola a la derecha (valores altos), con la mayoría de los datos concentrados a la izquierda. Esto signifca una fuerte asimetría positiva, lo que se contradice con el análisis anterior para las medidas de tendencia central, esto se puede deber a que el valor de la media (2.83) y la mediana (2.9) están siendo arrastrados hacia la derecha por la presencia de un grupo pequeño de usuarios que pasa un tiempo en internet extremadamente alto (valores atípicos), como se observó en el diagrama de caja.
Entonces, para despejar las dudas, se graficará la función de densidad de la variable de tiempo en internet para observar de forma más clara la forma que se presenta.
plot(density(tiempo_internet),main = "Gráfica de densidad para la varible de tiempo en internet",xlab = "Tiempo en Internet",ylab = "frecuencia", col="purple")Como se aprecia, esta gráfica concuerda más con el análisis inicial y entonces se puede concluir que sí se trata de una asimetría negativa que presenta la media en 2.82 y la cola de la distribución se alarga para valores inferiores a la media.
Tome una muestra aleatoria de 69 datos utilizando como semilla los últimos dígitos del documento de identidad de cada integrante del grupo y, con base en esa muestra, realice los siguientes ejercicios.
## [1] 69
Construya un intervalo de confianza del 95 % para la media del tiempo dedicado a la lectura en la muestra. Interprete su resultado.
x_barra <- mean(muestra$tiempo_lectura)
s <- sd(muestra$tiempo_lectura)
n <- length(muestra$tiempo_lectura)
alpha <- 0.05
error <- qt(1 - alpha/2, df = n - 1) * s / sqrt(n)
IC_inferior <- x_barra - error
IC_superior <- x_barra + error
cat("Media muestral del tiempo de lectura:", round(x_barra, 3), "horas\n")## Media muestral del tiempo de lectura: 1.286 horas
## Intervalo de confianza del 95%: ( 1.087 , 1.484 )
tabla_resumen <- data.frame(
Media = round(x_barra, 3),
IC_95_Inferior = round(IC_inferior, 3),
IC_95_Superior = round(IC_superior, 3)
)
tabla_resumenA partir de la muestra, se obtuvo una media muestral del tiempo dedicado a la lectura de 1.286 horas. Este valor representa el promedio de horas que los individuos de la muestra destinan a la lectura en un periodo típico. Con base en esta muestra, se construyó un intervalo de confianza del 95 % para la media poblacional del tiempo dedicado a la lectura, el cual se encuentra entre 1.087 y 1.484 horas. La amplitud del intervalo refleja la variabilidad presente en los datos y el tamaño de la muestra utilizada. El intervalo de confianza indica que el verdadero promedio de tiempo dedicado a la lectura en la población probablemente se ubica dentro de este rango.
ggplot() +
geom_point(aes(x = 1, y = x_barra), size = 3) +
geom_errorbar(aes(
x = 1,
ymin = IC_inferior,
ymax = IC_superior
), width = 0.1) +
labs(
title = "Intervalo de confianza del 95% para la media del tiempo de lectura",
x = "",
y = "Horas"
) +
theme(axis.text.x = element_blank(),
axis.ticks.x = element_blank())El punto indica la media muestral y el segmento vertical representa el intervalo de confianza del 95 %, mostrando el rango plausible donde se ubica la media poblacional del tiempo dedicado a la lectura.
¿Hay diferencias significativas en el tiempo promedio dedicado a actividades al aire libre entre hombres y mujeres? Realice una prueba de hipótesis para comparar las medias y construya un intervalo de confianza del 99 % para la diferencia.
prueba_aire <- t.test(
tiempo_aire_libre ~ genero,
data = muestra,
alternative = "two.sided",
conf.level = 0.99
)
prueba_aire##
## Welch Two Sample t-test
##
## data: tiempo_aire_libre by genero
## t = -0.15144, df = 65.591, p-value = 0.8801
## alternative hypothesis: true difference in means between group F and group M is not equal to 0
## 99 percent confidence interval:
## -0.4855193 0.4330823
## sample estimates:
## mean in group F mean in group M
## 1.282353 1.308571
El valor del estadístico t fue:𝑡= − 0.151, lo que indica que la diferencia observada entre las medias muestrales de ambos grupos es muy pequeña, lo que sugiere una alta similitud entre los promedios de hombres y mujeres.
Dado que el valor p = 0.8801 es mayor que el nivel de significancia 𝛼= 0.01, no se rechaza la hipótesis nula.
El intervalo de confianza del 99 % para la diferencia de medias
\((\mu_F - \mu_M)\) es:
\[ (-0.486,\; 0.433) \]
Este intervalo incluye el valor cero, lo que indica que la diferencia entre los promedios de hombres y mujeres no es estadísticamente significativa al 99 % de nivel de confianza.
Las medias calculadas a partir de la muestra fueron:
boxplot(tiempo_aire_libre ~ genero,
data = muestra,
col = c("#f2a7c6", "#9ecae1"),
xlab = "Genero",
ylab = "Tiempo dedicado a actividades al aire libre (horas)",
main = "Comparacion del tiempo promedio por genero")La diferencia entre ambas medias es mínima, lo que refuerza la conclusión obtenida mediante la prueba de hipótesis, indicando que no existen diferencias significativas en el tiempo promedio dedicado a actividades al aire libre entre ambos grupos.
¿Existe diferencia en la variabilidad del tiempo dedicado al celular entre hombres y mujeres? Realice una prueba adecuada.
Base <- read_excel("base_encuesta_habitos.xlsx")
muestra_69 <- Base[sample(1:nrow(Base), 69), ]
table(muestra_69$genero)##
## F M
## 36 33
hombres <- muestra_69$tiempo_celular[muestra_69$genero == "M"]
mujeres <- muestra_69$tiempo_celular[muestra_69$genero == "F"]## Número de hombres: 33
## Número de mujeres: 36
##
## Prueba de normalidad para hombres
## [1] 0.3896528
##
## Prueba de normalidad para mujeres
## [1] 0.3906485
##
## F test to compare two variances
##
## data: hombres and mujeres
## F = 1.1906, num df = 32, denom df = 35, p-value = 0.6127
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.600625 2.385760
## sample estimates:
## ratio of variances
## 1.190648
## [1] 0.600625 2.385760
## attr(,"conf.level")
## [1] 0.95
El intervalo de confianza para la razón de varianzas contiene el valor 1, por lo tanto no se rechaza la hipótesis nula. No existe evidencia estadísticamente significativa para afirmar que la variabilidad del tiempo dedicado al celular sea diferente entre hombres y mujeres.
Para resolver este ejercicio, cambie el tamaño de la muestra a 81 y defina una variable binaria que sea 1 si una persona dedica más de 3 horas al día a internet, y 0 en caso contrario. ¿La proporción de personas que dedican más de 3 horas al día a internet es la misma en hombres y mujeres? Use un alfa de 0.01.
muestra_81 <- Base[sample(1:nrow(Base), 81), ]
muestra_81$internet_3h <- ifelse(muestra_81$tiempo_internet > 3, 1, 0)
hombres <- muestra_81[muestra_81$genero == "M", ]
mujeres <- muestra_81[muestra_81$genero == "F", ]## Magnitud muestra Hombres: 36
## Magnitud muestra Mujeres: 45
## Hombres con >3h internet: 10 de 36
## Mujeres con >3h internet: 20 de 45
p_hombres <- sum(hombres$internet_3h == 1) / nrow(hombres)
p_mujeres <- sum(mujeres$internet_3h == 1) / nrow(mujeres)
cat("Proporcion hombres:", round(p_hombres, 3), "\n")## Proporcion hombres: 0.278
## Proporcion mujeres: 0.444
## H0: p_hombres = p_mujeres
## H1: p_hombres ≠ p_mujeres
## α = 0.01
prueba <- prop.test(x = c(sum(hombres$internet_3h == 1), sum(mujeres$internet_3h == 1)),
n = c(nrow(hombres), nrow(mujeres)),
alternative = "two.sided",
conf.level = 0.99)if(prueba$p.value > 0.01){
cat("NO se rechaza H0 (p =", round(prueba$p.value, 4), "> 0.01)")
} else{
cat("Se rechaza H0 (p =", round(prueba$p.value, 4), "≤ 0.01)")
}## NO se rechaza H0 (p = 0.1895 > 0.01)
Dado que el valor p es mayor que 𝛼= 0.01, no se rechaza la hipótesis nula. No existe evidencia estadísticamente significativa para afirmar que la proporción de hombres y mujeres que dedican más de 3 horas diarias a internet sea diferente.
Construya un intervalo de confianza del 95% para la diferencia de proporciones entre hombres y mujeres que dedican más de tres horas al día en internet. ¿es consistente el intervalo construido con la conclusión del ejercicio anterior?
datos$mas3 <- datos$tiempo_internet > 3
hombres <- datos[datos$genero == "M", ]
mujeres <- datos[datos$genero == "F", ]
x <- c(sum(hombres$mas3), sum(mujeres$mas3))
n <- c(nrow(hombres), nrow(mujeres))
pa <- prop.test(x = x,n = n, conf.level = 0.95)$conf.int
cat("El intervalo de confianza construido es consistente con la conclusión del ejercicio anterior, ya que incluye el valor cero, teniendo como resultado:",pa,"
")## El intervalo de confianza construido es consistente con la conclusión del ejercicio anterior, ya que incluye el valor cero, teniendo como resultado: -0.1958485 0.03401973
Por lo tanto, no existe evidencia estadísticamente significativa de una diferencia en las proporciones de hombres y mujeres que dedican más de tres horas diarias a internet. En consecuencia, no se rechaza la hipótesis nula de igualdad de proporciones con un nivel de significancia de α = 0.01.Ademas de que en el punto 6 se uso una muestra mas pequeña de 81.
Compare el tiempo promedio dedicado a la lectura entre los estratos 1 y 6. ¿Hay evidencia estadística de una diferencia? Realice una prueba de hipo ́tesis adecuada.
e1 <- datos[datos$estrato == 1, ]
e6 <- datos[datos$estrato == 6, ]
lillie.test(e1$tiempo_lectura)$p.value## [1] 2.163711e-05
## [1] 0.546357
prueba_t <- t.test(x = e1$tiempo_lectura,y = e6$tiempo_lectura,alternative = "two.sided",paired = FALSE,var.equal = FALSE,conf.level = 0.95)
prueba_t##
## Welch Two Sample t-test
##
## data: e1$tiempo_lectura and e6$tiempo_lectura
## t = -2.8003, df = 6.5218, p-value = 0.02853
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1.9335647 -0.1487335
## sample estimates:
## mean of x mean of y
## 0.7445652 1.7857143
Sí, existe evidencia estadísticamente significativa de una diferencia en el tiempo promedio dedicado a la lectura entre los estratos 1 y 6. Esto se debe a que la prueba t de Welch arrojó un valor p-value de 0.0285, el cual es menor que el nivel de significancia α=0.05. En consecuencia, y en base a eso se puede rechazar la hipótesis la nulidad de igualdad de medias.