Datos equipo Jessica y Paola
library(tidyverse)
library(readxl)
basecompleta_copia <- read_excel("basecompleta - copia.xlsx")
basecompleta_copia %>% summary()
codigo edad1 edad2 n_hijos1 n_hijos2 a_escolar1 a_escolar2 brif-p1 brif-p2
Min. : 1.0 Min. :21.00 Min. :20.0 Min. :1.000 Min. :0.000 Min. : 5.00 Min. : 5.00 Min. :14.00 Min. : 3.00
1st Qu.:23.5 1st Qu.:27.00 1st Qu.:27.0 1st Qu.:1.000 1st Qu.:1.500 1st Qu.:11.00 1st Qu.:11.00 1st Qu.:25.00 1st Qu.:20.00
Median :46.0 Median :32.00 Median :30.0 Median :2.000 Median :2.000 Median :11.00 Median :11.00 Median :40.00 Median :33.00
Mean :46.0 Mean :33.25 Mean :31.6 Mean :1.902 Mean :2.099 Mean :10.05 Mean :10.63 Mean :40.33 Mean :34.76
3rd Qu.:68.5 3rd Qu.:38.00 3rd Qu.:35.5 3rd Qu.:2.000 3rd Qu.:3.000 3rd Qu.:11.00 3rd Qu.:13.00 3rd Qu.:52.00 3rd Qu.:44.50
Max. :91.0 Max. :50.00 Max. :50.0 Max. :4.000 Max. :5.000 Max. :15.00 Max. :15.00 Max. :86.00 Max. :79.00
NA's :30 NA's :30 NA's :30 NA's :31
upnt3.2_1 upnt3.2_2 upnt3.3_1 upnt3.3_2 upnt5.3_1 upnt5.3_2 upnt5.4_1 upnt5.4_2 tienda
Min. : 2.0 Min. :1.000 Min. :1.00 Min. :0.000 Min. : 2.0 Min. :1.000 Min. :1.00 Min. :1.000 Min. : 4.000
1st Qu.: 5.0 1st Qu.:2.000 1st Qu.:2.00 1st Qu.:2.000 1st Qu.: 5.0 1st Qu.:2.000 1st Qu.:2.00 1st Qu.:2.000 1st Qu.: 9.000
Median :10.0 Median :3.000 Median :2.00 Median :3.000 Median :10.0 Median :3.000 Median :3.00 Median :3.000 Median :10.000
Mean :10.2 Mean :2.747 Mean :2.48 Mean :3.121 Mean : 9.6 Mean :3.022 Mean :2.76 Mean :3.571 Mean : 9.648
3rd Qu.:15.0 3rd Qu.:4.000 3rd Qu.:3.00 3rd Qu.:5.000 3rd Qu.:15.0 3rd Qu.:4.000 3rd Qu.:3.00 3rd Qu.:5.000 3rd Qu.:11.000
Max. :17.0 Max. :4.000 Max. :6.00 Max. :7.000 Max. :18.0 Max. :4.000 Max. :6.00 Max. :7.000 Max. :12.000
NA's :66 NA's :66 NA's :66 NA's :66
Análisis de datos de san luis
basecompleta_copia %>%
names() %>%
tibble() %>%
rename(. = names )
Error in UseMethod("rename") :
no applicable method for 'rename' applied to an object of class "function"
Filtrar solo datos de la union
basecompleta_san_luis <-
basecompleta_copia %>%
select(data_2$names) %>%
filter(!(is.na(edad2)))
Gráficas
basecompleta_san_luis %>%
ggplot(aes(x = edad2)) +
geom_histogram()
range(basecompleta_san_luis$edad2)
Dónde hay mayor consumo del smartphone?
Boxplot
boxplot(basecompleta_copia$upnt3.2_1)
boxplot(basecompleta_copia$upnt3.2_2)
Es necesario comparar entre colegios cada una de las variables a través de un boxplot para entender si hay diferencias. La primera variable es upnt3.2_1 que significa el uso del internet a la semana y entre más alto el valor quiere decir que le dedica más tiempo. Para analizar esto es necesario transformar los datos. La gráfica muestra que parece que hay diferencia significativas entres las dos poblaciones en cuanto al uso del internet donde la población 1 muestra un uso mucho mayor.
basecompleta_copia %>%
select(upnt3.2_1,
upnt3.2_2) %>%
pivot_longer(cols = c("upnt3.2_1",
"upnt3.2_2")
) %>%
ggplot(aes(x = value, fill = name)) +
geom_boxplot()
Warning: Removed 66 rows containing non-finite values (stat_boxplot).
Ahora es necesario realizar un test para identificar si hay diferencias significativas. La prueba t determina si hay diferencias significativas del promedio de uso del internet entre las dos poblaciones.
t.test(basecompleta_copia$upnt3.2_1, basecompleta_copia$upnt3.2_2)
Welch Two Sample t-test
data: basecompleta_copia$upnt3.2_1 and basecompleta_copia$upnt3.2_2
t = 8.5627, df = 24.704, p-value = 7.337e-09
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
5.659081 9.246413
sample estimates:
mean of x mean of y
10.200000 2.747253
el p-valor muestra que las diferencias son significativas.