Comprensión de los datos

library(e1071)
## Warning: package 'e1071' was built under R version 4.5.1
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.1
## 
## Adjuntando el paquete: 'ggplot2'
## The following object is masked from 'package:e1071':
## 
##     element
datos=read.csv("DatosEquipo7.csv")
head(datos)
##   entidad p5 p11 p17 p34_2 p34_3 p26 p4
## 1       1  0   0   0     2     2   0  0
## 2       1  0   0   0     1     2   0  0
## 3       1  0   0   4     1     2  15  0
## 4       1  0   0   0     1     1   0  0
## 5       1  0   0   0     3     3   0  0
## 6       1  0   4   4     1     1  10  0

Descripción de las variables

Tablas de frecuencia

nombres_entidad <- c(
  "Aguascalientes", "Baja California", "Baja California Sur", "Campeche",
  "Coahuila", "Colima", "Chiapas", "Chihuahua", "Ciudad de México", "Durango",
  "Guanajuato", "Guerrero", "Hidalgo", "Jalisco", "Edo México", "Michoacán",
  "Morelos", "Nayarit", "Nuevo León", "Oaxaca", "Puebla", "Querétaro",
  "Quintana Roo", "San Luis Potosí", "Sinaloa", "Sonora", "Tabasco",
  "Tamaulipas", "Tlaxcala", "Veracruz", "Yucatán", "Zacatecas"
)

frecuencias_entidad=table(datos$entidad)

barplot(frecuencias_entidad,
        names.arg = nombres_entidad[as.numeric(names(frecuencias_entidad))],
        las = 2, 
        main = "Frecuencia por Estado",
        col = "skyblue")

nombres_p5 <- c(
  "Blanco por pase",                          
  "Por trabajo",                              
  "Por estudio",                              
  "Por cultura general o por estar al día",   
  "Por gusto o por entretenimiento",          
  "Por religión",                             
  "Otro"                                      
)


p5_factor <- factor(
  datos$p5,
  levels = 0:6,             
  labels = nombres_p5
)

frecuencias_p5 <- table(p5_factor)

barplot(
  frecuencias_p5,
  las = 2,
  main = "¿Cuál fue el motivo principal por el que usted leyó el (los) libro(s)?",
  col = "skyblue"
)

p11_factor <- factor(
  datos$p11,
  levels = 0:6,             
  labels = nombres_p5
)

frecuencias_p11 <- table(p11_factor)

barplot(
  frecuencias_p11,
  las = 2,
  main = "¿Cuál fue el motivo principal por el que usted leyó la(s) revista(s)?",
  col = "skyblue"
)

p17_factor <- factor(
  datos$p17,
  levels = 0:6,             
  labels = nombres_p5
)

frecuencias_p17 <- table(p17_factor)

barplot(
  frecuencias_p17,
  las = 2,
  main = "¿Cuál es el motivo principal por el que usted leyó el (los) periódico(s)?",
  col = "skyblue"
)

nombres_p34_2 <- c(
  "Blanco por pase",                          
  "Sí", "No", "No recuerda"
)


p34_2_factor <- factor(
  datos$p34_2,
  levels = 0:3,             
  labels = nombres_p34_2
)

frecuencias_p34_2 <- table(p34_2_factor)

barplot(
  frecuencias_p34_2,
  las = 2,
  main = "¿Cuándo usted era niño(a) veía a sus padres o tutores leer?",
  col = "skyblue"
)

p34_3_factor <- factor(
  datos$p34_3,
  levels = 0:3,             
  labels = nombres_p34_2
)

frecuencias_p34_3 <- table(p34_3_factor)

barplot(
  frecuencias_p34_3,
  las = 2,
  main = "¿Cuándo usted era niño(a) sus padres o tutores le leían?",
  col = "skyblue"
)

hist(datos$p26, main="Aproximadamente, ¿cuántos minutos continuos lee algún material de lectura?",col="skyblue")

hist(datos$p4,main="¿Cuántos libros leyó en los últimos doce meses?",col="skyblue")

## Boxplot

boxplot(datos$p26, main="Aproximadamente, ¿cuántos minutos continuos lee algún material de lectura?",col="skyblue", horizontal=TRUE)

boxplot(datos$p4,main="¿Cuántos libros leyó en los últimos doce meses?",col="skyblue",horizontal=TRUE)

Medidas estadísticas

P26: Aproximadamente, ¿cuántos minutos continuos lee algún material de lectura?

medidas_p26 = c(as.numeric(summary(datos$p26)),
(max(datos$p26)-min(datos$p26))/2,
sd(datos$p26),
mean(datos$p26)/sd(datos$p26),
skewness(datos$p26),
kurtosis(datos$p26))

m = data.frame(medidas_p26)
row.names(m) = c("Minimo","Q1","Mediana","Media","Q3","Máximo","Rango
Medio", "Desv Est", "CV", "Sesgo", "Curtosis")
round(m,2)
##              medidas_p26
## Minimo              0.00
## Q1                  0.00
## Mediana            20.00
## Media              27.16
## Q3                 35.00
## Máximo            360.00
## Rango\nMedio      180.00
## Desv Est           31.76
## CV                  0.86
## Sesgo               2.68
## Curtosis           13.99

P4: ¿Cuántos libros leyó en los últimos doce meses?

medidas_p4 = c(as.numeric(summary(datos$p4)),
(max(datos$p4)-min(datos$p4))/2,
sd(datos$p4),
mean(datos$p4)/sd(datos$p4),
skewness(datos$p4),
kurtosis(datos$p4))

m = data.frame(medidas_p4)
row.names(m) = c("Minimo","Q1","Mediana","Media","Q3","Máximo","Rango
Medio", "Desv Est", "CV", "Sesgo", "Curtosis")
round(m,2)
##              medidas_p4
## Minimo             0.00
## Q1                 0.00
## Mediana            0.00
## Media              1.30
## Q3                 2.00
## Máximo            70.00
## Rango\nMedio      35.00
## Desv Est           3.10
## CV                 0.42
## Sesgo              8.30
## Curtosis         118.70

Pregunta: ¿Existen diferencias regionales (por entidad federativa) en los hábitos de lectura en México, y cómo se relacionan con los estímulos recibidos en la infancia?

Cantidad de libros por entidad

datos$entidad_nombre <- factor(nombres_entidad[datos$entidad])

ggplot(datos, aes(x = entidad_nombre, y = p4)) +
  geom_boxplot(fill = "lightblue") +
  coord_flip() +
  labs(title = "Libros leídos en los últimos 12 meses",
       x = "Entidad",
       y = "Número de libros") +
  theme(axis.text.y = element_text(size = 6))

medianas_por_entidad_p4 <- tapply(datos$p4, datos$entidad, median, na.rm = TRUE)

medianas_ordenadas_p4 <- sort(medianas_por_entidad_p4, decreasing = TRUE)

names(medianas_ordenadas_p4) <- nombres_entidad[as.numeric(names(medianas_ordenadas_p4))]

print(medianas_ordenadas_p4)
##             Chiapas             Morelos             Nayarit              Puebla 
##                   1                   1                   1                   1 
##              Sonora             Tabasco           Zacatecas      Aguascalientes 
##                   1                   1                   1                   0 
##     Baja California Baja California Sur            Campeche            Coahuila 
##                   0                   0                   0                   0 
##              Colima           Chihuahua    Ciudad de México             Durango 
##                   0                   0                   0                   0 
##          Guanajuato            Guerrero             Hidalgo             Jalisco 
##                   0                   0                   0                   0 
##          Edo México           Michoacán          Nuevo León              Oaxaca 
##                   0                   0                   0                   0 
##           Querétaro        Quintana Roo     San Luis Potosí             Sinaloa 
##                   0                   0                   0                   0 
##          Tamaulipas            Tlaxcala            Veracruz             Yucatán 
##                   0                   0                   0                   0
medias_por_entidad_p4 <- tapply(datos$p4, datos$entidad, mean, na.rm = TRUE)

medias_ordenadas_p4 <- sort(medias_por_entidad_p4, decreasing = TRUE)

names(medias_ordenadas_p4) <- nombres_entidad[as.numeric(names(medias_ordenadas_p4))]

print(medias_ordenadas_p4)
##              Oaxaca           Zacatecas              Sonora             Nayarit 
##           2.7954545           2.5000000           2.0864198           1.9438202 
##             Tabasco             Morelos            Campeche             Chiapas 
##           1.9333333           1.9277108           1.8450704           1.6904762 
##             Hidalgo          Edo México     San Luis Potosí              Puebla 
##           1.6705882           1.5177994           1.4102564           1.4036697 
##            Tlaxcala     Baja California             Jalisco           Querétaro 
##           1.3333333           1.2800000           1.2522523           1.2068966 
##             Sinaloa Baja California Sur           Chihuahua             Yucatán 
##           1.2000000           1.1891892           1.1428571           1.1341463 
##            Coahuila    Ciudad de México          Guanajuato          Nuevo León 
##           1.1182796           1.0988506           1.0896552           1.0883721 
##        Quintana Roo              Colima           Michoacán            Veracruz 
##           1.0779221           1.0000000           0.9531250           0.9484536 
##             Durango          Tamaulipas      Aguascalientes            Guerrero 
##           0.9166667           0.8764045           0.6304348           0.3170732

Tiempo de lectura por entidad

ggplot(datos, aes(x = entidad_nombre, y = p26)) +
  geom_boxplot(fill = "lightblue") +
  coord_flip() +
  labs(title = "",
       x = "Entidad",
       y = "Tiempo consecutivo de lectura en minutos") +
  theme(axis.text.y = element_text(size = 6))

medianas_por_entidad_p26 <- tapply(datos$p26, datos$entidad, median, na.rm = TRUE)

medianas_ordenadas_p26 <- sort(medianas_por_entidad_p26, decreasing = TRUE)

names(medianas_ordenadas_p26) <- nombres_entidad[as.numeric(names(medianas_ordenadas_p26))]

print(medianas_ordenadas_p26)
##            Campeche             Hidalgo           Michoacán             Nayarit 
##                30.0                30.0                30.0                30.0 
##          Nuevo León              Puebla              Sonora    Ciudad de México 
##                30.0                30.0                30.0                25.0 
##             Tabasco     Baja California Baja California Sur            Coahuila 
##                25.0                20.0                20.0                20.0 
##              Colima             Chiapas           Chihuahua             Durango 
##                20.0                20.0                20.0                20.0 
##          Guanajuato            Guerrero          Edo México             Morelos 
##                20.0                20.0                20.0                20.0 
##              Oaxaca           Querétaro        Quintana Roo     San Luis Potosí 
##                20.0                20.0                20.0                20.0 
##             Sinaloa          Tamaulipas            Veracruz             Yucatán 
##                20.0                20.0                20.0                20.0 
##           Zacatecas             Jalisco            Tlaxcala      Aguascalientes 
##                20.0                16.5                15.0                10.0
medias_por_entidad_p26 <- tapply(datos$p26, datos$entidad, mean, na.rm = TRUE)

medias_ordenadas_p26 <- sort(medias_por_entidad_p26, decreasing = TRUE)

names(medias_ordenadas_p26) <- nombres_entidad[as.numeric(names(medias_ordenadas_p26))]

print(medias_ordenadas_p26)
##            Campeche           Zacatecas              Sonora             Yucatán 
##            40.28169            38.61111            36.41975            32.01220 
##              Puebla          Nuevo León           Michoacán              Colima 
##            31.42202            31.04651            30.70312            30.60440 
##              Oaxaca             Nayarit     Baja California            Coahuila 
##            30.45455            30.07865            29.73333            28.93548 
##             Hidalgo    Ciudad de México          Guanajuato             Tabasco 
##            28.70588            28.21839            27.79310            27.26667 
##            Veracruz            Tlaxcala           Chihuahua             Chiapas 
##            26.98969            26.95652            26.88312            26.58333 
##          Edo México             Morelos          Tamaulipas             Durango 
##            25.87379            25.84337            25.71910            23.69048 
##             Sinaloa           Querétaro             Jalisco     San Luis Potosí 
##            23.64706            23.44828            22.45946            22.05128 
## Baja California Sur        Quintana Roo            Guerrero      Aguascalientes 
##            20.98649            20.12987            18.53659            12.50000

Estímulos en la infancia por estado

datos$p34_2_factor <- factor(
  datos$p34_2,
  levels = 0:3,             
  labels = nombres_p34_2
)

library(ggplot2)
ggplot(datos, aes(x = entidad_nombre, fill = p34_2_factor)) +
  geom_bar(position = "fill") +
  coord_flip() +
  labs(x = "Entidad", y = "Proporción",
       title = "¿Cuándo usted era niño(a) veía a sus padres o tutores leer?",
       fill = "Respuesta")

datos$p34_3_factor <- factor(
  datos$p34_3,
  levels = 0:3,             
  labels = nombres_p34_2
)

library(ggplot2)
ggplot(datos, aes(x = entidad_nombre, fill = p34_3_factor)) +
  geom_bar(position = "fill") +
  coord_flip() +
  labs(x = "Entidad", y = "Proporción",
       title = "¿Cuándo usted era niño(a) sus padres o tutores le leían?",
       fill = "Respuesta")

P34_2: ¿Cuándo usted era niño(a) veía a sus padres o tutores leer?

tabla_p34_2=table(datos$entidad, datos$p34_2)
rownames(tabla_p34_2) <- nombres_entidad
colnames(tabla_p34_2) <- nombres_p34_2

proporciones_p34_2<- prop.table(tabla_p34_2, margin = 1)
ordenadas_p34_2 <- proporciones_p34_2[order(proporciones_p34_2[,"Sí"], decreasing = TRUE), ]
print(round(ordenadas_p34_2, 3))  
##                      
##                       Blanco por pase    Sí    No No recuerda
##   Veracruz                      0.031 0.629 0.320       0.021
##   Zacatecas                     0.000 0.583 0.417       0.000
##   Campeche                      0.014 0.577 0.408       0.000
##   San Luis Potosí               0.013 0.577 0.372       0.038
##   Nuevo León                    0.033 0.560 0.398       0.009
##   Chihuahua                     0.026 0.558 0.416       0.000
##   Coahuila                      0.022 0.548 0.430       0.000
##   Sonora                        0.012 0.543 0.444       0.000
##   Puebla                        0.018 0.541 0.431       0.009
##   Hidalgo                       0.035 0.541 0.412       0.012
##   Aguascalientes                0.000 0.522 0.446       0.033
##   Durango                       0.012 0.512 0.476       0.000
##   Sinaloa                       0.035 0.506 0.435       0.024
##   Nayarit                       0.011 0.494 0.461       0.034
##   Morelos                       0.048 0.494 0.446       0.012
##   Edo México                    0.029 0.492 0.472       0.006
##   Quintana Roo                  0.026 0.481 0.468       0.026
##   Tabasco                       0.027 0.467 0.467       0.040
##   Oaxaca                        0.045 0.466 0.489       0.000
##   Guanajuato                    0.034 0.462 0.503       0.000
##   Colima                        0.033 0.462 0.495       0.011
##   Jalisco                       0.020 0.459 0.511       0.009
##   Yucatán                       0.024 0.451 0.500       0.024
##   Tamaulipas                    0.045 0.438 0.494       0.022
##   Ciudad de México              0.014 0.437 0.531       0.018
##   Michoacán                     0.047 0.422 0.531       0.000
##   Baja California               0.013 0.413 0.493       0.080
##   Tlaxcala                      0.029 0.406 0.565       0.000
##   Guerrero                      0.122 0.390 0.488       0.000
##   Chiapas                       0.060 0.369 0.571       0.000
##   Baja California Sur           0.027 0.351 0.608       0.014
##   Querétaro                     0.000 0.345 0.655       0.000

P34_3: ¿Cuándo usted era niño(a) sus padres o tutores le leían?

tabla_p34_3=table(datos$entidad, datos$p34_3)
rownames(tabla_p34_3) <- nombres_entidad
colnames(tabla_p34_3) <- nombres_p34_2

proporciones_p34_3<- prop.table(tabla_p34_3, margin = 1)
ordenadas_p34_3 <- proporciones_p34_3[order(proporciones_p34_3[,"Sí"], decreasing = TRUE), ]
print(round(ordenadas_p34_3, 3)) 
##                      
##                       Blanco por pase    Sí    No No recuerda
##   Campeche                      0.014 0.451 0.535       0.000
##   Zacatecas                     0.000 0.444 0.542       0.014
##   Morelos                       0.048 0.434 0.506       0.012
##   Veracruz                      0.031 0.433 0.495       0.041
##   Coahuila                      0.022 0.419 0.559       0.000
##   Puebla                        0.018 0.404 0.569       0.009
##   San Luis Potosí               0.013 0.397 0.551       0.038
##   Nuevo León                    0.033 0.393 0.565       0.009
##   Baja California Sur           0.027 0.392 0.568       0.014
##   Guerrero                      0.122 0.390 0.488       0.000
##   Nayarit                       0.011 0.371 0.562       0.056
##   Quintana Roo                  0.026 0.364 0.597       0.013
##   Tabasco                       0.027 0.347 0.613       0.013
##   Edo México                    0.029 0.343 0.618       0.010
##   Chihuahua                     0.026 0.338 0.623       0.013
##   Baja California               0.013 0.333 0.533       0.120
##   Hidalgo                       0.035 0.329 0.612       0.024
##   Yucatán                       0.024 0.329 0.622       0.024
##   Michoacán                     0.047 0.312 0.641       0.000
##   Chiapas                       0.060 0.310 0.631       0.000
##   Aguascalientes                0.000 0.304 0.652       0.043
##   Durango                       0.012 0.298 0.690       0.000
##   Oaxaca                        0.045 0.295 0.659       0.000
##   Sinaloa                       0.035 0.282 0.659       0.024
##   Colima                        0.033 0.275 0.670       0.022
##   Sonora                        0.012 0.272 0.704       0.012
##   Tlaxcala                      0.029 0.261 0.681       0.029
##   Jalisco                       0.020 0.255 0.714       0.011
##   Querétaro                     0.000 0.253 0.747       0.000
##   Tamaulipas                    0.045 0.247 0.685       0.022
##   Ciudad de México              0.014 0.246 0.729       0.011
##   Guanajuato                    0.034 0.166 0.800       0.000

Interpretación

Debido a la cantidad de datos atípicos, la mediana representa mejor a la población en ambas variables continuas. Con base a esto, se seleccionaron los 7 Estados que presentaban cierta característica de manera más prominente.

No hay muchas coincidencias en los Estados en los que se leen más libros y los hábitos en la infancia estudiados:

Por otro lado, en relación a los minutos consecutivos de lectura:

Veracruz, San Luis Potosí y Coahuila aparecen en las listas de ambos hábitos de la infancia, al revisar sus medidas de libros leídos en los últimos 12 meses y minutos de lectura consecutivos, estos no son particularmente bajos en comparación al resto de los Estados, pero tampoco son excepcionales.

Conclusiones

En algunos Estados de la república, los hábitos en la infancia como ver a sus padres leer y que sus padres les lean coinciden con una cantidad mayor de libros leidos en los últimos 12 meses y con una mayor cantidad de minutos consecutivos de lectura. Sin embargo, también existen Estados en los que esta relación no es clara, por lo que es posible que otros aspectos (culturales, sociales, económicos, etc.) tengan mayor peso. Esta información es útil para poder enfocar las estrategias del fomento de la lectura a regiones en las que son más efectivas, y buscar soluciones diferencias para aquellas en las que no.