Etapa 1: Introcucción al reto

¿La edad se vincula con los hábitos de lectura? ¿se vincula con el tipo de materiales que se lee? ¿esto se ha modificado en los últimos años?

Etapa1: Introducción al reto. Establecerás las expectativas del proyecto así como los criterios de aceptación del mismo. Definirás los requerimientos del proyecto, definirás las variables que requieres para llevarlo a cabo y herramientas para completar los objetivos. Requerirás realizar una revisión bibliográfica de la problemática para familiarizarte con los términos y conocer qué se ha hecho en el tema para identificar tu punto de partida. Concluirá con la definición de una pregunta de investigación en la que te adentrarás durante las siguientes etapas. También requerirás explorar la base de datos para identificar las variables que deberás analizar para contestar tu pregunta de investigación.

Debido a la gran extensión de la base de datos, se mostrará el código pero se esconderá el output.

Creacion de función para la exploración de datos y variables para su limpieza
calidad_datos <- function(data) {
  message("Lista de nombres de las variables de datos:\n")
  print(names(data))

  cat("\nCantidad de registros:", dim(data)[1], "\n")
  cat("Cantidad de columnas:", dim(data)[2], "\n")
  
  cat("\nResumen general del dataset:\n")
  print(summary(data))
  missing_values <- colSums(is.na(data))
  missing_percentage <- (missing_values / nrow(data)) * 100
  cat("Porcentaje de datos faltantes en cada variable:", missing_percentage, "\n")
  
  quality_check <- data.frame(
    Variable = names(data),
    Valores_faltantes = missing_values,
    Porcentaje_faltante = missing_percentage
  )
  
  cat("Variables con datos faltantes: \n")
  missing_info <- quality_check[quality_check$Valores_faltantes > 0, ]
  print(missing_info)
}

Datos del 2019

setwd("/Users/marielalvarez/Desktop/3er sem/DatosEstadistica")
M19 = read.csv("Datos_molec_2019.csv")
Dicc19 = read.csv("Diccionario_molec_2019.csv")
calidad_datos(M19)

Datos del 2024

setwd("/Users/marielalvarez/Desktop/3er sem/DatosEstadistica")
M24 = read.csv("Datos_molec_2024.csv")
calidad_datos(M24)

Elección de variables: Data frame con columnas objetivo.

eleccionFinal <- M19[c(70, 85, 86, 87, 89, 90, 92,104)]