En este trabajo, estaremos revisando y procesando una base de datos incompleta o con errores, para preparar los datos antes de entrar a un análisis más profundo de lo que se quiere estudiar con esta base de datos.
Para poder explorar los datos descargamos la base de datos llamada “datos” y descargamos la librería de “dplyr”, “tidyr” y “readr”.
Según la visualización de valores faltantes, el conjunto de datos presenta un porcentaje bajo de missing (2.6%). No se recomendamos eliminar observaciones, ya que se perdería información útil sin necesidad. En este caso estaremos imputando los valores faltantes. Así que, para variables numéricas como Edad, Salario, Experiencia y 8Horas_Trabajo_Semana se considerará método simple (media) y métodos basados en modelos (regresión) para comparar resultados.
Para poder solucionar estos problemas de datos faltantes decidimos utilizar utilizaremos:
“Imputación por media” para variables continuas como salario, experiencia, cantidad de hijos, ya que tienen un porcentaje faltante mayor a 5%. (Las demás faltantes podemos ignorarlas)
Vamos a verificar posibles inconsistencias en las variables numéricas
Estudiar el comportamiento de las imputaciones vs la distribución original y metodo cart.
4.Convertir las variables categóricas a factores para facilitar su análisis.