Introducción

En este trabajo, estaremos revisando y procesando una base de datos incompleta o con errores, para preparar los datos antes de entrar a un análisis más profundo de lo que se quiere estudiar con esta base de datos.

Parte 1:Identificación de problemas en los datos

1.Exploren los datos asignados:

Para poder explorar los datos descargamos la base de datos llamada “datos” y descargamos la librería de “dplyr”, “tidyr” y “readr”.

2. Identificación de problemas en los datos:

Según la visualización de valores faltantes, el conjunto de datos presenta un porcentaje bajo de missing (2.6%). No se recomendamos eliminar observaciones, ya que se perdería información útil sin necesidad. En este caso estaremos imputando los valores faltantes. Así que, para variables numéricas como Edad, Salario, Experiencia y 8Horas_Trabajo_Semana se considerará método simple (media) y métodos basados en modelos (regresión) para comparar resultados.

3. Estrategias de procesamiento para solucionar estos problemas:

Para poder solucionar estos problemas de datos faltantes decidimos utilizar utilizaremos:

  1. “Imputación por media” para variables continuas como salario, experiencia, cantidad de hijos, ya que tienen un porcentaje faltante mayor a 5%. (Las demás faltantes podemos ignorarlas)

  2. Vamos a verificar posibles inconsistencias en las variables numéricas

  3. Estudiar el comportamiento de las imputaciones vs la distribución original y metodo cart.

4.Convertir las variables categóricas a factores para facilitar su análisis.

Parte 2:Imputación de datos:

1. Método de imputación para las varibles con datos faltates

2. Justificación de nuestra elección con base en la naturaleza de los datos:

3. Estrategias de imputación según las características de las variables de su conjunto de datos:

4.Comparación de los resultados obtenidos con cada estrategia y la más adecuada:

5. Explicación de elección del método de imputación afecta el análisis posterior de los datos:

Parte 3: Discretización y modificación:

1. Transformación de las variables categóricas en un formato adecuado para el análisis:

2. Explicación de la decisión tomada

Parte 4: Visualización avanzada:

1. Mapa interactivo de e correlaciones entre las variables numéricas y Observaciones:

2. Gráfico de barras interactivo para comparar cantidad de hijos según el rango de salario y observaciones:

3. Gráfico de dispersión de la relación entre Salario y Experiencia y observaciones: