Este conjunto de datos fue obtenido de Kaggle. Haga clic aquí para verlo.

Librerias a utilizar

# Cargar Las Librerías
library(tidyverse)
library(caret)
library(randomForest)
library(rpart)
library(tree)
library(DataExplorer)
library(plotly)
df <- read_csv("Salary_Data_Based_country_and_race.csv")
df$...1<-NULL
fix(df)
# Observamos la cabecera de nuestros datos. 
head(df)

Veamos la estructura de los datos.

glimpse(df)
Rows: 6,704
Columns: 8
$ Age                 <dbl> 32, 28, 45, 36, 52, 29, 42, 31, 26, 38, 29, 48, 35, 40, 27, 44, 33, 39, 25, 51, 34, 47…
$ Gender              <chr> "Male", "Female", "Male", "Female", "Male", "Male", "Female", "Male", "Female", "Male"…
$ Education_Level     <chr> "Bachelor's", "Master's", "PhD", "Bachelor's", "Master's", "Bachelor's", "Master's", "…
$ Job_Title           <chr> "Software Engineer", "Data Analyst", "Senior Manager", "Sales Associate", "Director", …
$ Years_of_Experience <dbl> 5, 3, 15, 7, 20, 2, 12, 4, 1, 10, 3, 18, 6, 14, 2, 16, 7, 12, 0, 22, 5, 19, 2, 9, 13, …
$ Salary              <dbl> 90000, 65000, 150000, 60000, 200000, 55000, 120000, 80000, 45000, 110000, 75000, 14000…
$ Country             <chr> "UK", "USA", "Canada", "USA", "USA", "USA", "USA", "China", "China", "Australia", "UK"…
$ Race                <chr> "White", "Hispanic", "White", "Hispanic", "Asian", "Hispanic", "Asian", "Korean", "Chi…

Realizamos un análisis para cuantificar el porcentaje de valores faltantes (NA) en nuestros datos. Esto nos permitirá identificar la integridad de nuestra muestra y evaluar la calidad de la información disponible.

plot_missing(df)

He considerado la opción de eliminar los valores faltantes debido a que su cantidad es relativamente baja en relación con el total de datos..

df<-na.omit(df)
colSums(is.na(df))
                Age              Gender     Education_Level           Job_Title Years_of_Experience 
                  0                   0                   0                   0                   0 
             Salary             Country                Race 
                  0                   0                   0 

Para mejorar la manipulación y el análisis de nuestras variables, hemos realizado la conversión de aquellas que estaban en formato caracter a formato Factor.

var_fac<-c("Gender", "Education_Level","Job_Title","Country","Race")
df <- df %>%
  mutate(across(all_of(var_fac), as.factor))

He detectado que la variable “Education_Level” contiene valores similares pero con diferentes nombres. Para lograr una representación más coherente y evitar duplicados en nuestro conjunto de datos, he realizado un proceso de unificación de dichos valores.

df$Education_Level <- recode(
 df$Education_Level,
  "Bachelor's Degree" = "Bachelor's",
  "PhD" = "phD",
  "Master's Degree" = "Master's"
)

Después de la unificación de los valores en la variable “Education_Level”, he realizado un conteo para conocer la distribución de los diferentes niveles de educación presentes en nuestro conjunto de datos. A continuación, se muestra una tabla con el número de registros asociados a cada nivel de educación:

Conteo<-fct_count(df$Education_Level)
print(Conteo)

Hemos agrupado los valores de “Education_Level” y calculado el promedio del salario y la desviación estándar para cada grupo. A continuación, se presentan los resultados:.


df %>% 
  group_by(Education_Level) %>% 
  summarise(
    Salario_Promedio = mean(Salary),
    Salario_desvE = sd(Salary)
  )

A continuación, presento un histograma para cada una de las variables numéricas en el conjunto de datos:

plot_histogram(df)

Explorando la Distribución de los Datos Mediante un Gráfico QQ-Plot

plot_qq(df)

Examinando un Resumen Estadístico de los Datos.

summary(df)
      Age           Gender        Education_Level                     Job_Title    Years_of_Experience
 Min.   :21.00   Female:3013   Bachelor's :3021   Software Engineer        : 518   Min.   : 0.000     
 1st Qu.:28.00   Male  :3671   High School: 448   Data Scientist           : 453   1st Qu.: 3.000     
 Median :32.00   Other :  14   Master's   :1860   Software Engineer Manager: 376   Median : 7.000     
 Mean   :33.62                 phD        :1369   Data Analyst             : 363   Mean   : 8.095     
 3rd Qu.:38.00                                    Senior Project Engineer  : 318   3rd Qu.:12.000     
 Max.   :62.00                                    Product Manager          : 313   Max.   :34.000     
                                                  (Other)                  :4357                      
     Salary            Country             Race     
 Min.   :   350   Australia:1336   White     :1962  
 1st Qu.: 70000   Canada   :1325   Asian     :1603  
 Median :115000   China    :1343   Korean    : 457  
 Mean   :115329   UK       :1335   Australian: 452  
 3rd Qu.:160000   USA      :1359   Chinese   : 444  
 Max.   :250000                    Black     : 437  
                                   (Other)   :1343  

Realizaremos un Análisis Exploratorio de Datos (EDA) del conjunto de datos.

Representación gráfica que visualiza la proporción de género según la raza.

mis_colores <- c("#F31559", "#78C1F3", "#9460b5", "#3ca2a2", "#ff348e", "#2a6a66",
                 "#db8fd7", "#fcff6c", "#00bfff", "#ffaf00", "#FF5733", "#00FF00",
                 "#FFD700", "#6A5ACD", "#FF1493")

a <- ggplot(df, aes(x = reorder(Race, -table(Race)[Race]), fill = Gender)) +
  geom_bar(position = "dodge") +
  theme_minimal() +
  scale_fill_manual(values = mis_colores) +
  coord_flip() +
  labs(title = "Proporción De Género Por Raza", y = "Conteo", x = "Raza")

print(a)

Realicemos una visualización de las frecuencias de los valores presentes en la variable “Género”.

b <- ggplot(df, aes(x = reorder(Gender, -table(Gender)[Gender]))) +
  geom_bar(aes(fill = Gender)) +
  geom_text(stat = "count", aes(label = ..count..), vjust = -0.5) +
  theme_minimal() +
  labs(title = "Frecuencia de Géneros", x = "Género", y = "Conteo") + 
  scale_fill_manual(values = mis_colores)

print(b)

Realizaremos un conteo de las observaciones por Nivel de Educación..

c <- ggplot(df, aes(x = reorder(Education_Level, -table(Education_Level)[Education_Level]))) +
  geom_bar(aes(fill = Education_Level)) +
  geom_text(stat = "count", aes(label = ..count..), vjust = -0.5) +
  theme_minimal() +
  labs(title = "Frecuencia de Educación", x = "Educación", y = "Conteo") + 
  scale_fill_manual(values = mis_colores)

print(c)

Examinemos cómo el rango de la variable Educación afecta al Salario.

 d <- ggplot(df, aes(x = reorder(Education_Level, Salary, median), y = Salary, fill = Education_Level)) +
  geom_boxplot(color = "black") + 
  labs(title = "Educación vs Salario",
       x = "Educación", y = "Salario") +
  theme_minimal() + scale_fill_manual(values = mis_colores)

ggplotly(d)
NA

Ahora procederemos a analizar cómo se distribuye la variable “Género” dentro de los diferentes niveles de educación.


 df_percentaje<-df %>%
  group_by(Education_Level, Gender) %>%
  tally() %>%
  mutate(Porcentaje = n / sum(n))

e <- ggplot(df_percentaje, aes(x = reorder(Education_Level, Porcentaje, median), y = Porcentaje, fill = Gender)) +
  geom_bar(stat = "identity", position = "dodge") +
  geom_text(aes(label = scales::percent(Porcentaje)), position = position_dodge(width = 0.9), vjust = -0.5) +
  theme_minimal() +
  labs(title = "Porcentaje de Género por Nivel de Educación",
       x = "Nivel de Educación", y = "Porcentaje") + scale_fill_manual(values = mis_colores)

print(e)

A continuación, realizaremos una observación de la variable “Salario” con respecto al género. Analizaremos cómo se distribuye el salario en función de los distintos géneros presentes en nuestro conjunto de datos.

f <- ggplot(df, aes(x = reorder(Gender, Salary, median), y = Salary, fill = Gender)) +
  geom_boxplot(color = "black") +
  scale_fill_manual(values = mis_colores) +
  labs(title = "Gráfico de Caja Género vs Salario",
       x = "Género", y = "Salario") +
  theme_minimal()

ggplotly(f)
NA
NA

A continuación, procederemos a realizar una visualización de cómo se distribuye el salario en diferentes países. Esto nos permitirá analizar las diferencias salariales entre los distintos países presentes en nuestro conjunto de datos..

g <- ggplot(df, aes(x = reorder(Country, Salary, median), y = Salary, fill = Education_Level)) +
  geom_boxplot(color = "black") +
  labs(title = "Gráfico de Cajas Países vs Salario",
       x = "País", y = "Salario") +
  theme_minimal() +
  scale_fill_manual(values = mis_colores)

print(g)

Ante la observación del gráfico anterior, donde se muestra que el promedio del salario es igual en distintos países, surge la duda acerca de la veracidad de los datos. Sin embargo, con el fin de continuar con el análisis de datos a modo de práctica, procederemos a seguir explorando y visualizando la información disponible.

A continuación, presentamos la distribución del salario basada en la variable “Raza”. Este gráfico nos permite visualizar cómo se distribuyen los salarios entre las diferentes categorías de raza en nuestro conjunto de datos. Es importante destacar que este análisis tiene fines puramente exploratorios y nos ayuda a identificar posibles patrones o tendencias relacionadas con la variable de interés.

h <- ggplot(df, aes(x = reorder(Race, Salary, median), y = Salary, fill = Race)) +
  geom_boxplot(color = "black") +
  labs(title = "Gráfico de Cajas Raza vs Salario",
       x = "Raza", y = "Salario") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
  scale_fill_manual(values = mis_colores)

ggplotly(h)
NA

Para realizar una generalización de la edad y estudiar la distribución del salario con respecto a esta variable, he realizado cortes equitativos del rango de edad. Esto nos permite agrupar a las personas en diferentes categorías de edad para facilitar el análisis y la visualización de cómo se distribuyen los salarios en cada grupo.

df$Age_Interva <- cut(df$Age, breaks = c(21, 31, 41, 51, 62), include.lowest = TRUE)

table(df$Age_Interva)

[21,31] (31,41] (41,51] (51,62] 
   3256    2223    1060     159 
i <- ggplot(df, aes(x = reorder(Age_Interva, Salary, median), y = Salary, fill = Age_Interva)) +
  geom_boxplot(color = "black") +
  labs(title = "Edad en intervalos vs Salario",
       x = "Intervalos de Edad", y = "Salario") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
  scale_fill_manual(values = mis_colores)

ggplotly(i)
NA

A continuación, procedemos a realizar un gráfico de puntos para explorar la correlación entre la variable “salario” y “años de experiencia”.

j<- ggplot(df, aes(x = Salary, y = Years_of_Experience, color = Education_Level)) +
  geom_point() +
  theme_minimal() + 
  labs(title = "Salario vs Años de Experiencia",
       x = "Salario", y = "Años de Experiencia" ) + scale_fill_manual(values = mis_colores)
ggplotly(j)

A continuación, procedemos a realizar un gráfico de puntos para visualizar la relación entre el salario y los años de experiencia, utilizando el color para representar los géneros. Este tipo de gráfico nos permitirá observar cómo se distribuyen los salarios y la experiencia en función de los diferentes géneros, lo que nos ayudará a identificar posibles patrones o diferencias entre ellos.

k<- ggplot(df, aes(x = Salary, y = Years_of_Experience, color = Gender)) +
  geom_point() +
  theme_minimal() + 
  labs(title = "Salario vs Años de Experiencia",
       x = "Salario", y = "Años de Experiencia" ) + scale_fill_manual(values = mis_colores)
ggplotly(k)

A continuación, presentamos un gráfico de barras que muestra las profesiones con los salarios más altos. Para ello, hemos ordenado las profesiones de mayor a menor salario y hemos destacado las primeras posiciones para identificar cuáles son las más remuneradas.

# Paso 1: Calcular el percentil 75 del salario
percentil_75 <- quantile(df$Salary, 0.75)

# Paso 2: Filtrar el marco de datos para quedarte con las profesiones mejor pagadas
df_filtrado <- df %>% 
  filter(Salary > percentil_75)

# Paso 3: Ordenar el marco de datos por el salario de forma descendente
df_filtrado <- df_filtrado %>% 
  arrange(desc(Salary))


l <- ggplot(top_15_titulos, aes(x = reorder(Job_Title, -Salario_promedio), y = Salario_promedio, fill = Job_Title)) +
  geom_bar(stat = "identity") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
  labs(title = "Top 15 Títulos con Mejor Salario Promedio",
       x = "Título del Trabajo",
       y = "Salario Promedio") +
  guides(fill = FALSE)

print(l)

NA
NA

A continuación, presentamos un gráfico de correlación que nos permitirá visualizar las relaciones entre las variables de nuestro conjunto de datos.

df2<-df
# Converimos las variables categóricas a valores numéricos
df2$Gender <- as.numeric(factor(df$Gender))
df2$Education_Level <- as.numeric(factor(df$Education_Level))
df2$Job_Title <- as.numeric(factor(df$Job_Title))
df2$Country <- as.numeric(factor(df$Country))
df2$Race <- as.numeric(factor(df$Race))
df2$Age_Interva<-as.numeric(factor(df$Age_Interva))

#Creamos el Grafico de correlacion
corr_matrix <- cor(df2)

# Visualizamos el gráfico de correlación con ajustes personalizados
m<-corrplot(corr_matrix, method = "color", type = "upper", 
         tl.cex = 0.7, addcolor = TRUE,
         col = colorRampPalette(c("#9460b5", "white", "#F31559"))(100),
         cl.lim = c(-1, 1),
         is.corr = TRUE,
         addCoef.col = "black",
         number.cex = 0.8,
         tl.col = "black",
         diag = FALSE,
         tl.srt = 45,
         addgrid.col = "black") 

Procedemos a realizar una evaluacion de distintos modelos

En esta sección, llevaremos a cabo una evaluación de varios modelos para predecir el salario en función de las variables disponibles en nuestro conjunto de datos. Los modelos que utilizaremos son los siguientes:

  1. Regresión Lineal

  2. Árbol de Decisión

  3. Bosques Aleatorios

Para cada modelo, realizaremos una partición de nuestros datos en conjuntos de entrenamiento y prueba, entrenaremos el modelo en el conjunto de entrenamiento y evaluaremos su rendimiento en el conjunto de prueba. Utilizaremos diferentes métricas de evaluación.

A continuación, presentaremos los resultados de la evaluación para cada modelo, lo que nos permitirá tomar decisiones informadas sobre cuál modelo es el más adecuado para nuestras necesidades de predicción de salarios.

set.seed(42)
partition_indexes <- createDataPartition(df2$Salary, p = 0.7, list = FALSE)

X_train <- df2[partition_indexes, -which(names(df2) == "Salary")]
X_test <- df2[-partition_indexes, -which(names(df2) == "Salary")]
y_train <- df2$Salary[partition_indexes]
y_test <- df2$Salary[-partition_indexes]

models <- list(
  lm_model = lm(Salary ~ ., data = df2),
  tree_model = rpart(Salary ~ ., data = df2),
  rf_model = randomForest(Salary ~ ., data = df2, ntree = 350)
)

results <- data.frame(
  Model_Name = character(),
  Mean_Absolute_Error_MAE = numeric(),
  Mean_Absolute_Percentage_Error_MAPE = numeric(),
  Mean_Squared_Error_MSE = numeric(),
  Root_Mean_Squared_Error_RMSE = numeric(),
  R2_score = numeric(),
  stringsAsFactors = FALSE
)

for (i in 1:length(models)) {
  model <- models[[i]]
  model_name <- names(models)[i]
  
  # Hacer las predicciones con cada modelo en el conjunto de prueba (X_test)
  y_pred <- predict(model, newdata = X_test)
  
  # Calcular las métricas de evaluación para el modelo actual
  mae <- mean(abs(y_test - y_pred))
  mape <- mean(abs((y_test - y_pred) / y_test)) * 100
  mse <- mean((y_test - y_pred)^2)
  rmse <- sqrt(mse)
  r2 <- cor(y_test, y_pred)^2
  
  # Agregar los resultados al data frame 'results'
  results <- rbind(results, data.frame(
    Model_Name = model_name,
    Mean_Absolute_Error_MAE = mae,
    Mean_Absolute_Percentage_Error_MAPE = mape,
    Mean_Squared_Error_MSE = mse,
    Root_Mean_Squared_Error_RMSE = rmse,
    R2_score = r2
  ))
}

print(results)
NA

Para evaluar la eficacia de cada modelo, graficaremos el “Error Medio Absoluto” (MAE) obtenido en la evaluación de cada uno de ellos. El MAE es una métrica que nos indica el promedio de las diferencias absolutas entre las predicciones del modelo y los valores reales.Cuanto menor sea el MAE, mejor será el rendimiento del modelo en términos de precisión de las predicciones. \[ MAE = \frac{1}{n} \sum |y_{pred} - y_{real}| \]

# Crear el gráfico de barras con ggplot2
n <- ggplot(results, aes(x = Model_Name, y = Mean_Absolute_Error_MAE, fill = Model_Name)) +
  geom_bar(stat = 'identity') +
  labs(title = '(MAE) por modelo', x = 'Modelos', y = 'MAE') +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) + scale_fill_manual(values = mis_colores) + theme_minimal()

# Mostrar el gráfico estático
print(n)

Para evaluar la eficacia de cada modelo, Graficaremos graficar el coeficiente R cuadrado (R2) de cada modelo. El coeficiente R2 es una medida que indica cuánta varianza de la variable dependiente (en nuestro caso, el salario) es explicada por el modelo. Cuanto más cercano a 1 sea el valor de R2, mejor será la capacidad del modelo para explicar la variabilidad de los datos.

o<-ggplot(results, aes(x = Model_Name, y = R2_score, fill = Model_Name)) +
  geom_bar(stat = "identity") +
  labs(title = "R-squared por modelo", x = "Modelos", y = "R-squared") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
  scale_fill_manual(values = mis_colores) + theme_minimal()
print(o)

Tras llevar a cabo una evaluación de los diferentes modelos, se ha destacado que el modelo de Bosques Aleatorios ha sobresalido por su alto rendimiento y precisión predictiva. Ahora, para profundizar en su desempeño, observaremos detalladamente las métricas obtenidas por este modelo, lo cual nos permitirá medir su eficacia en la predicción del salario basándose en las variables independientes consideradas.

# Obtenemos los errores del modelo de bosque aleatorio
rf_errors <- models$rf_model$mse

# Creamos un data frame para la curva de aprendizaje
curve_data <- data.frame(trees = seq_along(rf_errors), Error = rf_errors)

# Creamos el gráfico de curva de aprendizaje con ggplot2
ggplot(curve_data, aes(x = trees, y = Error)) +
  geom_line() +
  labs(title = "Curva de Aprendizaje - Bosque Aleatorio",
       x = "Número de Árboles",
       y = "Error") +
  theme_minimal()


# Creamos un data frame con las predicciones y valores reales
comparison_data <- data.frame(Valor_Real = y_test, Prediccion = y_pred_rf)

# Creamos el gráfico de dispersión con ggplot2
ggplot(comparison_data, aes(x = Valor_Real, y = Prediccion)) +
  geom_point() +
  geom_abline(intercept = 0, slope = 1, color = "red") +
  labs(title = "Comparación de Predicciones - Bosque Aleatorio",
       x = "Valor Real",
       y = "Predicción") +
  theme_minimal()

NA
NA

En conclusión, este análisis exploratorio de datos ha proporcionado una visión general de las relaciones y patrones presentes en el conjunto de datos estudiado. Se ha evidenciado la influencia de variables como el género, nivel de educación, experiencia laboral y país de origen en el salario de los individuos.

Se han identificado algunas relaciones significativas, como la tendencia creciente entre salario y años de experiencia, así como las diferencias en los salarios promedio entre distintos niveles de educación. También se ha destacado la presencia de valores atípicos que pueden tener un impacto en la interpretación de los resultados.

Es importante mencionar que se han identificado algunas inconsistencias en los datos, como la similitud en los salarios promedio entre diferentes países, lo cual sugiere la posibilidad de datos erróneos o sesgos en la muestra.

El modelo de Bosques Aleatorios ha demostrado ser el más eficaz en términos de rendimiento y precisión predictiva.

En resumen, este análisis exploratorio de datos proporciona una base sólida para futuros estudios y análisis más profundos. Se deben considerar las conjeturas y observaciones realizadas como hipótesis iniciales, y se invita a realizar análisis más detallados y rigurosos para obtener conclusiones más sólidas. El proceso de exploración de datos es continuo y dinámico, lo que nos permite seguir descubriendo y comprendiendo nuevas relaciones y patrones en los datos en futuras investigaciones.

¡Gracias por llegar hasta acá no dudes en dejar tu comentario para ayudarme a seguir prendiendo!

---
title: "Datos De Salarios"
output: 
  html_notebook:
    
---

Este conjunto de datos fue obtenido de Kaggle. [**Haga clic aquí**](https://www.kaggle.com/datasets/sudheerp2147234/salary-dataset-based-on-country-and-race) para verlo.

**Librerias a utilizar**
```{r,message=FALSE,warning=FALSE}
# Cargar Las Librerías
library(tidyverse)
library(caret)
library(randomForest)
library(rpart)
library(tree)
library(DataExplorer)
library(plotly)
```

```{r,warning=FALSE,message=FALSE}
df <- read_csv("Salary_Data_Based_country_and_race.csv")#Cargamos el Set de datos
df$...1<-NULL#Borramos la primera columna
fix(df)#observamos el df 
```


```{r}
# Observamos la cabecera de nuestros datos. 
head(df)
```
**Veamos la estructura de los datos.**
```{r}
glimpse(df)#Describe nuestro df
```
**Realizamos un análisis para cuantificar el porcentaje de valores faltantes (NA) en nuestros datos. Esto nos permitirá identificar la integridad de nuestra muestra y evaluar la calidad de la información disponible. **
```{r}
plot_missing(df)#Observamos el porcentaje de valores faltantes
```
**He considerado la opción de eliminar los valores faltantes debido a que su cantidad es relativamente baja en relación con el total de datos..**
```{r,warning=FALSE,message=FALSE}
df<-na.omit(df)#Borramos los valores NA
colSums(is.na(df))#Verificamos que los valores NA hayan sido borrados de df
```
**Para mejorar la manipulación y el análisis de nuestras variables, hemos realizado la conversión de aquellas que estaban en formato caracter a formato Factor.**
```{r}
var_fac<-c("Gender", "Education_Level","Job_Title","Country","Race")
df <- df %>%
  mutate(across(all_of(var_fac), as.factor))
```
**He detectado que la variable "Education_Level" contiene valores similares pero con diferentes nombres. Para lograr una representación más coherente y evitar duplicados en nuestro conjunto de datos, he realizado un proceso de unificación de dichos valores.**

```{r}
df$Education_Level <- recode(
 df$Education_Level,
  "Bachelor's Degree" = "Bachelor's",
  "PhD" = "phD",
  "Master's Degree" = "Master's"
)

```
**Después de la unificación de los valores en la variable "Education_Level", he realizado un conteo para conocer la distribución de los diferentes niveles de educación presentes en nuestro conjunto de datos. A continuación, se muestra una tabla con el número de registros asociados a cada nivel de educación: **
```{r}
Conteo<-fct_count(df$Education_Level)
print(Conteo)
```
**Hemos agrupado los valores de "Education_Level" y calculado el promedio del salario y la desviación estándar para cada grupo. A continuación, se presentan los resultados:.**
```{r}

df %>% 
  group_by(Education_Level) %>% 
  summarise(
    Salario_Promedio = mean(Salary),
    Salario_desvE = sd(Salary)
  )
```
**A continuación, presento un histograma para cada una de las variables numéricas en el conjunto de datos:**
```{r,warning=FALSE}
plot_histogram(df)
```
**Explorando la Distribución de los Datos Mediante un Gráfico QQ-Plot**
```{r}
plot_qq(df)
```
**Examinando un Resumen Estadístico de los Datos.**
```{r}
summary(df) #Resumen de estadisticos del df
```
# Realizaremos un Análisis Exploratorio de Datos (EDA) del conjunto de datos.

**Representación gráfica que visualiza la proporción de género según la raza.** 
```{r,warning=FALSE}
mis_colores <- c("#F31559", "#78C1F3", "#9460b5", "#3ca2a2", "#ff348e", "#2a6a66",
                 "#db8fd7", "#fcff6c", "#00bfff", "#ffaf00", "#FF5733", "#00FF00",
                 "#FFD700", "#6A5ACD", "#FF1493")

a <- ggplot(df, aes(x = reorder(Race, -table(Race)[Race]), fill = Gender)) +
  geom_bar(position = "dodge") +
  theme_minimal() +
  scale_fill_manual(values = mis_colores) +
  coord_flip() +
  labs(title = "Proporción De Género Por Raza", y = "Conteo", x = "Raza")

print(a)
```

**Realicemos una visualización de las frecuencias de los valores presentes en la variable "Género".**
```{r,warning=FALSE}
b <- ggplot(df, aes(x = reorder(Gender, -table(Gender)[Gender]))) +
  geom_bar(aes(fill = Gender)) +
  geom_text(stat = "count", aes(label = ..count..), vjust = -0.5) +
  theme_minimal() +
  labs(title = "Frecuencia de Géneros", x = "Género", y = "Conteo") + 
  scale_fill_manual(values = mis_colores)

print(b)

```

**Realizaremos un conteo de las observaciones por Nivel de Educación..**
```{r,warning=FALSE}
c <- ggplot(df, aes(x = reorder(Education_Level, -table(Education_Level)[Education_Level]))) +
  geom_bar(aes(fill = Education_Level)) +
  geom_text(stat = "count", aes(label = ..count..), vjust = -0.5) +
  theme_minimal() +
  labs(title = "Frecuencia de Educación", x = "Educación", y = "Conteo") + 
  scale_fill_manual(values = mis_colores)

print(c)

```

**Examinemos cómo el rango de la variable Educación afecta al Salario.** 
```{r,warning=FALSE,message=FALSE}
 d <- ggplot(df, aes(x = reorder(Education_Level, Salary, median), y = Salary, fill = Education_Level)) +
  geom_boxplot(color = "black") + 
  labs(title = "Educación vs Salario",
       x = "Educación", y = "Salario") +
  theme_minimal() + scale_fill_manual(values = mis_colores)

ggplotly(d)

```

**Ahora procederemos a analizar cómo se distribuye la variable "Género" dentro de los diferentes niveles de educación.**

```{r,warning=FALSE,message=FALSE}

 df_percentaje<-df %>%
  group_by(Education_Level, Gender) %>%
  tally() %>%
  mutate(Porcentaje = n / sum(n))

e <- ggplot(df_percentaje, aes(x = reorder(Education_Level, Porcentaje, median), y = Porcentaje, fill = Gender)) +
  geom_bar(stat = "identity", position = "dodge") +
  geom_text(aes(label = scales::percent(Porcentaje)), position = position_dodge(width = 0.9), vjust = -0.5) +
  theme_minimal() +
  labs(title = "Porcentaje de Género por Nivel de Educación",
       x = "Nivel de Educación", y = "Porcentaje") + scale_fill_manual(values = mis_colores)

print(e)

```

**A continuación, realizaremos una observación de la variable "Salario" con respecto al género. Analizaremos cómo se distribuye el salario en función de los distintos géneros presentes en nuestro conjunto de datos.** 
```{r,warning=FALSE,message=FALSE}
f <- ggplot(df, aes(x = reorder(Gender, Salary, median), y = Salary, fill = Gender)) +
  geom_boxplot(color = "black") +
  scale_fill_manual(values = mis_colores) +
  labs(title = "Gráfico de Caja Género vs Salario",
       x = "Género", y = "Salario") +
  theme_minimal()

ggplotly(f)


```

**A continuación, procederemos a realizar una visualización de cómo se distribuye el salario en diferentes países. Esto nos permitirá analizar las diferencias salariales entre los distintos países presentes en nuestro conjunto de datos..**
```{r,warning=FALSE,message=FALSE}
g <- ggplot(df, aes(x = reorder(Country, Salary, median), y = Salary, fill = Education_Level)) +
  geom_boxplot(color = "black") +
  labs(title = "Gráfico de Cajas Países vs Salario",
       x = "País", y = "Salario") +
  theme_minimal() +
  scale_fill_manual(values = mis_colores)

print(g)

```

Ante la observación del gráfico anterior, donde se muestra que el promedio del salario es igual en distintos países, surge la duda acerca de la veracidad de los datos. Sin embargo, con el fin de continuar con el análisis de datos a modo de práctica, procederemos a seguir explorando y visualizando la información disponible.

**A continuación, presentamos la distribución del salario basada en la variable "Raza". Este gráfico nos permite visualizar cómo se distribuyen los salarios entre las diferentes categorías de raza en nuestro conjunto de datos. Es importante destacar que este análisis tiene fines puramente exploratorios y nos ayuda a identificar posibles patrones o tendencias relacionadas con la variable de interés.**
```{r,warning=FALSE,message=FALSE}
h <- ggplot(df, aes(x = reorder(Race, Salary, median), y = Salary, fill = Race)) +
  geom_boxplot(color = "black") +
  labs(title = "Gráfico de Cajas Raza vs Salario",
       x = "Raza", y = "Salario") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
  scale_fill_manual(values = mis_colores)

ggplotly(h)

```
**Para realizar una generalización de la edad y estudiar la distribución del salario con respecto a esta variable, he realizado cortes equitativos del rango de edad. Esto nos permite agrupar a las personas en diferentes categorías de edad para facilitar el análisis y la visualización de cómo se distribuyen los salarios en cada grupo.**

```{r,warning=FALSE,message=FALSE}
df$Age_Interva <- cut(df$Age, breaks = c(21, 31, 41, 51, 62), include.lowest = TRUE)

table(df$Age_Interva)

i <- ggplot(df, aes(x = reorder(Age_Interva, Salary, median), y = Salary, fill = Age_Interva)) +
  geom_boxplot(color = "black") +
  labs(title = "Edad en intervalos vs Salario",
       x = "Intervalos de Edad", y = "Salario") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
  scale_fill_manual(values = mis_colores)

ggplotly(i)

```

**A continuación, procedemos a realizar un gráfico de puntos para explorar la correlación entre la variable "salario" y "años de experiencia".**
```{r,warning=FALSE,message=FALSE}
j<- ggplot(df, aes(x = Salary, y = Years_of_Experience, color = Education_Level)) +
  geom_point() +
  theme_minimal() + 
  labs(title = "Salario vs Años de Experiencia",
       x = "Salario", y = "Años de Experiencia" ) + scale_fill_manual(values = mis_colores)
ggplotly(j)
```

**A continuación, procedemos a realizar un gráfico de puntos para visualizar la relación entre el salario y los años de experiencia, utilizando el color para representar los géneros. Este tipo de gráfico nos permitirá observar cómo se distribuyen los salarios y la experiencia en función de los diferentes géneros, lo que nos ayudará a identificar posibles patrones o diferencias entre ellos.**
```{r,warning=FALSE,message=FALSE}
k<- ggplot(df, aes(x = Salary, y = Years_of_Experience, color = Gender)) +
  geom_point() +
  theme_minimal() + 
  labs(title = "Salario vs Años de Experiencia",
       x = "Salario", y = "Años de Experiencia" ) + scale_fill_manual(values = mis_colores)
ggplotly(k)
```

**A continuación, presentamos un gráfico de barras que muestra las profesiones con los salarios más altos. Para ello, hemos ordenado las profesiones de mayor a menor salario y hemos destacado las primeras posiciones para identificar cuáles son las más remuneradas.**
```{r,warning=FALSE,message=FALSE}
# Paso 1: Calcular el percentil 75 del salario
percentil_75 <- quantile(df$Salary, 0.75)

# Paso 2: Filtrar el marco de datos para quedarte con las profesiones mejor pagadas
df_filtrado <- df %>% 
  filter(Salary > percentil_75)

# Paso 3: Ordenar el marco de datos por el salario de forma descendente
df_filtrado <- df_filtrado %>% 
  arrange(desc(Salary))


l <- ggplot(top_15_titulos, aes(x = reorder(Job_Title, -Salario_promedio), y = Salario_promedio, fill = Job_Title)) +
  geom_bar(stat = "identity") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
  labs(title = "Top 15 Títulos con Mejor Salario Promedio",
       x = "Título del Trabajo",
       y = "Salario Promedio") +
  guides(fill = FALSE)

print(l)


```

**A continuación, presentamos un gráfico de correlación que nos permitirá visualizar las relaciones entre las variables de nuestro conjunto de datos.** 
```{r,warning=FALSE,message=FALSE}
df2<-df
# Converimos las variables categóricas a valores numéricos
df2$Gender <- as.numeric(factor(df$Gender))
df2$Education_Level <- as.numeric(factor(df$Education_Level))
df2$Job_Title <- as.numeric(factor(df$Job_Title))
df2$Country <- as.numeric(factor(df$Country))
df2$Race <- as.numeric(factor(df$Race))
df2$Age_Interva<-as.numeric(factor(df$Age_Interva))

#Creamos el Grafico de correlacion
corr_matrix <- cor(df2)

# Visualizamos el gráfico de correlación con ajustes personalizados
m<-corrplot(corr_matrix, method = "color", type = "upper", 
         tl.cex = 0.7, addcolor = TRUE,
         col = colorRampPalette(c("#9460b5", "white", "#F31559"))(100),
         cl.lim = c(-1, 1),
         is.corr = TRUE,
         addCoef.col = "black",
         number.cex = 0.8,
         tl.col = "black",
         diag = FALSE,
         tl.srt = 45,
         addgrid.col = "black") 

```



# Procedemos a realizar una evaluacion de distintos modelos
En esta sección, llevaremos a cabo una evaluación de varios modelos para predecir el salario en función de las variables disponibles en nuestro conjunto de datos. Los modelos que utilizaremos son los siguientes:

1. Regresión Lineal

2. Árbol de Decisión

3. Bosques Aleatorios

Para cada modelo, realizaremos una partición de nuestros datos en conjuntos de entrenamiento y prueba, entrenaremos el modelo en el conjunto de entrenamiento y evaluaremos su rendimiento en el conjunto de prueba. Utilizaremos diferentes métricas de evaluación.

A continuación, presentaremos los resultados de la evaluación para cada modelo, lo que nos permitirá tomar decisiones informadas sobre cuál modelo es el más adecuado para nuestras necesidades de predicción de salarios.

```{r}
set.seed(42)
partition_indexes <- createDataPartition(df2$Salary, p = 0.7, list = FALSE)

X_train <- df2[partition_indexes, -which(names(df2) == "Salary")]
X_test <- df2[-partition_indexes, -which(names(df2) == "Salary")]
y_train <- df2$Salary[partition_indexes]
y_test <- df2$Salary[-partition_indexes]

models <- list(
  lm_model = lm(Salary ~ ., data = df2),
  tree_model = rpart(Salary ~ ., data = df2),
  rf_model = randomForest(Salary ~ ., data = df2, ntree = 350)
)

results <- data.frame(
  Model_Name = character(),
  Mean_Absolute_Error_MAE = numeric(),
  Mean_Absolute_Percentage_Error_MAPE = numeric(),
  Mean_Squared_Error_MSE = numeric(),
  Root_Mean_Squared_Error_RMSE = numeric(),
  R2_score = numeric(),
  stringsAsFactors = FALSE
)

for (i in 1:length(models)) {
  model <- models[[i]]
  model_name <- names(models)[i]
  
  # Hacer las predicciones con cada modelo en el conjunto de prueba (X_test)
  y_pred <- predict(model, newdata = X_test)
  
  # Calcular las métricas de evaluación para el modelo actual
  mae <- mean(abs(y_test - y_pred))
  mape <- mean(abs((y_test - y_pred) / y_test)) * 100
  mse <- mean((y_test - y_pred)^2)
  rmse <- sqrt(mse)
  r2 <- cor(y_test, y_pred)^2
  
  # Agregar los resultados al data frame 'results'
  results <- rbind(results, data.frame(
    Model_Name = model_name,
    Mean_Absolute_Error_MAE = mae,
    Mean_Absolute_Percentage_Error_MAPE = mape,
    Mean_Squared_Error_MSE = mse,
    Root_Mean_Squared_Error_RMSE = rmse,
    R2_score = r2
  ))
}

print(results)

```

**Para evaluar la eficacia de cada modelo, graficaremos el "Error Medio Absoluto" (MAE) obtenido en la evaluación de cada uno de ellos. El MAE es una métrica que nos indica el promedio de las diferencias absolutas entre las predicciones del modelo y los valores reales.Cuanto menor sea el MAE, mejor será el rendimiento del modelo en términos de precisión de las predicciones.** 
$$ MAE = \frac{1}{n} \sum |y_{pred} - y_{real}| $$
```{r,warning=FALSE,message=FALSE}
# Crear el gráfico de barras con ggplot2
n <- ggplot(results, aes(x = Model_Name, y = Mean_Absolute_Error_MAE, fill = Model_Name)) +
  geom_bar(stat = 'identity') +
  labs(title = '(MAE) por modelo', x = 'Modelos', y = 'MAE') +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) + scale_fill_manual(values = mis_colores) + theme_minimal()

# Mostrar el gráfico estático
print(n)
```

**Para evaluar la eficacia de cada modelo, Graficaremos graficar el coeficiente R cuadrado (R2) de cada modelo. El coeficiente R2 es una medida que indica cuánta varianza de la variable dependiente (en nuestro caso, el salario) es explicada por el modelo. Cuanto más cercano a 1 sea el valor de R2, mejor será la capacidad del modelo para explicar la variabilidad de los datos.**
```{r,warning=FALSE,message=FALSE}
o<-ggplot(results, aes(x = Model_Name, y = R2_score, fill = Model_Name)) +
  geom_bar(stat = "identity") +
  labs(title = "R-squared por modelo", x = "Modelos", y = "R-squared") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
  scale_fill_manual(values = mis_colores) + theme_minimal()
print(o)
```
**Tras llevar a cabo una  evaluación de los diferentes modelos, se ha destacado que el modelo de Bosques Aleatorios ha sobresalido por su alto rendimiento y precisión predictiva. Ahora, para profundizar en su desempeño, observaremos detalladamente las métricas obtenidas por este modelo, lo cual nos permitirá medir su eficacia en la predicción del salario basándose en las variables independientes consideradas.** 
```{r}
# Obtenemos los errores del modelo de bosque aleatorio
rf_errors <- models$rf_model$mse

# Creamos un data frame para la curva de aprendizaje
curve_data <- data.frame(trees = seq_along(rf_errors), Error = rf_errors)

# Creamos el gráfico de curva de aprendizaje con ggplot2
ggplot(curve_data, aes(x = trees, y = Error)) +
  geom_line() +
  labs(title = "Curva de Aprendizaje - Bosque Aleatorio",
       x = "Número de Árboles",
       y = "Error") +
  theme_minimal()

# Creamos un data frame con las predicciones y valores reales
comparison_data <- data.frame(Valor_Real = y_test, Prediccion = y_pred_rf)

# Creamos el gráfico de dispersión con ggplot2
ggplot(comparison_data, aes(x = Valor_Real, y = Prediccion)) +
  geom_point() +
  geom_abline(intercept = 0, slope = 1, color = "red") +
  labs(title = "Comparación de Predicciones - Bosque Aleatorio",
       x = "Valor Real",
       y = "Predicción") +
  theme_minimal()


```

En conclusión, este análisis exploratorio de datos ha proporcionado una visión general de las relaciones y patrones presentes en el conjunto de datos estudiado. Se ha evidenciado la influencia de variables como el género, nivel de educación, experiencia laboral y país de origen en el salario de los individuos.

Se han identificado algunas relaciones significativas, como la tendencia creciente entre salario y años de experiencia, así como las diferencias en los salarios promedio entre distintos niveles de educación. También se ha destacado la presencia de valores atípicos que pueden tener un impacto en la interpretación de los resultados.

Es importante mencionar que se han identificado algunas inconsistencias en los datos, como la similitud en los salarios promedio entre diferentes países, lo cual sugiere la posibilidad de datos erróneos o sesgos en la muestra.

El modelo de Bosques Aleatorios ha demostrado ser el más eficaz en términos de rendimiento y precisión predictiva.

En resumen, este análisis exploratorio de datos proporciona una base sólida para futuros estudios y análisis más profundos. Se deben considerar las conjeturas y observaciones realizadas como hipótesis iniciales, y se invita a realizar análisis más detallados y rigurosos para obtener conclusiones más sólidas. El proceso de exploración de datos es continuo y dinámico, lo que nos permite seguir descubriendo y comprendiendo nuevas relaciones y patrones en los datos en futuras investigaciones.


**¡Gracias por llegar hasta acá no dudes en dejar tu comentario para ayudarme a seguir prendiendo!** 