En consistencia con el objetivo del estudio, se espera que usted construya un informe sintético, en el cual, a través de una visualización contundente de los datos y el contraste adecuado de indicadores resumen, contribuya a la institución a responder las siguientes dos preguntas de investigación:
data <- read.csv("Salaries.csv", sep = ";")
summary(data)
## rank discipline yrs.since.phd yrs.service
## Length:397 Length:397 Min. : 1.00 Min. : 0.00
## Class :character Class :character 1st Qu.:12.00 1st Qu.: 7.00
## Mode :character Mode :character Median :21.00 Median :16.00
## Mean :22.31 Mean :17.61
## 3rd Qu.:32.00 3rd Qu.:27.00
## Max. :56.00 Max. :60.00
## sex salary
## Length:397 Min. : 57800
## Class :character 1st Qu.: 91000
## Mode :character Median :107300
## Mean :113706
## 3rd Qu.:134185
## Max. :231545
str(data)
## 'data.frame': 397 obs. of 6 variables:
## $ rank : chr "Prof" "Prof" "AsstProf" "Prof" ...
## $ discipline : chr "B" "B" "B" "B" ...
## $ yrs.since.phd: int 19 20 4 45 40 6 30 45 21 18 ...
## $ yrs.service : int 18 16 3 39 41 6 23 45 20 18 ...
## $ sex : chr "Male" "Male" "Male" "Male" ...
## $ salary : int 139750 173200 79750 115000 141500 97000 175000 147765 119250 129000 ...
rangos <- cut(data$yrs.since.phd, breaks = c(0, 10, 20, 30, 40, 50, max(data$yrs.since.phd)), labels = c("0-10", "11-20", "21-30", "31-40", "41-50", "50+"), include.lowest = TRUE)
# Agregar la columna de rangos al dataframe
data$rangos_yrs_since_phd <- rangos
# Crear el gráfico de barras
ggplot(data, aes(x = rangos_yrs_since_phd, y = salary, fill = rangos_yrs_since_phd)) +
geom_bar(stat = "identity") +
labs(title = "Relación entre años desde el doctorado y salario",
x = "Años desde el doctorado",
y = "Salario") +
scale_fill_manual(values = c("0-10" = "red", "11-20" = "blue", "21-30" = "green", "31-40" = "purple", "41-50" = "yellow", "50+" = "pink"))
# Crear rangos para la columna "yrs.service"
rangos2 <- cut(data$yrs.service, breaks = c(0, 10, 20, 30, 40, 50, max(data$yrs.service)), labels = c("0-10", "11-20", "21-30", "31-40", "41-50", "50+"), include.lowest = TRUE)
# Agregar la columna de rangos al dataframe
data$rangos_yrs_service <- rangos2
# Crear el gráfico de barras
ggplot(data, aes(x = rangos_yrs_service, y = salary, fill = rangos_yrs_service)) +
geom_bar(stat = "identity") +
labs(title = "Relación entre años de servicio y salario",
x = "Años de servicio",
y = "Salario") +
scale_fill_manual(values = c("0-10" = "red", "11-20" = "blue", "21-30" = "green", "31-40" = "purple", "41-50" = "yellow", "50+" = "pink"))
colores <- c(Female = "pink", Male = "blue")
# Crea el boxplot con ggplot2
ggplot(data, aes(x = sex, y = salary, fill = sex)) +
geom_boxplot() +
facet_grid(. ~ discipline) +
scale_fill_manual(values = colores) +
labs(title = "Distribución del Salario por Género y Rango", x = "Género", y = "Salario")
ggplot(data, aes(x = rank, y = salary, fill = sex)) +
geom_boxplot() +
facet_wrap(~sex) +
labs(title = "Salarios por Género y Rango",
x = "Rango",
y = "Salario")
ggplot(data, aes(x = rank, y = salary, fill = sex)) +
geom_boxplot() +
labs(title = "Salarios por Rango y Género",
x = "Rango",
y = "Salario") +
scale_fill_brewer(palette = "Set1") +
theme_minimal()
ggplot(data, aes(x = salary, fill = sex)) +
geom_histogram(position = "identity", alpha = 0.5, bins = 30) +
labs(title = "Histograma de Salarios por Género",
x = "Salario",
y = "Frecuencia")
ggplot(data, aes(x = yrs.service, y = salary, color = sex)) +
geom_point() +
labs(title = "Dispersión entre Años de Servicio y Salario por Género",
x = "Años de Servicio",
y = "Salario")
ggplot(data, aes(x = yrs.since.phd, y = salary, color = sex)) +
geom_point() +
labs(title = "Dispersión entre Años desde el PhD y Salario por Género",
x = "Años desde el PhD",
y = "Salario")