Integrantes del grupo:
Juan Ángel García Negrón
Nicol Mendo
Antony Peña
El presente caso se analiza desde la perspectiva de Marie Daer, quien se encuentra interesada en llevar un programa de MBA. Ella espera responder algunas preguntas importantes para ayudar a decidir si se matricula en dicho programa, en base a una encuesta realizada a los estudiantes del programa tres meses luego de su graduación.
En particular, está interesada en conocer respecto al salario inicial de los estudiantes graduados, si el género o edad tienen relación con el salario, y si los estudiantes están satisfechos con el programa. Asimismo, desea conocer si su puntaje en el GMAT tiene alguna relación con el puntaje logrado en el curso, dado que su resultado GMAT fue relativamente bajo al no ser el inglés su lengua materna.
Objetivo general: Decidir sobre la inscripción al programa de MBA en esta escuela en particular.
Objetivos específicos
Conocer el nivel de salario que los estudiantes esperarian ganar al graduarse.
Determinar si existen algunas otras variables que influyen en el nivel de salario que esperarian recibir.
Determinar si el programa es bien calificado por los graduados.
Base1 <- read.xlsx("W12513-XLS-ENG.xlsx", sheetName = "Base1")
attach(Base1)
glimpse(Base1) ## Rows: 274
## Columns: 9
## $ ID <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18…
## $ age <dbl> 23, 24, 24, 24, 24, 24, 25, 25, 25, 25, 26, 26, 26, 26, 26, 2…
## $ sex <dbl> 2, 1, 1, 1, 2, 1, 1, 2, 1, 1, 1, 2, 1, 1, 2, 2, 2, 1, 1, 1, 2…
## $ gmat_tot <dbl> 620, 610, 670, 570, 710, 640, 610, 650, 630, 680, 740, 610, 7…
## $ gmat_qpc <dbl> 77, 90, 99, 56, 93, 82, 89, 88, 79, 99, 99, 75, 95, 97, 84, 6…
## $ gmat_vpc <dbl> 87, 71, 78, 81, 98, 89, 74, 89, 91, 81, 98, 87, 95, 97, 93, 9…
## $ gmat_tpc <dbl> 87, 87, 95, 75, 98, 91, 87, 92, 89, 96, 99, 86, 98, 99, 94, 9…
## $ s_avg <dbl> 3.40, 3.50, 3.30, 3.30, 3.60, 3.90, 3.40, 3.30, 3.30, 3.45, 3…
## $ f_avg <dbl> 3.00, 4.00, 3.25, 2.67, 3.75, 3.75, 3.50, 3.75, 3.25, 3.67, 4…
Base2 <- read.xlsx("W12513-XLS-ENG.xlsx", sheetName = "Base2")
attach(Base2)
glimpse(Base2)## Rows: 274
## Columns: 6
## $ ID <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18…
## $ quarter <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1…
## $ work_yrs <dbl> 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 2, 4, 2, 4, 3, 2, 4, 4…
## $ frstlang <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1…
## $ salary <dbl> 0, 0, 0, 0, 999, 0, 0, 0, 999, 998, 998, 998, 998, 998, 998, …
## $ satis <dbl> 7, 6, 6, 7, 5, 6, 5, 6, 4, 998, 998, 998, 998, 998, 998, 998,…
Base<-inner_join(Base1,Base2, by = "ID") %>%glimpse()## Rows: 274
## Columns: 14
## $ ID <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18…
## $ age <dbl> 23, 24, 24, 24, 24, 24, 25, 25, 25, 25, 26, 26, 26, 26, 26, 2…
## $ sex <dbl> 2, 1, 1, 1, 2, 1, 1, 2, 1, 1, 1, 2, 1, 1, 2, 2, 2, 1, 1, 1, 2…
## $ gmat_tot <dbl> 620, 610, 670, 570, 710, 640, 610, 650, 630, 680, 740, 610, 7…
## $ gmat_qpc <dbl> 77, 90, 99, 56, 93, 82, 89, 88, 79, 99, 99, 75, 95, 97, 84, 6…
## $ gmat_vpc <dbl> 87, 71, 78, 81, 98, 89, 74, 89, 91, 81, 98, 87, 95, 97, 93, 9…
## $ gmat_tpc <dbl> 87, 87, 95, 75, 98, 91, 87, 92, 89, 96, 99, 86, 98, 99, 94, 9…
## $ s_avg <dbl> 3.40, 3.50, 3.30, 3.30, 3.60, 3.90, 3.40, 3.30, 3.30, 3.45, 3…
## $ f_avg <dbl> 3.00, 4.00, 3.25, 2.67, 3.75, 3.75, 3.50, 3.75, 3.25, 3.67, 4…
## $ quarter <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1…
## $ work_yrs <dbl> 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 2, 4, 2, 4, 3, 2, 4, 4…
## $ frstlang <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1…
## $ salary <dbl> 0, 0, 0, 0, 999, 0, 0, 0, 999, 998, 998, 998, 998, 998, 998, …
## $ satis <dbl> 7, 6, 6, 7, 5, 6, 5, 6, 4, 998, 998, 998, 998, 998, 998, 998,…
names(Base)<-c("ID","Edad","Sexo","GMAT_Total","Perc_Cuant_GMAT",
"Perc_Verbal_GMAT","Perc_Gral_GMAT","Prom_Primavera",
"Prom_Otoño","QRanking","Exp_laboral","Lengua_materna",
"Salario_Inicial","Grado_Satisfacción")#tibble(Base)
df_status(Base)## variable q_zeros p_zeros q_na p_na q_inf p_inf type unique
## 1 ID 0 0.00 0 0 0 0 numeric 274
## 2 Edad 0 0.00 0 0 0 0 numeric 21
## 3 Sexo 0 0.00 0 0 0 0 numeric 2
## 4 GMAT_Total 0 0.00 0 0 0 0 numeric 31
## 5 Perc_Cuant_GMAT 0 0.00 0 0 0 0 numeric 48
## 6 Perc_Verbal_GMAT 0 0.00 0 0 0 0 numeric 34
## 7 Perc_Gral_GMAT 2 0.73 0 0 0 0 numeric 42
## 8 Prom_Primavera 0 0.00 0 0 0 0 numeric 36
## 9 Prom_Otoño 3 1.09 0 0 0 0 numeric 21
## 10 QRanking 0 0.00 0 0 0 0 numeric 4
## 11 Exp_laboral 3 1.09 0 0 0 0 numeric 18
## 12 Lengua_materna 0 0.00 0 0 0 0 numeric 2
## 13 Salario_Inicial 90 32.85 0 0 0 0 numeric 45
## 14 Grado_Satisfacción 0 0.00 0 0 0 0 numeric 8
Base$Sexo<-as.factor(Base$Sexo)
levels(Base$Sexo)<-c("Hombre","Mujer")
attach(Base)
table(Sexo)## Sexo
## Hombre Mujer
## 206 68
Base$QRanking<-as.factor(Base$QRanking)
levels(Base$QRanking)<-c("1°","2°","3°","4°")
attach(Base)
table(QRanking)## QRanking
## 1° 2° 3° 4°
## 69 70 70 65
Base$Lengua_materna <-as.factor(Base$Lengua_materna)
levels(Base$Lengua_materna)<-c("Inglés","Otro")
attach(Base)
table(Lengua_materna)## Lengua_materna
## Inglés Otro
## 242 32
#Se agrupa por intervalos de años de 0 a 22
Base <- Base %>%
mutate(Rango_Años_Exp = case_when( between(Base$Exp_laboral , 0 ,2) ~ 'Cat_E1[0-2]',
between(Base$Exp_laboral , 3 ,4) ~ 'Cat_E2[3-4]',
between(Base$Exp_laboral , 5 ,22) ~ 'Cat_E3[5-22]',
))
Base$Rango_Años_Exp <- as.factor(Base$Rango_Años_Exp)
summary(Base)## ID Edad Sexo GMAT_Total Perc_Cuant_GMAT
## Min. : 1.00 Min. :22.00 Hombre:206 Min. :450.0 Min. :28.00
## 1st Qu.: 69.25 1st Qu.:25.00 Mujer : 68 1st Qu.:580.0 1st Qu.:72.00
## Median :137.50 Median :27.00 Median :620.0 Median :83.00
## Mean :137.50 Mean :27.36 Mean :619.5 Mean :80.64
## 3rd Qu.:205.75 3rd Qu.:29.00 3rd Qu.:660.0 3rd Qu.:93.00
## Max. :274.00 Max. :48.00 Max. :790.0 Max. :99.00
## Perc_Verbal_GMAT Perc_Gral_GMAT Prom_Primavera Prom_Otoño QRanking
## Min. :16.00 Min. : 0.0 Min. :2.000 Min. :0.000 1°:69
## 1st Qu.:71.00 1st Qu.:78.0 1st Qu.:2.708 1st Qu.:2.750 2°:70
## Median :81.00 Median :87.0 Median :3.000 Median :3.000 3°:70
## Mean :78.32 Mean :84.2 Mean :3.025 Mean :3.062 4°:65
## 3rd Qu.:91.00 3rd Qu.:94.0 3rd Qu.:3.300 3rd Qu.:3.250
## Max. :99.00 Max. :99.0 Max. :4.000 Max. :4.000
## Exp_laboral Lengua_materna Salario_Inicial Grado_Satisfacción
## Min. : 0.000 Inglés:242 Min. : 0 Min. : 1.0
## 1st Qu.: 2.000 Otro : 32 1st Qu.: 0 1st Qu.: 5.0
## Median : 3.000 Median : 999 Median : 6.0
## Mean : 3.872 Mean : 39026 Mean :172.2
## 3rd Qu.: 4.000 3rd Qu.: 97000 3rd Qu.: 7.0
## Max. :22.000 Max. :220000 Max. :998.0
## Rango_Años_Exp
## Cat_E1[0-2] :109
## Cat_E2[3-4] : 99
## Cat_E3[5-22]: 66
##
##
##
a. ¿Cuánto pueden esperar ganar los estudiantes al graduarse?
attach(Base)
Base <- Base %>%
mutate(CAT_Salario = case_when(Base$Salario_Inicial==998 | Base$Salario_Inicial==999 ~ 1,
Base$Salario_Inicial==0 ~ 2,
Base$Salario_Inicial>0 & Base$Salario_Inicial<=100000 ~ 3,
TRUE ~ 4))
Base$CAT_Salario <- as.factor(Base$CAT_Salario)
levels(Base$CAT_Salario) <- c("1. S.I.","2. Sin salario","3.<0 - 100k]","4.>100k")
table(Base$CAT_Salario)##
## 1. S.I. 2. Sin salario 3.<0 - 100k] 4.>100k
## 81 90 55 48
attach(Base)
Base %>%
group_by(CAT_Salario) %>%
summarise(Mínimo=min(Salario_Inicial) ,
Máximo=max(Salario_Inicial),
Promedio=mean(Salario_Inicial),
Mediana=median(Salario_Inicial))## # A tibble: 4 × 5
## CAT_Salario Mínimo Máximo Promedio Mediana
## <fct> <dbl> <dbl> <dbl> <dbl>
## 1 1. S.I. 998 999 998. 998
## 2 2. Sin salario 0 0 0 0
## 3 3.<0 - 100k] 64000 100000 93332. 95000
## 4 4.>100k 100400 220000 114144. 107150
Base %>%
group_by(CAT_Salario) %>%
summarise(SD=sd(Salario_Inicial),
Ngraduados = n(),
Pgraduados = n()/nrow(Base))## # A tibble: 4 × 4
## CAT_Salario SD Ngraduados Pgraduados
## <fct> <dbl> <int> <dbl>
## 1 1. S.I. 0.498 81 0.296
## 2 2. Sin salario 0 90 0.328
## 3 3.<0 - 100k] 7063. 55 0.201
## 4 4.>100k 19985. 48 0.175
# Si filtramos a los graduados que no contestaron y a los que no pusieron su salario
BaseF<-Base%>%
filter(Salario_Inicial!=998 & Salario_Inicial!=999)
attach(BaseF)
mean(Salario_Inicial)## [1] 54985.32
median(Salario_Inicial)## [1] 85000
sd(Salario_Inicial)## [1] 53152.39
# Si filtramos a los graduados que no contestaron, no pusieron su salario y a los que no tienen salario inicial
BaseF<-Base%>%
filter(Salario_Inicial!=0 & Salario_Inicial!=998 & Salario_Inicial!=999)
attach(BaseF)
mean(Salario_Inicial)## [1] 103030.7
median(Salario_Inicial)## [1] 1e+05
sd(Salario_Inicial)## [1] 17868.8
Cuando la media es mayor que la mediana, esto quiere decir que la distribución presenta asimetría positiva.
#Se agrupa por intervalos de años de 0 a 22
Base <- Base %>%
mutate(Rango_Años_Exp = case_when( between(Base$Exp_laboral , 0 ,2) ~ 'Cat_E1[0-2]',
between(Base$Exp_laboral , 3 ,4) ~ 'Cat_E2[3-4]',
between(Base$Exp_laboral , 5 ,22) ~ 'Cat_E3[5-22]',
))
Base$Rango_Años_Exp <- as.factor(Base$Rango_Años_Exp)
summary(Base)## ID Edad Sexo GMAT_Total Perc_Cuant_GMAT
## Min. : 1.00 Min. :22.00 Hombre:206 Min. :450.0 Min. :28.00
## 1st Qu.: 69.25 1st Qu.:25.00 Mujer : 68 1st Qu.:580.0 1st Qu.:72.00
## Median :137.50 Median :27.00 Median :620.0 Median :83.00
## Mean :137.50 Mean :27.36 Mean :619.5 Mean :80.64
## 3rd Qu.:205.75 3rd Qu.:29.00 3rd Qu.:660.0 3rd Qu.:93.00
## Max. :274.00 Max. :48.00 Max. :790.0 Max. :99.00
## Perc_Verbal_GMAT Perc_Gral_GMAT Prom_Primavera Prom_Otoño QRanking
## Min. :16.00 Min. : 0.0 Min. :2.000 Min. :0.000 1°:69
## 1st Qu.:71.00 1st Qu.:78.0 1st Qu.:2.708 1st Qu.:2.750 2°:70
## Median :81.00 Median :87.0 Median :3.000 Median :3.000 3°:70
## Mean :78.32 Mean :84.2 Mean :3.025 Mean :3.062 4°:65
## 3rd Qu.:91.00 3rd Qu.:94.0 3rd Qu.:3.300 3rd Qu.:3.250
## Max. :99.00 Max. :99.0 Max. :4.000 Max. :4.000
## Exp_laboral Lengua_materna Salario_Inicial Grado_Satisfacción
## Min. : 0.000 Inglés:242 Min. : 0 Min. : 1.0
## 1st Qu.: 2.000 Otro : 32 1st Qu.: 0 1st Qu.: 5.0
## Median : 3.000 Median : 999 Median : 6.0
## Mean : 3.872 Mean : 39026 Mean :172.2
## 3rd Qu.: 4.000 3rd Qu.: 97000 3rd Qu.: 7.0
## Max. :22.000 Max. :220000 Max. :998.0
## Rango_Años_Exp CAT_Salario
## Cat_E1[0-2] :109 1. S.I. :81
## Cat_E2[3-4] : 99 2. Sin salario:90
## Cat_E3[5-22]: 66 3.<0 - 100k] :55
## 4.>100k :48
##
##
attach(BaseF)
BaseF %>%
group_by(Rango_Años_Exp) %>%
summarise(Mínimo=min(Salario_Inicial) ,
Máximo=max(Salario_Inicial),
Promedio=mean(Salario_Inicial),
Mediana=median(Salario_Inicial))## # A tibble: 3 × 5
## Rango_Años_Exp Mínimo Máximo Promedio Mediana
## <fct> <dbl> <dbl> <dbl> <dbl>
## 1 Cat_E1[0-2] 64000 162000 98614. 98000
## 2 Cat_E2[3-4] 85000 130000 102960. 102300
## 3 Cat_E3[5-22] 90000 220000 111775 105500
BaseF %>%
group_by(Rango_Años_Exp) %>%
summarise(SD=sd(Salario_Inicial),
Rango=max(Salario_Inicial)-min(Salario_Inicial),
Ngraduados = n(),
Pgraduados = n()/nrow(BaseF))## # A tibble: 3 × 5
## Rango_Años_Exp SD Rango Ngraduados Pgraduados
## <fct> <dbl> <dbl> <int> <dbl>
## 1 Cat_E1[0-2] 15268. 98000 47 0.456
## 2 Cat_E2[3-4] 10738. 45000 32 0.311
## 3 Cat_E3[5-22] 25976. 130000 24 0.233
BaseF1<-BaseF %>%
filter(Salario_Inicial!=220000)
attach(BaseF1)
BaseF1 %>%
group_by(Rango_Años_Exp) %>%
summarise(Mínimo=min(Salario_Inicial) ,
Máximo=max(Salario_Inicial),
Promedio=mean(Salario_Inicial),
Mediana=median(Salario_Inicial))## # A tibble: 3 × 5
## Rango_Años_Exp Mínimo Máximo Promedio Mediana
## <fct> <dbl> <dbl> <dbl> <dbl>
## 1 Cat_E1[0-2] 64000 162000 98614. 98000
## 2 Cat_E2[3-4] 85000 130000 102960. 102300
## 3 Cat_E3[5-22] 90000 146000 107070. 105000
BaseF1 %>%
group_by(Rango_Años_Exp) %>%
summarise(SD=sd(Salario_Inicial),
Rango=max(Salario_Inicial)-min(Salario_Inicial),
Ngraduados = n(),
Pgraduados = n()/nrow(BaseF1))## # A tibble: 3 × 5
## Rango_Años_Exp SD Rango Ngraduados Pgraduados
## <fct> <dbl> <dbl> <int> <dbl>
## 1 Cat_E1[0-2] 15268. 98000 47 0.461
## 2 Cat_E2[3-4] 10738. 45000 32 0.314
## 3 Cat_E3[5-22] 12242. 56000 23 0.225
ggplot(data = BaseF1,
aes(x = Salario_Inicial,color=Rango_Años_Exp))+
geom_density() +
labs(list(x = "Salario Inicial", y = "Densidad", color = "Rango_Años_Exp"))+
theme(axis.title = element_text(face = "bold", colour = "#990000",
size = 10), axis.text = element_text(size = 7),
plot.title = element_text(size = rel(1.2), colour = "blue")) Se identifica que los graduados que tienen entre 1 y 2 años de experiencia de haber egresado del MBA presentan una densidad del tipo leptocurtica , es decir la distribución de sus respuestas lo que puede implicar una mayor probabilidad de observar valores extremos o atípicos en comparación con una distribución normal. Sin embargo las personas que tienen desde 3 años a experiencia a más , se observa su grafica de densidad del tipo mesocurtica , muy parecida a una gráfica normal, esto es , que sus respuestas fueron muy homogéneas , no existiría una cantidad considerable de valores atípicos. Esto se evidenciará con las pruebas de hipótesis de normalidad ( Kolmogorov-Smirnov).
ggplot(data = BaseF1, aes(x = Rango_Años_Exp, y = Salario_Inicial))+ geom_boxplot(aes(fill = Rango_Años_Exp)) +
labs(list(x = "Rango_Años_Exp", y = "Salario Inicial")) Se observa una mayor variabilidad en las personas con una mayor cantidad de años de experiencia laboral. Mientras que, la variabilidad es menor en aquellas con una experiencia laboral no mayor a 2 años, sin embargo, en este grupo existe una mayor cantidad de outliers. Con respecto al grupo 2, con experiencia entre 2 y 4 años, la variabilidad es mayor al primer grupo pero menor al tercero. En términos comparativos, la mediana nos muestra que se espera que los salarios sean mayores para aquellos con una mayor cantidad de años de experiencia laboral.
Tabla<-BaseF1 %>%
select(Rango_Años_Exp,Salario_Inicial) %>%
group_by(Rango_Años_Exp) %>%
summarise(NGraduados=n(),
Promedio=mean(Salario_Inicial,na.rm = TRUE),.groups="drop")
Resumen<-BaseF1 %>%
select(Salario_Inicial ) %>%
summarise(NGraduados=n(),
Promedio=mean(Salario_Inicial,na.rm = T))
Resumen1<-cbind(Rango_Años_Exp="Total",Resumen)
Tabla<-rbind(Tabla,Resumen1)
Tabla$Promedio<-round(Tabla$Promedio,2)
ggplot(as.data.frame(Tabla[1:3,]),aes(Rango_Años_Exp,NGraduados , fill=Rango_Años_Exp)) +
geom_bar(stat= "identity",show.legend = FALSE) +
geom_text(aes(label=Promedio), position = position_stack(vjust = 0.5),size = 3)+
theme (text = element_text(size=14)) +
ggtitle ("Salario Inicial por Años de Experiencia laboral ") +
theme(plot.title = element_text(hjust = 0.5,face="bold"))+ # centra el título y en negrita
theme (axis.title = element_text(face="bold", colour="black", size=rel(1.0))) + # formato a los ejes
labs(x = NULL)+theme(aspect.ratio =0.5) #Tamaño de las barrasExiste una mayor cantidad de individuos con experiencia laboral no mayor a 2 años. Sin embargo, este grupo posee un menor promedio de ingresos con respecto a los otros grupos. El grupo con individuos de una mayor experiencia laboral (>4) tienen el mayor promedio de ingresos.
Tabla<-BaseF1 %>%
select(Rango_Años_Exp,Perc_Cuant_GMAT,Perc_Verbal_GMAT,Perc_Gral_GMAT) %>%
group_by(Rango_Años_Exp) %>%
summarise(Prom_Cuant.=mean(Perc_Cuant_GMAT),
Prom_Verb.=mean(Perc_Verbal_GMAT),
Prom_Gral=mean(Perc_Gral_GMAT),
.groups="drop")
Tabla1<-gather(Tabla,Tipo_GMAT,Promedio,Prom_Cuant.:Prom_Gral)
Tabla1$Promedio<-round(Tabla1$Promedio,2)
# Individuales
fig1<-ggplot(as.data.frame(Tabla1),aes(Rango_Años_Exp, Promedio , fill= Rango_Años_Exp)) +
geom_bar(stat= "identity",position = "dodge") +
facet_grid(.~Tipo_GMAT)+
geom_text(aes(label=Promedio), position = position_stack(vjust = 0.5),size = 3)+
theme (text = element_text(size=14)) +
ggtitle ("Promedio de Tipos de GMAT por Años de Experiencia") +
theme(plot.title = element_text(hjust = 0.5,face="bold"))+ # centra el título y en negrita
theme (axis.title = element_text(face="bold", colour="black", size=rel(1.2)))+ # formato a los ejes
labs(x = NULL)
fig1 + coord_polar() En las tres evaluaciones se observan distribuciones distintas. En la evaluación cuantitativa, los individuos con menor experiencia laboral obtuvieron un mejor puntaje, que se entiende por la proximidad del egreso profesional. Con respecto a la evaluación de aptitudes verbales, el comportamiento es distinto, ya que los individuos con mayor experiencia laboral obtuvieron puntajes mayores, que coincide con la adquisición de soft-skills en la misma práctica. Finalmente, los puntajes en aptitudes verbales tuvieron un mayor peso en comparación a las aptitudes cuantitativas, ya que, en general, los individuos con más años de experiencia laboral obtuvieron un mayor puntaje.
# Test de Lilliefors
by(data = BaseF1,INDICES = BaseF1$Rango_Años_Exp,FUN = function(x){ lillie.test(x$Salario_Inicial)})## BaseF1$Rango_Años_Exp: Cat_E1[0-2]
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: x$Salario_Inicial
## D = 0.20386, p-value = 3.934e-05
##
## ------------------------------------------------------------
## BaseF1$Rango_Años_Exp: Cat_E2[3-4]
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: x$Salario_Inicial
## D = 0.1434, p-value = 0.09263
##
## ------------------------------------------------------------
## BaseF1$Rango_Años_Exp: Cat_E3[5-22]
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: x$Salario_Inicial
## D = 0.18699, p-value = 0.03606
En 2 de los grupos Cat_E1[0-2] yCat_E3[5-22] se observa falta de normalidad. Por lo tanto vamos a realizar la prueba de homogeneidad de varianzas
#attach(prueba)
fligner.test(Salario_Inicial ~ Rango_Años_Exp,BaseF1)##
## Fligner-Killeen test of homogeneity of variances
##
## data: Salario_Inicial by Rango_Años_Exp
## Fligner-Killeen:med chi-squared = 0.051184, df = 2, p-value = 0.9747
require(car)
leveneTest(Salario_Inicial ~ Rango_Años_Exp,BaseF1,center = "median")## Levene's Test for Homogeneity of Variance (center = "median")
## Df F value Pr(>F)
## group 2 0.0705 0.932
## 99
No hay evidencias significativas de falta de homocedasticidad en ninguno de los dos test. Las varianzas son homogéneas
Dado que se evidencia la falta de normalidad en nuestros grupos categóricos, se realizará las pruebas no paramétricas para comparar las medianas de los grupos
kruskal.test(Salario_Inicial ~ Rango_Años_Exp, data = BaseF1)##
## Kruskal-Wallis rank sum test
##
## data: Salario_Inicial by Rango_Años_Exp
## Kruskal-Wallis chi-squared = 11.391, df = 2, p-value = 0.003361
Pvalue (0.003361) < 0.05. Existe diferencia significativa en las medianas de por lo menos dos grupos.
pairwise.wilcox.test(BaseF1$Salario_Inicial, BaseF1$Rango_Años_Exp, p.adjust.method = "bonf", paired = F) ## Warning in wilcox.test.default(xi, xj, paired = paired, ...): cannot compute
## exact p-value with ties
## Warning in wilcox.test.default(xi, xj, paired = paired, ...): cannot compute
## exact p-value with ties
## Warning in wilcox.test.default(xi, xj, paired = paired, ...): cannot compute
## exact p-value with ties
##
## Pairwise comparisons using Wilcoxon rank sum test with continuity correction
##
## data: BaseF1$Salario_Inicial and BaseF1$Rango_Años_Exp
##
## Cat_E1[0-2] Cat_E2[3-4]
## Cat_E2[3-4] 0.0966 -
## Cat_E3[5-22] 0.0049 0.5644
##
## P value adjustment method: bonferroni
Se encuentran diferencias significativas entre 2 de los grupos , los que tienen de 0 a 2 años de experiencia labora con los que tienend e 5 a 22 años de expeiencia laboral. Por tanto las medianas de ambos grupos diferen, es decir hay una diferencia significativa entre los salarios percibidos. Por tanto la variable experiencia laboral si implica diferenciación entre los salarios iniciales de los egresados del MBA.
Preguntas:
- ¿Existe diferencia significativa en cuánto puede esperar ganar un estudiante, por la experiencia laboral?
Conforme se incrementan los años de experiencia laboral, el nivel de ingresos también se incrementará. Sin embargo, eso no quita que uno pueda obtener niveles altos de ingresos con apenas una experiencia laboral no mayor a 2 años.
En general, cuando se analizan a los graduados que contestaron el dato del salario; observamos que los graduados pueden esperar ganar USD \(85,000\). Pero, si analizamos a los graduados que tienen un salario inicial, entonces pueden esperar ganar USD \(100,000\) .
Cuando analizamos si existen diferencias en el salario por Esperiencia laboral. Si observamos los datos de manera descriptiva, vemos que hay diferencias entre los promedios de los salarios por Esperiencia laboral. Sin embargo, para poder tener hipótesis preliminares generalizando a la población, existe suficiente evidencia para decir que no hay diferencias significativas entre los grupos de Experiencia laboral.