setwd("~/pye1pm")
library(readxl)
carreras<- read_excel("datosproy2.xlsx")Paquetes
Los paquetes son un complemente para R, ya que con ellos se pueden añadir mas funciones para poder realizar trabajos mas presentables como prettydoc, añadir descargas con xfun, hacer uso de los histogramas y poligonos como fdth, entre otros.
library(pacman)
p_load("prettydoc", "xfun", "fdth", "modeest", "beanplot", "datasets", "DT", "ggplot2", "readr")Introduccion
Ingenieria industrial
La ingeniería industrial es una profesión de ingeniería que se ocupa de la optimización de procesos, sistemas u organizaciones complejos mediante el desarrollo, la mejora y la implementación de sistemas integrados de personas, riqueza, conocimiento, información y equipamiento, energía, materiales y procesos.
Administracion de empresas
La administración de empresas es un método y práctica organizacional basado en la gestión de sociedades mercantiles con el objetivo de llevarlas a su mayor optimización posible.
Objetivo
El objetivo de este presente estudio es conocer de una manera descriptiva y cuantitativa como es la oferta laboral económica para las carreras de ingenieria industrial y administraciòn de empresas. Este conjunto de datos los recaudamos por medio de internet, de paginas donde empresas solicitan empleados de dichas carreras como las uqe se hablaran que son ingenieria industrial y administración de empresas.
RStudio ¿Que es? Para comenzar, este es el programa que se ha utilizado para elaborar el proyecto que se esta presentando, este es un programa utilizado para programar, el cual se ha escogido por la facilidad y variedad de opciones que tiene para poder realizar todos los calculos y graficas que se requieren.
Datos con los que se trabajarán, se muestran en una tabla interactiva
datatable(carreras)Como se puede observar contamos con 40 empleos diferentes, en los cuales son de 20 de ingenieria industrial y 20 de licenciatura en administracion, a continuacion vamos a comparar los datos.
A continuacion se mostraran las siguientes ciudades en las que se solicitan empleos
tablaciud <- table(carreras$Ciudad)
tablaciud##
## Alvaro Obregon Apodaca Atizapan Zaragoza
## 2 1 1
## Benito Juarez Cd Hidalgo Cd Obregon
## 1 1 2
## CDMX Cuajimalpa de Morelos Culiacan
## 1 1 1
## Guadalajara Guadalupe Guanajuato
## 2 1 1
## Hermosillo Huamantla Iztalapa
## 1 1 1
## Iztapalapa La paz Mazatlan
## 1 1 1
## Mérida Miguel Hidalgo Nogales
## 1 1 1
## Puebla Queretaro San Luis Potosi
## 3 1 1
## San Pedro Siltepec Sin especificar
## 1 1 1
## Tepic Tizayuca Tlalnepantla
## 1 1 1
## Valladolid Zapopan Zaragoza
## 1 3 1
Con los datos presentados podemos observar que la mayor recoleccion de empleos se encuentra al sur de mexico, encabezado por el DF y zapopan.
Estadistica descriptiva
Análisis exploratorio de los datos
Se muestra lo que es un resumen estadístico de las ingenierías presentadas, mostrando puntos máximos y mínimos, la mediana, la media y los cuartiles.
summary(carreras)## Puesto Perfil Sueldo Estado
## Length:40 Length:40 Min. : 7000 Length:40
## Class :character Class :character 1st Qu.: 9000 Class :character
## Mode :character Mode :character Median :11000 Mode :character
## Mean :14823
## 3rd Qu.:14625
## Max. :85000
## Ciudad Pais Especialidad Grado minimo
## Length:40 Length:40 Length:40 Length:40
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Fuente PIBEstado POBEstado Profesionista
## Length:40 Min. : 91005 Min. :1235456 Min. : 94851
## Class :character 1st Qu.: 369370 1st Qu.:2944840 1st Qu.: 295690
## Mode :character Median : 551755 Median :6183860 Median : 431474
## Mean :1174710 Mean :5897912 Mean : 605546
## 3rd Qu.:1656113 3rd Qu.:8563599 3rd Qu.: 882797
## Max. :2848734 Max. :9209944 Max. :1203035
Grafico de caja y bigote de los diferentes sueldos de ambas carreras
Es un diagrama para representar gráficamente y poder visualizarlos de una mejor manera los cuartiles, la mediana, puntos máximos y mínimos.
boxplot(carreras$Sueldo, col="red", main="Sueldos de ambas carreras", ylab="Sueldo")Aqui se puede observar como es que los sueldos se concentran los 10,000, los sueldos que salen de 0, son trabajos en los que no se especifica la cantidad. Tambien es importante observar como es que el grafico aisla los sueldos que son mayores a 25,000, poniendo que estos son raros de hallar un trabajo con ese sueldo.
Histograma de frecuencias absolutas de los sueldos brutos mensuales de ambas carreras
hist(carreras$Sueldo, col="red", main="Histograma de las carreras y su sueldo", xlab="Sueldo")Lo que podemos ver en el grafico presentado, es que en Mexico se puede encontrar con mayor facilidad en donde el pago sea menor a 20,000 pesos, mientras que es muy poco probable uno de 80,000 o mas
Varianza
La Varianza nos indica la variabilidad de los datos respecto a nuestra media.
var(carreras$Sueldo)## [1] 176179957
Desviación estándar
La desviación estándar es obtenida sacandole la raíz a la varianza y se refiere que tanto se extienden o se acercan los datos sobre la media.
sd(carreras$Sueldo)## [1] 13273.28
Grafico de dispersion en los sueldos de ambas carreras
El gráfico de dispersión es muy utilizado para mostrar los valores de las dos variables que hemos elegido, para así darnos una mejor visualización de la relación que hay entre ellos.
plot(carreras$Sueldo, col="red", main= "Grafico de dispersion", ylab="Sueldo")Probabilidad
Análisis de probabilidades
Si eres un ingeniero industrial o uno de administración de empresas en México, ¿que probabilidades existen de que ganes más de 20,000 pesos de sueldo bruto mensual?
Para esto usaremos la distribución normal, pero primero hay que conocer si efectivamente los datos son normales
Para esto usaremos la prueba de normalidad de shapiro-wilk
shapiro.test(carreras$Sueldo)##
## Shapiro-Wilk normality test
##
## data: carreras$Sueldo
## W = 0.51384, p-value = 2.482e-10
Los datos no se comportan de manera normal
Ahora realizaremos un primer análisis paramétrico para conocer los resultados que obtendríamos de usar la distribución normal
Promedio:1174710 Desviación estandar:13273.28
¿Cual es la probabilidad puntual de que un ingeniero gane 15,000 pesos al mes?
dnorm(20000, mean = 1174710, sd= 13273.28 )## [1] 0
Esto resultado es 0, ya que los datos no son normales
Ahora usaremos la distribución Poisson
1-ppois(19999, lambda = 40, lower.tail = FALSE)## [1] 1
Inferencia estadistica
Prueba de varianzas
var.test(carreras$Sueldo, carreras$Profesionista)##
## F test to compare two variances
##
## data: carreras$Sueldo and carreras$Profesionista
## F = 0.0011073, num df = 39, denom df = 39, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.0005856643 0.0020936436
## sample estimates:
## ratio of variances
## 0.001107327
El valor de P es menor a 0.05, esto quiere decir que podemos concluir que estas variables estudiadas no tienen relacion entre si
Regresion Lineal
Estimación de parámetros
¿Qué carrera se puede observar que gana más dinero?
Para saber la respuesta es necesario hacer una prueba de hipótesis Realizando un grafico comparativo del conjunto de datos de los sueldos de ambas carreras
boxplot(carreras$Sueldo ~ carreras$Perfil, col="red", main="Comparativo de carreras", xlab="Perfil", ylab="Sueldo")Y lo que se puede observar que el administrador de empresas tiene mejor sueldo que un ingeniero industrial
¿Que grado académico está percibiendo más sueldo?
Se puede observar que el grado de bachillerato es el que más se persive.
boxplot(carreras$Sueldo ~ carreras$`Grado minimo`, col="red", main="Grado academico", ylab="Sueldo", xlab="Grado")¿Existe una correlación entre sueldo bruto mensual de las ofertas laborales de los estados y su Producto interno bruto?
Análisis gráfico
Con el análisis gráfico podremos analizar exclusivamente los datos que queremos percibir, como la relación del sueldo bruto y el PIB
plot(carreras$PIBEstado, carreras$Sueldo, col="red", main="Analisis grafico",xlab="PIB", ylab="Sueldo")Análisis de correlación
El análisis de correlación nos permite determinar si hay relación entre variables, dándonos como un valor 0.05 si pasa de eso si hay relación y si es más pequeño no hay relación.
cor(carreras$PIBEstado, carreras$Sueldo)## [1] 0.07394323
Se puede observar que si hay una relación de correlación entre el sueldo y el producto interno bruto
cor(carreras$POBEstado, carreras$Sueldo)## [1] -0.03689361
Como el resultado fue negativo, se puede observar que no hay mucha correlación y entre el producto interno bruto y la población del estado el que mayor influye es el producto interno bruto
Relación de los sueldos con el número de profesionales ocupados por estado
plot(carreras$POBEstado, carreras$Sueldo, main="Relacion de sueldos ", xlab="POB", ylab="Sueldo")Hipotesis nula (H0): Que el sueldo bruto mensual esta relacionado al numero de profesionistas
Hipotesis alternativa (H1): Que estas variables no tienen ninguna relacion
str(carreras$Sueldo)## num [1:40] 9000 9000 9000 9500 10000 12000 9000 85000 7000 11000 ...
str(carreras$PIBEstado)## num [1:40] 251651 251651 2848734 2848734 2848734 ...
str(carreras$POBEstado)## num [1:40] 5543828 5543828 9209944 9209944 9209944 ...
str(carreras$Profesionista)## num [1:40] 301530 301530 1203035 1203035 1203035 ...
levels(as.factor(carreras$Sueldo))## [1] "7000" "7200" "7800" "8000" "8500" "9000" "9500" "10000" "11000"
## [10] "11350" "12000" "12082" "13000" "14000" "14500" "15000" "18000" "23000"
## [19] "25000" "30000" "40000" "85000"
boxplot(carreras$Sueldo ~ carreras$PIBEstado, col= "red" )shapiro.test(carreras$PIBEstado)##
## Shapiro-Wilk normality test
##
## data: carreras$PIBEstado
## W = 0.77103, p-value = 1.779e-06
Se observa que los datos no tienen un comportamiento normal
ks.test(carreras$PIBEstado, "pnorm", mean=mean(carreras$PIBEstado), sd=sd(carreras$PIBEstado))## Warning in ks.test(carreras$PIBEstado, "pnorm", mean =
## mean(carreras$PIBEstado), : ties should not be present for the Kolmogorov-
## Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: carreras$PIBEstado
## D = 0.25051, p-value = 0.0132
## alternative hypothesis: two-sided
El valor de p es menor a 0.05, se puede corroborar que los datos no son normales
shapiro.test(carreras$POBEstado)##
## Shapiro-Wilk normality test
##
## data: carreras$POBEstado
## W = 0.86223, p-value = 0.0001808
Tambien en esta prueba el valor de p es muy bajo
ks.test(carreras$POBEstado, "pnorm", mean=mean(carreras$POBEstado), sd=sd(carreras$POBEstado))## Warning in ks.test(carreras$POBEstado, "pnorm", mean =
## mean(carreras$POBEstado), : ties should not be present for the Kolmogorov-
## Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: carreras$POBEstado
## D = 0.20457, p-value = 0.07032
## alternative hypothesis: two-sided
En esta prueba se puede observar que los datos tienen un comportamiento diferente a los anteriores, ya que p es mayor a 0.05
shapiro.test(carreras$Profesionista)##
## Shapiro-Wilk normality test
##
## data: carreras$Profesionista
## W = 0.84461, p-value = 6.672e-05
En esta prueba de normalidad se puede observar que el los datos del PIB no se comportan de manera normal
ks.test(carreras$Profesionista, "pnorm", mean=mean(carreras$Profesionista), sd=sd(carreras$Profesionista))## Warning in ks.test(carreras$Profesionista, "pnorm", mean =
## mean(carreras$Profesionista), : ties should not be present for the Kolmogorov-
## Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: carreras$Profesionista
## D = 0.19373, p-value = 0.09932
## alternative hypothesis: two-sided
Igual esta prueba tambien se ha sido pasada, ya que p es mayor a 0.05
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )
boxplot(carreras$Sueldo ~ carreras$Profesionista, col="red", main="A" )
barplot(tapply(carreras$Sueldo, list(carreras$Profesionista), mean ), beside = T, main="B" )Representación del comportamiento del sueldo con los profesionistas mediante un boxplot (A) y gráfico de barras con desviación estándar (B).
Resultados y conclusion
Al finalizar este proyecto se ha podido observar que entre los sueldos de la ingenieria industrial y la administracion de empresas no existe una relacion, siendo que cada una tiene sus diferentes sueldos. Para concluir, se puede mencionar que en los 40 datos estudiados de los pagos en las diferentes licenciaturas, es mejor pagado lo que es la administracion de empresas que la ingenieria industrial, pero tampoco hay que descartar que lo estudiado ha sido una minima parte de lo que es el amplio mercado laboral que existe solamente en Mexico.