setwd("~/pye1pm")
Análisis de datos de oferta laboral para ingenierías en México
Como es el campo laboral de las ingenierías mecatrónica y electromecánica en México
Introduccion
La Mecatrónica es la combinación sinérgica de distintas ramas de la Ingeniería, entre las que destacan, la mecánica de precisión, la electrónica, la informática y los sistemas de control. Su principal propósito (es el análisis y diseño de productos y de procesos de manufactura automatizados.)
La electromecánica consiste en una combinación de la ingeniería eléctrica, la ciencia de la mecánica y el electromagnetismo. Las funciones principales de la electromecánica son (analizar, diseñar, desarrollar, manufacturar y mantener todo tipo de sistemas, dispositivos y elementos electromecánicos.)
Antecedentes
Una de las organizaciones que ha permitido la difusión del concepto (mecatrónica) es la Asociación Mexicana de Mecatrónica, creada en agosto de dos mil uno con el objetivo de Impulsar el desarrollo y estudio de la Mecatrónica en general, a través de los medios de comunicación, trabajos de investigación, foros nacionales y participación en las Universidades públicas y privadas, así como en todo tipo de empresas.
La ingeniería Electromecánica es quizá la más joven de todas las ingenierías, nace de la necesidad de preparar un profesional polivalente con competencias evidenciables, capaz de enfrentar este mundo cambiante en tecnología y nuevos mercados, en un contexto de modernización y globalización productiva.
Objetivo
El objetivo de este trabajo es realizar una inestigacion en la que se apliquen las 4 competencias de la materia de probabilidad y estadistica las cuales son (Estadisitca descriptiva, probabilidad, inferencia estadistica, y regresion lineal)
la finalidad que queremos con este estudio es conocer de una manera descriptiva y cuantitativa como es la oferta laboral económica para las carreras de ingeniería en mecatrónica y electromecánica.
Para cumplir con dicho objetivo se utilizara el siguiente sofware llamado R Studio pero antes de comenzar ¿que es R?
R es un lenguaje de programación que permite realizar análisis de datos escribiendo scripts y funciones, esto viene siendo un lenguaje interactivo orientado a objetos,
Con los datos recopilados buscaremos llegar a una conclusion en concreto, y para ello se utilizara el sofware R Studio el cual es una excelente herramienta estadistica.
Paquetes
Acontinuacion se muestran los respectivos paquetes que utilizamos en R, pero primeramente ¿Que es un paquete de R?
Los paquetes en R son colecciones de funciones y conjunto de datos los cuales incrementan la potencialidad de R mejorando las funcionalidades base en R, o añadiendo unas nuevas.
library(xfun)
##
## Attaching package: 'xfun'
## The following objects are masked from 'package:base':
##
## attr, isFALSE
library(pacman)
p_load("DT","prettydoc","readr", "base64enc", "htmltools", "mime", "dplyr", "ggplot2")
Datos de ingenierias electromecanica y mectronica.
A continuación veremos en una tabla interactiva los datos a utilizar. Estos mismos datos fueron recopilados de 2 fuentes en particular las cuales son. INDEED: https://mx.indeed.com y otra fuente que se utilizo fue la de la pagina COMPUTRABAJO: https://www.computrabajo.com.mx/
setwd("~/pye1pm")
<- read_csv("ingenierias2.csv") ingenierias
## Rows: 39 Columns: 12
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (8): Puesto, Perfil, Estado, Ciudad, País, Especialidad, Grado mínimo, F...
## dbl (2): Sueldo bruto mensual, PIBEstado
##
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
datatable(ingenierias)
Estadistica descriptiva
Análisis exploratorio de los datos
El propósito principal del (EDA) es ayudar a estudiar los datos antes de hacer cualquier suposicion. Puede ayudar a identificar errores obvios, así como comprender mejor los patrones dentro de los datos,
*Resumen estadístico básico
## Puesto Perfil Sueldo bruto mensual Estado
## Length:39 Length:39 Min. : 1300 Length:39
## Class :character Class :character 1st Qu.:13500 Class :character
## Mode :character Mode :character Median :16000 Mode :character
## Mean :17650
## 3rd Qu.:19700
## Max. :50000
## Ciudad País Especialidad Grado mínimo
## Length:39 Length:39 Length:39 Length:39
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Fuente PIBEstado Poblacion por estado profesionistas
## Length:39 Min. : 220550 Min. : 1857985 Min. : 156181
## Class :character 1st Qu.: 469053 1st Qu.: 2822255 1st Qu.: 217825
## Mode :character Median : 553945 Median : 3769020 Median : 351176
## Mean :1058347 Mean : 6471213 Mean : 495205
## 3rd Qu.:1258572 3rd Qu.: 8348151 3rd Qu.: 668371
## Max. :2848734 Max. :16992418 Max. :1203035
- Para que podamos determinar los sueldos brutos mensuales de ambas ingenierias en conjunto se utilizara el diagrama de Caja y Bigote el cual es una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.
Grafico de caja y bigote de los sueldos brutos mensuales.
Acontinuacion se hara un histograma el cual sirve para representar la distribución de frecuencias (relativas o absolutas) de una variable continua cuya escala es dividida en algunas clases en particular.
Histograma de frecuencias absolutas de los sueldos brutos mensuales de ambas ingenierías.
- Varianza de los sueldos brutos mensuales
## [1] 72042493
Acontinuacion tenemos la desviacion estandar esta indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos.
Desviación estándar de los sueldos brutos mensuales
## [1] 8487.785
Ahora se utilizara un grafico de dispercion los cuales se usan para trazar puntos de datos en un eje vertical y uno horizontal, mediante lo que se trata de mostrar cuánto afecta una variable a otra.
Gráfico de dispersión de los sueldos brutos mensuales.
Estimación de parámetros
- La pregunta aqui es. ¿Que carrera gana más dinero según estos datos?
Para contestar esto haremos un análisis de prueba de hipótesis
Acontinuacion se muestra un grafico comparativo de datos de los sueldos brutos mensuales de mecatrónica y electromecánica. Dichos datos se plantean en el grafico de caja y bigote para poder observar la media y los valores extremos de dichos ingresos.
- Grafico de caja y bigote de los ingresos mensuales de ing. mecatronica y electromecanica.
¿Que grado académico está percibiendo más sueldo?
- Para resolver esta incognita se utilizara el siguiente grafico de caja y bigote.
Como podemos onservar en la grafica la diferencia es muy grande mostrando que el nivel de licenciatura es el que mas ingresos percibe.
- ¿Que estado de la república está percibiendo más sueldo?
Para saber esto lo haremos por el siguiente grafico de caja y bigote y como podemos observar aqui en Guanajuato suele percibirse mas sueldo.
boxplot(ingenierias$`Sueldo bruto mensual` ~ ingenierias$Estado, col="red")
Probabilidad
Análisis de correlación
Acontinuacion en este analisis de correlacion se busca saber si hay alguna relacion del sueldo bruto mensual de ambas ingenierias, con el producto interno bruto (PIB) de algun estado.
## [1] -0.1529404
Análisis de probabilidades
Si eres un ingeniero electromecánico o mecatrónico en México, que probabilidades existen de que ganes más de 15,000 pesos de sueldo bruto mensual?
Para esto usaremos la distribución normal, pero primero hay que conocer si efectivamente los datos son normales
- Para esto usaremos la prueba de normalidad de shapiro-wilk
##
## Shapiro-Wilk normality test
##
## data: ingenierias$`Sueldo bruto mensual`
## W = 0.8547, p-value = 0.0001405
- Como podemos observar los datos no se comportan de manera normal.
De modo que ahora realizaremos un primer análisis paramétrico para conocer los resultados que obtendríamos de usar la distribución normal.
Promedio: 1058347 Desviación estándar: 8487.785
- ¿Cual es la probabilidad puntual de que un ingeniero gane 15,000 pesos al mes?
## [1] 0
- ¿Cual es la probabilidad de que el sueldo sea mayor a 15,000?
## [1] 1
Este resultado es dado que los datos NO son normales
Tabla con datos actualizados para probabilidad
Curva de la distribucion normal de los sueldos
La gráfica de la distribución normal tiene la forma de una campana, por este motivo también es conocida como la campana de Gauss. Sus características son las siguientes: Es una distribución simétrica, es decir sus extremos nunca tocan el eje horizontal, cuyos valores tienden a infinito.
- Curva de distribucion normal de los sueldos.
Regresion lineal
La regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y variables independientes. Teniendo en cuenta esto.
- ¿Qué es lo que hace que ciertos estados se pague más que en otros?
Existe una correlación entre sueldo bruto mensual de las ofertas laborales de los estados y su Producto interno bruto?
Análisis gráfico
Análisis de correlación
## [1] -0.1529404
Se puede observar una relacion minima inversa entre el sueldo bruto mensual y el PIB por estado
¿Existe una correlación entre sueldo bruto mensual de las ofertas laborales de los estados y la poblacion del estado?
Análisis gráfico
A simple vista se puede inferir que no existe una relacion
Análisis de correlación
## [1] -0.2201248
Como podemos observar, la relacion entre estas dos variables es inferior que la relacion vista entre el sueldo con el PIB
¿Existe una relacion entre el numero de profesionistas por estado y el sueldo bruto mensual?
## [1] -0.1902392
Y ahora con esto llegamos a la conclusion de que tampoco existe una relacion entre el sueldo bruto mensual y el numero de profesionistas por estado.
Inferencia
Hipotesis nula (H0): Que el sueldo bruto mensual esta relacionado al numero de profesionistas
Hipotesis alternativa (H1): Que estas variables no tienen ninguna relacion
## num [1:39] 20000 18000 19400 22000 20000 25000 16000 36000 12200 16000 ...
## num [1:39] 553945 553945 539294 539294 539294 ...
## num [1:39] 3769020 3769020 3741869 3741869 3741869 ...
## num [1:39] 351176 351176 309475 309475 309475 ...
## [1] "1300" "8000" "8100" "9000" "10000" "11000" "12200" "13000" "14000"
## [10] "14738" "15000" "15500" "16000" "17000" "18000" "18500" "19000" "19400"
## [19] "20000" "22000" "25000" "25600" "26000" "35000" "36000" "50000"
##
## Shapiro-Wilk normality test
##
## data: ingenierias$PIBEstado
## W = 0.7742, p-value = 2.576e-06
En esta prueba de normalidad se puede observar que el los datos del PIB no se comportan de manera normal
## Warning in ks.test(ingenierias$PIBEstado, "pnorm", mean =
## mean(ingenierias$PIBEstado), : ties should not be present for the Kolmogorov-
## Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: ingenierias$PIBEstado
## D = 0.23404, p-value = 0.02789
## alternative hypothesis: two-sided
Dado que p < 0.05 en esta segunda prueba, comprobamos una vez mas como los datos no son normales
##
## Shapiro-Wilk normality test
##
## data: ingenierias$`Poblacion por estado`
## W = 0.75871, p-value = 1.314e-06
En esta prueba de normalidad se puede observar que los datos del PIB no se comportan de manera normal ya que el valor de p es muy bajo
## Warning in ks.test(ingenierias$`Poblacion por estado`, "pnorm", mean =
## mean(ingenierias$`Poblacion por estado`), : ties should not be present for the
## Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: ingenierias$`Poblacion por estado`
## D = 0.24192, p-value = 0.02082
## alternative hypothesis: two-sided
Una vez mas se puede observar que el valor de p es inferior al requerido por lo que los datos no son normales
##
## Shapiro-Wilk normality test
##
## data: ingenierias$profesionistas
## W = 0.80901, p-value = 1.296e-05
En esta prueba de normalidad se puede observar que el los datos del PIB no se comportan de manera normal
## Warning in ks.test(ingenierias$profesionistas, "pnorm", mean =
## mean(ingenierias$profesionistas), : ties should not be present for the
## Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: ingenierias$profesionistas
## D = 0.21575, p-value = 0.05299
## alternative hypothesis: two-sided
En la prueba de normalidad de Kolmogorov-Smirnov p > 0.05 por lo que paso la prueba
Representación del comportamiento del sueldo con los profesionistas mediante un boxplot (A) y gráfico de barras con desviación estándar (B).
Prueba de varianzas
##
## F test to compare two variances
##
## data: ingenierias$`Sueldo bruto mensual` and ingenierias$profesionistas
## F = 0.00064893, num df = 38, denom df = 38, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.0003402891 0.0012375167
## sample estimates:
## ratio of variances
## 0.0006489325
El valor de p es inferior a 0.05 por lo que las varianzas no son normales y no se puede aceptar Ho que es que ambas variables tienen que ver una con la otra. Llegando a la conclusion de que estas variables no tienen relacion.
Conclusion
Y llegamos a la conclusion de que no podemos construir un modelo ineal de esto, pero se sabe que lo que mas influye en el sueldo mensual de dichas ingenierias en particular estan mas influenciados con el producto interno bruto (PIB) que con la poblacion en si ,y por esto mismo tambien es mejor analizar y tener en cuenta la taza de empleo del estado en que se encuentre.