Proyecto final Probabilidad y Estadistica

Juan Avalos

15/5/2022

setwd("~/pye1pm")

Análisis de datos de oferta laboral para ingenierías en México

Como es el campo laboral de las ingenierías mecatrónica y electromecánica en México

Introduccion

La Mecatrónica es la combinación sinérgica de distintas ramas de la Ingeniería, entre las que destacan, la mecánica de precisión, la electrónica, la informática y los sistemas de control. Su principal propósito (es el análisis y diseño de productos y de procesos de manufactura automatizados.)

La electromecánica consiste en una combinación de la ingeniería eléctrica, la ciencia de la mecánica y el electromagnetismo. Las funciones principales de la electromecánica son (analizar, diseñar, desarrollar, manufacturar y mantener todo tipo de sistemas, dispositivos y elementos electromecánicos.)

Antecedentes

Una de las organizaciones que ha permitido la difusión del concepto (mecatrónica) es la Asociación Mexicana de Mecatrónica, creada en agosto de dos mil uno con el objetivo de Impulsar el desarrollo y estudio de la Mecatrónica en general, a través de los medios de comunicación, trabajos de investigación, foros nacionales y participación en las Universidades públicas y privadas, así como en todo tipo de empresas.

La ingeniería Electromecánica es quizá la más joven de todas las ingenierías, nace de la necesidad de preparar un profesional polivalente con competencias evidenciables, capaz de enfrentar este mundo cambiante en tecnología y nuevos mercados, en un contexto de modernización y globalización productiva.

Objetivo

El objetivo de este trabajo es realizar una inestigacion en la que se apliquen las 4 competencias de la materia de probabilidad y estadistica las cuales son (Estadisitca descriptiva, probabilidad, inferencia estadistica, y regresion lineal)

la finalidad que queremos con este estudio es conocer de una manera descriptiva y cuantitativa como es la oferta laboral económica para las carreras de ingeniería en mecatrónica y electromecánica.

Para cumplir con dicho objetivo se utilizara el siguiente sofware llamado R Studio pero antes de comenzar ¿que es R?

R es un lenguaje de programación que permite realizar análisis de datos escribiendo scripts y funciones, esto viene siendo un lenguaje interactivo orientado a objetos,

Con los datos recopilados buscaremos llegar a una conclusion en concreto, y para ello se utilizara el sofware R Studio el cual es una excelente herramienta estadistica.

Paquetes

Acontinuacion se muestran los respectivos paquetes que utilizamos en R, pero primeramente ¿Que es un paquete de R?

Los paquetes en R son colecciones de funciones y conjunto de datos los cuales incrementan la potencialidad de R mejorando las funcionalidades base en R, o añadiendo unas nuevas.

library(xfun)
## 
## Attaching package: 'xfun'
## The following objects are masked from 'package:base':
## 
##     attr, isFALSE
library(pacman)
p_load("DT","prettydoc","readr", "base64enc", "htmltools", "mime", "dplyr", "ggplot2")

Datos de ingenierias electromecanica y mectronica.

A continuación veremos en una tabla interactiva los datos a utilizar. Estos mismos datos fueron recopilados de 2 fuentes en particular las cuales son. INDEED: https://mx.indeed.com y otra fuente que se utilizo fue la de la pagina COMPUTRABAJO: https://www.computrabajo.com.mx/

setwd("~/pye1pm")
ingenierias <- read_csv("ingenierias2.csv")
## Rows: 39 Columns: 12
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (8): Puesto, Perfil, Estado, Ciudad, País, Especialidad, Grado mínimo, F...
## dbl (2): Sueldo bruto mensual, PIBEstado
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
datatable(ingenierias)

Estadistica descriptiva

Análisis exploratorio de los datos

El propósito principal del (EDA) es ayudar a estudiar los datos antes de hacer cualquier suposicion. Puede ayudar a identificar errores obvios, así como comprender mejor los patrones dentro de los datos,

*Resumen estadístico básico

##     Puesto             Perfil          Sueldo bruto mensual    Estado         
##  Length:39          Length:39          Min.   : 1300        Length:39         
##  Class :character   Class :character   1st Qu.:13500        Class :character  
##  Mode  :character   Mode  :character   Median :16000        Mode  :character  
##                                        Mean   :17650                          
##                                        3rd Qu.:19700                          
##                                        Max.   :50000                          
##     Ciudad              País           Especialidad       Grado mínimo      
##  Length:39          Length:39          Length:39          Length:39         
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##     Fuente            PIBEstado       Poblacion por estado profesionistas   
##  Length:39          Min.   : 220550   Min.   : 1857985     Min.   : 156181  
##  Class :character   1st Qu.: 469053   1st Qu.: 2822255     1st Qu.: 217825  
##  Mode  :character   Median : 553945   Median : 3769020     Median : 351176  
##                     Mean   :1058347   Mean   : 6471213     Mean   : 495205  
##                     3rd Qu.:1258572   3rd Qu.: 8348151     3rd Qu.: 668371  
##                     Max.   :2848734   Max.   :16992418     Max.   :1203035
  • Para que podamos determinar los sueldos brutos mensuales de ambas ingenierias en conjunto se utilizara el diagrama de Caja y Bigote el cual es una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.

Grafico de caja y bigote de los sueldos brutos mensuales.

  • Acontinuacion se hara un histograma el cual sirve para representar la distribución de frecuencias (relativas o absolutas) de una variable continua cuya escala es dividida en algunas clases en particular.

  • Histograma de frecuencias absolutas de los sueldos brutos mensuales de ambas ingenierías.

  • Varianza de los sueldos brutos mensuales
## [1] 72042493
  • Acontinuacion tenemos la desviacion estandar esta indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos.

  • Desviación estándar de los sueldos brutos mensuales

## [1] 8487.785
  • Ahora se utilizara un grafico de dispercion los cuales se usan para trazar puntos de datos en un eje vertical y uno horizontal, mediante lo que se trata de mostrar cuánto afecta una variable a otra.

  • Gráfico de dispersión de los sueldos brutos mensuales.

Estimación de parámetros

  • La pregunta aqui es. ¿Que carrera gana más dinero según estos datos?

Para contestar esto haremos un análisis de prueba de hipótesis

Acontinuacion se muestra un grafico comparativo de datos de los sueldos brutos mensuales de mecatrónica y electromecánica. Dichos datos se plantean en el grafico de caja y bigote para poder observar la media y los valores extremos de dichos ingresos.

  • Grafico de caja y bigote de los ingresos mensuales de ing. mecatronica y electromecanica.

¿Que grado académico está percibiendo más sueldo?

  • Para resolver esta incognita se utilizara el siguiente grafico de caja y bigote.

Como podemos onservar en la grafica la diferencia es muy grande mostrando que el nivel de licenciatura es el que mas ingresos percibe.

  • ¿Que estado de la república está percibiendo más sueldo?

Para saber esto lo haremos por el siguiente grafico de caja y bigote y como podemos observar aqui en Guanajuato suele percibirse mas sueldo.

boxplot(ingenierias$`Sueldo bruto mensual`  ~ ingenierias$Estado, col="red")

Probabilidad

Análisis de correlación

Acontinuacion en este analisis de correlacion se busca saber si hay alguna relacion del sueldo bruto mensual de ambas ingenierias, con el producto interno bruto (PIB) de algun estado.

## [1] -0.1529404

Análisis de probabilidades

Si eres un ingeniero electromecánico o mecatrónico en México, que probabilidades existen de que ganes más de 15,000 pesos de sueldo bruto mensual?

Para esto usaremos la distribución normal, pero primero hay que conocer si efectivamente los datos son normales

  • Para esto usaremos la prueba de normalidad de shapiro-wilk
## 
##  Shapiro-Wilk normality test
## 
## data:  ingenierias$`Sueldo bruto mensual`
## W = 0.8547, p-value = 0.0001405
  • Como podemos observar los datos no se comportan de manera normal.

De modo que ahora realizaremos un primer análisis paramétrico para conocer los resultados que obtendríamos de usar la distribución normal.

Promedio: 1058347 Desviación estándar: 8487.785

  • ¿Cual es la probabilidad puntual de que un ingeniero gane 15,000 pesos al mes?
## [1] 0

  • ¿Cual es la probabilidad de que el sueldo sea mayor a 15,000?
## [1] 1

Este resultado es dado que los datos NO son normales

Tabla con datos actualizados para probabilidad

Curva de la distribucion normal de los sueldos

La gráfica de la distribución normal tiene la forma de una campana, por este motivo también es conocida como la campana de Gauss. Sus características son las siguientes: Es una distribución simétrica, es decir sus extremos nunca tocan el eje horizontal, cuyos valores tienden a infinito.

  • Curva de distribucion normal de los sueldos.

Regresion lineal

La regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y variables independientes. Teniendo en cuenta esto.

  • ¿Qué es lo que hace que ciertos estados se pague más que en otros?

Existe una correlación entre sueldo bruto mensual de las ofertas laborales de los estados y su Producto interno bruto?

Análisis gráfico

Análisis de correlación

## [1] -0.1529404

Se puede observar una relacion minima inversa entre el sueldo bruto mensual y el PIB por estado

¿Existe una correlación entre sueldo bruto mensual de las ofertas laborales de los estados y la poblacion del estado?

Análisis gráfico

A simple vista se puede inferir que no existe una relacion

Análisis de correlación

## [1] -0.2201248

Como podemos observar, la relacion entre estas dos variables es inferior que la relacion vista entre el sueldo con el PIB

¿Existe una relacion entre el numero de profesionistas por estado y el sueldo bruto mensual?

## [1] -0.1902392

Y ahora con esto llegamos a la conclusion de que tampoco existe una relacion entre el sueldo bruto mensual y el numero de profesionistas por estado.

Inferencia

Hipotesis nula (H0): Que el sueldo bruto mensual esta relacionado al numero de profesionistas

Hipotesis alternativa (H1): Que estas variables no tienen ninguna relacion

##  num [1:39] 20000 18000 19400 22000 20000 25000 16000 36000 12200 16000 ...
##  num [1:39] 553945 553945 539294 539294 539294 ...
##  num [1:39] 3769020 3769020 3741869 3741869 3741869 ...
##  num [1:39] 351176 351176 309475 309475 309475 ...
##  [1] "1300"  "8000"  "8100"  "9000"  "10000" "11000" "12200" "13000" "14000"
## [10] "14738" "15000" "15500" "16000" "17000" "18000" "18500" "19000" "19400"
## [19] "20000" "22000" "25000" "25600" "26000" "35000" "36000" "50000"

## 
##  Shapiro-Wilk normality test
## 
## data:  ingenierias$PIBEstado
## W = 0.7742, p-value = 2.576e-06

En esta prueba de normalidad se puede observar que el los datos del PIB no se comportan de manera normal

## Warning in ks.test(ingenierias$PIBEstado, "pnorm", mean =
## mean(ingenierias$PIBEstado), : ties should not be present for the Kolmogorov-
## Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  ingenierias$PIBEstado
## D = 0.23404, p-value = 0.02789
## alternative hypothesis: two-sided

Dado que p < 0.05 en esta segunda prueba, comprobamos una vez mas como los datos no son normales

## 
##  Shapiro-Wilk normality test
## 
## data:  ingenierias$`Poblacion por estado`
## W = 0.75871, p-value = 1.314e-06

En esta prueba de normalidad se puede observar que los datos del PIB no se comportan de manera normal ya que el valor de p es muy bajo

## Warning in ks.test(ingenierias$`Poblacion por estado`, "pnorm", mean =
## mean(ingenierias$`Poblacion por estado`), : ties should not be present for the
## Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  ingenierias$`Poblacion por estado`
## D = 0.24192, p-value = 0.02082
## alternative hypothesis: two-sided

Una vez mas se puede observar que el valor de p es inferior al requerido por lo que los datos no son normales

## 
##  Shapiro-Wilk normality test
## 
## data:  ingenierias$profesionistas
## W = 0.80901, p-value = 1.296e-05

En esta prueba de normalidad se puede observar que el los datos del PIB no se comportan de manera normal

## Warning in ks.test(ingenierias$profesionistas, "pnorm", mean =
## mean(ingenierias$profesionistas), : ties should not be present for the
## Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  ingenierias$profesionistas
## D = 0.21575, p-value = 0.05299
## alternative hypothesis: two-sided

En la prueba de normalidad de Kolmogorov-Smirnov p > 0.05 por lo que paso la prueba

Representación del comportamiento del sueldo con los profesionistas mediante un boxplot (A) y gráfico de barras con desviación estándar (B).

Prueba de varianzas

## 
##  F test to compare two variances
## 
## data:  ingenierias$`Sueldo bruto mensual` and ingenierias$profesionistas
## F = 0.00064893, num df = 38, denom df = 38, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.0003402891 0.0012375167
## sample estimates:
## ratio of variances 
##       0.0006489325

El valor de p es inferior a 0.05 por lo que las varianzas no son normales y no se puede aceptar Ho que es que ambas variables tienen que ver una con la otra. Llegando a la conclusion de que estas variables no tienen relacion.

Conclusion

Y llegamos a la conclusion de que no podemos construir un modelo ineal de esto, pero se sabe que lo que mas influye en el sueldo mensual de dichas ingenierias en particular estan mas influenciados con el producto interno bruto (PIB) que con la poblacion en si ,y por esto mismo tambien es mejor analizar y tener en cuenta la taza de empleo del estado en que se encuentre.