Análisis de datos proyecto

Autor/a

Sebastian Urrego Graciano - Darwin Julián Pineda David

Análisis de datos

Análisis de datos

1 Resumen

El análisis de datos es el proceso de examinar, transformar y modelar datos con el objetivo de extraer información útil, identificar patrones, tomar decisiones informadas y resolver problemas; este es importante ya que nos brinda ayuda en la toma de decisiones, lo utilizamos para identificar tendencias, la optimización de tareas y el desarrollo efectivo y eficaz de actividades relacionadas a datos y variables. El análisis de datos aun es un tema que muy pocas personas conocen y lo saben utilizar a su favor laboral, académico o personal; En esta investigación nos centramos en el análisis exploratorio y grafico de distintas variables como lo son las “variables cualitativas y cuantitativas” guiándonos de una escala de medición “nominal, ordinal, intervalo y de razón” este análisis con el objetivo de poner en práctica lo aprendido en clase y aprender herramientas para la vida. Para el estudio se tomo una base de datos (Data Sciencie Salarie) en donde hay 9 variables y se tomaron 6 para analizar y 3755 observaciones de donde nos basamos para realizar el análisis, un análisis enfatizado en el desarrollo y solución de preguntas enfocadas en la base de datos. Del estudio se encontró que la empresa a la cual tomamos su base de datos donde encontramos “año de trabajo, nivel de experiencia, título profesional, tipo de empleo, residencia de empleado, relación remota, locación compañía y tamaño compañía” ha obtenido mayor crecimiento gracias a su forma de implementar salarios a sus profesionales, la relación remota que ofrece y su tamaño, creciendo no solo a nivel empresarial, sino a nivel global, teniendo muchas sedes en distintas ciudades y países.

Se debe proporcionar mayor información e información mas clara dentro de estos datos para realizar un análisis mas afondo y mas centrado en donde podamos brindar mayor información acerca de la empresa.

2 Introducción

El análisis de datos es el proceso de examinar, transformar y modelar datos con el objetivo de extraer información útil, identificar patrones, tomar decisiones informadas y resolver problemas.

En este estudio se analizaron 6 variables, las cuales fueron “Año de trabajo, Nivel de experiencia, Titulo profesional, Salario, Relación remota, y tamaño compañía”.

Este informe se compone de cinco secciones. La Sección 3 describe la metodología seguida durante todo el análisis del proyecto. La Sección 4 muestra las variables y sus respectivas descripciones en los terminos de su tipo y escala de medición. La Sección 5 presenta los resultados del analisis exploratorio enfatizando mas en las 6 variables que se escogierón. Por último la Sección 6 y Sección 7 se presenta las discuciones y concluiones tomadas en el trabajo.

3 Metodologia

El tipo de investigación realizada fue de carácter descriptivo, debido a que se procede a analizar cada una de las variables para conocer cómo se comportan, por medio de sus datos, ya sean cuantitativas o cualitativas. La base de datos con la que se trabajó fue proporcionada por la profesora Olga Cecilia Úsuga Manco para la realización del proyecto. La base de datos se enfoca en el salario de las personas que trabajan en ciertos cargos en el análisis de datos.

Para esta investigación se utilizaron diferentes medidas estadísticas y el uso de gráficos tanto univariados como multivariados para el análisis de las variables y dar respuesta a las preguntas desarrolladas. Se uso el lenguaje de programación R(R Core Team 2023), RStudio(RStudio Team 2020), Quarto(Allaire 2022) y las siguientes librerías: ggplot2(Wickham 2016), moments(Komsta y Novomestky 2022) modeest(Poncet 2019), dplyr(Wickham et al. 2023) y plotly(Sievert 2020).

4 Datos

Los datos que se analizaron en todo este estudio corresponden a 6 variables de la base de datos llamada “datos”, que en un comienzo tenía otro nombre, pero fue cambiado para trabajar de una mejor manera con los datos de esta. Continuando con las variables, se dividen en 2 grupos de igual tamaño, o sea, que entre las 6 variables tenemos 3 variables cualitativas y 3 variables cuantitativas, que a continuación se muestran en la siguiente Tabla 1 con su respectivo análisis.

Tabla 1: Variables, Tipo y escala de medición
Nombre de la variable Tipo de variable Escala de medición
Nivel de experiencia Cualitativa Ordinal Escala Ordinal
Tamaño Compañia Cualitativa Ordinal Escala Ordinal
Año de trabajo Cuantitativa Discreta Escala Intervalo
Salario Cuantitativa Continua Escala Razón
Relación remota Cuantitativa Discreta Escala Intervalo
Titulo profesional Cualitativa Nominal Escala Nominal

5 Resultados

5.1 Análisis univariado

5.1.1 Nivel de experiencia

Iniciando con el nivel de experiencia, en un inicio podemos ver cuál es la distribución del total de los datos en la distribución de las categorías, en este caso, que sería la siguiente:

  • EN: 320

  • EX: 114

  • MI: 805

  • SE: 2516.

Estos datos los obtuvimos a través de sacar la frecuencia de esta variable, donde podemos identificar que el nivel de experiencia que más se encuentra es el SE, donde casi duplica los otros niveles de experiencia, o con la frecuencia relativa podemos identificar de mejor forma la distribución en porcentaje:

  • EN: 8.521971%

  • EX: 3.035952%

  • MI: 21.438083%

  • SE: 67.003995%

El total de datos que se presentan en la variable es de un total de 3755 datos diferentes, que se dividen en 4 categorías. Además, en forma de un análisis más profundo, podemos hacer uso de la moda, que, como lo podemos ver fácilmente, es el nivel de experiencia SE. A continuación, se muestra la distribución de los datos en forma gráfica a través de un diagrama de barras Figura 2.

Figura 1: Análisis sobre el nivel de experiencia
Figura 2: Análisis sobre el nivel de experiencia

Análisis título profesional

El análisis de esta variable es algo complicado debido a que hay una gran dispersión en los títulos profesionales, dificultando el análisis, pero en este caso las medidas que se le pudieron realizar son las siguientes:

La moda de esta variable es el título profesional: “Data Engineer”.

Con esto, es el título profesional que más oportunidades de trabajo tiene en comparación con los demás títulos. De una manera que se vea mejor la distribución de los diferentes títulos profesionales y sus valores en niveles de empleo es a través de un gráfico de barras Figura 3, ya que es el único gráfico que se acomoda a la exigencia de la variable.

Figura 3: Análisis sobre el Titulo profecional

Además, realizando un análisis más exhaustivo, podemos convertir la frecuencia en un data. frame () para de esta manera calcular el número de títulos diferentes, que en este caso es de 93 títulos diferentes.

                                       Var1 Freq
1             3D Computer Vision Researcher    4
2                              AI Developer   11
3                             AI Programmer    2
4                              AI Scientist   16
5                        Analytics Engineer  103
6                    Applied Data Scientist   10
7         Applied Machine Learning Engineer    2
8        Applied Machine Learning Scientist   12
9                         Applied Scientist   58
10            Autonomous Vehicle Technician    2
11                      Azure Data Engineer    1
12                               BI Analyst    9
13                          BI Data Analyst   15
14                         BI Data Engineer    1
15                             BI Developer   13
16                       Big Data Architect    2
17                        Big Data Engineer   11
18                    Business Data Analyst   15
19           Business Intelligence Engineer    4
20                     Cloud Data Architect    1
21                      Cloud Data Engineer    3
22                  Cloud Database Engineer    5
23                  Compliance Data Analyst    1
24                 Computer Vision Engineer   18
25        Computer Vision Software Engineer    5
26                             Data Analyst  612
27                Data Analytics Consultant    2
28                  Data Analytics Engineer    6
29                      Data Analytics Lead    2
30                   Data Analytics Manager   22
31                Data Analytics Specialist    2
32                           Data Architect  101
33                     Data DevOps Engineer    1
34                            Data Engineer 1040
35             Data Infrastructure Engineer    6
36                                Data Lead    2
37               Data Management Specialist    1
38                             Data Manager   29
39                             Data Modeler    2
40                  Data Operations Analyst    4
41                 Data Operations Engineer   10
42                     Data Quality Analyst    7
43                  Data Science Consultant   24
44                    Data Science Engineer    5
45                        Data Science Lead    8
46                     Data Science Manager   58
47                   Data Science Tech Lead    1
48                           Data Scientist  840
49                      Data Scientist Lead    2
50                          Data Specialist   14
51                          Data Strategist    2
52                   Deep Learning Engineer    6
53                 Deep Learning Researcher    1
54                 Director of Data Science   11
55                            ETL Developer   10
56                             ETL Engineer    2
57                     Finance Data Analyst    1
58                   Financial Data Analyst    3
59                             Head of Data   10
60                     Head of Data Science    9
61                 Head of Machine Learning    1
62                          Insight Analyst    2
63                        Lead Data Analyst    5
64                       Lead Data Engineer    6
65                      Lead Data Scientist    9
66           Lead Machine Learning Engineer    3
67               Machine Learning Developer    7
68                Machine Learning Engineer  289
69 Machine Learning Infrastructure Engineer   11
70                 Machine Learning Manager    3
71       Machine Learning Research Engineer    4
72              Machine Learning Researcher    6
73               Machine Learning Scientist   26
74       Machine Learning Software Engineer   10
75                  Manager Data Management    1
76                   Marketing Data Analyst    2
77                  Marketing Data Engineer    1
78                              ML Engineer   34
79                           MLOps Engineer    4
80                             NLP Engineer    7
81                       Power BI Developer    1
82                   Principal Data Analyst    2
83                 Principal Data Architect    1
84                  Principal Data Engineer    2
85                 Principal Data Scientist    8
86      Principal Machine Learning Engineer    1
87                     Product Data Analyst    5
88                   Product Data Scientist    1
89                        Research Engineer   37
90                       Research Scientist   82
91                   Software Data Engineer    2
92                       Staff Data Analyst    1
93                     Staff Data Scientist    1

Este mismo data. frame () nos muestra la cantidad de personas que trabajan en cada título profesional.

5.1.2 Análisis tamaño de la empresa

Esta variable es una de las más básicas para analizar, ya que solo nos indica si el tamaño de la empresa es pequeña, mediana o grande. Siguiendo con esto, para conocer cuál es la cantidad de empresas de cada categoría, haremos uso de la frecuencia, que nos arroja los siguientes valores:

  • L: 454

  • M: 3153

  • S: 148

Como vemos, el mayor número de empresas son medianas y la categoría de empresa con menor número son las pequeñas. De igual forma, podemos ver estos datos a través de porcentajes para ver la proporción de cada categoría:

  • L: 12%

  • M: 84%

  • S: 4%.

Con esto, nos daremos cuenta de que tanto la mediana como la moda son las compañías de tamaño M o medianas, y finalmente se visualizan los datos en forma de gráfico a través de un gráfico de barras Figura 4.

Figura 4: Análisis sobre el Tamaño de la empresa

5.1.3 Análisis del año de trabajo

Ahora realizaremos el análisis de la variable que corresponde a los años, donde se muestra el número de empleo de cada año correspondiente, lo cual es de suma importancia debido a que se mostrará la diferencia de empleo de cada año, donde también podemos identificar cuál fue el año con mayor nivel de empleo y si esto tiene una por los años anteriores, empezando con la mediana de esta variable:

Mediana es: Año 2022

Pero es un análisis algo lógico ¿o no?, ya que luego vamos a identificar si este año tiene relación con la cantidad de trabajo y su distribución a través de los cuantiles, más específicamente los siguientes:

  • 25: 2022

  • 50: 2022

  • 75: 2023

Con esto, podemos ver que menos del cincuenta por ciento de los empleos se encuentran en los años 2021 y 2022, mientras tanto, más del 75% de los empleos se encuentran en el año 2023, notando que fue el año con mayores índices de empleo para los analistas de datos.

Para confirmar lo anterior, lo compararemos con dos gráficas que nos ayudarán a visualizar la posición de los años de empleo con mejores índices, como es el boxplot y el histograma Figura 6.

Figura 5: Años de trabajo (empleo)
Figura 6: Años de trabajo (empleo)

En el caso del boxplot, podemos visualizar que este se encuentra en el lado derecho, principalmente a inicios del año 2022 y el año 2023, identificando un mínimo en el año 2020 y sin contener un máximo, concordando con los cuantiles. Finalmente, el histograma nos muestra la distribución de la frecuencia de los empleos a lo largo de los años.

5.1.4 Análisis del salario

Figura 7: Salario

Figura 7 Iniciando con el análisis, es a través del gráfico boxplot, ya que representa muy bien la distribución de los datos, que en este caso se encuentran a la izquierda del gráfico o la caja del boxplot. Además, se identifica la gran variedad de datos atípicos al lado derecho, donde vemos que hay un grupo de personas que ganan más que la media de los trabajadores. Este valor se puede obtener a través de la moda o la mediana, donde los datos son los siguientes:

  • Moda = 135000

  • Mediana = 137578.4.

Vemos que ambos valores no están tan alejados entre sí, guardando cierta concordancia. Con esto, la diferencia de salario de la persona que gana más y los valores antes encontrados tiene una diferencia de entre 200000 Euros.

Agregando, podemos hacer uso de los deciles para identificar cómo se distribuyen los datos. En este caso, solo sacamos el 10% y el 90%, que corresponde a los siguientes valores:

  • 10%: 59317. Menos del 10% gana menos de 59317 Euros al año.

  • 90%: 219000. Apenas un 10% gana 219000 Euros o más al año.

Con lo analizado con el boxplot, encontramos valores atípicos que generan una dispersión de los datos con la mediana o media, que es el siguiente dato:

Dispersión: 63055.63.

También podemos identificar esto de una mejor forma con el coeficiente de variación, que nos marca 45.83517%, lo que significa que hay una gran variabilidad en los datos en relación con la media.

Finalmente, un gráfico de densidad Figura 8 nos muestra que realmente los salarios se encuentran al lado izquierdo de la gráfica y su densidad corresponde a la media y la mediana.

Figura 8: Densidad

5.1.5 Análisis de relación remota

Esta variable nos habla de si los trabajos se han venido haciendo en modalidad presencial, semipresencial o virtual. Para conocer la cantidad de trabajos que contiene cada modalidad, se hará uso de la frecuencia, que arrojará los siguientes valores:

  • ‘0’: 1923,

  • ‘50’: 189,

  • ‘100’: 1643.

Con estos valores, podemos identificar que la mayoría de los trabajos se realizan en modalidad presencial o remota, y una muy poca cantidad trabaja en modalidad semipresencial, siendo apenas un 5% de todos los trabajos, como se muestra a continuación:

  • ‘0’: 51%,

  • ‘50’: 5%,

  • ‘100’: 44%.

Otro dato que nos puede ser de utilidad es la desviación estándar, para identificar si los datos están muy alejados de la mediana o las medidas de centralidad. En este caso, nos arroja lo siguiente:

Desviación estándar: 45.58905%

Este valor nos indica que no hay una gran variabilidad o dispersión y que los datos están cerca de la media, que en este caso tiene un valor de:

Mediana: 46.27164%

Siguiendo con el análisis de variabilidad de esta variable, tenemos el coeficiente de variación representado en porcentaje, que nos arroja:

Variabilidad: 1.50083%.

Con esto, concluimos finalmente que la variabilidad es pequeña en relación con la media. Finalmente, se mostrará el gráfico Figura 10 para que haya una mejor visualización de los datos.

Figura 9: Densidad
Figura 10: Densidad

5.2 Análisis multivariado

5.2.1 Análisis Bivariado

Se utiliza la técnica de “Análisis Bivariado” como una de las principales estrategias para el análisis de los datos y el desarrollo de las preguntas propuestas, dentro de este análisis exploramos las 3 preguntas, buscando relación y correlación entre sus variables; aparte utilizamos técnicas multivariadas para tener una mayor compresión y una estructura mas completa dentro de los datos y variables que estamos desarrollando.

  1. Seleccionamos las variables de cada pregunta, estas variables son quienes nos darán forma al gráfico y quienes nos darán una mayor información dentro del análisis y respuesta a la pregunta.

  2. Se describen las variables, contamos con variables cuantitativas y cualitativas y dentro del análisis Bivariado lo definimos de la siguiente manera, 2 análisis “Cuantitativa vs Cualitativa”, y una “Cuantitativa vs Cuantitativa”. Las variables acá utilizadas para el desarrollo tienen tienen un nivel de medición el cual es “Cuantitativa discreta, Cuantitativa continua, Cualitativa nominal y Cualitativa ordinal”.

  3. Se utilizan gráficos para una compresión mas detallada de los datos y sus variables, que nos ayuden a entender mas la pregunta y llegar a una respuesta más acertada, estos gráficos fueron: “Grafico de dispersión, Histograma, Cajas y bigotes, media, mediana, moda, rango y desviación estándar”.

  4. Realizamos pruebas de hipótesis involucrando más variables para obtener mayor argumento y definir cuales son los mejores resultados que nos den un mayor acercamiento a la respuesta.

  5. Se realiza análisis de correlación entre las variables utilizando “Coeficiente de correlación de Pearson ®”.

  6. Por último, se realizó la interpretación de cada dato respecto a su pregunta y se realizó la respectiva respuesta.

Todo esto acá expresado, es una breve introducción a la demostración del desarrollo de cada pregunta, a continuación, mostraremos cada pregunta y su respuesta, en donde se utilizó el análisis Bivariado.

  1. ¿En una empresa quieren saber cuánto le deben de pagar a un trabajador con cierto nivel de experiencia en el mercado para esto toman la relación que hay entre el nivel de experiencia de cada persona y cuál fue su salario en los diferentes años? ¿Qué analizas de esto? (nivel y salario)

La grafica Figura 11 presenta el del Nivel de Experiencia Y salario de las variables a analizar para obtener resultados en la solución de la pregunta 1. De la figura se observa el aumento y disminución del Salario que va desde los o pesos hasta los 400.000.000 respecto a los distintos niveles de experiencias que hay dentro de la compañía, ademas podemos caracterizar este tipo de análisis como “Cuantitativa vs Cualitativa”.

$EN
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   5409   40000   70000   78546  110009  300000 

$EX
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  15000  145000  196000  194931  239000  416000 

$MI
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   5132   66837  100000  104526  135000  450000 

$SE
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   8000  115000  146000  153051  185900  423834 
Figura 11: Cuantitativa vs Cualitativa
  1. Cierta organización cree que la relación remota que hay en los empleos tienen que ver con el tamaño de la empresa ¿Falso o Verdadero? (tamaño y relación remota)

La figura Figura 12 presenta la relación que hay entre el tamaño de la compañia y su relación remota, en donde vemos los distintos tamaños como lo es “S pequeña, M mediana, L grande” y su relación remota definida en “100 hay relación remota, 50 relación remota y no relacion remota, 0 no relación remota”, ademas podemos caracterizar este tipo de análisis como “Cuantitativa vs Cualitativa”.

$L
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00    0.00   50.00   60.57  100.00  100.00 

$M
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00    0.00    0.00   42.99  100.00  100.00 

$S
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    0.0    50.0   100.0    72.3   100.0   100.0 
Figura 12: Cuantitativa vs Cualitativa
  1. Se quiere saber si las personas que trabajaron en ciertos años (2023) ganan más que las que trabajaron en otro año (2020) ¿es demasiada la diferencia? ¿y por qué? (salario y año)

La figura Figura 13 presenta la relación que hay entre el año de experiencia y el salario que se ha difinido durante los distintos años en que la empresa ha existido, podemos ver una relación entre estos dos, ademas podemos caraterizar este tipo de analisis como “Cuantitativa vs Cuantitativa”

Figura 13: Cuantitativa vs Cuantitativa

5.2.2 Análisis Multivariado

Se utiliza la técnica de “Análisis Multivariado como una de las principales estrategias para el análisis de datos, utilizada para examinar las relaciones que tienen nuestras variables, poniendo en práctica la formula y experimentando, agregando variables, y así poder examinar más afondo sus relaciones y poder llegar a una respuesta más rápida y certera.

  1. Seleccionamos las variables a utilizar, teniendo en cuenta que estas deben contar con una relación para obtener datos mas concretos y no perdernos en el intento.

  2. Se definen las variables dentro de un plano en donde tenemos “X = Variable cualitativa, Y = Variable cuantitativa y Fill = Una variable cualitativa determinada sin cambios en su variabilidad”.

  3. Se realizan pruebas entre variables cambiando el “Fill” para obtener mayor acercamiento a los datos y observar sus diferentes formas y anomalías.

  4. Se realiza la interpretación de los resultados y se desarrolla la respuesta a la pregunta.

Todo esto acá expresado, es una breve introducción a la demostración del desarrollo de cada pregunta, a continuación, mostraremos cada pregunta y su respuesta, en donde se utilizó el análisis Multivariado.

  1. ¿En una empresa quieren saber cuánto le deben de pagar a un trabajador con cierto nivel de experiencia en el mercado para esto toman la relación que hay entre el nivel de experiencia de cada persona y cuál fue su salario en los diferentes años? ¿Qué analizas de esto? (nivel y salario)

La grafica Figura 14 presenta el del Nivel de Experiencia Y salario y tipo de empleo de las variables a analizar, agregando una variable más para obtener resultados en la solución de la pregunta 1. De la figura se observa el aumento y disminución del Salario que va desde los o pesos hasta los 400.000.000 respecto a los distintos niveles de experiencias que hay dentro de la compañía y como el tipo de empleo genera un mayor análisis en esta gráfica.

Figura 14
  1. Cierta organización cree que la relación remota que hay en los empleos tienen que ver con el tamaño de la empresa ¿Falso o Verdadero? (tamaño y relación remota)

La figura Figura 15 presenta la relación que hay entre el tamaño de la compañia y su relación remota, ademas agregamos tipo de empleo para ver la variabilidad, en donde vemos los distintos tamaños como lo es “S pequeña, M mediana, L grande” y su relación remota definida en “100 hay relación remota, 50 relación remota y no relacion remota, 0 no relación remota”.

Figura 15

6 Discusión

  1. ¿En una empresa quieren saber cuánto le deben de pagar a un trabajador con cierto nivel de experiencia en el mercado para esto toman la relación que hay entre el nivel de experiencia de cada persona y cuál fue su salario en los diferentes años? ¿Qué analizas de esto? (nivel y salario) Desarrollando un análisis bivariado, podemos concluir lo siguiente. El salario promedio para cada nivel de experiencia se divide de la siguiente manera, ordenando de mayor a menor, los EX (ESPECIALISTA), ganan 2000000000 millones, los SE (SENIOR) 1500000000, los MI (JUNIOR) ganan 100000000 y por último los EN (INGENIEROS) ganan 700000000 concluyendo que los mejor pagados en relación experiencia -salario son los EX ya que el salario se encuentra bien posicionado y competitivo, aunque no se necesite la misma experiencia que sus grados superiores (SE Y MI). Dentro del gráfico se ve una variación a la cual se le realiza un análisis multivariado teniendo en cuenta el nivel de experiencia, salario y tipo de empleo. En esta variación se evidencia que MI (JUNIOR) tienen una mayor ganancia dentro del tipo de empleo FT (FULL TIME) mientras que en los otros tipos de empleo PT, CT, FL no cuentan con muy buena ganancia, de ahí le sigue EX (ESPECIALISTA) en FT, MI (JUNIOR) EN (INGENIERO) en FT, las demás no tienen mayores ingresos y podemos evidenciar que hay unos tipos de empleo que no entran dentro de los distintos tipos de nivel de experiencia.

  2. Cierta organización cree que la relación remota que hay en los empleos tienen que ver con el tamaño de la empresa ¿Falso o Verdadero? (tamaño y relación remota)

VERDADERO Realizando un análisis Bivariado, definimos que los tres tamaños que tiene la empresa tienen mucho que ver con su relación remota, es más, de acuerdo al tamaño de la empresa se define la relación remota que se va a tener, definimos los 3 tamaños los cuales son S (SMALL), M (MEDIUM), L (LARGE), donde SMALL si es 100% relación remota, MEDIUM es 0% relación remota, Y LARGE es 50% relación remota y 50% no relación remota.

Aparte se desarrolló un análisis multivariado en donde pusimos a prueba otras variables y solo evidenciamos una correlación con la variable de tipo de empleo, en donde se ve que el tipo de empleo cambia la variabilidad dentro de la relación remota en la empresa, así como podemos ver como tipos de empleo no se ajustan a la relación tamaño y relación remota, podemos ver una variante en este aspecto.

  1. Se quiere saber si las personas que trabajaron en ciertos años (2023) ganan más que las que trabajaron en otro año (2020) ¿es demasiada la diferencia? ¿y por qué? (salario y año)

Desarrollando una única investigación por el análisis bivariado evidenciamos que se ha notado un cambio en el salario entre los años 2020 al 2023, si se desea hacer el análisis entre dos años, ejemplo 2020 y 2022 evidenciamos un aumento en el salario de aproximadamente un 15% o 20% siendo algo positivo para los empleados y el tipo de empleo; Una conclusión a este análisis puede ser, este aumento en el salario año a año, puede darse de acuerdo al aumento positivo en ganancias que tiene la empresa.

7 Conclusiones

El análisis de datos realizados nos ha proporcionado una visión clara acerca de los objetivos propuestos dentro de este mismo, brindados por la base de datos. Se desarrollaron patrones y tendencias presentados en las variables. Los resultados obtenidos nos han brindado mayor claridad sobre la solución de las preguntas propuestas por los integrantes del grupo. Además, se desarrolló una recopilación y análisis sistemático.

Principales hallazgos:

  • Se identificaron correlaciones significativas entre variables clave.

  • Se detectaron patrones y tendencias en los datos que nos brindaron mayor visibilidad al momento de analizar los gráficos.

El análisis de datos ha demostrado ser una herramienta valiosa para tomar decisiones informadas y mejorar en el desarrollo de gráficos. Los resultados obtenidos han proporcionado una base sólida para guiarnos en futuros proyectos donde se deba implementar el análisis estadístico.

8 Referencias

Allaire, JJ. 2022. «quarto: R Interface to ’Quarto’ Markdown Publishing System». https://CRAN.R-project.org/package=quarto.
Komsta, Lukasz, y Frederick Novomestky. 2022. «moments: Moments, Cumulants, Skewness, Kurtosis and Related Tests». https://CRAN.R-project.org/package=moments.
Poncet, Paul. 2019. «modeest: Mode Estimation». https://CRAN.R-project.org/package=modeest.
R Core Team. 2023. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.
RStudio Team. 2020. RStudio: Integrated Development Environment for R. Boston, MA: RStudio, PBC. http://www.rstudio.com/.
Sievert, Carson. 2020. «Interactive Web-Based Data Visualization with R, plotly, and shiny». https://plotly-r.com.
Wickham, Hadley. 2016. «ggplot2: Elegant Graphics for Data Analysis». https://ggplot2.tidyverse.org.
Wickham, Hadley, Romain François, Lionel Henry, Kirill Müller, y Davis Vaughan. 2023. «dplyr: A Grammar of Data Manipulation». https://CRAN.R-project.org/package=dplyr.