En esta sección se evaluó la estructura y calidad del dataset Salaries, con el propósito de garantizar que los análisis posteriores sean confiables. Se inicia con la revisión de las variables contenidas en el dataset y su tipo, las cuales se presentan en la Tabla 1. Las variables describen las características académicas y salariales de un grupo de profesores; se identifican dos tipos: cualitativas (character) y cuantitativas (numeric). Las variables rank, discipline y sex pertenecen al primer tipo, permitiendo comparar grupos dentro de la institución, mientras que yrs.since.phd y yrs.service son numéricas, reflejando los años de experiencia profesional y la antigüedad en la institución, respectivamente. Por último, salary constituye un indicador central para el análisis, ya que permite evaluar las diferencias entre las distintas categorías.
| Variable | Tipo |
|---|---|
| rank | character |
| discipline | character |
| yrs.since.phd | numeric |
| yrs.service | numeric |
| sex | character |
| salary | numeric |
La Tabla 2 muestra el número de valores faltantes por cada variable del dataset, como se puede observar, ninguna de las variables presenta datos ausentes, lo que indica que la información está completa.
| Valores_faltantes | |
|---|---|
| rank | 0 |
| discipline | 0 |
| yrs.since.phd | 0 |
| yrs.service | 0 |
| sex | 0 |
| salary | 0 |
En cuanto a las variables cualitativas, se identificaron los valores únicos para cada una de ellas, los cuales se presentan en la Tabla 3. Estos valores no evidencian errores de escritura ni inconsistencias, y corresponden a tres categorías: una ordinal, para el rango académico (rank) y dos nominales, para la disciplina (discipline) y el sexo (sex) de la población estudiada.
| Variable | Valores_uni | |
|---|---|---|
| 1 | rank | Prof,AsstProf,AssocProf |
| 2 | discipline | B,A |
| 3 | sex | Male,Female |
Las variables cuantitativas (salary, yrs.since.phd y yrs.service) fueron analizadas a través de boxplots, que permiten visualizar la distribución, tendencia central y la presencia de posibles valores atípicos, como se observa en las gráficas, el salario muestra una distribución con algunos valores extremos elevados, mientras que los años desde la obtención del PhD y los años de servicio presentan rangos amplios pero con menos atípicos evidentes.
Finalmente, en la Tabla 4 se listan los posibles outliers detectados para las variables salary y yrs.service. Aunque estos valores pueden parecer extremos, es importante considerar que podrían estar relacionados con el desarrollo profesional y la trayectoria individual de cada profesor, por lo que no necesariamente deben ser eliminados sin un análisis más detallado.
| var_num | outliers | |
|---|---|---|
| 1 | Salary | 231545,204000,205500 |
| 2 | yrs.since.phd | 60 |
Según las medidas estadísticas de tendencia central y dispersión registradas en la Tabla 5, el salario promedio es de aproximadamente 113,706 unidades monetarias, mientras que la mediana es de 107,300, lo que indica que la distribución del salario presenta una asimetría hacia valores mayores. La dispersión se refleja en una desviación estándar de 30,289 y un coeficiente de variación del 26.64%, señalando una variabilidad moderada en los salarios. El rango intercuartílico (IQR) de 43,185 complementa esta información, mostrando la amplitud donde se concentra la mitad central de los datos. Los valores mínimos y máximos son 57,800 y 231,545 respectivamente, lo que evidencia la existencia de salarios tanto bajos como altos dentro del grupo de profesores estudiado.
| Medidas_estadisticas | Valor |
|---|---|
| Media | 113706.46 |
| Mediana | 107300.00 |
| Desviacion estandar | 30289.04 |
| Coef variacion (%) | 26.64 |
| Minimo | 57800.00 |
| Maximo | 231545.00 |
| IQR | 43185.00 |
El histograma de la variable salario muestra que la distribución del salario presenta una forma unimodal y ligeramente asimétrica hacia la derecha, la mayor concentración de observaciones se encuentra aproximadamente entre 80,000 y 120,000, lo que coincide con la cercanía entre la media y la mediana calculadas en el apartado anterior, la asimetría postiva evidencia una cola más extendida hacia los valores altos, lo que indica la presencia de algunos salarios considerablemente superiores al promedio, lo cual sugiere que existen profesores con remuneraciones significativamente mayores, lo que incrementa la dispersión total de la variable.
Con base en las medidas estadísticas y la asimetría hacia valores altos sugiere la existencia de diferencias individuales en el salario. A partir de estos resultados, resulta pertinente profundizar en el análisis mediante una comparación por grupos con el fin de evaluar cómo varía el salario según características como el rango académico, la disciplina y el sexo.
La relación entre el salario y el rango académico de los profesores muestran diferencias entre categorías: los profesores con rango de Prof presentan los salarios promedio y medianos más altos, seguidos por los AssocProf, mientras que los AsstProf registran los valores más bajos. Además, se observa una mayor dispersión en el grupo de profesores titulares (Prof), lo que sugiere una mayor variabilidad salarial dentro de este rango. En conjunto, la evidencia indica que el salario tiende a incrementarse conforme aumenta el rango académico, lo cual es consistente con la progresión profesional dentro de la institución.
Al comparar el salario por disciplina en la figura, se observan diferencias en la distribución entre los grupos A y B. En términos generales, la disciplina B presenta una mediana superior a la disciplina A, lo que sugiere mayores niveles salariales en este grupo, en ambos boxplots se identifican valores atípicos en la parte superior de la distribución, es decir, salarios considerablemente más altos que el resto de las observaciones. Estos valores extremos podrían estar asociados a profesores con mayor trayectoria, reconocimiento o responsabilidades adicionales dentro de la institución.
Dentro de cada rango académico se observa una marcada predominancia masculina, evidenciando que los hombres son mayoría tanto en los niveles iniciales como en los intermedios y, especialmente, en el rango de mayor jerarquía. Esta distribución de género muestra que la participación femenina disminuye a medida que se avanza en la carrera académico - profesional, teniendo en cuenta la proporción que representan las profesoras en cada uno de los rangos.
Adicionalmente, al comparar la distribución del salario por sexo dentro de cada rango académico se observa que en los niveles de profesores asistentes y asociados las distribuciones de salario entre hombres y mujeres son relativamente próximas, aunque con una ligera ventaja para los hombres, mientras que en la categoría de profesores titulares la variabilidad salarial aumenta y se evidencia una brecha más amplia entre ambos sexos. No obstante, las medias salariales de las mujeres se sitúan relativamente cerca de las de los hombres, especialmente en los niveles de asistentes y asociados, lo que indica que la brecha en el promedio dentro de cada rango no es muy amplia. Estas diferencias sugieren que, a medida que se asciende en la jerarquía académica, el salario de los hombres tiende a situarse en niveles más altos y con mayor dispersión en comparación con el de las mujeres.
Continuando con el análisis, para identificar si el salario está relacionado con los años desde la obtención del PhD (yrs.since.phd) o con los años de servicio (yrs.service), se construyen gráficos de dispersión.
En ambos casos se observa una relación positiva, ya que en promedio el salario tiende a aumentar a medida que crecen los años de experiencia. No obstante, la alta dispersión de los datos evidencia que existen salarios tanto altos como bajos a lo largo de casi todos los rangos de años, lo que indica que la antigüedad o experiencia no es un factor único ni determinante en la definición del salario.
Esta observación se refuerza con los coeficientes de correlación: la correlación entre el salario y los años desde PhD es de 0.42, mientras que la correlación entre el salario y los años de servicio es de 0.33. Aunque ambas relaciones son positivas, su magnitud es moderada, siendo más representativa la relación con los años desde PhD.
Siguiendo esta línea de análisis, se realiza el mismo ejercicio discriminando por rango académico y disciplina. Los resultados muestran que el rango académico es el factor que presenta una mayor diferenciación en los niveles salariales.
Al comparar el salario con los años de servicio y con los años desde la obtención del PhD, se observa que los AsstProf presentan salarios más bajos y una menor dispersión, además de niveles de experiencia más reducidos, lo cual es coherente con su posición en la etapa inicial de la carrera académica. En el caso de los AssocProf, los salarios se ubican en niveles intermedios y muestran una mayor dispersión, reflejando una etapa de transición dentro del escalafón académico. Finalmente, los Prof exhiben los salarios más altos, junto con la mayor variabilidad y mayores niveles de experiencia, lo que sugiere que, dentro de este rango, intervienen otros factores adicionales en la determinación del salario.
Por otro lado, al analizar la relación entre salario y experiencia discriminando por disciplina, no se observan diferencias claras entre las categorías A y B. En ambos casos se presentan patrones similares y una alta dispersión salarial, lo que indica que, a partir de este análisis exploratorio, la disciplina no parece ser un factor determinante en la definición del salario.
Para iniciar con el análisis para este dataset del COVID, se inicia con la preparación y limpieza de los datos. En la primera parte, se verificó la estructura de los datos y cada uno de los atributos, la intención es determinar que estén con el tipo de dato correcto.
| Variable | Tipo |
|---|---|
| Divipola | character |
| Departamento | character |
| Municipio | character |
| Edad | numeric |
| Sexo | character |
| Fecha | character |
Como se puede observar la columna fecha está en formato carácter, por lo que para convertirla en formato fecha se hace uso de la función AS.DATE, indicando solamente la columna FECHA.
Se verifica que se haya corregido correctamente.
| Variable | Tipo |
|---|---|
| Divipola | character |
| Departamento | character |
| Municipio | character |
| Edad | numeric |
| Sexo | character |
| Fecha | Date |
Posteriormente, el siguiente análisis es determinar si existen valores nulos o faltantes. Para ello tomamos la columna edad como referencia y mediante la función SUM(is.na) se verifica que no hay datos faltantes y también mediante la función Summary se procede a verificar los extremos para detectar si hay valores fuera de rangos.
| Faltantes_Edad | |
|---|---|
| 1 | 0 |
| Medidas_estadisticas | Valor |
|---|---|
| Media | 39.54 |
| Mediana | 37.00 |
| Desviacion estandar | 17.26 |
| Coef variacion (%) | 43.65 |
| Minimo | 1.00 |
| Maximo | 96.00 |
| IQR | 25.00 |
Con esto, se concluye que no hay valores faltantes en la columna edad, y los extremos de las edades se mantienen dentro de los rangos lógicos, con pacientes de 1 año hasta los 96 años. Para complementar este análisis, a continuación se presenta un gráfico Boxplot.
Finalmente, a través de la función NROW se cuentan la cantidad de registros que contiene el DataSet, dando como resultado un total 1500 Registros.
Para analizar el perfil demográfico del DataSet, se procede a tomar la edad como punto de partida, a continuación se presenta un histograma de los datos analizados.
Se tomó como base un rango de edad de 5 años, el gráfico muestra una pequeña asimetría positiva. Visualmente parece que el mayor volumen de pacientes suele concentrarse entre los 25 y 50 años con un pico aproximado en los 35.
Este es un análisis general, sin embargo, si se quiere saber como afecta la categoría SEXO en esta distribución, los datos muestran lo siguiente:
Al estratificar por sexo, observamos una forma unimodal en ambos grupos. Se concentra mayormente en adultos entre 20 y 50 años. Los hombres presentan un mayor pico en los 30, mientras que las mujeres tienen una dispersión ligera en edades medias. Adicionalmente, se procede a calcular el promedio y la mediana de las edades por género.
• ¿Cuál es la edad promedio/mediana por sexo?
| Sexo | Promedio de Edad |
|---|---|
| F | 41.07 |
| M | 37.80 |
| Sexo | Mediana de Edad |
|---|---|
| F | 39.0 |
| M | 35.5 |
Como se puede observar las mujeres presentan una edad promedio mayor que los hombres, una diferencia de 3.7 años aprox. Para ambos sexos la media es mayor que la Mediana, lo cual justifica esa ligera asimetría positiva.
Para el siguiente punto, el análisis está enfocado el ámbito territorial, se busca entender como están distribuidos los registros poblacionalmente por departamento y municipio. A continuación se presenta el TOP 10 de departamentos con más registros reportados.
| Departamento | Número de Registros | |
|---|---|---|
| 5 | BOGOTA | 506 |
| 2 | ANTIOQUIA | 238 |
| 31 | VALLE | 122 |
| 15 | CUNDINAMARCA | 101 |
| 28 | SANTANDER | 72 |
| 23 | NORTE SANTANDER | 41 |
| 7 | BOYACA | 33 |
| 14 | CORDOBA | 33 |
| 19 | HUILA | 32 |
| 30 | TOLIMA | 32 |
Los resultados indican que Bogotá D.C. y Antioquia lideran la tabla con más de 700 registros entre ambos, muy por encima de los demás.
Detallamos este análisis enfocado en nuestro departamento, el VALLE DEL CAUCA, con el fin de determinar cuales fueron los 10 municipios con más registros y se obtuvieron los siguientes resultados:
| Municipio | Número de Registros | |
|---|---|---|
| 4 | CALI | 84 |
| 12 | TULUA | 7 |
| 6 | CARTAGO | 5 |
| 10 | PALMIRA | 5 |
| 7 | EL CERRITO | 4 |
| 2 | BUGA | 3 |
| 14 | YUMBO | 3 |
| 1 | BUENAVENTURA | 2 |
| 5 | CANDELARIA | 2 |
| 8 | FLORIDA | 2 |
Como era de esperar la capital CALI es el municipio que contiene la mayor concentración de pacientes superando considerablemente los demás municipios.
Finalmente, el último análisis se hará enfocado con la evolución en el tiempo, el período considerado del dataSet es de aproximadamente 2 años. Para ello se presenta un gráfico de líneas que representa las fechas y sus respectivos registros.
Para el gráfico anterior el rango de medición es mes a mes. Como se puede observar en los tres primeros trimestres del 2020 se evidencia un crecimiento exponencial de pacientes, posteriormente al último trimestre fluctua en por debajo de los 100 registros. En el segundo año aumenta y decae bruscametnte los 3 primeros meses y luego incrementa considerablemente llegando a su pico mas alto en en JUNIO del 2025 con cerca de 300 registros.
Continuando la línea de análisis pero separando sexo, se evidencia que se mantiene la tendencia para ambos, con crecientes y decaídas similares. Sin embargo, reafirmamos lo que vimos en la distribución de la media y mediana, y es que las mujeres presentan un registro levemente más alto que los hombres.
Acorde con los gráficos, los picos se presentan en los meses de Agosto 2020, Enero 2021, Mayo 2021 y el mayor de todos Junio 2021.