Comprensión del problema de negocio

El enfoque tradicional en las organizaciones con áreas de Recursos Humanos (RR.HH.) suele ser analizar métricas de forma aislada. En el desarrollo de está propuesta buscamos transformar esta visión: utilizamos reducción de la dimensionalidad para identificar patrones de comportamiento complejos que no serían fácil de identificar en análisis descriptivos exploratorios.

Contexto Organizacional y Financiero

En el entorno de las organizaciones actuales, ya sean organizaciones basadas en servicios o de sectores de transformación de productos, el recurso humano calificado representa el activo más valioso y, además, el más variable. Para una organización, la retención de talento trasciende más allá de una métrica de RR.HH. para convertirse en un indicador crítico sobre la sostenibilidad del negocio.

La pérdida inesperada de empleados conlleva costos significativos asociados al reclutamiento, la curva de aprendizaje de los nuevos ingresos y, uno de los factores más crítico es la pérdida de conocimiento debido a procesos no documentados en las organizaciones.

La pregunta central no es simplemente ¿quién se va?, sino ¿existen perfiles ocultos de comportamiento?. Las métricas tradicionales fallan al no detectar, por ejemplo, si la motivación de un empleado joven en ventas es estructuralmente diferente a la de un veterano en investigación.

Nuestra propuesta de valor consiste en pasar de un enfoque reactivo a uno estratégico mediante la reducción de dimensionalidad. Esto nos permitirá visualizar “mapas de empleados” y diseñar estrategias de retención diferenciadas según el perfil de comportamiento de cada empleado.

Objetivos del Análisis

El propósito fundamental de este estudio es resolver este problema de negocio haciendo uso de la reducción de la dimensionalidad para analizar las estructuras subyacentes en la gran cantidad de variables que se pueden obtener para abordar este problema, se busca construir a partir del análisis un serie de estrategias que puedan ser implementadas en la organización, buscamos transformar los datos en decisiones que optimicen los costos de funcionamiento y se asegure la sostenibilidad a largo plazo del negocio.

El objetivo es permitir la transformación de políticas generales a planes de carrera, beneficios e incentivos personalizados, que permitan ir a la raíz de la deserción de los empleados en la organización.

Para lograrlo, articulamos un objetivo complementario:

  • Se hará una reducción de la complejidad de las 35 variables originales reduciéndolas a 2 Componentes Principales que capturen la mayor varianza posible. Posteriormente, aplicaremos técnicas de Clustering sobre este espacio reducido para segmentar a los empleados de manera eficiente.

Comprensión y Preparación de los Datos

El éxito de cualquier modelo predictivo depende de la calidad de los datos. Iniciamos el análisis del conjunto de datos para entender su volumen y complejidad antes de aplicar cualquier transformación.

Estructura del Conjunto de Datos

Contamos con un registro histórico que simula la operación de RR.HH. en IBM, la fuente ha sido tomada de Kagle buscando como “IBM HR Analytics Employee Attrition & Performance”. La estructura original se compone de 1,470 observaciones (empleados) y 35 variables (atributos).

Para facilitar la comprensión, hemos clasificado las variables en tres categorías funcionales, como se muestra en la siguiente tabla resumen de la estructura de datos:

Resumen de la Estructura de Datos Original
Categoría Cantidad Ejemplos
Dimensionalidad 1470 Filas x 35 Columnas N/A
Variables Numéricas 26 Age, DailyRate, MonthlyIncome
Variables Categóricas 9 Attrition, Department, JobRole

Diccionario de Variables

Para asegurar la correcta interpretación de los hallazgos, presentamos la definición de las 35 variables recolectadas. Entender la naturaleza de cada métrica (especialmente las escalas ordinales de satisfacción) es crucial para el modelado posterior.

Diccionario de Datos
Variable Significado Tipo
Age Edad Numérico
Attrition Deserción (Target) Categórico
BusinessTravel Frecuencia Viajes Categórico
DailyRate Tarifa Diaria Numérico
Department Departamento Categórico
DistanceFromHome Distancia al trabajo Numérico
Education Nivel Educativo (1-5) Ordinal
EducationField Campo de Estudio Categórico
EnvironmentSatisfaction Satisfacción Amb. (1-4) Ordinal
Gender Género Categórico
HourlyRate Tarifa por Hora Numérico
JobInvolvement Involucramiento (1-4) Ordinal
JobLevel Nivel Jerárquico (1-5) Ordinal
JobRole Rol / Puesto Categórico
JobSatisfaction Satisfacción Lab. (1-4) Ordinal
Variable Significado Tipo
MaritalStatus Estado Civil Categórico
MonthlyIncome Ingreso Mensual Numérico
NumCompaniesWorked N° Empresas Previas Numérico
OverTime Horas Extra Categórico
PercentSalaryHike % Aumento Salarial Numérico
PerformanceRating Eval. Desempeño (1-4) Ordinal
RelationshipSatisfaction Satisf. Relaciones (1-4) Ordinal
StockOptionLevel Stock Options (0-3) Ordinal
TotalWorkingYears Años Totales Trabajados Numérico
TrainingTimesLastYear Capacitaciones (Año) Numérico
WorkLifeBalance Balance Vida-Trabajo Ordinal
YearsAtCompany Años en la Empresa Numérico
YearsInCurrentRole Años en Rol Actual Numérico
YearsSinceLastPromotion Años desde Promoción Numérico
YearsWithCurrManager Años con Jefe Actual Numérico

Diagnóstico visual

Primero, es fundamental dimensionar la situación actual. El análisis descriptivo nos permite evidenciar el porcentaje global de deserción del 16.1% para comprender la verdadera dinámica de la deserción de empleados en la organización. Si bien el departamento de Investigación y Desarrollo presenta la mayor cantidad de renuncias (133 empleados), su porcentaje de deserción es del 13.8% se mantiene por debajo del promedio de la organización, lo que sugiere que su rotación es natural y proporcional a la cantidad de empleados en el área de investigación y desarrollo.

En el área de ventas encontramos un porcentaje de deserción del 20.6%, esta área presenta la mayor cantidad de empleados que presentan deserción de sus cargos en la organización, evidenciando una alta rotación estructural donde prácticamente uno de cada cinco empleados abandona su puesto. De forma similar, el equipo de Recursos Humanos, aunque pequeño en número, muestra un porcentaje del 19%, lo que podría indicar problemas subyacentes en la cultura organizacional del propio equipo de reclutamiento. En conclusión, la estrategia de retención no debe priorizar donde hay más renuncias (I+D), sino donde proporción de la fuga de empleados es mayor, ya que es allí donde se está perdiendo capital humano a un ritmo poco sostenible para una organización.

Riesgo de Fuga por Área

Primero, procedemos a normalizar los datos por el tamaño poblacional de cada área, la visualización revela que la percepción inicial basada únicamente en la cantidad de renuncias, no se debe a un comportamiento particular del área. El gráfico ver que la deserción de empleados reside en el área de ventas, donde la proporción de deserción se escala hasta un 20.6%. Esta cifra, que supera considerablemente el promedio en la organización, sugiere una proporción de deserción estructural en la fuerza comercial que podría estar comprometiendo directamente la generación de ingresos y las relaciones con los clientes a largo plazo.

Resulta igualmente notorio el comportamiento del área de Recursos Humanos, que con una proporción del 19% se posiciona como la segunda área de mayor riesgo de deserción. Es impportante hacer cambios estructurales en el área, siendo los responsables de genera un clima organizacional y eliminar cualquier inestabilidad y creación de un liderazgo interno o en las propias políticas de bienestar que deberían estar promoviendose.

Factores de Presión y Compensación

La evidencia estadística expone una correlación contundente entre la sobrecarga laboral y la decisión de abandonar la compañía. El gráfico de barras segmentadas demuestra que la realización de horas extra actúa como un multiplicador de riesgo: mientras que la deserción se mantiene en un nivel del 10.4% entre quienes cumplen una jornada estándar, esta cifra se triplica dramáticamente hasta alcanzar el 30.5% para el grupo que hace horas extra. Este hallazgo aísla al “burnout” como una variable determinante de la deserción de empleados.

La curva de distribución de los empleados que renuncian (en rojo) presenta un pico pronunciado y asimétrico hacia la izquierda, indicando una concentración de deserción en los rangos salariales inferiores. A medida que el ingreso mensual aumenta, la curva de deserción se aplana y se separa de la curva del personal que permanece en la organización.

Se evidencia un nivel de agotamiento no compensado, permitiendo ver que el perfil de mayor riesgo no es simplemente el empleado que trabaja mucho, sino aquel que percibe una alta carga laboral combinada con una retribución que considera insuficiente. Por el contrario, los salarios altos parecen actuar como un factor de protección eficaz, amortiguando la intención de renuncia incluso en escenarios de alta exigencia.

En el siguiente gráfico de barras se desglosa la información por área, esto nos permite evidenciar un comportamiento asimétrico para la deserción de empleados, mientras en Investigación y Desarrollo muestra que los empleados ante un aumento en las horas destinadas a sus labores se muestra una relación de 1 a 4 aproximadamente de las personas que no realizan horas extras, en el área de ventas se perfila como el área de mayor deserción debido a su deserción porcentual, su relación de salida es de 1 a 3. Esta dinámica, sugiere que se debe hacer una intervención corporativa para mejorar la la gestión de los tiempos adicionales y su compensación económica para reducir el impacto de la deserción de sus empleados.

Perfil del Empleado: Edad y Antigüedad

Otra de las variables de interés en la edad y la antigüedad de los empleados en la organización, se perfila un patrón de deserción claro asociado a los empleados en una etapa temprana de su carrera profesional. Los diagramas de caja revelan una brecha generacional, la población con una mayor permanencia en la organización son poblaciones con una mediana cercana a los 37 años, mientras que el grupo que sale de la organización es estructuralmente más joven, con una mediana que oscila alrededor de los 32 años. Esto indica que la compañía está logrando retener a sus perfiles senior, pero está fallando sistemáticamente en mantener a la generación de relevo.

Ahora en relación al gráfico de antigüedad, podemos complementar nuestro análisis anterior y refuerza el argumento del nivel de riesgo de renuncia es mayor durante los primeros 2 a 4 años de vinculación con la organización. El gráfico sugiere que una vez que un empleado supera la barrera de los 5 años, la probabilidad de que se marche disminuye exponencialmente. En conclusión, la organización presenta un problema de retención de sus empleados que se encuentran en la curva de aprendizaje: se está invirtiendo en reclutar y capacitar talento joven que abandona la empresa justo cuando empieza a ser productivo, rompiendo así la cadena de sucesión a largo plazo.

Análisis de Correlaciones

A continuación, analizamos la estructura de relaciones entre variables utilizando una matriz de correlación con agrupamiento jerárquico. Esto nos permite detectar visualmente bloques de variables redundantes que justifican la reducción de dimensionalidad posterior.

Basándonos en la tipología de variables definida en el diccionario de datos, procedemos a segregar la información. El análisis de correlación de Pearson requiere variables cuantitativas, por lo que aplicamos las siguientes reglas de negocio al código:

  1. Variables Categóricas Nominales: Se excluyen variables de texto como Department, JobRole o EducationField, ya que no poseen un orden matemático intrínseco.
  2. Variables Ordinales y Numéricas: Se conservan todas las escalas (1-4, 1-5) y métricas financieras/temporales.
  3. Transformación de Binarias: Las variables Attrition (Objetivo) y OverTime, originalmente categóricas, son transformadas a escala numérica (1/0) para medir su impacto en la correlación.

A través de la observación de la matriz de correlaciones nos permite identificar la dimensión principal es el salario, donde el ingreso mensual y el nivel laboral exhiben una alta correlación que confirma la existencia de una reiteración de lo que ocurre en los datos, validando así la importancia de aplicar técnicas de reducción de dimensionalidad para analizar de una forma integral la varianza compartida en índices latentes; simultáneamente, se descarta la existencia de una única variable lineal que determine la deserción del empleado, evidenciando en su lugar un patrón de correlaciones inversas donde la edad y la solidez en ingresos actúan como factores protectores sinérgicos, lo que permite inferir que el riesgo de fuga es una función compleja asociada a la etapa temprana de la carrera profesional que requiere de una segmentación multivariada para ser gestionada eficazmente

Análisis de Variabilidad y Detección de Outliers

Una vez confirmada la integridad de los datos, procedemos a inspeccionar la distribución de las variables numéricas clave. Utilizamos diagramas de caja para identificar visualmente a los individuos que se desvían significativamente del comportamiento promedio de la organización.

La inspección de los diagramas de caja revela una notable consistencia en el conjunto de datos. A diferencia de escenarios caracterizados por ruido estocástico o errores de captura, aquí observamos una baja densidad de valores atípicos; la gran mayoría de las observaciones se mantienen confinadas dentro de los rangos intercuartílicos esperados, lo que denota una política de compensación y contratación estandarizada y coherente. Los escasos puntos aislados en el extremo superior de las variables financieras y temporales no constituyen anomalías, sino que representan la cola natural de la jerarquía corporativa. Esta homogeneidad distributiva, valida la idoneidad de aplicar técnicas sensibles a la varianza como el PCA sin riesgo de que un volumen masivo de outliers distorsione la construcción de los índices sintéticos.

Diagnóstico de Escalas y Varianza

Uno de los requisitos fundamentales para la Reducción de Dimensionalidad (PCA) es la homogeneidad en la escala de las variables. Un problema común en este tipo de conjuntos de datos es la disparidad de magnitudes: tenemos variables financieras como MonthlyIncome (que oscila en miles de dólares) conviviendo con variables categóricas ordinales como JobSatisfaction (escala 1-4).

Si aplicáramos el modelo sin una estandarización previa, las variables con mayor varianza matemática (Ingresos) dominarían artificialmente la construcción de los componentes principales, opacando a variables críticas pero de menor magnitud (como la satisfacción o el equilibrio vida-trabajo).

El siguiente gráfico confirma esta disparidad extrema y justifica técnicamente la necesidad de aplicar el escalamiento dentro de nuestro modelado:

Modelación

Reducción de Dimensión: Análisis de Componentes Principales:

El primer modelo de reducción de la dimensionalidad nos muestra una baja explicación de la varianza del 26.1% en las dos primeras componentes usando todas las variables aptas, como se muestra a continuación:

En el conjunto de datos de IBM, variables como DailyRate, HourlyRate y MonthlyRate suelen ser ruido presentan una baja correlación. Es por ello que hacemos una selección de características para escoger que variables representan mejor nuestro conjunto de datos. Vamos a usar la métrica Cos2 del PCA. Si una variable tiene un Cos2 bajo en las componentes 1 y 2, significa que el modelo no la está representando bien. Eliminándola, el modelo se concentra en lo importante y la varianza explicada sube.

Optimización del Modelo: Selección de Variables

El análisis inicial del PCA mostró una dispersión de la varianza debido a la inclusión de variables con bajo aporte estructural. Para construir un índice sintético robusto, eliminamos las variables con baja calidad de representación (Cos2) en los dos primeros ejes y aquellas identificadas previamente como redundantes o aleatorias como las tarifas diarias/mensuales que no correlacionan con el salario real.

Reduccón de dimensionalidad: Análisis de Componentes Principales usando selección de variables

Al ejecutar el modelo sobre el conjunto de datos depurado, logramos concentrar la información.

La evaluación comparativa de la varianza valida empíricamente la estrategia de optimización dimensional, evidenciando un salto en la densidad de información del modelo; al depurar el conjunto de datos de métricas con baja carga factorial y alto ruido estocástico, se logra que los componentes principales absorban una proporción mayoritaria de la estructura subyacente del negocio desde las primeras dimensiones, transformando de meras abstracciones estadísticas en vectores latentes de alta fidelidad que capturan la esencia pura de las características que mejor representan los datos, garantizando así la robustez matemática necesaria para una segmentación estratégica confiable.

Análisis de Estructura Latente: Reducción de Dimensionalidad en Métricas de Talento

El gráfico nos muestra la transformación del espacio original de múltiples variables correlacionadas en dos dimensiones ortogonales independientes entre sí que explican la mayor parte de la varianza en los datos de los empleados.

La primera componente principal (PC1) se enmarca como la componente que describe la “Madurez Corporativa Integral”; actúa como una medida de magnitud global. Se destacá JobLevel (0.48), MonthlyIncome (0.47) y TotalWorkingYears (0.47), este eje captura el capital de carrera acumulado. No distingue si el empleado es valioso por su rol actual o por su historia pasada, simplemente mide el “peso” del empleado en la organización. Un puntaje alto en PC1 define a un perfil senior consolidado: alta compensación, alta jerarquía y vasta experiencia profesional.

La segunda componente principal (PC2) presenta la tensión entre arraigo operativo y estatus jerárquico. Esta componente es bipolar, revelando una tensión estructural en los datos que el PC1 no logra capturar, separa la antigüedad específica de la antigüedad general. El factor de estancamiento/especialización representa la inercia en el puesto; dominado contundentemente por YearsInCurrentRole (0.67) y YearsAtCompany (0.48), un puntaje alto sugiere un empleado que se ha vuelto un “mueble” en su posición actual: no asciende y su rol es estático.

Por otro lado, respecto al factor de movilidad ascendente en este eje, las variables negativas actúan como contrapeso, específicamente MonthlyIncome (-0.40) y JobLevel (-0.38). Indican que, a igualdad de condiciones, quienes tienen mayor nivel y salario tienden a no tener tanta antigüedad estancada en el mismo rol, probablemente porque ascienden o rotan más, esto representa la dinámmica de un plan carrera.

Modelo Matemático de las Componentes Principales

Las primeras dos componentes principales se expresan como una combinación lineal de las variables originales estandarizadas (\(Z\)). Basado en las contribuciones factoriales obtenidas, las ecuaciones son:

\[ \begin{aligned} PC1 &= 0.47X_{TotalAnos} + 0.48X_{Nivel} + 0.47X_{Ingreso} \\ &\quad + 0.43X_{AnosEmpresa} + 0.36X_{RolActual} \\ \\ PC2 &= -0.16X_{TotalAnos} - 0.38X_{Nivel} - 0.40X_{Ingreso} \\ &\quad + 0.48X_{AnosEmpresa} + 0.67X_{RolActual} \end{aligned} \]

Ranking Global Ponderado (Índice Sintético)

A continuación, se calcula el puntaje global para cada departamento utilizando la fórmula de promedio ponderado por la varianza explicada. Esto permite generar un ranking único que combina la contribución de servicios con la contribución de producción minera/agrícola, dando mayor peso a la dimensión más representativa.

\[Score_i = \frac{Var_{PC1} \cdot PC1_i + Var_{PC2} \cdot PC2_i}{Var_{PC1} + Var_{PC2}}\]

La segmentación del Ranking Global Ponderado permite ver a los activos de mayor valoración estructural para la organización. El “Top 15” representa la cúpula del capital humano: perfiles que combinan la máxima madurez corporativa (PC1) con una alta permanencia, dominada mayoritariamente por roles de dirección caracterizados por altos ingresos, máximo nivel jerárquico y una vasta trayectoria profesional.

Sin embargo, en este estrato de cargos directivos, el modelo matemático revela una patología organizacional crítica vinculada a la nueva definición vectorial del Componente 2. La variable YearsInCurrentRole domina el segundo componente con un peso determinante de 0.67. Esto reorienta nuestra comprensión de las renuncias observadas (IDs 825, 1038 y 165): Los tres directivos que abandonaron la organización comparten una característica vectorial idéntica: un PC2 positivo y elevado (> 1.14). Esto indica una saturación funcional aguda, un perfil senior que permaneció un tiempo excesivo ejerciendo la misma función operativa sin renovación de responsabilidades, lo que actuó como el detonante estructural de su salida.

Dado que el PC2 carga la permanencia en el rol y negativamente en el ingreso, el modelo sugiere que el ID 259 está experimentando un “Agotamiento de Ciclo”. Estadísticamente, se encuentra en la zona de mayor probabilidad de fuga por estancamiento, independientemente de su compensación actual.

La evidencia sugiere que la organización posee una sólida capacidad para atraer y desarrollar líderes (PC1 alto), pero falla sistémicamente en la gestión de su movilidad interna. El Índice de Inercia (PC2) actúa como un predictor silencioso de deserción, cuando un talento Top supera el umbral de 1.0 en este indicador, el riesgo de renuncia se dispara por saturación del rol. Se recomienda una intervención inmediata en el plan de carrera del ID 259 para mitigar el riesgo de perder al activo principal de la organización.

Top 20 Empleados: Ranking Global Ponderado y Estado de Retención
ID Empleado Cargo Estado PC 1 PC 2 Score
259 Manager 🟢 ACTIVO 7.24 1.93 6.06
825 Research Director 🔴 SE FUE 7.08 1.16 5.77
1038 Manager 🔴 SE FUE 6.69 1.15 5.46
374 Manager 🟢 ACTIVO 6.73 0.71 5.40
254 Research Director 🟢 ACTIVO 6.29 0.74 5.07
131 Sales Executive 🟢 ACTIVO 5.91 1.54 4.94
1578 Manager 🟢 ACTIVO 6.32 -0.05 4.91
165 Healthcare Representative 🔴 SE FUE 5.45 2.38 4.77
638 Research Director 🟢 ACTIVO 5.96 0.22 4.69
1282 Manager 🟢 ACTIVO 5.95 0.22 4.68
329 Manager 🟢 ACTIVO 5.98 0.00 4.66
162 Research Director 🟢 ACTIVO 5.60 1.19 4.63
319 Manager 🟢 ACTIVO 5.55 1.21 4.59
549 Manager 🟢 ACTIVO 5.84 -0.17 4.52
1204 Manager 🟢 ACTIVO 5.34 1.55 4.50
58 Research Director 🔴 SE FUE 5.44 0.79 4.41
1035 Research Director 🟢 ACTIVO 5.39 0.90 4.40
1278 Healthcare Representative 🟢 ACTIVO 5.25 1.16 4.35
1352 Manager 🟢 ACTIVO 5.24 1.14 4.33
1900 Manager 🟢 ACTIVO 5.03 1.68 4.29

El siguiente gráfico materializa la interacción entre los dos componentes principales construidas, permitiendo visualizar la zona de mayor riesgo dentro de la organización. Al proyectar a la población de empleados sobre el plano cartesiano definido por la consolidación jerárquica (Eje X) y la saturación funcional (Eje Y), emergen patrones de comportamiento no aleatorios que validan la capacidad discriminante del modelo.

La zona de inestabilidad temprana muestra la mayor densidad de puntos rojos que representan deserciones efectivas, se concentra en el extremo izquierdo del Eje X. Esta región corresponde a los perfiles de baja madurez corporativa, empleados con ingresos bajos, poca experiencia y niveles jerárquicos iniciales. La nube de puntos roja en este sector evidencia una rotación estructural en la base de la pirámide, donde la falta de arraigo y compensación actúa como el principal catalizador de salida, independientemente del nivel de saturación en el rol.

La componente de saturación funcional muestra que a medida que nos desplazamos hacia la derecha, la deserción deja de ser masiva y se vuelve selectiva. Aquí, observamos que los puntos rojos tienden a ubicarse en las zonas superiores del Eje Y. Esto confirma visualmente la hipótesis de la “Trampa de la Inercia”: empleados que, aun teniendo niveles medios o altos de antigüedad, terminan abandonando la compañía cuando su permanencia en el mismo rol se vuelve excesiva.

El área con menor incidencia de puntos rojos se encuentra en el cuadrante inferior derecho, esta región agrupa a la élite retenida, empleados con alta jerarquía y salario, que mantienen una baja saturación en su puesto actual, posiblemente por rotación reciente o ascensos. La escasez de puntos rojos en esta zona demuestra que la combinación de estatus y movilidad constituye la forma más efectiva contra la deserción de empleados.

Validación Estructural mediante Proyección Suplementaria

Para robustecer la interpretación de los índices sintéticos, se ha procedido a proyectar variables suplementarias externas al modelo sobre el plano factorial construido. Esta técnica nos permite auditar cómo interactúan métricas operativas secundarias con nuestros ejes estratégicos de Consolidación y Saturación.

La primer componente, denominado consolidación (PC1), explica un 69.7% de la varianza, actuando como el eje principal de éxito y estabilidad corporativa. Se observa una correlación positiva entre los vectores de MonthlyIncome, JobLevel y TotalWorkingYears, los cuales se proyectan hacia el extremo derecho del gráfico. En este sector se sitúan los centroides de roles estratégicos como Manager y Research Director, confirmando que la madurez profesional en esta empresa está intrínsecamente ligada a la compensación y al nivel jerárquico. Por el contrario, en el extremo izquierdo se agrupan los roles operativos como Sales Representative, Laboratory Technician y Research Scientist, coincidiendo con la dirección del vector de deserción Attrition_Bin. Esto demuestra visualmente que el riesgo de fuga es inversamente proporcional a la consolidación; a menor nivel y salario, mayor es la tracción hacia la salida de la compañía.

La segunda componente, saturación (PC2), que aporta un 19.8% de la varianza, revela una tensión crítica entre la antigüedad acumulada y la movilidad interna. Los vectores YearsInCurrentRole, YearsWithCurrManager y YearsAtCompany apuntan verticalmente hacia el cuadrante superior derecho. La orientación de estos vectores indica que un segmento de la población senior no solo ha consolidado su posición, sino que ha entrado en una zona de estancamiento funcional. Resulta revelador que el vector de MonthlyIncome tenga una dirección divergente respecto a YearsInCurrentRole; esto sugiere que los empleados que permanecen demasiado tiempo en el mismo puesto sin rotación o ascenso mostrando un nivel de saturación alta, experimentan un desacoplamiento de su crecimiento salarial, lo que constituye en un nivel de desmotivación incluso en niveles altos de la organización.

La ubicación de los centroides de Campo Educativo y Roles permite identificar riesgo específicos. Mientras que campos como Life Sciences o Medical se mantienen cerca del origen con un comportamiento promedio, el área de Human Resources se proyecta hacia la zona de baja consolidación. Lo que confirma que la organización es un ecosistema donde la retención no es un problema de “quién”, sino de “dónde” se ubica el empleado, el peligro real no es solo ser un empleado junior, sino ser un empleado que, tras ganar experiencia, se desplaza hacia arriba en el eje de saturación sin lograr el avance hacia la derecha que representan los ascensos y las mejoras salariales.

Construcción de cluster

Número de cluster

Al analizar la curva de la suma de cuadrados, se observa un descenso drástico en la inercia desde k=1 hasta k=3, momento en el que se localiza el punto de inflexión de la distribución. A partir de este valor, la reducción de la variancia interna se vuelve marginal, lo que técnicamente indica que añadir clústeres adicionales solo sobreajustaría el modelo sin aportar una distinción real en los patrones de comportamiento de los empleados.

La elección de k=3 responde al principio de parsimonia, asegurando que cada segmento identificado posea una masa crítica suficiente para ser analíticamente significativo. Mientras que una solución con k=2 simplificaría en exceso la realidad organizacional al ignorar la crisis de transición del perfil intermedio, una segmentación con k>3 fragmentaría los datos en grupos con diferencias operativas mínimas, dificultando la creación de estrategias de retención diferenciadas. Por tanto, este punto de corte es el que garantiza que los planos generados posteriormente tengan la máxima capacidad discriminante para separar a los empleados estables de aquellos con un riesgo estructural de deserción.

Agrupación (K-Means):

La segmentación sobre el espacio de componentes principales revela una agrupación de los empleados de la organización definida entre la madurez corporativa y la saturación funcional. En el extremo izquierdo del plano factorial, el clúster denominado como Junior se manifiesta como la zona principal de crisis de retención, caracterizado por una población joven con una mediana de edad de 34 años y un ingreso promedio de $4,200. Este grupo presenta la mayor densidad de renuncias, alcanzando un 22%, lo que evidencia un defecto sistémico en los procesos y en la gestión de la carga laboral, donde el 30% de estos empleados enfrenta una alta exposición a horas extra sin una consolidación jerárquica que actúe como factor protector.

Hacia el centro del plano, el segmento de empleados con nivel intermedio refleja una población con experiencia media de 9 años que, sin embargo, se encuentra en una zona de estancamiento latente, con promedios de hasta 7 años de permanencia en el mismo rol. Aunque sus ingresos rondan los $6,300, este clúster indica que el riesgo de fuga no deriva de factores económicos inmediatos, sino de una saturación funcional detectada por el componente PC2. Para este grupo, la intervención estratégica debe alejarse de los incentivos financieros tradicionales y priorizar programas de movilidad horizontal y orientado en el aprendizaje de nuevas habilidades que rompan la fatiga del cargo y renueven el compromiso antes de que la desmotivación se traduzca en una salida definitiva.

Por último, el clúster en donde se encuentran los empleados de mayor jerarquía ocupa el cuadrante a la derecha del eje PC1, agrupando a los veteranos de la organización con una edad promedio de 47 años y los niveles salariales más competitivos, situados en $15,000 promedio. Si bien su tasa de deserción es la mínima de la compañía (7%), la gran dispersión de su polígono demuestra que sus motivaciones son altamente heterogéneas y su retención depende de una gestión personalizada del estatus.

Análisis de vulnerabilidad de empleados

El análisis del cuadro de vulnerabilidad, agrupa a los individuos con los puntajes más bajos dentro del segmento Junior, constituye una evidencia empírica de cómo la falta de consolidación jerárquica y financiera actúa como el principal detonante de la deserción en las etapas tempranas de la carrera profesional. Al observar los registros con los niveles de Score más negativos, situados entre -2.10 y -1.98, se identifica un patrón de inestabilidad sistémica donde aproximadamente el 60% de los empleados listados ya ha abandonado la organización. Esta alta tasa de deserción en el extremo inferior de la escala valida la precisión del índice sintético, demostrando que los valores de PC 1 inferiores a -2.40 representan un umbral de riesgo donde el personal carece del anclaje necesario en términos de salario, antigüedad y rango para permanecer vinculado a la compañía.

Los empleados en roles operativos y técnicos son los mayor deserción en la organización y son la base de la estructura para mantener la continuidad del negocio, tales como los representantes de ventas y los técnicos de laboratorio. La recurrencia del estado de deserción en estos puestos sugiere que la organización está fallando en retener su fuerza productiva de base, lo que genera un ciclo costoso de reclutamiento y capacitación constante. Sin embargo, el modelo también detecta casos específicos de científicos de investigación que, a pesar de su alta especialización, se encuentran en esta zona de fragilidad debido a su reciente incorporación o baja escala salarial inicial, lo que pone en riesgo el capital intelectual del área de I+D incluso antes de que estos perfiles logren su madurez productiva.

Por lo tanto, el monitoreo constante de estos puntajes bajos permite a la gerencia pasar de un diagnóstico reactivo a una estrategia de retención proactiva, priorizando incentivos y planes de carrera para aquellos individuos que, según las coordenadas del modelo, poseen la mayor probabilidad estadística de convertirse en el próximo caso de deserción.

Perfil de Vulnerabilidad: 20 Menores Scores en el Cluster 1
ID Empleado Cargo Estado PC 1 PC 2 Score
1012 Research Scientist 🟢 ACTIVO -2.62 -0.26 -2.10
411 Sales Representative 🟢 ACTIVO -2.60 -0.27 -2.09
30 Research Scientist 🟢 ACTIVO -2.60 -0.27 -2.09
405 Laboratory Technician 🔴 SE FUE -2.58 -0.29 -2.07
1839 Research Scientist 🟢 ACTIVO -2.57 -0.30 -2.07
1624 Sales Representative 🔴 SE FUE -2.57 -0.30 -2.07
1368 Laboratory Technician 🟢 ACTIVO -2.56 -0.31 -2.06
167 Sales Representative 🔴 SE FUE -2.56 -0.31 -2.06
850 Research Scientist 🟢 ACTIVO -2.55 -0.31 -2.06
614 Sales Representative 🔴 SE FUE -2.53 -0.33 -2.05
1156 Laboratory Technician 🔴 SE FUE -2.53 -0.33 -2.05
811 Laboratory Technician 🔴 SE FUE -2.50 -0.33 -2.02
701 Research Scientist 🔴 SE FUE -2.49 -0.20 -1.98
1056 Sales Representative 🟢 ACTIVO -2.49 -0.20 -1.98
1876 Sales Representative 🔴 SE FUE -2.48 -0.20 -1.98
1928 Sales Representative 🔴 SE FUE -2.48 -0.21 -1.98
243 Laboratory Technician 🔴 SE FUE -2.48 -0.21 -1.98
235 Sales Representative 🔴 SE FUE -2.43 -0.39 -1.98
1273 Sales Representative 🔴 SE FUE -2.48 -0.21 -1.98
1974 Laboratory Technician 🟢 ACTIVO -2.48 -0.21 -1.98

Conclusiones

El análisis multivariado mediante PCA y Clustering ha permitido transformar 35 variables aisladas en un Índice de Estabilidad Corporativa. El modelo identifica que la deserción no es un evento aleatorio, sino una consecuencia de la ubicación del empleado en dos ejes críticos: Consolidación Jerárquica (Eje X) y Saturación Funcional (Eje Y).

Segmento Junior (Cluster 1)

Este clúster representa la mayor “no conformidad” en el proceso de retención. Con una deserción del 22%, este grupo se caracteriza por una baja consolidación (PC1<0) y una alta exposición a factores de presión externa, especialmente horas extra (30%). Estadísticamente, el modelo demuestra que el riesgo de fuga es inversamente proporcional al nivel de ingresos y la antigüedad, concentrándose en roles como Sales Representative y Laboratory Technician.

El Segmento Intermedio (Cluster 2)

Este grupo presenta un riesgo latente de estancamiento. Con una mediana de 7 años en el mismo rol y bajo dinamismo salarial, su ubicación en el cuadrante superior del eje de saturación funcional (PC2 positivo) indica que su motivación se está erosionando por falta de movilidad. La deserción aquí no es por falta de ingresos, sino por una fatiga de ciclo que el sistema de promociones actual no está mitigando.

El Segmento Senior (Cluster 3)

Representan la columna vertebral de la organización con la tasa de deserción más baja (7%). Su alta consolidación (PC1 elevado) y salarios competitivos ($15,000) actúan como un factor de protección eficaz. Sin embargo, su alta dispersión en el plano factorial sugiere que su retención depende de la autonomía y el estatus, más que de incentivos financieros adicionales.

Métricas Clave por Perfil de Empleado
Cluster Cantidad Edad_Promedio Ingreso Años_Empresa Tasa_Desercion Satisfaccion Horas_Extra
1 821 34.2 $4,108 3.4 21.3% 2.70 29%
2 437 36.9 $6,466 10.0 10.8% 2.79 26%
3 212 47.5 $15,854 14.7 7.1% 2.71 29%

Recomendaciones Estratégicas

Plan de Anclaje Temprano (Para Cluster 1 - Junior)

El objetivo es desplazar al empleado rápidamente hacia la derecha en el eje de Consolidación.

  • Establecer límites de control de calidad sobre las horas extra. Superar el umbral del 15% de sobrecarga debe disparar una alerta automática de retención.

  • Sustituir los incrementos anuales por “Hitos de Carrera Semestrales”. En roles como técnicos de laboratorio, vincular el crecimiento al dominio de nuevas metodologías técnicas para aumentar su valor percibido.

Plan de Movilidad (Para Cluster 2 - Intermedio)

El objetivo es reducir la saturación funcional (PC2) mediante dinamismo horizontal.

  • Implementar movimientos entre departamentos para empleados con más de 4 años en el mismo rol. Esto reduce la saturación sin necesidad de un ascenso jerárquico inmediato.

  • Asignar a estos empleados la formación de los perfiles Junior. Esto renueva su sentido de propósito y utiliza su experiencia acumulada para estabilizar al Cluster 1.

Plan de Gestión de Conocimiento (Para Cluster 3 - Senior)

  • Ofrecer rutas de carrera tipo “SME” (Subject Matter Expert), donde el éxito se mida por la optimización de procesos y la reducción de la varianza en los resultados del equipo.

  • Priorizar la flexibilidad total (Home Office) y la autonomía en la toma de decisiones, factores que tienen mayor peso en perfiles consolidados.