#datos 
Salary_Data <- read_csv("Salary_Data.csv")
## Rows: 6704 Columns: 6
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (3): Gender, Education Level, Job Title
## dbl (3): Age, Years of Experience, Salary
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
colnames(Salary_Data)[3]="Education"
colnames(Salary_Data)[4]="Job"
Datos=subset(Salary_Data, select=-c(Gender, Education,Job))
Df=Datos[1:100,]
colnames(Df)[2]="Experience"
summary(Df)# análisis descriptivo de los datos
##       Age          Experience        Salary      
##  Min.   :24.00   Min.   : 0.00   Min.   : 30000  
##  1st Qu.:30.00   1st Qu.: 3.00   1st Qu.: 55000  
##  Median :36.00   Median : 9.50   Median : 87500  
##  Mean   :37.09   Mean   :10.13   Mean   : 98250  
##  3rd Qu.:43.25   3rd Qu.:16.00   3rd Qu.:130000  
##  Max.   :52.00   Max.   :25.00   Max.   :250000

El presente proyecto utiliza un conjunto de datos que recopila información sobre la edad, la experiencia laboral (en años) y el salario mensual (en dólares) de empleados pertenecientes a diferentes sectores económicos. Estos datos fueron obtenidos de una base simulada con fines académicos y de aprendizaje, comúnmente utilizada en ejercicios de análisis estadístico y modelado predictivo. El propósito principal del proyecto es aplicar técnicas de regresión lineal multiple para estudiar y predecir la relación entre la experiencia laboral y el salario, explorando cómo el nivel de experiencia influye en la remuneración. A través de este análisis, se busca comprender las tendencias del conjunto de datos y fortalecer las habilidades prácticas en el uso de herramientas de análisis de datos.

Independencia

cor(Df)
##                  Age Experience    Salary
## Age        1.0000000  0.9821760 0.8922772
## Experience 0.9821760  1.0000000 0.8941617
## Salary     0.8922772  0.8941617 1.0000000
cor(Df$Salary, Df$Experience)
## [1] 0.8941617

El análisis de correlación entre las variables edad, experiencia y salario revela una relación positiva y significativa entre ellas. Se observa que la correlación entre la edad y la experiencia es muy alta (r = 0.982), lo que indica que, a medida que aumenta la edad, también lo hace el nivel de experiencia laboral de manera casi proporcional. Asimismo, la experiencia y el salario presentan una correlación positiva fuerte (r = 0.894), lo que sugiere que los empleados con mayor experiencia tienden a recibir salarios más altos. Finalmente, la edad y el salario también muestran una fuerte asociación (r = 0.892), aunque ligeramente menor que la de la experiencia. En conjunto, estos resultados confirman que la experiencia laboral es un factor determinante en la variación del salario, y que tanto la edad como los años de experiencia influyen directamente en los ingresos de los empleados.

Normalidad

hist(Df$Salary)

hist(Df$Salary, main="Histograma de los salarios", xlab="SALARIO", ylab="AÑOS DE EXPERIENCIA",col="green")

Al analizar el histograma de los salarios, podemos observar que la mayoría de los valores se concentran alrededor de un rango central, mientras que las frecuencias disminuyen progresivamente hacia los extremos. Esto indica que los datos presentan una distribución relativamente equilibrada, donde los salarios más comunes se encuentran en el punto medio del gráfico y los valores muy bajos o muy altos son menos frecuentes, este patrón refleja un comportamiento similar al de la campana de Gauss, ya que la forma general del histograma muestra una tendencia a la simetría y una acumulación principal alrededor del promedio. Gracias a esto, puedo concluir que los salarios tienen una distribución que se aproxima a la normalidad, lo cual facilita su análisis y permite aplicar con mayor confianza métodos estadísticos que se basan en este supuesto.

Linealidad

pairs(Df)

plot(Salary ~ Age, data=Df)

plot(Salary ~ Experience, data=Df, col="red")

Al analizar la relación entre la experiencia laboral y el salario mediante el diagrama de dispersión, se puede observar una tendencia lineal positiva muy marcada, a medida que aumenta la experiencia, los salarios también tienden a incrementarse de manera consistente. Los puntos se distribuyen siguiendo un patrón ascendente, lo que indica que existe una relación directa y proporcional entre ambas variables, aunque los datos presentan cierta dispersión natural, la estructura general del gráfico confirma que la experiencia es un predictor importante del salario, ya que los valores no se distribuyen de forma aleatoria, sino que siguen claramente una línea ascendente. Esta evidencia respalda la pertinencia de aplicar un modelo de regresión lineal, pues se cumple el supuesto de linealidad necesario para este tipo de análisis. En conclusión, los datos muestran una relación lineal fuerte entre experiencia y salario, lo cual facilita la construcción de modelos predictivos y confirma que el aumento de experiencia laboral está asociado con mayores niveles de remuneración.

Modelo \[ Y= \beta_o +\beta_1 X_1+ \beta_2 X_2 \]

Este modelo constituye una herramienta útil para analizar y predecir el salario de los empleados, proporcionando una interpretación más precisa del impacto que ambas variables ejercen sobre los ingresos laborales.

Df.lm<-lm(Salary ~ Age + Experience, data = Df) # modelo de regresión 

summary(Df.lm)
## 
## Call:
## lm(formula = Salary ~ Age + Experience, data = Df)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -52547 -11022   1244  11663  64450 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   -34202      40438  -0.846   0.3998  
## Age             2579       1546   1.668   0.0985 .
## Experience      3632       1720   2.111   0.0373 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 23060 on 97 degrees of freedom
## Multiple R-squared:  0.8051, Adjusted R-squared:  0.8011 
## F-statistic: 200.4 on 2 and 97 DF,  p-value: < 2.2e-16

El modelo de regresión lineal desarrollado tiene como objetivo analizar la relación entre el salario (Salary) y las variables edad (Age) y experiencia (Experience). Los resultados obtenidos permiten concluir que el modelo explica un 80,51 % de la variabilidad del salario (R² = 0.8051), lo que indica un ajuste adecuado y una fuerte capacidad explicativa, en cuanto a la significancia estadística, la variable Experiencia presenta un valor p = 0.0373, siendo significativa al nivel del 5 %, lo que sugiere que el salario aumenta de manera significativa conforme crece la experiencia laboral. Por otro lado, la variable Edad muestra un valor p = 0.0985, lo que indica una relación positiva con el salario, aunque su efecto no es tan estadísticamente fuerte (significativa solo al 10 %). El coeficiente de experiencia (3632) indica que, manteniendo constante la edad, por cada año adicional de experiencia el salario aumenta en promedio 3632 unidades monetarias. En el caso de la edad, el coeficiente (2579) sugiere que cada año adicional de edad se asocia con un incremento promedio de 2579 unidades, aunque este efecto no es tan concluyente, el valor del F-statistic (200.4, p < 2.2e-16) demuestra que el modelo en su conjunto es altamente significativo, lo que respalda que al menos una de las variables independientes contribuye de forma importante a explicar el salario. En resumen, el modelo evidencia que la experiencia laboral es un factor determinante en el nivel salarial, mientras que la edad también influye, aunque en menor medida. El alto valor de R² confirma que las variables analizadas son buenos predictores del salario en la muestra estudiada

\[ Y=-34202+2579Age+3632Experience+e_i \]

Esta ecuación permite predecir el salario (Y) a partir de la edad (Age) y la experiencia laboral (Experience), el valor del intercepto (-34202) indica el salario estimado cuando tanto la edad como la experiencia son cero; aunque no tiene una interpretación práctica directa, es necesario para ajustar el modelo, el coeficiente de Edad (2579) señala que, manteniendo constante la experiencia, por cada año adicional de edad el salario promedio aumenta en 2579 unidades monetarias. Por su parte, el coeficiente de Experiencia (3632) muestra que por cada año adicional de experiencia laboral, el salario promedio aumenta en 3632 unidades monetarias, lo que evidencia que la experiencia tiene un impacto ligeramente mayor sobre el salario que la edad, en conclusión, el modelo refleja que tanto la edad como la experiencia influyen positivamente en el salario, siendo la experiencia laboral el factor más determinante. Esto sugiere que, en el contexto del conjunto de datos analizado, el incremento en la experiencia profesional contribuye de forma más significativa al aumento del salario que la edad por sí sola

Homocedasticidad

par(mfrow=c(2,2))
plot(Df.lm)

par(mfrow=c(1,1))

Los gráficos de diagnóstico permiten evaluar los supuestos del modelo de regresión lineal múltiple ajustado. En el gráfico “Residuals vs Fitted”, se observa que los residuos se distribuyen de forma aleatoria alrededor de la línea horizontal, sin un patrón definido, lo cual indica que se cumple el supuesto de linealidad y que los errores tienen varianza constante (homocedasticidad) en general. El gráfico “Q-Q Residuals” muestra que la mayoría de los puntos siguen la línea diagonal teórica, lo que sugiere que los residuos se distribuyen aproximadamente de manera normal, aunque existen algunas desviaciones leves en los extremos, que podrían deberse a valores atípicos. En el gráfico “Scale-Location”, la dispersión de los puntos es relativamente uniforme, lo que refuerza la idea de homocedasticidad (varianza constante de los errores). Finalmente, el gráfico “Residuals vs Leverage” permite identificar posibles observaciones influyentes, aunque se observan algunos puntos con valores de leverage más altos, no parecen ejercer una influencia excesiva sobre el modelo, por lo que no existen evidencias fuertes de observaciones atípicas que distorsionen la regresión, en conclusión, los gráficos de diagnóstico indican que el modelo de regresión lineal cumple de manera adecuada con los supuestos estadísticos básicos (linealidad, independencia, normalidad y homocedasticidad de los residuos). Por tanto, el modelo es válido y confiable para explicar la relación entre el salario, la edad y la experiencia laboral.

grafico del modelo

plotting.data<-expand.grid(
  Experience = seq(min(Df$Experience), max(Df$Experience), length.out=30),
    Age=c(min(Df$Age), mean(Df$Age), max(Df$Age)))
#valores predictores
plotting.data$predicted.Salary <- predict.lm(Df.lm, newdata=plotting.data)
plotting.data$Age <- round(plotting.data$Age, digits = 2)
plotting.data$Age <- as.factor(plotting.data$Age)
heart.plot <- ggplot(Df, aes(x=Experience, y=Salary)) +
  geom_point()

heart.plot

El análisis realizado permite evidenciar una clara relación positiva entre los años de experiencia y el salario percibido por los individuos. A medida que aumenta la experiencia laboral, se observa un incremento progresivo en los niveles salariales, lo cual confirma la hipótesis de que la experiencia constituye un factor determinante en la retribución económica, el modelo lineal implementado y la representación gráfica generada con ggplot2 muestran una tendencia ascendente que valida esta relación, sugiriendo que las empresas valoran la acumulación de conocimientos, habilidades y competencias adquiridas a lo largo del tiempo. Sin embargo, también se aprecian ciertos puntos dispersos que podrían indicar la influencia de otros factores —como el nivel educativo, el sector económico o las políticas internas de cada organización— en la determinación del salario. En conclusión, el estudio evidencia que la experiencia es un predictor relevante del salario, pero no el único. Futuras investigaciones podrían incluir variables adicionales para obtener un modelo más robusto que permita comprender con mayor precisión las dinámicas salariales en distintos contextos laborales.

Linea de tendencia

heart.plot <- heart.plot +
  geom_line(data=plotting.data, aes(x=Experience, y=predicted.Salary, color=Age), size=1.25)
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
heart.plot 

heart.plot <-
heart.plot +
  theme_bw() +
  labs(title = "Salary as a Function of Experience and Age",
      x = "Experience (years)",
      y = "Salary",
      color = "Age")

heart.plot

La gráfica de tendencia refuerza los resultados obtenidos previamente, mostrando que tanto la experiencia laboral como la edad influyen de manera significativa en el nivel salarial. Las líneas de regresión indican una relación positiva y consistente: a mayor experiencia, el salario tiende a incrementarse. Además, se observa que las personas de mayor edad (representadas por la línea azul) presentan salarios más altos frente a quienes son más jóvenes, aun cuando poseen niveles similares de experiencia, estos hallazgos sugieren que la edad actúa como un factor moderador del efecto de la experiencia sobre el salario, posiblemente porque combina años de trayectoria con otros elementos como madurez profesional, estabilidad laboral o mayor especialización. No obstante, la dispersión de los puntos evidencia que existen otros determinantes —como la educación, el cargo o el sector económico— que también influyen en la remuneración. En conclusión, el modelo de regresión múltiple permite comprender de forma más completa la dinámica salarial, demostrando que tanto la experiencia como la edad son variables predictoras relevantes. Este análisis ofrece una visión integral del comportamiento del mercado laboral y constituye una base sólida para estudios futuros orientados a la equidad y la planificación salarial en las organizaciones.

heart.plot + annotate(geom="text", x=30, y=1.75, label=" Y= 15 + (-0.2*biking) + (0.178*smoking)")

La representación gráfica y la ecuación incorporada en el modelo confirman la existencia de una relación lineal positiva entre la experiencia laboral y el salario, moderada por la edad. Las líneas de tendencia muestran que, a medida que aumenta la experiencia, el salario tiende a incrementarse, y este efecto es más pronunciado en individuos de mayor edad. Esto sugiere que la combinación de experiencia acumulada y edad se traduce en una mayor valoración económica dentro del mercado laboral, el modelo lineal anotado en la gráfica permite expresar matemáticamente esta relación, mostrando cómo las variables predictoras influyen en el salario estimado. La coherencia entre la ecuación y las líneas de tendencia evidencia que el modelo se ajusta adecuadamente a los datos observados, proporcionando una interpretación cuantitativa y visual del fenómeno. En términos generales, este análisis demuestra que el salario puede predecirse con precisión razonable a partir de la experiencia y la edad, factores que reflejan tanto el crecimiento profesional como la estabilidad laboral. No obstante, para una visión más completa del comportamiento salarial, sería conveniente incluir variables adicionales como el nivel educativo, la ocupación o el desempeño, las cuales podrían enriquecer el modelo y aumentar su capacidad explicativa.

anova(Df.lm)
## Analysis of Variance Table
## 
## Response: Salary
##            Df     Sum Sq    Mean Sq  F value  Pr(>F)    
## Age         1 2.1064e+11 2.1064e+11 396.2714 < 2e-16 ***
## Experience  1 2.3696e+09 2.3696e+09   4.4578 0.03731 *  
## Residuals  97 5.1561e+10 5.3155e+08                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El análisis de varianza (ANOVA) aplicado al modelo de regresión permite evaluar la influencia de las variables Edad y Experiencia sobre el Salario. Los resultados muestran que ambas variables son estadísticamente significativas, aunque con diferentes niveles de impacto.En primer lugar, la variable Edad presenta un valor de F = 396.27 con un p-valor < 2e-16, lo cual indica una influencia altamente significativa sobre el salario. Esto sugiere que, a medida que aumenta la edad, el salario tiende a incrementarse de manera consistente, reflejando posiblemente una mayor acumulación de conocimientos, habilidades y estabilidad laboral, por otro lado, la variable Experiencia muestra un valor de F = 4.45 y un p-valor = 0.03731, lo que también evidencia una relación significativa (p < 0.05), aunque de menor magnitud en comparación con la edad. Esto indica que la experiencia influye en el salario, pero su efecto puede verse condicionado o reforzado por la edad, en conjunto, los resultados del ANOVA respaldan la validez del modelo lineal, demostrando que tanto la edad como la experiencia contribuyen de manera significativa a explicar la variación en los salarios. Sin embargo, la edad resulta ser el factor con mayor peso estadístico, lo que sugiere que, además del tiempo de servicio, el desarrollo profesional asociado al paso de los años desempeña un papel clave en la determinación de los ingresos.

#normalidad 
library(nortest)
residuos=resid(Df.lm)
n=lillie.test(residuos);n
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  residuos
## D = 0.076533, p-value = 0.1595

La prueba de normalidad de Lilliefors (Kolmogorov-Smirnov) se aplicó a los residuos del modelo de regresión con el objetivo de verificar si estos siguen una distribución normal, condición fundamental para la validez de los supuestos del modelo lineal, el resultado obtenido fue un estadístico D = 0.076533 con un p-valor = 0.1595, el cual es mayor que el nivel de significancia habitual (α = 0.05). Por lo tanto, no se rechaza la hipótesis nula de normalidad, lo que indica que los residuos del modelo se distribuyen de manera aproximadamente normal, este hallazgo es importante, ya que confirma que el modelo cumple con uno de los supuestos básicos del análisis de regresión lineal, garantizando la validez de las inferencias estadísticas realizadas en los análisis anteriores (como el ANOVA y la interpretación de los coeficientes). En consecuencia, los resultados obtenidos pueden considerarse estadísticamente confiables y consistentes dentro del marco de los datos analizados.

\(H_o\) los residuos no son normales

prueba de homecedasticidad

library(lmtest)
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
bptest(Df.lm)
## 
##  studentized Breusch-Pagan test
## 
## data:  Df.lm
## BP = 21.336, df = 2, p-value = 2.328e-05

Para evaluar la presencia de homocedasticidad en el modelo de regresión lineal, se aplicó la prueba de Breusch-Pagan mediante la función bptest() del paquete lmtest en R, el resultado obtenido fue un estadístico BP = 21.336, con 2 grados de libertad y un valor p = 2.328e-05, bajo la hipótesis nula (\(H_0\)), se asume que los residuos presentan varianza constante (es decir, que existe homocedasticidad). Sin embargo, dado que el valor p es significativamente menor al nivel de significancia habitual (α = 0.05), se rechaza la hipótesis nula. Por lo tanto, se concluye que los residuos del modelo no son homocedásticos, lo que implica la presencia de heterocedasticidad. Este resultado sugiere que la varianza del error no es constante a lo largo de las observaciones, lo que puede afectar la eficiencia de los estimadores y la validez de las inferencias estadísticas del modelo.