ANÁLISIS_ARGENTINA

Author

Yury Guamán

Published

Invalid Date

Introducción

Introducción al Análisis de Correlación y de Regresión Lineal

# Cargar librerías
library(readxl)
library(dplyr)


Adjuntando el paquete: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union

library(ggplot2)
library(ggcorrplot)
library(corrplot)

corrplot 0.95 loaded

library(tidyr)

# Establecer el directorio de trabajo
datos <- read_excel("D:/Users/Yury_Guaman/Desktop/TAREA 3/TAREA_AUTONOMA2_YURY_GUAMAN/DATOS_ARGENTINA.xlsx")

# Filtrar solo las series que nos interesan
df <- datos %>%
  filter(`Series Name` %in% c("GDP growth (annual %)",
                              "Wage and salaried workers, total (% of total employment) (modeled ILO estimate)")) %>%
  select(`Series Name`, `1991`:`2023`)

# Transponer: filas con años y columnas con variables
df <- df %>%
  tibble::column_to_rownames("Series Name") %>%
  t() %>%
  as.data.frame()

# Renombrar columnas
colnames(df) <- c("PIB", "Asalariados")

# Convertir a numérico si vienen con coma (muy común en tu Excel)
df <- df %>%
  mutate(across(everything(), ~as.numeric(gsub(",", ".", .))))

# Ver los primeros datos y comprobar si hay NA
head(df)

           PIB Asalariados
1991  9.133111    70.51614
1992  7.937292    70.36948
1993  8.206979    70.15414
1994  5.836201    70.26562
1995 -2.845210    70.64412
1996  5.526690    70.78149

summary(df)

      PIB           Asalariados   
 Min.   :-10.894   Min.   :70.15  
 1st Qu.: -2.080   1st Qu.:71.81  
 Median :  3.850   Median :73.67  
 Mean   :  2.613   Mean   :73.68  
 3rd Qu.:  8.111   3rd Qu.:75.65  
 Max.   : 10.442   Max.   :77.00

# Eliminar filas con NA
datos_corr <- df %>% drop_na()

# Verificar cuántas observaciones válidas hay
nrow(datos_corr)

[1] 33

Ejemplo 1: Análisis de Correlación

# Calcular la correlación de Pearson
correlacion <- cor(datos_corr$PIB, datos_corr$Asalariados, use = "complete.obs")

# Mostrar el resultado
cat("El coeficiente de correlación de Pearson entre el PIB y el empleo asalariado es:", correlacion)

El coeficiente de correlación de Pearson entre el PIB y el empleo asalariado es: -0.0175375

El coeficiente de correlación de Pearson indica que existe una relación negativa muy débil entre el empleo asalariado y el crecimiento del PIB en Argentina entre 1991 y 2023.

Esto sugiere que no hay una relación lineal significativa entre la proporción de trabajadores asalariados y el desempeño económico medido por el PIB. Es decir, el hecho de que más personas tengan empleo asalariado no se ha traducido necesariamente en un crecimiento sostenido del PIB, ni viceversa.

Esta débil correlación puede deberse a factores estructurales más complejos que afectan a la economía argentina, como la inflación, la informalidad laboral, o políticas económicas inestables durante el período analizado.

# Gráfico de dispersión con línea de regresión
ggplot(datos_corr, aes(x = Asalariados, y = PIB)) +
  geom_point(color = "blue", alpha = 0.5) +  # Puntos del gráfico
  geom_smooth(method = "lm", color = "red", se = FALSE) +  # Línea de regresión lineal
  labs(title = "Relación entre empleo asalariado y crecimiento del PIB",
       x = "Empleo asalariado (% del total)",
       y = "Crecimiento del PIB (%)") +
  theme_minimal()

`geom_smooth()` using formula = 'y ~ x'

La gráfica muestra la relación entre el porcentaje de empleo asalariado y el crecimiento del PIB en Argentina entre 1991 y 2023. Aunque hay cierta dispersión, se observa una ligera tendencia negativa, lo cual coincide con el coeficiente de correlación calculado anteriormente (-0.0175). Esta débil relación sugiere que otros factores también influyen significativamente en el comportamiento del PIB.

# Releer y transformar los datos para incluir Agro y Agro_Producto
df_completo <- datos %>%
  filter(`Series Name` %in% c("GDP growth (annual %)",
                              "Wage and salaried workers, total (% of total employment) (modeled ILO estimate)",
                              "Agriculture, forestry, and fishing, value added (annual % growth)",
                              "Agriculture, forestry, and fishing, value added per worker (constant 2015 US$)")) %>%
  select(`Series Name`, `1991`:`2023`) %>%
  tibble::column_to_rownames("Series Name") %>%
  t() %>%
  as.data.frame()

# Renombrar las columnas para que sean más fáciles de usar
colnames(df_completo) <- c("PIB", "Asalariados", "Agro", "Agro_Producto")

# Reemplazar comas por puntos y convertir a numérico
df_completo <- df_completo %>%
  mutate(across(everything(), ~as.numeric(gsub(",", ".", .))))

colnames(df_completo)

[1] "PIB"           "Asalariados"   "Agro"          "Agro_Producto"

Ejemplo 2: Análisis de Regresión Lineal

# Crear un data.frame con todas las variables relevantes
datos_numericos <- df_completo %>%
  select(PIB, Asalariados, Agro, Agro_Producto) %>%
  drop_na()

# Verifica cuántas observaciones tienes
nrow(datos_numericos)

[1] 33

# Calcular matriz de correlaciones
matriz_cor <- cor(datos_numericos, use = "complete.obs")

# Mostrar la matriz
print(matriz_cor)

                      PIB Asalariados       Agro Agro_Producto
PIB            1.00000000   0.1103750  0.4454715   -0.01375073
Asalariados    0.11037500   1.0000000 -0.1775205    0.65464245
Agro           0.44547153  -0.1775205  1.0000000   -0.01753750
Agro_Producto -0.01375073   0.6546424 -0.0175375    1.00000000

# Función para calcular matriz de p-valores
cor_matriz_pval <- function(data) {
  n <- ncol(data)
  matriz_pval <- matrix(NA, n, n)
  rownames(matriz_pval) <- colnames(data)
  colnames(matriz_pval) <- colnames(data)
  
  for (i in 1:n) {
    for (j in 1:n) {
      matriz_pval[i, j] <- cor.test(data[[i]], data[[j]], use = "complete.obs")$p.value
    }
  }
  return(matriz_pval)
}

# Aplicar la función a tu base numérica
p_values <- cor_matriz_pval(datos_numericos)

# Mostrar matriz de p-valores
print(p_values)

                      PIB  Asalariados          Agro Agro_Producto
PIB           0.000000000 5.408812e-01  9.376927e-03  9.394592e-01
Asalariados   0.540881248 0.000000e+00  3.229884e-01  3.578525e-05
Agro          0.009376927 3.229884e-01 1.543639e-239  9.228312e-01
Agro_Producto 0.939459185 3.578525e-05  9.228312e-01 1.543639e-239

El objetivo de este ejemplo es analizar la relación entre variables económicas y laborales relevantes para Argentina entre los años 1991 y 2023, usando la correlación de Pearson y sus respectivos p-valores para evaluar significancia estadística. La relación entre PIB y Agro es moderadamente positiva (r = 0.445). Esto sugiere que, a medida que crece el sector agropecuario, también tiende a crecer el PIB del país.

La relación entre PIB y Asalariados es muy débil (r = 0.110), lo que indica que el empleo asalariado no está directamente asociado al crecimiento del PIB.

La correlación más fuerte se observa entre Asalariados y Agro_Producto (r = 0.654), lo cual sugiere que una mayor productividad por trabajador en el agro está asociada a un mayor porcentaje de empleo formal.

Otras relaciones, como PIB y Agro_Producto o Agro y Agro_Producto, muestran correlaciones casi nulas.

La relación entre PIB y Agro es estadísticamente significativa (p = 0.0093).

La correlación entre PIB y Asalariados no es significativa (p = 0.54), lo que refuerza la idea de que el empleo formal no impacta directamente al crecimiento del PIB.

La correlación entre Asalariados y Agro_Producto es altamente significativa (p < 0.001), lo que sugiere una fuerte conexión entre formalización laboral y productividad agrícola.

Las demás relaciones no son significativas (p > 0.05), por lo tanto no permiten sacar conclusiones firmes.

ls()

[1] "cor_matriz_pval" "correlacion"     "datos"           "datos_corr"     
[5] "datos_numericos" "df"              "df_completo"     "matriz_cor"     
[9] "p_values"

Regresión Simple

modelo <- lm(PIB ~ Asalariados, data = df_completo)
summary(modelo)


Call:
lm(formula = PIB ~ Asalariados, data = df_completo)

Residuals:
    Min      1Q  Median      3Q     Max 
-27.108  -4.397   0.350   5.185  36.926 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.579e+00  7.092e+00  -0.364    0.719
Asalariados  2.253e-05  3.643e-05   0.618    0.541

Residual standard error: 11.97 on 31 degrees of freedom
Multiple R-squared:  0.01218,   Adjusted R-squared:  -0.01968 
F-statistic: 0.3823 on 1 and 31 DF,  p-value: 0.5409

El modelo de regresión lineal simple examina la relación entre el porcentaje de asalariados y el crecimiento del PIB en Argentina entre 1991 y 2023.

Según los coeficientes estimados:

El intercepto representa el valor esperado del PIB cuando el porcentaje de asalariados es cero.

El coeficiente de Asalariados indica cuánto cambia el PIB por cada unidad adicional (1%) de trabajadores asalariados.

Si el coeficiente es positivo, implica que a mayor formalización del empleo (más asalariados), el crecimiento del PIB tiende a aumentar. Si es negativo, sugiere una relación inversa.

nuevos_valores <- data.frame(Asalariados = c(70, 72, 74, 76, 78))
predicciones <- predict(modelo, nuevos_valores)
data.frame(nuevos_valores, predicciones)

  Asalariados predicciones
1          70    -2.577780
2          72    -2.577735
3          74    -2.577690
4          76    -2.577645
5          78    -2.577600

Regresión Múltiple

modelo2 <- lm(PIB ~ Asalariados + Agro + Agro_Producto, data = df_completo)
summary(modelo2)


Call:
lm(formula = PIB ~ Asalariados + Agro + Agro_Producto, data = df_completo)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.765  -5.299  -2.931   7.371  30.721 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)   
(Intercept)    7.871e+01  7.798e+01   1.009  0.32110   
Asalariados    7.255e-05  4.399e-05   1.649  0.10992   
Agro           9.990e-01  3.228e-01   3.095  0.00433 **
Agro_Producto -1.265e+00  1.130e+00  -1.120  0.27192   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 10.66 on 29 degrees of freedom
Multiple R-squared:  0.2672,    Adjusted R-squared:  0.1914 
F-statistic: 3.525 on 3 and 29 DF,  p-value: 0.02718

library(car)

Cargando paquete requerido: carData


Adjuntando el paquete: 'car'

The following object is masked from 'package:dplyr':

    recode

vif(modelo2)

  Asalariados          Agro Agro_Producto 
     1.838690      1.051030      1.781294

Si algún VIF > 5 o 10, puede haber redundancia entre variables. En ese caso podrías considerar eliminar una o combinar variables relacionadas.

# Crear un nuevo conjunto de datos para predecir
nuevos_valores2 <- data.frame(
  Asalariados = c(70, 72, 74, 76, 78),
  Agro = c(2, 3, 4, 5, 6),
  Agro_Producto = c(150000, 160000, 170000, 180000, 190000)
)

# Usar el modelo múltiple para predecir
predicciones2 <- predict(modelo2, nuevos_valores2)

# Mostrar predicciones
data.frame(nuevos_valores2, predicciones2)

  Asalariados Agro Agro_Producto predicciones2
1          70    2        150000     -189672.0
2          72    3        160000     -202321.1
3          74    4        170000     -214970.3
4          76    5        180000     -227619.5
5          78    6        190000     -240268.7

# Gráfico PIB vs Asalariados
ggplot(df_completo, aes(x = Asalariados, y = PIB)) +
  geom_point(color = "blue", alpha = 0.6) +
  geom_smooth(method = "lm", color = "darkred", se = FALSE) +
  labs(title = "Relación entre Asalariados y PIB",
       x = "Porcentaje de Asalariados",
       y = "Crecimiento del PIB") +
  theme_minimal()

`geom_smooth()` using formula = 'y ~ x'

Visualmente se confirma lo que indican los modelos: la pendiente de la recta de regresión es muy baja, lo que evidencia que el empleo asalariado por sí solo no explica los cambios en el PIB.

Conclusión general del análisis de regresión

Los modelos de regresión utilizados permiten analizar la relación entre el empleo asalariado, el crecimiento del PIB y otros indicadores agroproductivos en Argentina entre 1991 y 2023.

En el modelo de regresión simple, se observa que la relación entre el porcentaje de trabajadores asalariados y el crecimiento del PIB es débil y no significativa, lo que indica que esta variable, por sí sola, no explica los cambios en la economía nacional.

En el modelo múltiple, se incorporaron variables agroproductivas que mejoraron el ajuste del modelo. Se identificó que la variable Agro (crecimiento del valor agregado del sector agropecuario) tiene una relación significativa con el PIB, lo cual sugiere que los cambios en este sector influyen directamente en el dinamismo económico del país.