INFORME FINAL

library(xts)

## Cargando paquete requerido: zoo

## 
## Adjuntando el paquete: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.4.2

library(readxl)
library(dplyr)

## Warning: package 'dplyr' was built under R version 4.4.2

## 
## ######################### Warning from 'xts' package ##########################
## #                                                                             #
## # The dplyr lag() function breaks how base R's lag() function is supposed to  #
## # work, which breaks lag(my_xts). Calls to lag(my_xts) that you type or       #
## # source() into this session won't work correctly.                            #
## #                                                                             #
## # Use stats::lag() to make sure you're not using dplyr::lag(), or you can add #
## # conflictRules('dplyr', exclude = 'lag') to your .Rprofile to stop           #
## # dplyr from breaking base R's lag() function.                                #
## #                                                                             #
## # Code in packages is not affected. It's protected by R's namespace mechanism #
## # Set `options(xts.warn_dplyr_breaks_lag = FALSE)` to suppress this warning.  #
## #                                                                             #
## ###############################################################################

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:xts':
## 
##     first, last

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

INTRODUCCIÓN:

A continuación, se presentan pruebas de normalidad, específicamente la prueba de Shapiro-Wilk y la de Kolmogorov-Smirnov (K-S), aplicadas a dos variables: inversión extranjera directa (IED) y desempleo en Colombia. El propósito de estas pruebas es determinar si las variables siguen una distribución normal, lo cual es un requisito para realizar estimaciones que puedan revelar una posible relación entre ellas.

Luego de aplicar la prueba no paramétrica de Spearman, se concluye que existe una relación débil entre la IED y el desempleo.

DESCRIPCIÓN DE DATOS: PROBLEMA

El tema seleccionado para este estudio es la relación entre la inversión extranjera directa (IED) y el desempleo en Colombia. Los datos correspondientes al desempleo fueron obtenidos de la página del Departamento Administrativo Nacional de Estadística (DANE), mientras que los datos de IED fueron tomados del Banco de la República.

Los datos abarcan desde el primer trimestre de 2001 (2001 t1) hasta el cuarto trimestre de 2023 (2023 t4) y se presentan con una periodicidad trimestral. La selección de los datos se realizó mediante un muestreo por conveniencia, considerando que la disponibilidad de estos datos sólo abarca desde el año 2001.

Datos

# Carga del set de datos
library(readxl)
datos <- read_excel("C:/Users/JULIAN SANTANA/Desktop/TESIS ESTADISTICA/DATOS/datos.xlsx")
head(datos)

## # A tibble: 6 × 3
##   año_tri t_des   ied
##   <chr>   <dbl> <dbl>
## 1 2001_1   16.6  554.
## 2 2001_2   14.6 1042.
## 3 2001_3   14.7  234.
## 4 2001_4   13.9  712.
## 5 2002_1   16.4  909.
## 6 2002_2   15.7  602.

# Estadisticas descriptivas de los datos
summary(datos)

##    año_tri              t_des             ied        
##  Length:92          Min.   : 8.275   Min.   : 197.2  
##  Class :character   1st Qu.: 9.892   1st Qu.:1329.9  
##  Mode  :character   Median :11.434   Median :2521.3  
##                     Mean   :11.793   Mean   :2590.1  
##                     3rd Qu.:13.078   3rd Qu.:3763.4  
##                     Max.   :20.939   Max.   :6776.2

La variable t_des tiene una distribución con una media de 11.793 y una mediana de 11.434, indicando una distribución bastante simétrica pero levemente sesgada a la derecha.
ied La media (2590.1) es ligeramente superior a la mediana (2521.3), lo que sugiere una posible asimetría positiva (sesgo a la derecha).



``` r
#declaro la base de datos como una serie de tiempo
datos.ts <- ts(datos, start = c(2001,1), frequency = 4)
datos.ts

##         año_tri     t_des       ied
## 2001 Q1       1 16.622822  554.4154
## 2001 Q2       2 14.621085 1041.7375
## 2001 Q3       3 14.723824  234.0115
## 2001 Q4       4 13.938526  711.7783
## 2002 Q1       5 16.403364  909.0146
## 2002 Q2       6 15.670038  601.6655
## 2002 Q3       7 15.281454  197.1671
## 2002 Q4       8 15.194805  425.8509
## 2003 Q1       9 15.071864  319.1839
## 2003 Q2      10 13.975699  519.9457
## 2003 Q3      11 14.375720  540.9807
## 2003 Q4      12 12.905220  340.3832
## 2004 Q1      13 15.510849  681.6320
## 2004 Q2      14 14.195849  747.5152
## 2004 Q3      15 12.750255  885.5052
## 2004 Q4      16 12.025452  800.9834
## 2005 Q1      17 13.437965  880.2190
## 2005 Q2      18 12.017951 1600.1770
## 2005 Q3      19 11.700145  978.7979
## 2005 Q4      20 10.150692 6776.2233
## 2006 Q1      21 12.605321 1202.6757
## 2006 Q2      22 11.470102 1809.7021
## 2006 Q3      23 12.752741 1727.1846
## 2006 Q4      24 11.397208 2011.0629
## 2007 Q1      25 13.056233 2026.2817
## 2007 Q2      26 11.236100 2228.7364
## 2007 Q3      27 11.028933 2325.7286
## 2007 Q4      28  9.874567 2305.0177
## 2008 Q1      29 12.276733 2717.5377
## 2008 Q2      30 11.101600 2346.3659
## 2008 Q3      31 11.561067 2597.9697
## 2008 Q4      32 10.622033 2902.2824
## 2009 Q1      33 13.143067 2289.8999
## 2009 Q2      34 11.824467 2789.6884
## 2009 Q3      35 12.406333 1959.0900
## 2009 Q4      36 11.485267  996.0678
## 2010 Q1      37 13.177467 1205.5503
## 2010 Q2      38 12.227800 1944.8966
## 2010 Q3      39 11.701233 2348.6097
## 2010 Q4      40 10.871000  930.9330
## 2011 Q1      41 12.661367 3113.3210
## 2011 Q2      42 11.287967 3103.6952
## 2011 Q3      43 10.682533 3776.3659
## 2011 Q4      44  9.640267 4653.6666
## 2012 Q1      45 11.789500 3533.3334
## 2012 Q2      46 10.775233 4233.1590
## 2012 Q3      47 10.429833 3327.7589
## 2012 Q4      48  9.523833 3945.7278
## 2013 Q1      49 11.578600 3670.2915
## 2013 Q2      50  9.927567 4015.0609
## 2013 Q3      51  9.664367 4712.9745
## 2013 Q4      52  8.468033 3812.0922
## 2014 Q1      53 10.821567 3789.9269
## 2014 Q2      54  9.259233 4945.4088
## 2014 Q3      55  9.150733 3673.1804
## 2014 Q4      56  8.398333 3760.1856
## 2015 Q1      57 10.167367 3248.5433
## 2015 Q2      58  9.152533 4068.1552
## 2015 Q3      59  9.198500 2197.1584
## 2015 Q4      60  8.274767 2106.6756
## 2016 Q1      61 11.003600 4681.3605
## 2016 Q2      62  9.248967 3656.9846
## 2016 Q3      63  9.428867 2243.8740
## 2016 Q4      64  8.499433 3275.7185
## 2017 Q1      65 10.911500 2459.1109
## 2017 Q2      66  9.317067 2492.1667
## 2017 Q3      67  9.668033 4956.7035
## 2017 Q4      68  8.805633 3792.8993
## 2018 Q1      69 11.032400 1982.3242
## 2018 Q2      70  9.672400 3772.9442
## 2018 Q3      71  9.714067 2704.4028
## 2018 Q4      72  9.447033 2839.0215
## 2019 Q1      73 12.116400 3393.7019
## 2019 Q2      74 10.443800 4090.1557
## 2019 Q3      75 11.092767 3163.0931
## 2019 Q4      76  9.897300 3342.2033
## 2020 Q1      77 13.151467 3174.5997
## 2020 Q2      78 20.938800 1371.3810
## 2020 Q3      79 18.216733  843.9886
## 2020 Q4      80 14.369467 2068.6556
## 2021 Q1      81 15.958000 2306.8534
## 2021 Q2      82 15.112933 1997.0242
## 2021 Q3      83 12.627067 2706.9889
## 2021 Q4      84 11.541600 2550.4687
## 2022 Q1      85 13.224567 4934.4890
## 2022 Q2      86 11.026000 5042.8965
## 2022 Q3      87 10.789533 3113.2184
## 2022 Q4      88  9.831500 4091.9174
## 2023 Q1      89 11.696667 4107.2996
## 2023 Q2      90 10.180703 5309.7108
## 2023 Q3      91  9.367632 3945.3716
## 2023 Q4      92  9.417339 3782.1401

periodicity(datos.ts)

## Quarterly periodicity from 2001 Q1 to 2023 Q4

# Convertir la columna 'año_tri' en un formato de fecha adecuado
datos <- datos %>%
  mutate(fecha = as.Date(paste0(substr(año_tri, 1, 4), "-", 
                                case_when(
                                  substr(año_tri, 6, 6) == "1" ~ "01-01",
                                  substr(año_tri, 6, 6) == "2" ~ "04-01",
                                  substr(año_tri, 6, 6) == "3" ~ "07-01",
                                  substr(año_tri, 6, 6) == "4" ~ "10-01"
                                )), format = "%Y-%m-%d"))

# Graficar la serie de tiempo de 't_des'
ggplot(datos, aes(x = fecha, y = t_des)) +
  geom_line(color = "blue") +
  labs(title = "Tasa de Desempleo en Colombia",
       x = "Fecha",
       y = "Tasa de Desempleo") +
  theme_minimal()

# Graficar la serie de tiempo de 'ied'
ggplot(datos, aes(x = fecha, y = ied)) +
  geom_line(color = "red") +
  labs(title = "Inversión Extranjera Directa (IED) en Colombia",
       x = "Fecha",
       y = "Valor de IED") +
  theme_minimal()

#Se muestran de menera gráfica cada una de las series de datos

Graficos de cajs y bigotes

# Graficar la tasa de desempleo
ggplot(datos, aes(x = "", y = t_des)) +
  geom_boxplot(fill = "blue", alpha = 0.7) +
  labs(title = "Gráfico de Caja y Bigotes de la Tasa de Desempleo en Colombia",
       x = "Tasa de Desempleo",
       y = "Valor") +
  theme_minimal()

#se obserca que hay presencia de datos atipicos

# Graficar la IED
ggplot(datos, aes(x = "", y = ied)) +
  geom_boxplot(fill = "red", alpha = 0.7) +
  labs(title = "Gráfico de Caja y Bigotes de la Inversión Extranjera Directa (IED) en Colombia",
       x = "IED",
       y = "Valor") +
  theme_minimal()

# De acuerdo con el gráfico no hay presencia de datos atipicos

3 METODOLOGÍA:

El análisis se desarrolló en varias etapas, siguiendo una serie de pasos sistemáticos para garantizar la calidad y precisión de los resultados obtenidos.

Recopilación de datos: Se obtuvieron los datos de la tasa de desempleo de la página del Departamento Administrativo Nacional de Estadística (DANE).

Los datos de la Inversión Extranjera Directa (IED) se recopilaron del Banco de la República.

Preprocesamiento de datos: Los datos fueron limpiados y estructurados adecuadamente para el análisis. Esto incluyó la conversión de la columna año_tri en un formato de fecha adecuado y la creación de series de tiempo para ambas variables (t_des y ied).

Análisis descriptivo:

Se calcularon estadísticas descriptivas para ambas variables, incluyendo la media, mediana, rango intercuartílico, y valores mínimos y máximos. Estas estadísticas proporcionaron una visión general de la distribución de los datos y ayudaron a identificar posibles sesgos.

Visualización de datos: Se generaron gráficos de líneas para representar las series de tiempo de la tasa de desempleo y la IED, mostrando las tendencias a lo largo del tiempo.

Además, se crearon gráficos de caja y bigotes para identificar posibles datos atípicos y analizar la distribución de cada variable. Se observó la presencia de datos atípicos en la tasa de desempleo, mientras que en la IED no se detectaron datos atípicos significativos.

Pruebas de normalidad: Se realizaron pruebas de normalidad, específicamente la prueba de Shapiro-Wilk y la de Kolmogorov-Smirnov (K-S), para determinar si las variables seguían una distribución normal. Estas pruebas fueron cruciales para decidir el tipo de análisis a aplicar posteriormente.

Análisis de correlación: Finalmente, se aplicó la prueba no paramétrica de Spearman para evaluar la relación entre la IED y el desempleo. Esta prueba es adecuada para datos que no siguen una distribución normal. Los resultados indicaron una relación débil entre la IED y el desempleo en Colombia durante el periodo analizado.

4. PLANTEAMIENTO DE PREGUNTAS

¿Existe una relación significativa entre la inversión extranjera directa y la tasa de desempleo en Colombia?

¿La inversión extranjera directa tiene un impacto positivo o negativo en el desempleo?

5. POBLACIÓN Y MUESTRA

LA POBALCIÓN EN ESTE CASO SERIA TODOS LOS DATOS DISPOBLES, DESDE QUE SE HAY REGISTROS. SELECCIÓN DE LA MUESTRA: La muestra se seleccionó mediante un muestreo por conveniencia, basado en la disponibilidad de datos desde el año 2001.

6 APLICACIÓN DE METODOLOGIA Y RESULTADOS

Distribución de los datos

para verificar si las variables siguen una distribucion normal y teniendo en cuenta el tamaño de la muestra (88) se aplicará la prueba de Kolmogorov-Smirnov (K-S).

pruebas de normalidad con la variable ied

Kolmogorov-Smirnov (K-S)

p > 0.05: No hay evidencia para rechazar la hipótesis de normalidad (los datos podrían ser normales).
p ≤ 0.05: Se rechaza la hipótesis de normalidad (los datos no siguen una distribución normal).

# Prueba de Kolmogorov-Smirnov para ied y t_des
ks.test(datos$ied, "pnorm", mean(datos$ied), sd(datos$ied))

## 
##  Exact one-sample Kolmogorov-Smirnov test
## 
## data:  datos$ied
## D = 0.088487, p-value = 0.442
## alternative hypothesis: two-sided

#HO: la variable desempleo se distribuye de forma normal.  
#H1: no hay evidencia que concluya el desempleo no se distribuyen de forma normal.
#p > 0.05 (0.442)  
# No se puede rechazar la hipótesis nula (H₀). Esto significa que no hay suficiente evidencia estadística para afirmar que los datos de ied no siguen una distribución normal.

# Gráficos Q-Q
qqnorm(datos$ied, main="Gráfico Q-Q de IED")
qqline(datos$ied, col = "red")

# De acuerdo con la gráfica, hay varios puntos que se encuentran muy cerca de la recta, sin embargo, hay datos alejados de esta linea. Dado que los resultados no han sido concluyentes se procede a realizar la prueba de Shapiro-Wilk

Prueba de Shapiro-Wilk

shapiro.test(datos$ied)

## 
##  Shapiro-Wilk normality test
## 
## data:  datos$ied
## W = 0.97, p-value = 0.03217

#Hipótesis nula (H₀): Los datos de ied siguen una distribución normal.  
#Hipótesis alternativa (H₁): Los datos de ied no siguen una distribución normal.  
#Se rechaza la hipótesis nula (H₀) al nivel de significancia del 5%. Esto indica que hay suficiente evidencia estadística.  
#para concluir que los datos de ied no siguen una distribución normal. Los resultados del test de Shapiro-Wilk indican que los datos ied no siguen una distribución normal con un nivel de significancia del 5%. Esto implica que podría ser necesario considerar transformaciones de datos o utilizar métodos estadísticos no paramétricos para los análisis posteriores.

Histograma

# Crear el histograma con línea de densidad
hist(datos$ied, 
     probability = TRUE,   # Para escalar el histograma como una función de densidad
     col = "lightblue",     # Color del histograma (opcional)
     main = "Histograma de ied con línea de densidad",
     xlab = "ied",          # Etiqueta del eje X
     ylab = "Densidad")     # Etiqueta del eje Y

# Añadir línea de densidad
lines(density(datos$ied), col = "blue", lwd = 2)

# con el histograma se verifica que los datos se asemejan a una distribución nomral, pero no siguen una de ellas.

pruebas de normalidad con la variable Desempleo

Kolmogorov-Smirnov (K-S)

# Prueba de Kolmogorov-Smirnov para ied y t_des
ks.test(datos$t_des, "pnorm", mean(datos$t_des), sd(datos$t_des))

## 
##  Exact one-sample Kolmogorov-Smirnov test
## 
## data:  datos$t_des
## D = 0.10345, p-value = 0.26
## alternative hypothesis: two-sided

#HO: la variable desempleo se distribuye de forma normal.  
#H1: no hay evidencia que concluya el desempleo no se distribuyen de forma normal.
# Con un p-valor de 0.26, no tenemos suficiente evidencia para rechazar la hipótesis nula de que tus datos siguen una distribución normal.

# Gráficos Q-Q
qqnorm(datos$t_des, main="Gráfico Q-Q de Desempleo")
qqline(datos$t_des, col = "red")

# De acuerdo con la gráfica, hay varios puntos que se encuentran muy cerca de la recta, sin embargo, hay datos alejados de esta linea. Por ejercio prectico se realiza la prueba de shapiro wiik

Prueba de Shapiro-Wilk

shapiro.test(datos$t_des)

## 
##  Shapiro-Wilk normality test
## 
## data:  datos$t_des
## W = 0.93197, p-value = 0.0001272

#Hipótesis nula (H₀): Los datos de ied siguen una distribución normal.  
#Hipótesis alternativa (H₁): Los datos de ied no siguen una distribución normal.  
# En este caso, el p-valor es 0.0001272, que es mucho menor que 0.05. Por lo tanto: Se rechaza la hipótesis nula Conclusión: Los datos de t_des no siguen una distribución normal.

Histograma

# Crear el histograma con línea de densidad
hist(datos$t_des, 
     probability = TRUE,   # Para escalar el histograma como una función de densidad
     col = "lightblue",     # Color del histograma (opcional)
     main = "Histograma de Desempleo con línea de densidad",
     xlab = "Desempleo",          # Etiqueta del eje X
     ylab = "Densidad")     # Etiqueta del eje Y

# Añadir línea de densidad
lines(density(datos$t_des), col = "blue", lwd = 2)

# con el histograma se verifica que los datos se asemejan a una distribución nomral, pero no siguen una de ellas.
# De acuerdo con el gráfico los datos no siguen una distribución Normal.

Conclusión:

Se concluye que las series no siguen una distrivucion normal. por lo tanto, se deben aplicar pruenas no parametricas.

Dado que los datos no siguen una distribución normal, es recomendable utilizar pruebas no paramétricas, ya que estas no asumen normalidad en los datos. Una prueba no paramétrica adecuada para evaluar la relación entre dos variables es la prueba de correlación de Spearman. Esta prueba mide la asociación entre las variables y es ideal cuando no se cumplen los supuestos de normalidad.

# prueba de correlación de Spearman
correlacion_spearman <- cor.test(datos$t_des, datos$ied, method = "spearman")

# Mostrar los resultados
print(correlacion_spearman)

## 
##  Spearman's rank correlation rho
## 
## data:  datos$t_des and datos$ied
## S = 219868, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.6943421

Coeficiente de correlación (rho): El valor de rho es -0.6943421, lo cual indica una correlación negativa moderada a fuerte entre la tasa de desempleo (t_des) y la inversión extranjera directa (IED). Esto significa que, en general, a medida que la IED aumenta, la tasa de desempleo tiende a disminuir, y viceversa.

# Crear el gráfico de dispersión con línea de tendencia
ggplot(data = datos, aes(x = t_des, y = ied)) +
  geom_point(color = "blue", size = 2) +
  geom_smooth(method = "lm", color = "red", linetype = "dashed", size = 1,se = FALSE) +
  labs(title = "Gráfico de Dispersión entre ied y t_des con Línea de Tendencia",
       x = "DESEMPLEO",
       y = "IED") +
  theme_minimal()

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

## `geom_smooth()` using formula = 'y ~ x'

# se muestra correlación negativa a traves de un gráfico de dispersión.

CONCLUSIONES Y RECOMENDACIONES

Correlación significativa: Existe una correlación negativa entre la IED y la tasa de desempleo en Colombia. Esto sugiere que los cambios en la inversión extranjera directa pueden estar relacionados con cambios en el desempleo.

Relación inversa: La correlación negativa moderada a fuerte implica que un aumento en la IED generalmente está asociado con una disminución en la tasa de desempleo, lo que podría indicar que la inversión extranjera contribuye a la creación de empleo en el país.

Dando respuesta a las preguntas: ¿Existe una relación significativa entre la inversión extranjera directa y la tasa de desempleo en Colombia? Sí, existe una relación significativa. La prueba de correlación de Spearman muestra una correlación negativa moderada a fuerte con un valor p extremadamente bajo.

¿La inversión extranjera directa tiene un impacto positivo o negativo en el desempleo? La inversión extranjera directa tiene un impacto negativo en el desempleo, es decir, a medida que la IED aumenta, la tasa de desempleo tiende a disminuir.

Recomendaciones: Promover la IED: Dado que la IED parece tener un impacto negativo significativo sobre el desempleo, se recomienda implementar políticas que fomenten la inversión extranjera, ya que esto puede ayudar a reducir las tasas de desempleo.

Análisis adicional: Realizar estudios complementarios para identificar otras variables económicas y sociales que puedan estar influyendo en la relación entre la IED y el desempleo.

Monitorización continua: Es importante seguir monitoreando la IED y las tasas de desempleo para observar cambios en la relación y ajustar las políticas económicas en consecuencia.

Políticas de apoyo: Implementar políticas que faciliten la integración de la inversión extranjera en la economía local, asegurando que los beneficios de la IED se distribuyan equitativamente y contribuyan al desarrollo sostenible.

REFERENCIAS

DANE: https://www.dane.gov.co/index.php/estadisticas-por-tema/mercado-laboral/empleo-y-desempleo
BANREP: https://suameca.banrep.gov.co/estadisticas-economicas/#/informacionSerie/4190/Inversi%C3%B3n%20directa

INFORME FINAL

Julián Camilo Santana Charry

Noviembre 2024

INTRODUCCIÓN:

DESCRIPCIÓN DE DATOS: PROBLEMA

Datos

3 METODOLOGÍA:

4. PLANTEAMIENTO DE PREGUNTAS

5. POBLACIÓN Y MUESTRA

6 APLICACIÓN DE METODOLOGIA Y RESULTADOS

Distribución de los datos

pruebas de normalidad con la variable ied

Kolmogorov-Smirnov (K-S)

Prueba de Shapiro-Wilk

Histograma

pruebas de normalidad con la variable Desempleo

Kolmogorov-Smirnov (K-S)

Prueba de Shapiro-Wilk

Histograma

Conclusión:

CONCLUSIONES Y RECOMENDACIONES

REFERENCIAS