library(xts)
## Cargando paquete requerido: zoo
##
## Adjuntando el paquete: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.2
library(readxl)
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.2
##
## ######################### Warning from 'xts' package ##########################
## # #
## # The dplyr lag() function breaks how base R's lag() function is supposed to #
## # work, which breaks lag(my_xts). Calls to lag(my_xts) that you type or #
## # source() into this session won't work correctly. #
## # #
## # Use stats::lag() to make sure you're not using dplyr::lag(), or you can add #
## # conflictRules('dplyr', exclude = 'lag') to your .Rprofile to stop #
## # dplyr from breaking base R's lag() function. #
## # #
## # Code in packages is not affected. It's protected by R's namespace mechanism #
## # Set `options(xts.warn_dplyr_breaks_lag = FALSE)` to suppress this warning. #
## # #
## ###############################################################################
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:xts':
##
## first, last
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
A continuación, se presentan pruebas de normalidad, específicamente la prueba de Shapiro-Wilk y la de Kolmogorov-Smirnov (K-S), aplicadas a dos variables: inversión extranjera directa (IED) y desempleo en Colombia. El propósito de estas pruebas es determinar si las variables siguen una distribución normal, lo cual es un requisito para realizar estimaciones que puedan revelar una posible relación entre ellas.
Luego de aplicar la prueba no paramétrica de Spearman, se concluye que existe una relación débil entre la IED y el desempleo.
El tema seleccionado para este estudio es la relación entre la inversión extranjera directa (IED) y el desempleo en Colombia. Los datos correspondientes al desempleo fueron obtenidos de la página del Departamento Administrativo Nacional de Estadística (DANE), mientras que los datos de IED fueron tomados del Banco de la República.
Los datos abarcan desde el primer trimestre de 2001 (2001 t1) hasta el cuarto trimestre de 2023 (2023 t4) y se presentan con una periodicidad trimestral. La selección de los datos se realizó mediante un muestreo por conveniencia, considerando que la disponibilidad de estos datos sólo abarca desde el año 2001.
# Carga del set de datos
library(readxl)
datos <- read_excel("C:/Users/JULIAN SANTANA/Desktop/TESIS ESTADISTICA/DATOS/datos.xlsx")
head(datos)
## # A tibble: 6 × 3
## año_tri t_des ied
## <chr> <dbl> <dbl>
## 1 2001_1 16.6 554.
## 2 2001_2 14.6 1042.
## 3 2001_3 14.7 234.
## 4 2001_4 13.9 712.
## 5 2002_1 16.4 909.
## 6 2002_2 15.7 602.
# Estadisticas descriptivas de los datos
summary(datos)
## año_tri t_des ied
## Length:92 Min. : 8.275 Min. : 197.2
## Class :character 1st Qu.: 9.892 1st Qu.:1329.9
## Mode :character Median :11.434 Median :2521.3
## Mean :11.793 Mean :2590.1
## 3rd Qu.:13.078 3rd Qu.:3763.4
## Max. :20.939 Max. :6776.2
La variable t_des tiene una distribución con una
media de 11.793 y una mediana de 11.434, indicando una distribución
bastante simétrica pero levemente sesgada a la derecha.
ied La media (2590.1) es ligeramente superior a la
mediana (2521.3), lo que sugiere una posible asimetría positiva (sesgo a
la derecha).
``` r
#declaro la base de datos como una serie de tiempo
datos.ts <- ts(datos, start = c(2001,1), frequency = 4)
datos.ts
## año_tri t_des ied
## 2001 Q1 1 16.622822 554.4154
## 2001 Q2 2 14.621085 1041.7375
## 2001 Q3 3 14.723824 234.0115
## 2001 Q4 4 13.938526 711.7783
## 2002 Q1 5 16.403364 909.0146
## 2002 Q2 6 15.670038 601.6655
## 2002 Q3 7 15.281454 197.1671
## 2002 Q4 8 15.194805 425.8509
## 2003 Q1 9 15.071864 319.1839
## 2003 Q2 10 13.975699 519.9457
## 2003 Q3 11 14.375720 540.9807
## 2003 Q4 12 12.905220 340.3832
## 2004 Q1 13 15.510849 681.6320
## 2004 Q2 14 14.195849 747.5152
## 2004 Q3 15 12.750255 885.5052
## 2004 Q4 16 12.025452 800.9834
## 2005 Q1 17 13.437965 880.2190
## 2005 Q2 18 12.017951 1600.1770
## 2005 Q3 19 11.700145 978.7979
## 2005 Q4 20 10.150692 6776.2233
## 2006 Q1 21 12.605321 1202.6757
## 2006 Q2 22 11.470102 1809.7021
## 2006 Q3 23 12.752741 1727.1846
## 2006 Q4 24 11.397208 2011.0629
## 2007 Q1 25 13.056233 2026.2817
## 2007 Q2 26 11.236100 2228.7364
## 2007 Q3 27 11.028933 2325.7286
## 2007 Q4 28 9.874567 2305.0177
## 2008 Q1 29 12.276733 2717.5377
## 2008 Q2 30 11.101600 2346.3659
## 2008 Q3 31 11.561067 2597.9697
## 2008 Q4 32 10.622033 2902.2824
## 2009 Q1 33 13.143067 2289.8999
## 2009 Q2 34 11.824467 2789.6884
## 2009 Q3 35 12.406333 1959.0900
## 2009 Q4 36 11.485267 996.0678
## 2010 Q1 37 13.177467 1205.5503
## 2010 Q2 38 12.227800 1944.8966
## 2010 Q3 39 11.701233 2348.6097
## 2010 Q4 40 10.871000 930.9330
## 2011 Q1 41 12.661367 3113.3210
## 2011 Q2 42 11.287967 3103.6952
## 2011 Q3 43 10.682533 3776.3659
## 2011 Q4 44 9.640267 4653.6666
## 2012 Q1 45 11.789500 3533.3334
## 2012 Q2 46 10.775233 4233.1590
## 2012 Q3 47 10.429833 3327.7589
## 2012 Q4 48 9.523833 3945.7278
## 2013 Q1 49 11.578600 3670.2915
## 2013 Q2 50 9.927567 4015.0609
## 2013 Q3 51 9.664367 4712.9745
## 2013 Q4 52 8.468033 3812.0922
## 2014 Q1 53 10.821567 3789.9269
## 2014 Q2 54 9.259233 4945.4088
## 2014 Q3 55 9.150733 3673.1804
## 2014 Q4 56 8.398333 3760.1856
## 2015 Q1 57 10.167367 3248.5433
## 2015 Q2 58 9.152533 4068.1552
## 2015 Q3 59 9.198500 2197.1584
## 2015 Q4 60 8.274767 2106.6756
## 2016 Q1 61 11.003600 4681.3605
## 2016 Q2 62 9.248967 3656.9846
## 2016 Q3 63 9.428867 2243.8740
## 2016 Q4 64 8.499433 3275.7185
## 2017 Q1 65 10.911500 2459.1109
## 2017 Q2 66 9.317067 2492.1667
## 2017 Q3 67 9.668033 4956.7035
## 2017 Q4 68 8.805633 3792.8993
## 2018 Q1 69 11.032400 1982.3242
## 2018 Q2 70 9.672400 3772.9442
## 2018 Q3 71 9.714067 2704.4028
## 2018 Q4 72 9.447033 2839.0215
## 2019 Q1 73 12.116400 3393.7019
## 2019 Q2 74 10.443800 4090.1557
## 2019 Q3 75 11.092767 3163.0931
## 2019 Q4 76 9.897300 3342.2033
## 2020 Q1 77 13.151467 3174.5997
## 2020 Q2 78 20.938800 1371.3810
## 2020 Q3 79 18.216733 843.9886
## 2020 Q4 80 14.369467 2068.6556
## 2021 Q1 81 15.958000 2306.8534
## 2021 Q2 82 15.112933 1997.0242
## 2021 Q3 83 12.627067 2706.9889
## 2021 Q4 84 11.541600 2550.4687
## 2022 Q1 85 13.224567 4934.4890
## 2022 Q2 86 11.026000 5042.8965
## 2022 Q3 87 10.789533 3113.2184
## 2022 Q4 88 9.831500 4091.9174
## 2023 Q1 89 11.696667 4107.2996
## 2023 Q2 90 10.180703 5309.7108
## 2023 Q3 91 9.367632 3945.3716
## 2023 Q4 92 9.417339 3782.1401
periodicity(datos.ts)
## Quarterly periodicity from 2001 Q1 to 2023 Q4
# Convertir la columna 'año_tri' en un formato de fecha adecuado
datos <- datos %>%
mutate(fecha = as.Date(paste0(substr(año_tri, 1, 4), "-",
case_when(
substr(año_tri, 6, 6) == "1" ~ "01-01",
substr(año_tri, 6, 6) == "2" ~ "04-01",
substr(año_tri, 6, 6) == "3" ~ "07-01",
substr(año_tri, 6, 6) == "4" ~ "10-01"
)), format = "%Y-%m-%d"))
# Graficar la serie de tiempo de 't_des'
ggplot(datos, aes(x = fecha, y = t_des)) +
geom_line(color = "blue") +
labs(title = "Tasa de Desempleo en Colombia",
x = "Fecha",
y = "Tasa de Desempleo") +
theme_minimal()
# Graficar la serie de tiempo de 'ied'
ggplot(datos, aes(x = fecha, y = ied)) +
geom_line(color = "red") +
labs(title = "Inversión Extranjera Directa (IED) en Colombia",
x = "Fecha",
y = "Valor de IED") +
theme_minimal()
#Se muestran de menera gráfica cada una de las series de datos
Graficos de cajs y bigotes
# Graficar la tasa de desempleo
ggplot(datos, aes(x = "", y = t_des)) +
geom_boxplot(fill = "blue", alpha = 0.7) +
labs(title = "Gráfico de Caja y Bigotes de la Tasa de Desempleo en Colombia",
x = "Tasa de Desempleo",
y = "Valor") +
theme_minimal()
#se obserca que hay presencia de datos atipicos
# Graficar la IED
ggplot(datos, aes(x = "", y = ied)) +
geom_boxplot(fill = "red", alpha = 0.7) +
labs(title = "Gráfico de Caja y Bigotes de la Inversión Extranjera Directa (IED) en Colombia",
x = "IED",
y = "Valor") +
theme_minimal()
# De acuerdo con el gráfico no hay presencia de datos atipicos
El análisis se desarrolló en varias etapas, siguiendo una serie de pasos sistemáticos para garantizar la calidad y precisión de los resultados obtenidos.
Recopilación de datos: Se obtuvieron los datos de la tasa de desempleo de la página del Departamento Administrativo Nacional de Estadística (DANE).
Los datos de la Inversión Extranjera Directa (IED) se recopilaron del Banco de la República.
Preprocesamiento de datos: Los datos fueron limpiados y estructurados adecuadamente para el análisis. Esto incluyó la conversión de la columna año_tri en un formato de fecha adecuado y la creación de series de tiempo para ambas variables (t_des y ied).
Análisis descriptivo:
Se calcularon estadísticas descriptivas para ambas variables, incluyendo la media, mediana, rango intercuartílico, y valores mínimos y máximos. Estas estadísticas proporcionaron una visión general de la distribución de los datos y ayudaron a identificar posibles sesgos.
Visualización de datos: Se generaron gráficos de líneas para representar las series de tiempo de la tasa de desempleo y la IED, mostrando las tendencias a lo largo del tiempo.
Además, se crearon gráficos de caja y bigotes para identificar posibles datos atípicos y analizar la distribución de cada variable. Se observó la presencia de datos atípicos en la tasa de desempleo, mientras que en la IED no se detectaron datos atípicos significativos.
Pruebas de normalidad: Se realizaron pruebas de normalidad, específicamente la prueba de Shapiro-Wilk y la de Kolmogorov-Smirnov (K-S), para determinar si las variables seguían una distribución normal. Estas pruebas fueron cruciales para decidir el tipo de análisis a aplicar posteriormente.
Análisis de correlación: Finalmente, se aplicó la prueba no paramétrica de Spearman para evaluar la relación entre la IED y el desempleo. Esta prueba es adecuada para datos que no siguen una distribución normal. Los resultados indicaron una relación débil entre la IED y el desempleo en Colombia durante el periodo analizado.
¿Existe una relación significativa entre la inversión extranjera directa y la tasa de desempleo en Colombia?
¿La inversión extranjera directa tiene un impacto positivo o negativo en el desempleo?
LA POBALCIÓN EN ESTE CASO SERIA TODOS LOS DATOS DISPOBLES, DESDE QUE SE HAY REGISTROS. SELECCIÓN DE LA MUESTRA: La muestra se seleccionó mediante un muestreo por conveniencia, basado en la disponibilidad de datos desde el año 2001.
para verificar si las variables siguen una distribucion normal y teniendo en cuenta el tamaño de la muestra (88) se aplicará la prueba de Kolmogorov-Smirnov (K-S).
p > 0.05: No hay evidencia para rechazar la hipótesis de
normalidad (los datos podrían ser normales).
p ≤ 0.05: Se rechaza la hipótesis de normalidad (los datos no siguen una
distribución normal).
# Prueba de Kolmogorov-Smirnov para ied y t_des
ks.test(datos$ied, "pnorm", mean(datos$ied), sd(datos$ied))
##
## Exact one-sample Kolmogorov-Smirnov test
##
## data: datos$ied
## D = 0.088487, p-value = 0.442
## alternative hypothesis: two-sided
#HO: la variable desempleo se distribuye de forma normal.
#H1: no hay evidencia que concluya el desempleo no se distribuyen de forma normal.
#p > 0.05 (0.442)
# No se puede rechazar la hipótesis nula (H₀). Esto significa que no hay suficiente evidencia estadística para afirmar que los datos de ied no siguen una distribución normal.
# Gráficos Q-Q
qqnorm(datos$ied, main="Gráfico Q-Q de IED")
qqline(datos$ied, col = "red")
# De acuerdo con la gráfica, hay varios puntos que se encuentran muy cerca de la recta, sin embargo, hay datos alejados de esta linea. Dado que los resultados no han sido concluyentes se procede a realizar la prueba de Shapiro-Wilk
shapiro.test(datos$ied)
##
## Shapiro-Wilk normality test
##
## data: datos$ied
## W = 0.97, p-value = 0.03217
#Hipótesis nula (H₀): Los datos de ied siguen una distribución normal.
#Hipótesis alternativa (H₁): Los datos de ied no siguen una distribución normal.
#Se rechaza la hipótesis nula (H₀) al nivel de significancia del 5%. Esto indica que hay suficiente evidencia estadística.
#para concluir que los datos de ied no siguen una distribución normal. Los resultados del test de Shapiro-Wilk indican que los datos ied no siguen una distribución normal con un nivel de significancia del 5%. Esto implica que podría ser necesario considerar transformaciones de datos o utilizar métodos estadísticos no paramétricos para los análisis posteriores.
# Crear el histograma con línea de densidad
hist(datos$ied,
probability = TRUE, # Para escalar el histograma como una función de densidad
col = "lightblue", # Color del histograma (opcional)
main = "Histograma de ied con línea de densidad",
xlab = "ied", # Etiqueta del eje X
ylab = "Densidad") # Etiqueta del eje Y
# Añadir línea de densidad
lines(density(datos$ied), col = "blue", lwd = 2)
# con el histograma se verifica que los datos se asemejan a una distribución nomral, pero no siguen una de ellas.
p > 0.05: No hay evidencia para rechazar la hipótesis de
normalidad (los datos podrían ser normales).
p ≤ 0.05: Se rechaza la hipótesis de normalidad (los datos no siguen una
distribución normal).
# Prueba de Kolmogorov-Smirnov para ied y t_des
ks.test(datos$t_des, "pnorm", mean(datos$t_des), sd(datos$t_des))
##
## Exact one-sample Kolmogorov-Smirnov test
##
## data: datos$t_des
## D = 0.10345, p-value = 0.26
## alternative hypothesis: two-sided
#HO: la variable desempleo se distribuye de forma normal.
#H1: no hay evidencia que concluya el desempleo no se distribuyen de forma normal.
# Con un p-valor de 0.26, no tenemos suficiente evidencia para rechazar la hipótesis nula de que tus datos siguen una distribución normal.
# Gráficos Q-Q
qqnorm(datos$t_des, main="Gráfico Q-Q de Desempleo")
qqline(datos$t_des, col = "red")
# De acuerdo con la gráfica, hay varios puntos que se encuentran muy cerca de la recta, sin embargo, hay datos alejados de esta linea. Por ejercio prectico se realiza la prueba de shapiro wiik
shapiro.test(datos$t_des)
##
## Shapiro-Wilk normality test
##
## data: datos$t_des
## W = 0.93197, p-value = 0.0001272
#Hipótesis nula (H₀): Los datos de ied siguen una distribución normal.
#Hipótesis alternativa (H₁): Los datos de ied no siguen una distribución normal.
# En este caso, el p-valor es 0.0001272, que es mucho menor que 0.05. Por lo tanto: Se rechaza la hipótesis nula Conclusión: Los datos de t_des no siguen una distribución normal.
# Crear el histograma con línea de densidad
hist(datos$t_des,
probability = TRUE, # Para escalar el histograma como una función de densidad
col = "lightblue", # Color del histograma (opcional)
main = "Histograma de Desempleo con línea de densidad",
xlab = "Desempleo", # Etiqueta del eje X
ylab = "Densidad") # Etiqueta del eje Y
# Añadir línea de densidad
lines(density(datos$t_des), col = "blue", lwd = 2)
# con el histograma se verifica que los datos se asemejan a una distribución nomral, pero no siguen una de ellas.
# De acuerdo con el gráfico los datos no siguen una distribución Normal.
Se concluye que las series no siguen una distrivucion normal. por lo tanto, se deben aplicar pruenas no parametricas.
Dado que los datos no siguen una distribución normal, es recomendable utilizar pruebas no paramétricas, ya que estas no asumen normalidad en los datos. Una prueba no paramétrica adecuada para evaluar la relación entre dos variables es la prueba de correlación de Spearman. Esta prueba mide la asociación entre las variables y es ideal cuando no se cumplen los supuestos de normalidad.
# prueba de correlación de Spearman
correlacion_spearman <- cor.test(datos$t_des, datos$ied, method = "spearman")
# Mostrar los resultados
print(correlacion_spearman)
##
## Spearman's rank correlation rho
##
## data: datos$t_des and datos$ied
## S = 219868, p-value < 2.2e-16
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.6943421
Coeficiente de correlación (rho): El valor de rho es -0.6943421, lo cual indica una correlación negativa moderada a fuerte entre la tasa de desempleo (t_des) y la inversión extranjera directa (IED). Esto significa que, en general, a medida que la IED aumenta, la tasa de desempleo tiende a disminuir, y viceversa.
# Crear el gráfico de dispersión con línea de tendencia
ggplot(data = datos, aes(x = t_des, y = ied)) +
geom_point(color = "blue", size = 2) +
geom_smooth(method = "lm", color = "red", linetype = "dashed", size = 1,se = FALSE) +
labs(title = "Gráfico de Dispersión entre ied y t_des con Línea de Tendencia",
x = "DESEMPLEO",
y = "IED") +
theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## `geom_smooth()` using formula = 'y ~ x'
# se muestra correlación negativa a traves de un gráfico de dispersión.
Correlación significativa: Existe una correlación negativa entre la IED y la tasa de desempleo en Colombia. Esto sugiere que los cambios en la inversión extranjera directa pueden estar relacionados con cambios en el desempleo.
Relación inversa: La correlación negativa moderada a fuerte implica que un aumento en la IED generalmente está asociado con una disminución en la tasa de desempleo, lo que podría indicar que la inversión extranjera contribuye a la creación de empleo en el país.
Dando respuesta a las preguntas: ¿Existe una relación significativa entre la inversión extranjera directa y la tasa de desempleo en Colombia? Sí, existe una relación significativa. La prueba de correlación de Spearman muestra una correlación negativa moderada a fuerte con un valor p extremadamente bajo.
¿La inversión extranjera directa tiene un impacto positivo o negativo en el desempleo? La inversión extranjera directa tiene un impacto negativo en el desempleo, es decir, a medida que la IED aumenta, la tasa de desempleo tiende a disminuir.
Recomendaciones: Promover la IED: Dado que la IED parece tener un impacto negativo significativo sobre el desempleo, se recomienda implementar políticas que fomenten la inversión extranjera, ya que esto puede ayudar a reducir las tasas de desempleo.
Análisis adicional: Realizar estudios complementarios para identificar otras variables económicas y sociales que puedan estar influyendo en la relación entre la IED y el desempleo.
Monitorización continua: Es importante seguir monitoreando la IED y las tasas de desempleo para observar cambios en la relación y ajustar las políticas económicas en consecuencia.
Políticas de apoyo: Implementar políticas que faciliten la integración de la inversión extranjera en la economía local, asegurando que los beneficios de la IED se distribuyan equitativamente y contribuyan al desarrollo sostenible.