Introducción

El análisis estadístico de datos permite comprender el comportamiento de diferentes variables y la relación existente entre ellas. En el ámbito económico, el estudio de las variaciones de precios en distintos sectores es fundamental para entender la dinámica del mercado y su impacto en la economía.

En el presente informe se analiza una base de datos correspondiente a la tasa de variación anual de algunos componentes del Índice de Precios al Consumidor (IPC) en Ecuador durante el período 2015–2024. Las categorías consideradas en el análisis son: alimentos y bebidas no alcohólicas, transporte, salud y educación.

El propósito de este estudio es identificar posibles relaciones entre estas variables mediante el uso de modelos de regresión y técnicas de análisis estadístico, con el fin de evaluar su comportamiento y explorar posibles patrones de predicción, con el fin de comprender cómo se comportan estas variaciones a lo largo del tiempo y evaluar posibles patrones o tendencias que permitan realizar análisis predictivos.

Instalar Librerias

library(ggplot2)
library(readxl)

Problematica

DIAGRAMA DE ASHIKAWA

Interpretación

El diagrama de Ishikawa permite identificar las posibles causas que influyen en la variación del sector transporte en Ecuador durante el período 2015–2024. En este análisis se consideran como factores principales las variaciones en alimentos, salud y educación, variables incluidas en la base de datos analizada.

Base_filtrada_1 <- read_excel("E:/6to/Base filtrada_1.xlsx", 
sheet = "Hoja2")
str(Base_filtrada_1)
## tibble [10 × 5] (S3: tbl_df/tbl/data.frame)
##  $ años                              : num [1:10] 2015 2016 2017 2018 2019 ...
##  $ Alimentos y bebidas no alcohólicas: num [1:10] 3.637 1.154 -0.235 -0.663 -0.625 ...
##  $ Transporte                        : num [1:10] 5.945 0.324 0.246 1.145 0.765 ...
##  $ Salud                             : num [1:10] 2.89 2.66 1.15 2.15 1.37 ...
##  $ Educación                         : num [1:10] 3.33 2.63 3.8 1.65 2.99 ...
summary(Base_filtrada_1)
##       años      Alimentos y bebidas no alcohólicas   Transporte     
##  Min.   :2015   Min.   :-0.6628                    Min.   :-2.2972  
##  1st Qu.:2017   1st Qu.:-0.1906                    1st Qu.: 0.2655  
##  Median :2020   Median : 0.5829                    Median : 0.9548  
##  Mean   :2020   Mean   : 1.6208                    Mean   : 2.0824  
##  3rd Qu.:2022   3rd Qu.: 3.0165                    3rd Qu.: 2.6990  
##  Max.   :2024   Max.   : 7.5962                    Max.   : 9.7654  
##      Salud          Educación     
##  Min.   :0.9744   Min.   :-4.887  
##  1st Qu.:1.4325   1st Qu.: 1.896  
##  Median :2.0854   Median : 2.807  
##  Mean   :2.1001   Mean   : 2.161  
##  3rd Qu.:2.6419   3rd Qu.: 3.247  
##  Max.   :3.5853   Max.   : 5.037
head(Base_filtrada_1)
## # A tibble: 6 × 5
##    años `Alimentos y bebidas no alcohólicas` Transporte Salud Educación
##   <dbl>                                <dbl>      <dbl> <dbl>     <dbl>
## 1  2015                               3.64        5.94   2.89      3.33
## 2  2016                               1.15        0.324  2.66      2.63
## 3  2017                              -0.235       0.246  1.15      3.80
## 4  2018                              -0.663       1.15   2.15      1.65
## 5  2019                              -0.625       0.765  1.37      2.99
## 6  2020                              -0.0583     -2.30   3.59     -4.89

La base de datos analizada contiene información correspondiente al período 2015–2024 sobre la tasa de variación anual de diferentes divisiones del índice de precios al consumidor en Ecuador. Las variables consideradas en el estudio son alimentos y bebidas no alcohólicas, transporte, salud y educación. Estas variables serán utilizadas para analizar su relación mediante un modelo de regresión lineal.

Regresión Lineal

Y (variable dependiente): Transporte

X (variable independiente): Alimentos y bebidas no alcohólicas

Modelo teórico: \[ Transporte = \beta_0 + \beta_1 Alimentos_i + \epsilon \]

modelo_simple <- lm(Transporte ~ `Alimentos y bebidas no alcohólicas`,
                    data = Base_filtrada_1)

summary(modelo_simple)
## 
## Call:
## lm(formula = Transporte ~ `Alimentos y bebidas no alcohólicas`, 
##     data = Base_filtrada_1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.8899 -1.5406 -0.8046  0.3257  7.8402 
## 
## Coefficients:
##                                      Estimate Std. Error t value Pr(>|t|)
## (Intercept)                            1.6097     1.3353   1.206    0.262
## `Alimentos y bebidas no alcohólicas`   0.2917     0.4396   0.664    0.526
## 
## Residual standard error: 3.571 on 8 degrees of freedom
## Multiple R-squared:  0.05216,    Adjusted R-squared:  -0.06632 
## F-statistic: 0.4402 on 1 and 8 DF,  p-value: 0.5257

Interpretación de la regresión lineal simple

Plantiamento de Hipótesis H0: β1 = 0 No existe relación lineal entre la variación de Alimentos y bebidas no alcohólicas y el sector Transporte.

H1: β1 ≠ 0 Existe relación lineal entre la variación de Alimentos y bebidas no alcohólicas y el sector Transporte.

Nivel de significancia

α = 0.05

Regla de decisión

Si p-value ≤ 0.05 → Se rechaza H0 Si p-value > 0.05 → No se rechaza H0

El modelo de regresión lineal simple presentó un p-value = 0.5257.

Decisión

Como 0.5257 > 0.05, no se rechaza la hipótesis nula (H0).

Conclusión

No se rechaza H0, no existe evidencia estadística suficiente para afirmar que la variación en el sector Alimentos y bebidas no alcohólicas influya significativamente en la variación del sector Transporte en Ecuador durante el período 2015–2024.

Adicionalmente, el coeficiente de determinación R² = 0.052, lo que indica que el modelo explica aproximadamente 5.2% de la variabilidad del sector Transporte, mostrando una capacidad explicativa baja. ## Gráfico de la regresión.

library(ggplot2)

ggplot(Base_filtrada_1, aes(x=`Alimentos y bebidas no alcohólicas`, y=Transporte)) +
  geom_point(size=3) +
  geom_smooth(method="lm", se=FALSE, color="red") +
  labs(
    title="Relación entre Alimentos y Transporte",
    x="Alimentos y bebidas no alcohólicas",
    y="Transporte"
  ) +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

## Interpretación El gráfico de dispersión muestra la relación entre la variación del sector Alimentos y bebidas no alcohólicas y el sector Transporte en Ecuador durante el período 2015–2024. Se observa una relación positiva débil, lo cual coincide con los resultados del modelo de regresión lineal simple, donde el coeficiente de determinación indica una baja capacidad explicativa.

Modelo de regresión lineal múltiple

Y (variable dependiente): Transporte

X (variables independientes): Alimentos y bebidas no alcohólicas Salud Educación Modelo teórico: \[ Transporte = \beta_0 + \beta_1 Alimentos + \beta_2 Salud + \beta_3 Educacion + \epsilon \]

modelo_multiple <- lm(Transporte ~ `Alimentos y bebidas no alcohólicas` + Salud + Educación,
                      data = Base_filtrada_1)

summary(modelo_multiple)
## 
## Call:
## lm(formula = Transporte ~ `Alimentos y bebidas no alcohólicas` + 
##     Salud + Educación, data = Base_filtrada_1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.5033 -1.4443 -0.8264 -0.3845  7.6470 
## 
## Coefficients:
##                                      Estimate Std. Error t value Pr(>|t|)
## (Intercept)                          -1.17482    4.51750  -0.260    0.804
## `Alimentos y bebidas no alcohólicas`  0.04778    0.49040   0.097    0.926
## Salud                                 0.77004    1.74266   0.442    0.674
## Educación                             0.72310    0.58536   1.235    0.263
## 
## Residual standard error: 3.663 on 6 degrees of freedom
## Multiple R-squared:  0.2519, Adjusted R-squared:  -0.1221 
## F-statistic: 0.6735 on 3 and 6 DF,  p-value: 0.599

Interpretación de la regresión lineal múltiple

Planteamiento de Hipótesis

H0: β1 = β2 = β3 = 0 Las variables Alimentos y bebidas no alcohólicas, Salud y Educación no influyen en el sector Transporte.

H1: Al menos uno de los coeficientes β es diferente de 0. Al menos una de las variables independientes influye en el sector Transporte. Nivel de significancia

α = 0.05

Regla de decisión

Si p-value ≤ 0.05 → Se rechaza H0 Si p-value > 0.05 → No se rechaza H0 El modelo de regresión lineal múltiple presentó un p-value = 0.599. Conclusión

No se rechaza la hipótesis nula H0,No existe evidencia estadística suficiente para afirmar que las variables Alimentos y bebidas no alcohólicas, Salud y Educación influyan significativamente en la variación del sector Transporte en Ecuador durante el período 2015–2024.

Adicionalmente, el coeficiente de determinación R² = 0.2519, lo que indica que el modelo explica aproximadamente 25.19% de la variabilidad del sector Transporte. Sin embargo, el R² ajustado = -0.1221, lo cual sugiere que el modelo no presenta una buena capacidad explicativa debido al reducido número de observaciones y a la baja relación entre las variables. Ecuación estimada del modelo

\[ Transporte = -1.1748 + 0.0478(Alimentos) + 0.7700(Salud) + 0.7231(Educacion) \] ## Gráfico de la regresión Multiple

Gráfico de la regresión múltiple Relación entre Salud y Transporte

ggplot(Base_filtrada_1, aes(x=Salud, y=Transporte)) +
  geom_point(size=3) +
  geom_smooth(method="lm", se=FALSE, color="blue") +
  labs(
    title="Relación entre Salud y Transporte",
    x="Salud",
    y="Transporte"
  ) +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

Relación entre Educación y Transporte

ggplot(Base_filtrada_1, aes(x=Educación, y=Transporte)) +
  geom_point(size=3) +
  geom_smooth(method="lm", se=FALSE, color="darkgreen") +
  labs(
    title="Relación entre Educación y Transporte",
    x="Educación",
    y="Transporte"
  ) +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

## Interpretación El gráfico de dispersión muestra la relación entre las variables Salud y Educación con el sector Transporte durante el período 2015–2024. Se observa una tendencia positiva leve en ambas relaciones; sin embargo, los resultados del modelo de regresión múltiple indican que estas variables no presentan una influencia estadísticamente significativa sobre el sector transporte, lo cual coincide con el valor del p-value obtenido en el modelo.

Modelo de Regresión Logística

La regresión logística se utiliza cuando la variable dependiente es categórica o binaria, permitiendo estimar la probabilidad de ocurrencia de un evento a partir de una o más variables explicativas.

En este estudio se transformó la variable Transporte en una variable binaria con el objetivo de analizar la probabilidad de que el sector transporte presente una variación alta o baja.

Variable dependiente (Y)

Transporte_binario

1 = Variación del transporte mayor que el promedio

0 = Variación del transporte menor o igual al promedio

Variable independiente (X)

Alimentos y bebidas no alcohólicas

Base_filtrada_1$Transporte_binario <- ifelse(
  Base_filtrada_1$Transporte > mean(Base_filtrada_1$Transporte),
  1, 0
)

Modelo teórico

Modelo teórico

\[ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 Alimentos \] 𝑝 p representa la probabilidad de que el sector transporte tenga una variación alta.

modelo_logistico <- glm(Transporte_binario ~ `Alimentos y bebidas no alcohólicas`,
                        data = Base_filtrada_1,
                        family = binomial)

summary(modelo_logistico)
## 
## Call:
## glm(formula = Transporte_binario ~ `Alimentos y bebidas no alcohólicas`, 
##     family = binomial, data = Base_filtrada_1)
## 
## Coefficients:
##                                      Estimate Std. Error z value Pr(>|z|)
## (Intercept)                           -1.1195     0.8819  -1.269    0.204
## `Alimentos y bebidas no alcohólicas`   0.4360     0.3341   1.305    0.192
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 13.460  on 9  degrees of freedom
## Residual deviance: 11.128  on 8  degrees of freedom
## AIC: 15.128
## 
## Number of Fisher Scoring iterations: 4

Interpretación

Planteamiento de Hipótesis

H0: β1 = 0 La variable Alimentos y bebidas no alcohólicas no influye en la probabilidad de que el sector Transporte presente una variación alta.

H1: β1 ≠ 0 La variable Alimentos y bebidas no alcohólicas influye en la probabilidad de que el sector Transporte presente una variación alta. Nivel de significancia

α = 0.05

Regla de decisión

Si p-value ≤ 0.05 → Se rechaza H0 Si p-value > 0.05 → No se rechaza H0 El modelo de regresión logística presentó un p-value = 0.192 para la variable Alimentos y bebidas no alcohólicas.

Conclusión

No se rechaza la hipótesis nula (H0),no existe evidencia estadística suficiente para afirmar que la variación en el sector Alimentos y bebidas no alcohólicas influya significativamente en la probabilidad de que el sector Transporte presente una variación alta en Ecuador durante el período 2015–2024.

El coeficiente estimado para la variable Alimentos y bebidas no alcohólicas es positivo (0.4360), lo que sugiere que un incremento en esta variable podría aumentar la probabilidad de que el sector transporte presente una variación alta; sin embargo, esta relación no es estadísticamente significativa

Gráfico de la regresión logística

ggplot(Base_filtrada_1, aes(x=`Alimentos y bebidas no alcohólicas`, y=Transporte_binario)) +
  geom_point(size=3) +
  stat_smooth(method="glm",
              method.args=list(family="binomial"),
              se=FALSE,
              color="red") +
  labs(
    title="Regresión Logística: Probabilidad de Transporte Alto",
    x="Alimentos y bebidas no alcohólicas",
    y="Probabilidad de Transporte alto"
  ) +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

## Interpretación

El gráfico muestra la relación entre la variable Alimentos y bebidas no alcohólicas y la probabilidad de que el sector Transporte presente una variación alta. La curva logística representa la probabilidad estimada obtenida a partir del modelo de regresión logística. Aunque se observa una tendencia creciente en la probabilidad, los resultados del modelo indican que esta relación no es estadísticamente significativa, de acuerdo con el valor del p-value obtenido en el análisis.

Predicciones del Modelo de Regresión Lineal Múltiple

Predicciones futuras Una vez estimado el modelo de regresión lineal múltiple, es posible realizar predicciones sobre el comportamiento futuro del sector transporte a partir de valores esperados de las variables independientes: Alimentos y bebidas no alcohólicas, Salud y Educación.

Para este análisis se consideran valores hipotéticos para los años 2025, 2026 y 2027, con el objetivo de estimar la posible variación del sector transporte.

nuevos_datos <- data.frame(
  `Alimentos y bebidas no alcohólicas` = c(2.5, 2.8, 3.0),
  Salud = c(1.3, 1.5, 1.7),
  Educación = c(1.8, 2.0, 2.2)
)

nuevos_datos
##   Alimentos.y.bebidas.no.alcohólicas Salud Educación
## 1                                2.5   1.3       1.8
## 2                                2.8   1.5       2.0
## 3                                3.0   1.7       2.2

Cálculo de las predicciones Utilizando el modelo de regresión múltiple previamente estimado, se calculan las predicciones para los nuevos valores de las variables independientes.

colnames(nuevos_datos)[1] <- "Alimentos y bebidas no alcohólicas"

predicciones <- predict(modelo_multiple, newdata = nuevos_datos)

predicciones
##        1        2        3 
## 1.247257 1.560218 1.868401
tabla_predicciones <- data.frame(
  Año = c(2025, 2026, 2027),
  Alimentos = nuevos_datos$`Alimentos y bebidas no alcohólicas`,
  Salud = nuevos_datos$Salud,
  Educación = nuevos_datos$Educación,
  Transporte_predicho = predicciones
)

tabla_predicciones
##    Año Alimentos Salud Educación Transporte_predicho
## 1 2025       2.5   1.3       1.8            1.247257
## 2 2026       2.8   1.5       2.0            1.560218
## 3 2027       3.0   1.7       2.2            1.868401

Interpretación

Las predicciones obtenidas mediante el modelo de regresión lineal múltiple permiten estimar la posible variación del sector transporte para los años 2025, 2026 y 2027, considerando escenarios hipotéticos de las variables alimentos y bebidas no alcohólicas, salud y educación.

Los resultados muestran un incremento progresivo en la variación estimada del sector transporte, lo cual sugiere que aumentos en estas variables podrían asociarse con un incremento en el comportamiento del sector transporte. Sin embargo, estas predicciones deben interpretarse con cautela debido a que el modelo no presentó significancia estadística y el número de observaciones utilizadas en el análisis es

Gráfico de predicciones del sector Transporte

datos_historicos <- data.frame(
  Año = 2015:2024,
  Transporte = Base_filtrada_1$Transporte
)

datos_predicciones <- data.frame(
  Año = c(2025, 2026, 2027),
  Transporte = predicciones
)

datos_total <- rbind(datos_historicos, datos_predicciones)
ggplot(datos_total, aes(x = Año, y = Transporte)) +
  geom_line(size = 1.2) +
  geom_point(size = 3) +
  geom_vline(xintercept = 2024, linetype = "dashed", color = "red") +
  labs(
    title = "Comportamiento del sector Transporte y predicciones futuras",
    x = "Año",
    y = "Variación del sector Transporte"
  ) +
  theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Interpretación

El gráfico muestra el comportamiento histórico del sector transporte en Ecuador durante el período 2015–2024 y las predicciones estimadas para los años 2025, 2026 y 2027 obtenidas a partir del modelo de regresión lineal múltiple.

La línea punteada roja indica el punto de transición entre los datos observados y las predicciones del modelo. De acuerdo con las estimaciones realizadas, se observa una tendencia creciente en la variación estimada del sector transporte para los próximos años bajo los escenarios considerados para las variables alimentos y bebidas no alcohólicas, salud y educación.

Sin embargo, estas predicciones deben interpretarse con cautela, ya que el modelo no presentó significancia estadística y el número de observaciones utilizadas en el análisis es limitado.

Conclusiones

El presente estudio permitió analizar la relación entre algunos componentes del Índice de Precios al Consumidor (IPC) en Ecuador durante el período 2015–2024, específicamente los sectores de alimentos y bebidas no alcohólicas, transporte, salud y educación.

En primer lugar, mediante el modelo de regresión lineal simple se evaluó la relación entre la variación del sector alimentos y bebidas no alcohólicas y el sector transporte. Los resultados mostraron que la relación entre estas variables es débil y no estadísticamente significativa, lo cual se evidencia en el valor del p-value obtenido y en el bajo coeficiente de determinación (R² = 0.052), indicando que la variabilidad del sector transporte no puede ser explicada adecuadamente por esta variable. Posteriormente, se estimó un modelo de regresión lineal múltiple incorporando como variables explicativas los sectores de alimentos y bebidas no alcohólicas, salud y educación. Aunque el coeficiente de determinación fue ligeramente mayor (R² = 0.2519), el modelo tampoco presentó significancia estadística global, lo cual sugiere que estas variables no explican de manera significativa la variación del sector transporte durante el período analizado. Esto puede deberse al reducido número de observaciones disponibles y a la posible influencia de otros factores económicos no considerados en el modelo.

Adicionalmente, se aplicó un modelo de regresión logística con el objetivo de analizar la probabilidad de que el sector transporte presente una variación alta en función del comportamiento del sector alimentos y bebidas no alcohólicas. Los resultados indicaron que, aunque el coeficiente estimado fue positivo, la relación no resultó estadísticamente significativa, lo que refuerza la evidencia de que esta variable por sí sola no explica de manera determinante el comportamiento del sector transporte.

Finalmente, se realizaron predicciones utilizando el modelo de regresión lineal múltiple para los años 2025, 2026 y 2027, considerando escenarios hipotéticos para las variables explicativas. Las estimaciones obtenidas sugieren una tendencia creciente en la variación del sector transporte; sin embargo, estas predicciones deben interpretarse con cautela debido a las limitaciones del modelo y al tamaño reducido de la muestra analizada.

En conclusión, los resultados obtenidos indican que las variables consideradas en el estudio no presentan evidencia estadística suficiente que permita afirmar una influencia significativa sobre la variación del sector transporte en el período analizado. Por lo tanto, futuros estudios podrían incorporar un mayor número de observaciones y considerar otras variables económicas relevantes que permitan explicar con mayor precisión el comportamiento de este sector.

¿Por qué el modelo no es significativo? Probablemente se debe al número reducido de observaciones y a que el sector transporte depende de otros factores económicos como el precio del combustible, inflación general o políticas económicas que no fueron consideradas en el modelo.