1 Análisis exploratorio de los datos

1.1 Análisis exploratorio univariado

1.1.1 Análisis exploratorio univariado para el precio de las viviendas

1.1.1.1 Explicación

Con el objetivo de estudiar el comportamiento de la variable precio de las viviendas, a continuación se presenta un histograma, un boxplot y algunas estadisticas relevantes de dicha variable.

1.1.1.2 Conclusión

Con base en los resultados obtenidos anteriormente y teniendo en cuenta los graficos realizados, se puede concluir que:

  • Simetria: Los resultados obtenidos muestran cierto grado de asimetria, ya que en el histograma se puede visualizar que al lado derecho de la media se presenta un patrón un tanto diferente al de la parte izquierda, adicionalmente en el boxplot, se observa un patrón que indique que la longitud de la caja es desigual en ambos lados de la mediana, y los bigotes son de longitudes diferentes, lo cual corrobora lo dicho anteriormente. Sin embargo dicho patrón si bien existe, no es tan pronunciado.

  • Sesgo: Los resultados obtenidos muestran cierto grado de sesgo hacia el lado izquierdo de la media, ya que en el histograma se visualiza un patrón que indica sesgo hacia la izquierda de la media, adicionalmente en el boxplot, se observa un patrón que indica que la longitud de la caja es desigual en ambos lados de la mediana, y que los bigotes son de longitudes diferentes, lo cual corrobora lo dicho anteriormente. Sin embargo dicho patrón si bien existe, no es tan pronunciado.

  • Variabilidad: Los resultados muestran poca variabilidad, ya que en el boxplot se aprecia que hay una gran concentración de los datos en la caja, y que la amplitud de la caja es pequeña, lo cual claramente son indicios de poca variabilidad. Sin embargo se visualizan otliers al lado derecho de la caja, lo cual podría llegar a sesgar los resultados que se obtengan al realizar estudios con la variable.

Adicional a lo anterior a continuación se presentan algunas estadisticas relevantes acerca de la variable en cuestión.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   207.4   230.7   238.8   243.7   251.5   309.7

1.1.2 Análisis exploratorio univariado para el área de las viviendas

1.1.2.1 Explicación

Con el objetivo de estudiar el comportamiento de la variable precio de las viviendas, a continuación se presenta un histograma, un boxplot y algunas estadisticas relevantes de dicha variable.

1.1.2.2 Conclusión

Con base en los resultados obtenidos anteriormente y teniendo en cuenta los graficos realizados, se puede concluir que:

  • Simetria: Los resultados obtenidos muestran asimetria, ya que en el histograma se puede visualizar que al lado derecho de la media se presenta un patrón un tanto diferente al de la parte izquierda, adicionalmente en el boxplot, se observa un patrón que indique que la longitud de la caja es desigual en ambos lados de la mediana, y los bigotes son de longitudes diferentes, lo cual corrobora lo dicho anteriormente.

  • Sesgo: Los resultados obtenidos muestran sesgo hacia el lado izquierdo de la media, ya que en el histograma se visualiza un patrón que indica sesgo hacia la izquierda de la media, adicionalmente en el boxplot, se observa un patrón que indica que la longitud de la caja es desigual en ambos lados de la mediana, y que los bigotes son de longitudes diferentes, lo cual corrobora lo dicho anteriormente.

  • Variabilidad: Los resultados muestran poca variabilidad, ya que en el boxplot se aprecia que hay una gran concentración de los datos en la caja, y que la amplitud de la caja es pequeña, lo cual claramente son indicios de poca variabilidad. Sin embargo se visualizan otliers al lado derecho de la caja, lo cual podría llegar a sesgar los resultados que se obtengan al realizar estudios con la variable.

Adicional a lo anterior a continuación se presentan algunas estadisticas relevantes acerca de la variable en cuestión.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   40.00   60.00   75.00   87.63   98.00  200.00

1.2 Análisis exploratorio bivariado

1.2.1 Explicación

Con el objetivo de estudiar el comportamiento de la variable precio y area de las viviendas en conjunto, a continuación se presenta un diagrama de dispersión y el valor del coeficiente de correlación de Pearson.

# Calcular la correlación entre el precio y el área construida
correlation <- cor(BD_DEPURADA$preciom, BD_DEPURADA$areaconst)
# Concatenar el texto con el resultado
resultado <- paste("Coeficiente de correlación = ", correlation)
# Imprimir el resultado
print(resultado)
## [1] "Coeficiente de correlación =  0.930980256989028"

1.2.1.1 Conclusión

Con base en los resultados obtenidos anteriormente y teniendo en cuenta el grafico realizado, se puede concluir que:

Existe una realción lineal directamente proporcional entre la variable precio y area de las viviendas, ya que en el diagrama de disperión se puede observar la existencia de un patrón que indica relación lineal creaciente entre las dos variables, adicionalmente el coeficiente de correlación de Pearson es muy cercano a 1 (0.93), corroborando aún más lo dicho anteriormente.

2 Ajuste de modelos de regresión

2.1 Ajuste del modelo de regresión lineal simple

2.1.1 Ecuación del modelo

El primer modelo que se ajustará para modelar el comportamiento del precio de la vivienda en función del area de la vivienda, es el modelo de regresión lineal simple, tal como se detalla a continuación:

\(y = \beta_0 + \beta_1 x + \varepsilon\), con \(\varepsilon \sim N(0, \sigma^2)\)

Donde:

  • \(y\) es la variable dependiente: Precio de la vivienda expresada en millones de COP

  • \(x\) es la variable independiente: Área de la vivienda expresada en m2

  • \(\beta_0\) es el intercepto (también conocido como el coeficiente de intercepción).

  • \(\beta_1\) es la pendiente (también conocido como el coeficiente de regresión).

  • \(\varepsilon\) es el término de error.

2.1.2 Supuestos del modelo

Los supuestos de los errores en el modelo de regresión lineal simple son:

  1. Los errores tienen una media igual a cero (\(E(\varepsilon) = 0\)).

  2. Los errores tienen una varianza constante (\(Var(\varepsilon) = \sigma^2\)).

  3. Los errores son independientes e idénticamente distribuidos (i.i.d.).

  4. Los errores están normalmente distribuidos (\(\varepsilon \sim N(0, \sigma^2)\)).

2.1.3 Ajuste del modelo

Una vez formulado el modelo, se procedio a ajustar dicho modelo tomando como base la base de datos suministrada mostrada previamente, a continuación se presentan los resultados obtenidos.

## 
## Call:
## lm(formula = preciom ~ areaconst, data = BD_SIN_DEPURAR)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -26.5997  -5.0198  -0.0056   4.6648  24.4010 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.998e+02  4.514e-01   442.7   <2e-16 ***
## areaconst   5.009e-01  4.758e-03   105.3   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.141 on 1704 degrees of freedom
## Multiple R-squared:  0.8667, Adjusted R-squared:  0.8666 
## F-statistic: 1.108e+04 on 1 and 1704 DF,  p-value: < 2.2e-16

2.1.3.1 Interpretación de β0 y β1

  • Intercepto \(\beta_0\): Como se puede evidenciar en los resultados del ajuste del modelo, el valor estimado del intercepto es 199.8 millones de COP, dicho valor indica que cuando el área de la vivienda (𝑥) es igual a cero, el precio estimado de la vivienda es de 199.8 millones de COP. Sin embargo, en este contexto particular, es poco probable que el área de la vivienda sea cero, por lo que la interpretación más relevante del intercepto es como el precio estimado de la vivienda cuando el área es insignificante o cuando otras variables no incluidas en el modelo son cero.

  • Pendiente \(\beta_1\): Como se puede evidenciar en los resultados del ajuste del modelo, el valor estimado de la pendiente es 0.5009, dicho valor indica que, en promedio, por cada metro cuadrado adicional en el área de la vivienda, el precio de la vivienda aumenta en 0.5009 millones de COP. En otras palabras, el precio de la vivienda aumenta en 0.5009 millones de COP por cada unidad de aumento en el área de la vivienda.

2.1.3.2 Interpretación de R2

  • Coeficiente de determinación \(R^2\): Como se puede evidenciar en los resultados del ajuste del modelo, el coeficiente de determinación \(R^2\) del modelo ajustado posee un valor de 0.8667 esto significa que aproximadamente el 86.67% de la variabilidad en el precio de la vivienda (𝑦) puede ser explicada por la variable independiente, que en este caso es el área de la vivienda expresada en metros cuadrados (𝑥).

2.1.3.3 Intervalo de confianza (95%) para el coeficiente β1

  • Planteamiento: El intervalo de confianza del 95% para el coeficiente \(\beta_1\) se calcula como:

\[ \text{Intervalo de confianza} = \left[ \hat{\beta}_1 - t_{\alpha/2} \times SE(\hat{\beta}_1), \, \hat{\beta}_1 + t_{\alpha/2} \times SE(\hat{\beta}_1) \right] \]

Donde: \[\begin{align*} \hat{\beta}_1 & : \text{Estimado del coeficiente } \beta_1 \\ SE(\hat{\beta}_1) & : \text{Error estándar del estimado de } \beta_1 \\ t_{\alpha/2} & : \text{Valor crítico de Student para el nivel de significancia } \alpha/2 \end{align*}\]

A continuación se presentan los resultados del intervalo de confianza obtenido

## [1] "Intervalo de confianza del 95% para beta1:"
## areaconst areaconst 
## 0.4915592 0.5102243
  • Conclusión: Con base en lo anterior podemos concluir que:

  • El límite inferior del intervalo de confianza es aproximadamente 0.4916.

  • El límite superior del intervalo de confianza es aproximadamente 0.5102.

Esto significa que con un nivel de confianza del 95%, se espera que el verdadero valor del parametro esté dentro del rango 0.4916 y 0.5102. Es decir que con un 95% de confianza, el efecto estimado de la variable independiente sobre la variable dependiente se encuentra en ese intervalo.

2.1.3.4 Prueba de hipotesis para el coeficiente β1

  • Hipótesis: A continuación se presentan las hipótesis nula (\(H_0\)) y alternativa (\(H_a\)) para la prueba \(t\) sobre el coeficiente \(\beta_1\), con el objetivo de determinar si dicho parámetro es o no significativo:

\[ H_0: \beta_1 = 0 \] \[ H_a: \beta_1 \neq 0 \]

## [1] "Valor p de la prueba de hipótesis t para beta1:"
## [1] 0
  • Conclusión: Dado que el valor p de la prueba de hipótesis \(t\) para \(\beta_1\) es menor que 0.05, se rechaza la hipótesis nula con un nivel de confianza del 95%, y Por lo tanto, se tiene evidencia significativa para afirmar que el coeficiente \(\beta_1\) no es igual a cero. Esto implica que la variable independiente \(x\) tiene un efecto significativo sobre la variable dependiente \(y\).

2.2 Predicción para x0 = 110 m2

2.2.1 Explicación

Con el objetivo de hacer uso del modelo descrito anteriormente, supongamos que queremos determinar el valor del precio de la vivienda cuando el área cuadrada toma un valor de \(x_0\) = 110 m^2, para hallar dicho precio, se puede hacer uso del modelo descrito previamente reemplazando el valor de 𝑥 por el valor de \(x_0\) y realizar los cálculos matemáticos correspondientes, tal como se muestra a continuación:

\[ \hat{y} = 199.8 + 0.5009 \times $x_0$ = 199.8 + 0.5009 \times (110) \approx 254.9 \text{ millones de COP} \]

A continuación se muestra el valor obtenido una vez efectuados los acalculos matematicos:

## (Intercept) 
##    254.9082

2.2.2 Conclusión

Con base en el calculo anterior se entiende que para una vivienda con un área de 110 m^2 se tendría un precio aproximadamente de 254,9 millones de COP.

2.3 Validación de supuestos

Con el objetivo de validar los supuestos previamente mostrados acerca de los errores, a continuación, se presentan diferentes gráficos y pruebas de hipótesis que permitirán definir si dichos supuestos se cumplen o no.

2.3.1 Validación de normalidad

2.3.1.1 Gráfico QQ-Plot

2.3.1.2 Prueba de hipótesis de Shapiro-Wilk:

Las hipótesis para la prueba de normalidad de Shapiro-Wilk son:

\[ H_0: \text{Los errores siguen una distribución normal.} \] \[ H_a: \text{Los errores no siguen una distribución normal.} \]

A continuación se presentan los resultados de la prueba:

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.99911, p-value = 0.5907

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto los errores siguen una distribución normal. Dicha conclusión es corroborada por el grafico QQ-Plot, ya que como se puede observar, en dicho grafico está presente el patrón de línea recta que es señal de que los errores poseen una distribución normal.

2.3.2 Validación de homocedasticidad

2.3.2.1 Prueba de hipótesis de Breusch-Pagan:

Las hipótesis para la prueba de homocedasticidad de Breusch-Pagan son:

\[ H_0: \text{La varianza de los errores es constante (homocedasticidad).} \] \[ H_a: \text{La varianza de los errores no es constante (heterocedasticidad).} \]

A continuación se presentan los resultados de la prueba:

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_0
## BP = 0.089882, df = 1, p-value = 0.7643

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto la varianza de los errores se considera constante (homocedasticidad).

2.3.3 Validación de no autocorrelación

2.3.3.1 Prueba de hipótesis de Durbin-Watson:

Las hipótesis para la prueba de no autocorrelación son:

\[ H_0: \text{No hay autocorrelación en los errores.} \] \[ H_a: \text{Hay autocorrelación en los errores.} \]

A continuación se presentan los resultados de la prueba:

## 
##  Durbin-Watson test
## 
## data:  modelo_0
## DW = 2.0651, p-value = 0.9092
## alternative hypothesis: true autocorrelation is greater than 0

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto se considera que no se presenta autocorrelación en los errores.

2.3.4 Validación de linealidad

Con el objetivo de validar si la relación entre la variable dependiente y las variables independientes y el error es lineal, se construyó el gráfico de residuales VS valores ajustados, el cual se muestra a continuación.

- Conclusión: Tomando como base el gráfico anterior, se puede observar un patrón en forma de embudo que puede estar dando indicios de no linealidad, sin embargo, este patrón no está tan marcado, y puede deberse a múltiples razones una de estas la data medida, ya que se observa que se presenta una gran acumulación de datos en la parte izquierda del gráfico y no así en la parte derecha. Como dicho patrón no es tan marcado, se podría pensar en la presencia de linealidad, pero de igual manera es recomendable ahondar un poco más en si el patrón observado se debe a posibles sesgos de los datos o no, a través de otras herramientas estadísticas.

3 Transformaciones

Con el objetivo de encontrar mejoras en el modelo propuesto, se procedio a ajustar otros modelos, en principio se uso la transformación Box-Cox con el objetivo de encontrar el valor de λ óptimo, a continuación se presenta la ecuación del modelo:

y^{()} = \[\begin{cases} \frac{{y^{\lambda} - 1}}{{\lambda}} & \text{si } \lambda \neq 0 \\ \ln(y) & \text{si } \lambda = 0 \end{cases}\]

3.1 Aplicación de la transformación Box-Cox

Una vez aplicada la transformación Box-Cox, se encontrarón los siguientes resultados

3.2 Ajuste del nuevo modelo

Como se puede evidenciar en el gráfico anterior el valor de λ óptimo es de 0.87, con dicho valor se procedio a ajustar un nuevo modelo cuyos resultados se muestrán a continuación:

## 
## Call:
## lm(formula = respuesta_transformada ~ areaconst, data = BD_SIN_DEPURAR)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.151330 -0.030521  0.007219  0.038862  0.063778 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.139e+02  2.967e-03   38403   <2e-16 ***
## areaconst   2.417e-01  3.128e-05    7728   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.04694 on 1704 degrees of freedom
## Multiple R-squared:      1,  Adjusted R-squared:      1 
## F-statistic: 5.972e+07 on 1 and 1704 DF,  p-value: < 2.2e-16

3.2.1 Validación de supuestos

Con el objetivo de validar si los supuestos acerca de los errores se cumplen o no, al igual que en el modelo anterior, se realizaron las validaciones correspondientes cuyas conclusiones se muestrán a continuación:

3.2.2 Validación de normalidad

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.93673, p-value < 2.2e-16

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% se rechaza la hipótesis nula, ya que el valor del valor-p es menor a 0.05, y por lo tanto los errores no siguen una distribución normal. Dicha conclusión es corroborada por el grafico QQ-Plot, ya que como se puede observar, en dicho grafico no está presente el patrón de línea recta que es señal de que los errores no poseen una distribución normal.

3.2.3 Validación de homoscedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_1
## BP = 581.12, df = 1, p-value < 2.2e-16

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% se rechaza la hipótesis nula, ya que el valor del valor-p es menor a 0.05, y por lo tanto la varianza de los errores no se considera constante (heterocedasticidad).

3.2.4 Validación de no autocorrelación

## 
##  Durbin-Watson test
## 
## data:  modelo_1
## DW = 1.5746, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% se rechaza la hipótesis nula, ya que el valor del valor-p es menor a 0.05, y por lo tanto se considera que se presenta autocorrelación en los errores.

3.2.5 Validación de linealidad

- Conclusión: Tomando como base el gráfico anterior, se puede observar un patrón que claramente da evidencia de la no linealidad de las variables, por lo tanto se concluye que dicho supuesto no se cumple.

3.3 Comparación entre el modelo original y el transformado

Con el objetivo de encontrar otras posibles formas de mejorar el modelo, se ajustarón 2 modelos adicionales, los cuales se presentán y evaluan a continuación.

3.4 Ajuste modelo adicional # 1

La ecuación de dicho modelo es la siguiente:

\[ \sqrt{y} = \sqrt{\beta_0 + \beta_1 x} + \varepsilon_i \]

Los resultados de dicho modelo son los siguientes:

## 
## Call:
## lm(formula = (preciom^0.5) ~ areaconst, data = BD_SIN_DEPURAR)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.81967 -0.15691  0.00053  0.14990  0.77813 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.423e+01  1.450e-02   981.4   <2e-16 ***
## areaconst   1.563e-02  1.528e-04   102.3   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2294 on 1704 degrees of freedom
## Multiple R-squared:  0.8599, Adjusted R-squared:  0.8598 
## F-statistic: 1.046e+04 on 1 and 1704 DF,  p-value: < 2.2e-16

3.4.1 Validación de supuestos

Con el objetivo de validar si los supuestos acerca de los errores se cumplen o no, al igual que en el modelo anterior, se realizaron las validaciones correspondientes cuyas conclusiones se muestrán a continuación:

3.4.2 Validación de normalidad

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.9993, p-value = 0.7942

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto los errores siguen una distribución normal. Dicha conclusión es corroborada por el grafico QQ-Plot, ya que como se puede observar, en dicho grafico está presente el patrón de línea recta que es señal de que los errores poseen una distribución normal.

3.4.3 Validación de homoscedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_2
## BP = 4.5044, df = 1, p-value = 0.03381

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% se rechaza la hipótesis nula, ya que el valor del valor-p es menor a 0.05, y por lo tanto la varianza de los errores no se considera constante (heterocedasticidad).

3.4.4 Validación de no autocorrelación

## 
##  Durbin-Watson test
## 
## data:  modelo_2
## DW = 2.0672, p-value = 0.9161
## alternative hypothesis: true autocorrelation is greater than 0

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto se considera que no se presenta autocorrelación en los errores.

3.4.5 Validación de linealidad

- Conclusión: Tomando como base el gráfico anterior, se puede observar un patrón en forma de embudo que puede estar dando indicios de no linealidad, sin embargo, este patrón no está tan marcado, y puede deberse a múltiples razones una de estas la data medida, ya que se observa que se presenta una gran acumulación de datos en la parte izquierda del gráfico y no así en la parte derecha. Como dicho patrón no es tan marcado, se podría pensar en la presencia de linealidad, pero de igual manera es recomendable ahondar un poco más en si el patrón observado se debe a posibles sesgos de los datos o no, a través de otras herramientas estadísticas.

3.5 Ajuste modelo adicional # 2

La ecuación de dicho modelo es la siguiente:

\[ y^2 = (\beta_0 + \beta_1 x)^2 + \varepsilon_i \]

Los resultados de dicho modelo son los siguientes:

## 
## Call:
## lm(formula = (preciom^2) ~ areaconst, data = BD_SIN_DEPURAR)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -14041.5  -2458.0    -46.9   2191.2  12064.3 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 37140.951    222.422   167.0   <2e-16 ***
## areaconst     258.274      2.345   110.2   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3519 on 1704 degrees of freedom
## Multiple R-squared:  0.8769, Adjusted R-squared:  0.8768 
## F-statistic: 1.213e+04 on 1 and 1704 DF,  p-value: < 2.2e-16

3.5.1 Validación de supuestos

Con el objetivo de validar si los supuestos acerca de los errores se cumplen o no, al igual que en el modelo anterior, se realizaron las validaciones correspondientes cuyas conclusiones se muestrán a continuación:

3.5.2 Validación de normalidad

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.99822, p-value = 0.06388

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto los errores siguen una distribución normal. Dicha conclusión es corroborada por el grafico QQ-Plot, ya que como se puede observar, en dicho grafico está presente el patrón de línea recta que es señal de que los errores poseen una distribución normal.

3.5.3 Validación de homoscedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_3
## BP = 17.891, df = 1, p-value = 2.34e-05

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% se rechaza la hipótesis nula, ya que el valor del valor-p es menor a 0.05, y por lo tanto la varianza de los errores no se considera constante (heterocedasticidad).

3.5.4 Validación de no autocorrelación

## 
##  Durbin-Watson test
## 
## data:  modelo_3
## DW = 2.0516, p-value = 0.8548
## alternative hypothesis: true autocorrelation is greater than 0

- Conclusión: Con base en los resultados obtenidos previamente se concluye que: con una confianza del 95% no se rechaza la hipótesis nula, ya que el valor del valor-p es mayor a 0.05, y por lo tanto se considera que no se presenta autocorrelación en los errores.

3.5.5 Validación de linealidad

- Conclusión: Tomando como base el gráfico anterior, se puede observar un patrón en forma de embudo que puede estar dando indicios de no linealidad, sin embargo, este patrón no está tan marcado, y puede deberse a múltiples razones una de estas la data medida, ya que se observa que se presenta una gran acumulación de datos en la parte izquierda del gráfico y no así en la parte derecha. Como dicho patrón no es tan marcado, se podría pensar en la presencia de linealidad, pero de igual manera es recomendable ahondar un poco más en si el patrón observado se debe a posibles sesgos de los datos o no, a través de otras herramientas estadísticas.

4 Comparación entre modelos

4.1 Criterios elegidos para la selección del mejor modelo

Para la selección del mejor modelo se tuvieron en cuenta los criterios que se mencionan a continuación:

  • Interpretación del modelo: Este criterio se refiere a la facilidad de interpretación del modelo en caso tal de que alguna o todas las variables del modelo hayan requerido algún tipo de transformación matemática.

  • Ajuste del modelo: Este criterio se refiere al porcentaje de la variabilidad total en la variable dependiente (y), que es explicada por la variable independiente (x). Dicho criterio se evalúa teniendo en cuenta el valor de R^2, que es uno de los indicadores de ajuste de un modelo de regresión denominado coeficiente de determinación, y la forma de validarlo es teniendo en cuenta que tan cercano es dicho valor a 1, entre más cercano a 1 sea R^2 el ajuste del modelo es mejor.

  • Cumplimiento de los supuestos del modelo: Este criterio se refiere al cumplimiento de los supuestos mencionados previamente acerca de los errores ε_i, y se evalúa de acuerdo a los resultados de test estadísticos denominados pruebas de hipótesis y mediante la validación de gráficos que proporcionan los datos del modelo.

4.2 Modelo seleccionado

Una vez validados los criterios explicados previamente, el modelo ganador resulto ser el modelo de regresión lineal simple sin ningúna transformación, ya que como se puede visualizar a continuación, fue el modelo que cumplió con la mayoría de los criterios, y si bien no es el modelo que posee el mayor valor de R^2, la diferencia con los demás modelos no es tan grande.

Modelo Interpretación Ajuste Supuestos
1 Es fácilmente interpretable 0.8667 Se cumplen 4 de los 4 criterios
2 No es fácilmente interpretable 1 No se cumple ningún criterio
3 Es medianamente interpretable 0.8599 Se cumplen 3 de los 4 criterios
4 Es medianamente interpretable 0.8769 Se cumplen 3 de los 4 criterios

Algo importante a mencionar es que es curioso el comportamiento del modelo 2, elcual fue ajustado aplicando la transformación Box-Cox, en ese caso se observa que el valor del R^2 es de 1 planteando asi un buen ajuste, sin embargo como se pudo observar, para dicho modelo ninguno de los supuestos se cumple.

4.3 Cumplimiento de los supuestos de los errores por parte del mejor modelo

El modelo escogido como el mejor modelo, cumple con todos los supuestos de los errores, sin embargo se recomienda ahondar un poco más en el supuesto de linealidad, ya que en la gráfica evaluada, se evidencia un indicio de patrón de embudo.

5 Conclusiones

6 Recomendaciones