1. Con base en los datos de ofertas de vivienda descargadas del portal Fincaraiz (datos_vivienda.xls - descarga) realizar los siguientes puntos: Realice un análisis exploratorio de las variables precio de vivienda (millones de pesos COP) y area de la vivienda (metros cuadrados) - incluir graficos e indicadores apropiados interpretados

La base de datos vivienda, contiene dos variables área de vivienda construida(Area_construida) y el precio en millones de pesos (Precio_millon). comenzando con el análisis exploratorio de datos, identificamos el tipo de datos de las variables, y en este caso nos encontramos con que ambas variables son de carácter numérico continuo, esto es importante dado que nos da una idea de que análisis estadístico utilizar.

A continuación queremos identificar la distribución de las variables a partir de su frecuencia relativa, mediante el metodo de sturges el cual nos permite tratar variables de tipo continuas como discretas.

##      Class limits  f   rf rf(%) cf  cf(%)
##     [79.2,98.825) 14 0.54 53.85 14  53.85
##   [98.825,118.45)  2 0.08  7.69 16  61.54
##  [118.45,138.075)  5 0.19 19.23 21  80.77
##   [138.075,157.7)  0 0.00  0.00 21  80.77
##   [157.7,177.325)  3 0.12 11.54 24  92.31
##  [177.325,196.95)  2 0.08  7.69 26 100.00

Tabla 1 Frecuencia relativa Área construida.

Podemos observar claramente que la distribución de la variable área de vivienda construida entre 80-100 metros cuadrados es de 53.85%, esto nos indica que es más frecuente que las personas construyan una casa con estas dimensiones, la distribución general la podremos ver más claramente con los siguientes graficos.

Figura 1 Histograma y boxplot Area construida.

los gráficos anteriores nos dieron una visión más amplia del comportamiento de la variable Área construida, por su parte el histograma nos muestra una distribución de la variable área construida y el boxplot para la variable área construida nos muestra claramente que aproximadamente el 75% del área construida es de 130 metros cuadrados o menos. Corroboramos este resultado con la información de la siguiente tabla.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    80.0    86.0    97.0   115.7   130.0   195.0

Tabla 2 Resumen variable Area construida.

seguido de esto realizamos el mismo procedimiento de analisis para la variable Precio_millon

##   Class limits  f   rf rf(%) cf  cf(%)
##  [237.6,278.8) 11 0.42 42.31 11  42.31
##    [278.8,320)  2 0.08  7.69 13  50.00
##    [320,361.2)  1 0.04  3.85 14  53.85
##  [361.2,402.4)  6 0.23 23.08 20  76.92
##  [402.4,443.6)  3 0.12 11.54 23  88.46
##  [443.6,484.8)  3 0.12 11.54 26 100.00

Tabla 3 Frecuencia relativa Precio.

De la tabla 3 podemos ver claramente como el precio más común se encuentra entre (237.6 , 278.8)con un 42.31% sin embargo, no se puede inferir mucho de la distribución del precio. Para ello veremos mejor el comportamiento de este mediante los siguientes gráficos.

Figura 2 histograma y boxplot Precio_millon.

Para la variable Precio_millón observamos una distribución es bastante más simétrica entre los 200 y 300 millones, así mismo entre 350 y 500 millones, por otro lado con el fin de observar la dispersión de los datos, realizamos un boxplot donde nos muestra que aproximadamente el 75 % del precio es de 350 millones o menos. Corroboramos este resultado con la información de la siguiente tabla.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   240.0   251.2   305.0   332.1   395.0   480.0

Tabla 4 Resumen variable precio.

2. Realice un análisis exploratorio bivariado de datos enfocado en la relación entre la variable respuesta (y=precio) en función de la variable predictora (x=area) - incluir graficos e indicadores apropiados interpretados

En este apartado comenzamos por identificar si existe una relación entre las variables precio por millón y área construida, para ello a continuación vamos a realizar un diagrama de dispersión entre la variable precio vs área construida, verificaremos visualmente si existe algún tipo de relación lineal, y finalmente corroboraremos este resultado mediante el coeficiente de correlación.

## [1] 0.9190295

Figura 3 Diagrama de dispersion precio vs area construida y coeficiente de correlación

Gráficamente notamos que existe una posible relación lineal entre el precio y el área construida, la cual nos quiere decir que a medida que aumenta el área construida aumenta el precio , adicionalmente, notamos que el ajuste de esta recta evidentemente no será perfecta, dado que vemos una gran dispersión de los datos. Ahora, el coeficiente de correlación tuvo como resultado 0.9190, indica que efectivamente, existe una buena relación lineal entre el precio y el área de vivienda construida, además entre más grande sea la vivienda posiblemente el precio sea mayor.

4. Estime el modelo de regresión lineal simple entre precio = f(area) +e. Interprete los coeficientes del modelo β0, β1 en caso de ser correcto.

Linea de regresion estimada

El modelo de regresion lineal es estimado por la ecuacion: Ahora se procede a hallar una linea de regresion que permita predecir el precio de una casa (Y) basado en el area construida(X). y luego se calculan e interpretan los parametros B0 y B1 intercepto y pendiente de la linea de regresion.

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

Tabla 5 Summary del modelo precio en funcion del area construida.

Comenzamos con la interpretación de los interceptos B0 y B1, B0 Indica el valor promedio de la variable de respuesta Y cuando X es cero. Si se tiene certeza de que la variable predictora X no puede asumir el valor 0, entonces la interpretación no tiene sentido. En el ejemplo anterior, B0 = 86.234 indicaría que si la casa no tiene área, su precio promedio será 73,158, lo cual no es muy razonable.

por otro lado B1 Indica el cambio promedio en la variable de respuesta Y cuando X se incrementa en una unidad. En el ejemplo anterior B1= 2.124 indica que por cada pie cuadrado adicional de la casa su precio aumentará en promedio en 2.124 millones.

Finalmente se muestra una gráfica con el ajuste de la recta de regresión.

Figura 4 ajuste del modelo Precio en función del area construida

4. onstruir un intervalo de confianza (95%) para el coeficiente β1, interpretar y concluir si el coeficiente es igual a cero o no. Compare este resultado con una prueba de hipotesis t.

el intervalo de confianza del 100% (1-alpha)% para la pendiente B1 se expresa mediante la siguiente ecuacion. este procedimiento se lleva a cabo a travez de la funcion confint.

##                   2.5 %     97.5 %
## (Intercept)    39.83983 132.627917
## Area_contruida  1.74017   2.507771

** Tabla 6 :Intervalo de confianza para B1**

como resultado, hay una confianza del 95% de que la pendiente de la regresion caiga en el intervalo (1.74 , 2.50) este resultado lo comparamos a partir de una prueba de hipotesis T de la sigueinte manera:

se desea realizar una prueba de hipotesis para verificar que en efecto el parametro B1 es significativo

Tabla 7 prueba Hipotesis para B1

obtenemos la informacion necesaria a partir del anova del modelo y summary y realizamos los calculos necesarios.

## [1] "valor T0"
## [1] 24.04771
## [1] "valor Talpha"
## [1] 2.074
## [1] "24.05>2.074"

Finalmente no se rechaza H0 y se concluye que B1 es diferente de cero por lo tanto B1 es significativo.

5.Calcule e interprete el indicador de bondad y ajuste R2.

Como bien sabemos el R cuadrado es una medida estadística de que indica que tan cerca están los datos de la línea de regresión ajustada o también es el porcentaje de la variación en la variable de respuesta que es explicado por un modelo lineal. De esta manera, 0% indica que el modelo no explica ninguna porción de la variabilidad de los datos de respuesta en torno a su media mientras que 100% indica que el modelo explica toda la variabilidad de los datos de respuesta en torno a su media.

Con la ayuda del summary del modelo se obtiene un R cuadrado de 0.8381, esto significa que el 83,81% de la variabilidad de los precios de las casas es explicada por su relación lineal con el área de la misma. así se podría utilizar el área de la casa para predecir el mismo.

6. Cual seria el precio promedio estimado para un apartamento de 110 metros cuadrados? Considera entonces con este resultado que un apartemento en la misma zona con 110 metros cuadrados en un precio de 200 1millones seria una buena oferta? Que consideraciones adicionales se deben tener?.

En este apartado se busca encontrar un intervalo de confianza del 95% para el valor predicho de Y=precio dado que el area de una casa X=100 metros cuadrados.la siguiente ecuacion es la base de este calculo de prediccion.

##        fit      lwr      upr
## 1 319.8706 250.3285 389.4127

Tabla 8 Intervalo de predicción para una casa de 110 metros cuadrados. Como resultado, hay un 95% de confianza de que el valor de una casa de 110 metros cuadrados caiga entre (250.3285,389.4127) millones Dada la consideración a tener en cuenta, por supuesto comprar una casa de 100 metros cuadrados en 200 millones es una buena oferta dado que el valor esta por debajo del intervalo de predicción.

7. Realice la validación de supuestos del modelo por medio de graficos apropiados, interpretarlos y sugerir posibles soluciones si se violan algunos de ellos.

validación supuestos 1. pruebas graficas

Figura 5 Graficos supuestos de los errores.

En el grafico Los puntos del plot de normalidad están cerca de la línea recta, por otra parte, el histograma no es Simétrico con un pico central, En conclusión, gráficamente no es muy claro hablar si hay o no normalidad de los errores. por otra parte, El plot de los residuales versus los valores predichos muestra que la varianza de los errores no es constante con respecto a la variable de respuesta, ya que podemos ver una curvatura que nos indica que probablemente tenemos varianza no lineal por este motivo no es conveniente hablar de varianza constante. Finalmente, El plot de residuales versus el índice de la observación no muestra ningun patron de comportamiento ni outliers. estos resultados los vamos a validad a continuacion por medio de pruebas analiticas.

2.pruebas analiticas 1.prueba de normalidad H0:errores se distribuyen normal vs H1:los errores no se distribuyen normal

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.95489, p-value = 0.3009

Tabla 9 prueba de normalidad Shapiro wilk

para la prueba de normalidad se utilizo una prueba analitica de shapiro-wil, donde el valor p = 0.3009, valor que es mayor que un alpha de 0.05, por este motivo se acepta H0 y se dice que los errores se distribuyen de manera normal.

2. prueba de independencia de los erroes H0:errores son independientes vs H1=los errores no son independientes

##  lag Autocorrelation D-W Statistic p-value
##    1      0.02511179      1.883052   0.764
##  Alternative hypothesis: rho != 0

Tabla 10 prueba de independencia Durbin watson

para la prueba de independencia se utilizo la prueba analitica de Durbin Watson, donde el valor p=0.838, valor que es mayor que un alpha de 0.05, por lo que se acepta H0 y se dice que los errores son independientes.

3. prueba de varianza constante

H0:errores tienen varianza constante vs H1: los errores no tienen varianza constante

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 3.132222, Df = 1, p = 0.076759

Tabla 11 prueba de varianza constante

para la prueba de varianza constante se utilizon la prueba analitica ncv test, donde el valor p=0.0768, valor que es mayor que un alpha de 0.05, por lo que se acepta H0 y se dice que el modelo cumple el supuesto de varianza constante, sin embargo como podemos observar es muy cercano a 0.05 en ese sentido, y viendo que graficamente no cumple este supuesto podemos concluir que el modelo no tiene varianza constante. por este motivo y dada la incertidumbre verificamos este resultado mediante una prueba f.

4. varianza constante mediante una prueba f para este resultado nos apoyamos del anova del modelo, para determinar el valor f y los grados de libertad necesarios para llevar a cabo el analisis y el calculo de este procedimiento.

H0:relación es lineal vs H1:relación no es lineal se rechaza H0 si el valor (fvalue>qf)

## Analysis of Variance Table
## 
## Response: precio_millon
##                Df Sum Sq Mean Sq F value   Pr(>F)    
## Area_contruida  1 142480  142480  130.46 3.45e-11 ***
## Residuals      24  26212    1092                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## [1] "f ajuste modelo=130.46 , k-2=1, falpha,k-2,n-k = f0.05,1,25"

Tabla 12 anova modelo

## [1] "f ajuste modelo=130.46 , k-2=1, falpha,k-2,n-k = f0.05,1,25"
## [1] 4.241699

en esta tabla hallamos el valor qf del modelo donde k=1, n-K=25 y una confianza del 95%, se obtiene finalmente que f value= 130.46 y qf= 4.2417 , donde (f value > qf) se rechaza H0 y concluimos que la relacion no es lineal. en conclusion se cumplen 2 de 3 supuestos

8. De ser necesario realice una transformación apropiada para mejorar el ajuste y supuestos del modelo. se sabe bien que para llevar a cabo la transformacion de un modelo, es ante todo un tema de pruebas ya que existen muchos modelos que puedan ayudar a predecir de mejor manera la variable respuesta, sin embargo para este trabajo nos apoyamos de la siguiente tabla de sugerencias para llevar a cabo la transformacion del modelo.

Tabla 12 sugerencias de transformación de modelos.

Modelo 1 transformación modelo doblemente logaritmico

## 
## Call:
## lm(formula = datos_vivienda$precio_millon_transformada ~ datos_vivienda$Area_contruida_transformada)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.13325 -0.07583 -0.01435  0.07501  0.16051 
## 
## Coefficients:
##                                            Estimate Std. Error t value Pr(>|t|)
## (Intercept)                                 1.96408    0.29228    6.72 5.97e-07
## datos_vivienda$Area_contruida_transformada  0.80928    0.06194   13.06 2.11e-12
##                                               
## (Intercept)                                ***
## datos_vivienda$Area_contruida_transformada ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.08859 on 24 degrees of freedom
## Multiple R-squared:  0.8767, Adjusted R-squared:  0.8716 
## F-statistic: 170.7 on 1 and 24 DF,  p-value: 2.109e-12

Tabla 13 summary modelo transformado 1

el modelo anterior, vemos que presenta un R cuadrado 0.87, por lo que es un modelo que vale la pena analizar, por lo tanto a continuacion validaremos los supuestos de manera analitica. Validación de los supuestos analiticamente

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_transformado1$residuals
## W = 0.94462, p-value = 0.173

Tabla 14 prueba de normalidad Durbin watson modelo transformado 1

##  lag Autocorrelation D-W Statistic p-value
##    1      0.07868721      1.773009    0.56
##  Alternative hypothesis: rho != 0

Tabla 15 prueba de independencia Durbin watson modelo transformado 1

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 1.13734, Df = 1, p = 0.28622

Tabla 16 prueba de varianza constante modelo transformado 1

En los tres casos vemos como se cumplen los supuestos, y ademas como el valor p para la prueba de varianza constante aumento significativamente.

Modelo 2 transformación modelo Hiperbolico inverso de la forma (-1/x)

## 
## Call:
## lm(formula = datos_vivienda$precio_millon_transformada2 ~ datos_vivienda$Area_contruida_transformada2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -36.987 -16.743  -5.023  18.547  44.379 
## 
## Coefficients:
##                                             Estimate Std. Error t value
## (Intercept)                                   635.35      18.27   34.77
## datos_vivienda$Area_contruida_transformada2 32464.72    1895.32   17.13
##                                             Pr(>|t|)    
## (Intercept)                                  < 2e-16 ***
## datos_vivienda$Area_contruida_transformada2 5.84e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 23.05 on 24 degrees of freedom
## Multiple R-squared:  0.9244, Adjusted R-squared:  0.9212 
## F-statistic: 293.4 on 1 and 24 DF,  p-value: 5.839e-15

Tabla 16 summary modelo transformado 2

el modelo anterior, vemos que presenta un R cuadrado 0.9212, por lo que es un modelo que vale la pena analizar, por lo tanto a continuacion validaremos los supuestos de manera analitica.

validación de los supuestos analiticamente

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_transformado2$residuals
## W = 0.96859, p-value = 0.5871

Tabla 17 prueba de normalidad Durbin watson modelo transformado 2

##  lag Autocorrelation D-W Statistic p-value
##    1      0.08921464      1.724067    0.48
##  Alternative hypothesis: rho != 0

Tabla 18 prueba de independencia Durbin watson modelo transformado 2

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 1.397382, Df = 1, p = 0.23716

Tabla 19 prueba de varianza constante modelo transformado 2

finalmente vemos que es un modelo que cumple todos los supuestos de manera satisfactoria y ademas, soluciona de manera formidable el problema de no linealidad del modelo original, por este motivo y ademas de tener un R cuadrado superior al modelo trasnformado 1, se elige este como nuestro nuevo modelo de estudio.

9.De ser necesario compare el ajuste y supuestos del modelo inicial y el transformado. comparativo del modelo original vs modelo transformado 2 de la forma (-1/x) comenzamos esta comparacion a partir de pruebas graficas para ello vamos a verificar inicialmente el ajuste de los modelos.

Figura 6 modelo ajustado original vs modelo ajustado transformado

Para el ajuste del modelo podemos evidenciar claramente que el modelo transformado,tiene un comportamiento sutilmente mejor en comparacion al modelo original ya que los puntos en su mayoria estan mas cercanos a la lnea de regresion.

comparacion grafica de los supuestos

figura 7 validación de los supuestos modelo orginal

Figura 8 validación de los supuestos modelo transformado

Gráficamente podemos observar un mejor ajuste lineal del modelo transformado, en comparación con el modelo original, lo vemos fácilmente comparando las gráficas normal QQ donde en el modelo transformado observamos un mejor ajuste de los puntos sobre la recta, indicando que los errores se distribuyen de manera normal, situación que se corrobora fácilmente con el histograma, el cual presenta una mejor simetría, adicionalmente, también vale la pena recalcar que con mayor confiabilidad el análisis de varianza observamos que en el modelo original no tenemos varianza constante dado a la no linealidad que se presenta el grafico, mientras que en el modelo 2 se soluciona y vemos claramente que se cumple el supuesto de varianza constante, ahora, el grafico de independencia, ambos modelos cumplen este supuesto satisfactoriamente. ahora vamos a verificar estos resultados analíticamente

la siguiente tabla muestra un resumen del valor p para cada uno de los supuestos por modelo, ademas de el valor del R cuadrado para los mismos.

## # A tibble: 4 x 3
##   Supuestos          Modelo_original Modelo_transformado
##   <chr>                        <dbl>               <dbl>
## 1 Normalidad                  0.301                0.587
## 2 Independencia               0.782                0.504
## 3 Varianza constante          0.0767               0.237
## 4 Rcuadrado                   0.838                0.921

Tabla 20 resumen de los supuesto Modelo original vs Modelo transformado de la forma (-1/x)

Considerando un alpha de 0.05, vemos en la siguiente tabla el valor p obtenido de cada uno de los supuestos para los errores. donde se ve claramente que aunque en el modelo original cumple varianza constante analíticamente, es muy justo en comparación con el modelo transformado, adicionalmente, el R cuadrado de los modelos varia de manera significativa, validando lo dicho anteriormente que el modelo transformado tiene un mejor ajuste que el modelo original.

10. Realizar una función en R la cual permita ingresar el valor de X, Y,(1−α)% en una regresión lineal simple y retorne el intervalo de confianza β1 dado un nivel de confianza de entrada (1 − α)%.

El código para la solución de este problema, se puede utilizar por medio de la consola, las consideraciones importantes para utilizarlo son las siguientes: Ingresar valores de X en la consola tantos como sea necesario para su problema, luego de ingresar el final, dar Enter sin ingresar ningún valor para que el programa detecte la parada, ahora para la variable Y realizar el mismo procedimiento y recordar que debe tener la misma cantidad de numeros de X, finalmente escribir entre [0,1] el intervalo de confianza.