1 Análisis exploratorio

1.1 Analisis descriptivo:

##  Area_contruida  precio_millon  
##  Min.   : 80.0   Min.   :240.0  
##  1st Qu.: 86.0   1st Qu.:251.2  
##  Median : 97.0   Median :305.0  
##  Mean   :115.7   Mean   :332.1  
##  3rd Qu.:130.0   3rd Qu.:395.0  
##  Max.   :195.0   Max.   :480.0

Inicialmente podemos ver los promedios y las medianas tienen una diferencia significativa, es decir, los datos del ultimo cuartil son muy altos en cada variable, esto hace que el promedio se aleje notablemente de la mediana. supones a vista que ambas variables para que haya un sentido logico, ninguno de los dos puede acercarse a 0.

1.2 Graficas

Podemos notar que hay mucha variabilidad despues del segundo cuartil a comparacion de los 2 primeros(en ambos casos), especialmente en eel de area construida.

2 Análisis exploratorio bivariado

2.1 Graficos

suponemos que el precio de la vivienda depende del area construida(a mayor area construida mayor sera su precio)

Con un modelo flexible con todos los datos dados podemos notar que puede existir una tendencia directa en ambas variables, entre mas metros cuadrados construidos será mas costosa, para acertar este supuesto, veamos el coeficiente de correlación. Analizando el comportamiento, podemos evidenciar con el area sombreada un intervalo de error para cada punto Y del modelo.

2.2 Coeficiente de correlación:

## [1] 0.9190295

El coeficiente de correlacion de Pearson es fuerte, concluimos entonces que hay una dependencia lineal para las dos variables. Con esto, continuamos a plantear una regresion lineal simple.

3 modelo de regresión lineal simple

3.1 Grafico:

Esta grafica evidencia a simple vista una curvatura, pero aun así le aplicamos un modelo lineal con una correlación de 0.92, ahora a continuación miramos supuestos entre los metros cuadrados y el precio de la vivienda.

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida, data = Datos_Vivienda)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

3.2 Interpretación B1:

Por cada metro cuadrado adicional en el area de las viviendas se espera que el valor los precios aumenten en promedio 2.124 millones.

3.3 Interpretación B0:

En general la interpretación de B0 sería el valor de Y cuando x es 0, como este no es 0, no es significativa ya que no es valido decir que area construida es 0 tiene un costo de 86.23 millones de pesos.

4 Intervalo de confianza para B1:

## [1] 2.124

## [1] 1.740115 2.507885

## [1] 11.41935

con una confianza del 95% se puede concluir que el verdadero valor de b1 se encuentra en ese intervalo, además como el cero no está incluido en el intervalo b1 es significativo.Con la prueba de hipotesis t rechazo Ho, ya que el valor absoluto de t0 cae en la región de rechazo, hay suficiente evidencia muestral para rechazar ho, luego b1 es significativo.

5 Indicador de bondad y ajuste r2

Se observa que el ajuste del modelo es de R^2=0.84461 es decir que el modelo explica el 84.46% de la variabilidad de los precios.

6 precio promedio estimado (preguntas)

##        1 
## 319.8706

##        fit      lwr      upr
## 1 319.8706 306.3133 333.4279

El precio estimado para un apartamento de 110 metros cuadrados es 319.8706. Un apartamento con 110 metros cuadrados ubicado en la misma zona con un precio de 200 sería una buena oferta para el comprador ya que el precio en promedio de un apartamento con esas caracteristicas está entre 306.333 y 333.427.

7 Validación de supuestos:

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(mod)
## W = 0.95489, p-value = 0.3009

7.1 Modelo 1:

Podemos observar frente a los supuestos sobre el error “ei”, lo siguiente:

Media: Se cumple por defecto que es 0.
Varianza constante: Sabemos que el grafico Residuals vs fitted nos muestra una curvatura alrededor de 0 lo que nos permite interpretar que no es constante.
Normalidad: En las colas y casi en el centro se logra visualizar una deformaciones lo que nos permite interpretar que no hay normalidad, aunque la prueba de p-ficher nos de grande lo que dice que es posible que haya normalidad.
Errores del modelo independiente: No se tienen registro de los datos y el tiempo por lo tanto no se tiene en cuenta este supuesto.

8 Transformación apropiada

Teniendo presente que no se cumplio ni la varianza ni la normalidad proponemos un modelo log (Y) vs X:

## 
## Call:
## lm(formula = log(precio_millon) ~ Area_contruida)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.16503 -0.09255 -0.02221  0.08600  0.19822 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    5.048147   0.073371   68.80  < 2e-16 ***
## Area_contruida 0.006288   0.000607   10.36 2.46e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1079 on 24 degrees of freedom
## Multiple R-squared:  0.8172, Adjusted R-squared:  0.8096 
## F-statistic: 107.3 on 1 and 24 DF,  p-value: 2.456e-10

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modpi)
## W = 0.94034, p-value = 0.1368

Podemos observar frente a los supuestos sobre el error “ei”, lo siguiente:

Media: Se cumple por defecto que es 0
Varianza constante: Inicialmente podemos ver un rango y dominio bastante pequeño, Aún así, luego de ajustar el modelo con esta transformación se puede observar que todavía se ve un comportamiento en forma de U en la varianza, razón por la cual no podemos concluir que esta es constante. Sin embargo, luego de ajustar el modelo con esta transformación se puede observar que todavía se ve un comportamiento en forma de U en la varianza, razón por la cual no podemos concluir que esta es constante.
Normalidad: en la cola inferior y en puntos medios de la recta podemos ver algunos saltos lo que nos puede afirmar que no existe normalidad; aunque la prueba p-ficher nos diga lo contrario.
Errores del modelo independiente: No se tienen registro de los datos y el tiempo por lo tanto no se tiene en cuenta este supuesto

9 Comparacion del ajuste y los supuestos

9.1 Comparacion Modelo 1 vs Modelo 2:

Varianza: Aunque no sea constante consideramos que mejoro tanto en el rango como en el dominio el modelo 2 frente al modelo 1.

Normalidad: Los dos fallan en ser un modelo bien preciso para la normalidad; aunque ambos tengan pruebas de fisher pequeñas.

Comparación de graficas: hay partes en el dominio que nos dificulta hacer el modelo que abarque la mayoría de los puntos tanto para el modelo 1 como en el modelo 2.

9.2 Conclusion

consideramos que el qué más se ajusta es el modelo exponencial multiplicativo, además descartamos las otras opciones porque en el modelo 1, no podemos aplicar la transformación del modelo de potencia ya que B1>1 y las demás gráficas no se parecen al gráfico de dispersión de los otros supuestos a ser transformados mas sin embargo vemos claramente que ninguno de los dos cumple a cabilidad los supuestos por lo tanto concluimos que no exite una transformacion apropiada o se necesitan mas variables para mejorar el supuesto.

10 Funcion

A continuación esta el codigo de la función.

funcion=function(x,y,gama){
n.df=data.frame(x,y)

sce=array(NA,dim(n.df)[1])

promediox=mean(n.df$x)
for(i in 1:dim(n.df)[1]){
dif=n.df$x[i]-promediox
sce[i]=dif^2
}
Sxx=sum(sce)

scdif2=array(NA,dim(n.df)[1])
promedioy=mean(n.df$y)
for (i in 1:dim(n.df)[1]){
dif2=(n.df$x[i]-promediox)*(n.df$y[i]-promedioy)
scdif2[i]=dif2

}
Sxy=sum(scdif2)
b1_est=Sxy/Sxx

b0_est=promedioy-b1_est*promediox

sci=array(NA,dim(n.df)[1])
for (i in 1:dim(n.df)[1]) {
y_mod=b0_est+(b1_est*n.df$x[i])
dif3=(n.df$y[i]-y_mod)
sci[i]=dif3^2
}
varianzagorrito=sum(sci)/dim(n.df)[1]-2


se_b1=sqrt(varianzagorrito/Sxx)

sig=1-gama
t_ic=qt(gama+(sig/2),df = dim(n.df)[1])

LI=b1_est-t_ic*se_b1
LS=b1_est+t_ic*se_b1
IC=c(LI,LS)
return(IC)
}

10.1 ejemplos

10.1.1 ejemplo 1

x=c(14,18,13,16,12,17,11,9,16,15)
y=c(38,42,39,31,32,39,43,40,41,42)
funcion(x,y,0.95)

## [1] -0.9443641  0.9525945

10.1.2 ejemplo 2

x=c(14,18,39,29,31,42)
y=c(38,42,39,31,32,17)
funcion(x,y,0.98)

## [1] -1.2906543  0.2440612

10.1.3 ejemplo 3

x=c(14,18,39,29,31,20,25,24,12)
y=c(38,42,39,31,32,17,34,35,36)
funcion(x,y,0.9)

## [1] -0.4954037  0.4991435

Informe 1 - Regresión Lineal Simple

Sebastian Restrepo Betancur(GRUPO 1); Maria del Pilar Mira Londoño(GRUPO 2); Juan Camilo Ruiz Herrera(GRUPO 2)

23/3/2021