## Area_contruida precio_millon
## Min. : 80.0 Min. :240.0
## 1st Qu.: 86.0 1st Qu.:251.2
## Median : 97.0 Median :305.0
## Mean :115.7 Mean :332.1
## 3rd Qu.:130.0 3rd Qu.:395.0
## Max. :195.0 Max. :480.0
Inicialmente podemos ver los promedios y las medianas tienen una diferencia significativa, es decir, los datos del ultimo cuartil son muy altos en cada variable, esto hace que el promedio se aleje notablemente de la mediana. supones a vista que ambas variables para que haya un sentido logico, ninguno de los dos puede acercarse a 0.
Podemos notar que hay mucha variabilidad despues del segundo cuartil a comparacion de los 2 primeros(en ambos casos), especialmente en eel de area construida.
suponemos que el precio de la vivienda depende del area construida(a mayor area construida mayor sera su precio)
Con un modelo flexible con todos los datos dados podemos notar que puede existir una tendencia directa en ambas variables, entre mas metros cuadrados construidos será mas costosa, para acertar este supuesto, veamos el coeficiente de correlación. Analizando el comportamiento, podemos evidenciar con el area sombreada un intervalo de error para cada punto Y del modelo.
## [1] 0.9190295
El coeficiente de correlacion de Pearson es fuerte, concluimos entonces que hay una dependencia lineal para las dos variables. Con esto, continuamos a plantear una regresion lineal simple.
Esta grafica evidencia a simple vista una curvatura, pero aun así le aplicamos un modelo lineal con una correlación de 0.92, ahora a continuación miramos supuestos entre los metros cuadrados y el precio de la vivienda.
##
## Call:
## lm(formula = precio_millon ~ Area_contruida, data = Datos_Vivienda)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
Por cada metro cuadrado adicional en el area de las viviendas se espera que el valor los precios aumenten en promedio 2.124 millones.
En general la interpretación de B0 sería el valor de Y cuando x es 0, como este no es 0, no es significativa ya que no es valido decir que area construida es 0 tiene un costo de 86.23 millones de pesos.
## [1] 2.124
## [1] 1.740115 2.507885
## [1] 11.41935
con una confianza del 95% se puede concluir que el verdadero valor de b1 se encuentra en ese intervalo, además como el cero no está incluido en el intervalo b1 es significativo.Con la prueba de hipotesis t rechazo Ho, ya que el valor absoluto de t0 cae en la región de rechazo, hay suficiente evidencia muestral para rechazar ho, luego b1 es significativo.
Se observa que el ajuste del modelo es de R^2=0.84461 es decir que el modelo explica el 84.46% de la variabilidad de los precios.
## 1
## 319.8706
## fit lwr upr
## 1 319.8706 306.3133 333.4279
El precio estimado para un apartamento de 110 metros cuadrados es 319.8706. Un apartamento con 110 metros cuadrados ubicado en la misma zona con un precio de 200 sería una buena oferta para el comprador ya que el precio en promedio de un apartamento con esas caracteristicas está entre 306.333 y 333.427.
##
## Shapiro-Wilk normality test
##
## data: residuals(mod)
## W = 0.95489, p-value = 0.3009
Podemos observar frente a los supuestos sobre el error “ei”, lo siguiente:
Media: Se cumple por defecto que es 0.
Varianza constante: Sabemos que el grafico Residuals vs fitted nos muestra una curvatura alrededor de 0 lo que nos permite interpretar que no es constante.
Normalidad: En las colas y casi en el centro se logra visualizar una deformaciones lo que nos permite interpretar que no hay normalidad, aunque la prueba de p-ficher nos de grande lo que dice que es posible que haya normalidad.
Errores del modelo independiente: No se tienen registro de los datos y el tiempo por lo tanto no se tiene en cuenta este supuesto.
Teniendo presente que no se cumplio ni la varianza ni la normalidad proponemos un modelo log (Y) vs X:
##
## Call:
## lm(formula = log(precio_millon) ~ Area_contruida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.16503 -0.09255 -0.02221 0.08600 0.19822
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.048147 0.073371 68.80 < 2e-16 ***
## Area_contruida 0.006288 0.000607 10.36 2.46e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1079 on 24 degrees of freedom
## Multiple R-squared: 0.8172, Adjusted R-squared: 0.8096
## F-statistic: 107.3 on 1 and 24 DF, p-value: 2.456e-10
##
## Shapiro-Wilk normality test
##
## data: residuals(modpi)
## W = 0.94034, p-value = 0.1368
Podemos observar frente a los supuestos sobre el error “ei”, lo siguiente:
Media: Se cumple por defecto que es 0
Varianza constante: Inicialmente podemos ver un rango y dominio bastante pequeño, Aún así, luego de ajustar el modelo con esta transformación se puede observar que todavía se ve un comportamiento en forma de U en la varianza, razón por la cual no podemos concluir que esta es constante. Sin embargo, luego de ajustar el modelo con esta transformación se puede observar que todavía se ve un comportamiento en forma de U en la varianza, razón por la cual no podemos concluir que esta es constante.
Normalidad: en la cola inferior y en puntos medios de la recta podemos ver algunos saltos lo que nos puede afirmar que no existe normalidad; aunque la prueba p-ficher nos diga lo contrario.
Errores del modelo independiente: No se tienen registro de los datos y el tiempo por lo tanto no se tiene en cuenta este supuesto
Varianza: Aunque no sea constante consideramos que mejoro tanto en el rango como en el dominio el modelo 2 frente al modelo 1.
Normalidad: Los dos fallan en ser un modelo bien preciso para la normalidad; aunque ambos tengan pruebas de fisher pequeñas.
Comparación de graficas: hay partes en el dominio que nos dificulta hacer el modelo que abarque la mayoría de los puntos tanto para el modelo 1 como en el modelo 2.
consideramos que el qué más se ajusta es el modelo exponencial multiplicativo, además descartamos las otras opciones porque en el modelo 1, no podemos aplicar la transformación del modelo de potencia ya que B1>1 y las demás gráficas no se parecen al gráfico de dispersión de los otros supuestos a ser transformados mas sin embargo vemos claramente que ninguno de los dos cumple a cabilidad los supuestos por lo tanto concluimos que no exite una transformacion apropiada o se necesitan mas variables para mejorar el supuesto.
A continuación esta el codigo de la función.
funcion=function(x,y,gama){
n.df=data.frame(x,y)
sce=array(NA,dim(n.df)[1])
promediox=mean(n.df$x)
for(i in 1:dim(n.df)[1]){
dif=n.df$x[i]-promediox
sce[i]=dif^2
}
Sxx=sum(sce)
scdif2=array(NA,dim(n.df)[1])
promedioy=mean(n.df$y)
for (i in 1:dim(n.df)[1]){
dif2=(n.df$x[i]-promediox)*(n.df$y[i]-promedioy)
scdif2[i]=dif2
}
Sxy=sum(scdif2)
b1_est=Sxy/Sxx
b0_est=promedioy-b1_est*promediox
sci=array(NA,dim(n.df)[1])
for (i in 1:dim(n.df)[1]) {
y_mod=b0_est+(b1_est*n.df$x[i])
dif3=(n.df$y[i]-y_mod)
sci[i]=dif3^2
}
varianzagorrito=sum(sci)/dim(n.df)[1]-2
se_b1=sqrt(varianzagorrito/Sxx)
sig=1-gama
t_ic=qt(gama+(sig/2),df = dim(n.df)[1])
LI=b1_est-t_ic*se_b1
LS=b1_est+t_ic*se_b1
IC=c(LI,LS)
return(IC)
}
x=c(14,18,13,16,12,17,11,9,16,15)
y=c(38,42,39,31,32,39,43,40,41,42)
funcion(x,y,0.95)
## [1] -0.9443641 0.9525945
x=c(14,18,39,29,31,42)
y=c(38,42,39,31,32,17)
funcion(x,y,0.98)
## [1] -1.2906543 0.2440612
x=c(14,18,39,29,31,20,25,24,12)
y=c(38,42,39,31,32,17,34,35,36)
funcion(x,y,0.9)
## [1] -0.4954037 0.4991435