Para mi proyecto trabajare sobre la base de datos del precio de las casas en california, la cual esta compuesta de las siguientes variables
old_warn <- getOption("warn")
options(warn = -1)
setwd("C:/Users/USER/Desktop/MEB")
library(flextable)
library(formattable)
library(ggplot2)
library(knitr)
Desc <- flextable(read.csv("DescripciónVariables.csv"))
Desc <- theme_vanilla(Desc)
print(Desc)
Variable | Tipo._de_Dato | Razon |
---|---|---|
longitude | Continua | A measure of how far west a house is; a higher value is farther west |
latitude | Continua | A measure of how far north a house is; a higher value is farther north |
housingMedianAge | Discreta | Median age of a house within a block; a lower number is a newer building |
totalRooms | Discreta | Total number of rooms within a block |
totalBedrooms | Discreta | Total number of bedrooms within a block |
population | Discreta | Total number of people residing within a block |
households | Discreta | Total number of households, a group of people residing within a home unit, for a block |
medianIncome | Continua | Median income for households within a block of houses (measured in tens of thousands of US Dollars) |
medianHouseValue | Continua | Median house value for households within a block (measured in US Dollars) |
oceanProximity | Discreta | Median house value for households within a block (measured in US Dollars) |
NA
NA
La variable a sera Median House Value para poder estimar el costo de una vivienda segun las caracteristicas del vecindario en el que se encuentra
housing <- data.frame(read.csv("housing.csv"))
housing_head <- flextable(head(housing))
housing_head <-theme_vanilla(housing_head)
print(housing_head)
longitude | latitude | housing_median_age | total_rooms | total_bedrooms | population | households | median_income | median_house_value | ocean_proximity |
---|---|---|---|---|---|---|---|---|---|
-122.23 | 37.88 | 41 | 880 | 129 | 322 | 126 | 8.3252 | 452,600 | NEAR BAY |
-122.22 | 37.86 | 21 | 7,099 | 1,106 | 2,401 | 1,138 | 8.3014 | 358,500 | NEAR BAY |
-122.24 | 37.85 | 52 | 1,467 | 190 | 496 | 177 | 7.2574 | 352,100 | NEAR BAY |
-122.25 | 37.85 | 52 | 1,274 | 235 | 558 | 219 | 5.6431 | 341,300 | NEAR BAY |
-122.25 | 37.85 | 52 | 1,627 | 280 | 565 | 259 | 3.8462 | 342,200 | NEAR BAY |
-122.25 | 37.85 | 52 | 919 | 213 | 413 | 193 | 4.0368 | 269,700 | NEAR BAY |
NA
NA
La principal problematica a resolver es encontrar las zonas del estado de california con mayor precio y cuales son sus caracteristicas
El dataset del cual haremos el analisis proviene de Kaggle
housing$ocean_proximity <- as.vector(housing$ocean_proximity)
summary(housing)
longitude latitude housing_median_age total_rooms total_bedrooms
Min. :-124.3 Min. :32.54 Min. : 1.00 Min. : 2 Min. : 2.0
1st Qu.:-121.8 1st Qu.:33.93 1st Qu.:18.00 1st Qu.: 1438 1st Qu.: 297.0
Median :-118.5 Median :34.27 Median :28.00 Median : 2111 Median : 436.0
Mean :-119.6 Mean :35.65 Mean :28.37 Mean : 2620 Mean : 539.6
3rd Qu.:-118.0 3rd Qu.:37.73 3rd Qu.:37.00 3rd Qu.: 3121 3rd Qu.: 648.0
Max. :-114.3 Max. :41.95 Max. :52.00 Max. :39320 Max. :6445.0
NA's :200
population households median_income median_house_value ocean_proximity
Min. : 3 Min. : 2.0 Min. : 0.4999 Min. : 14999 Length:19648
1st Qu.: 796 1st Qu.: 282.0 1st Qu.: 2.5263 1st Qu.:116475 Class :character
Median : 1179 Median : 411.0 Median : 3.4491 Median :173600 Mode :character
Mean : 1441 Mean : 501.2 Mean : 3.6764 Mean :192055
3rd Qu.: 1746 3rd Qu.: 606.0 3rd Qu.: 4.5825 3rd Qu.:247900
Max. :35682 Max. :6082.0 Max. :15.0001 Max. :499100
# Definir los cortes
breaks <- pretty(housing$longitude, n = 143)
# Crear etiquetas num?ricas limpias
intervalos <- cut(housing$longitude, breaks = breaks, include.lowest = TRUE, right = FALSE)
# Crear tabla de frecuencias
tabla_frecuencia <- table(intervalos)
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia)
)
# Mostrar la tabla
tabla_completa$Intervalo <- as.character(tabla_completa$Intervalo)
print(tabla_completa)
NA
NA
hist(housing$longitude,breaks = 143, main= "Histograma de Longitud",
xlab = "Longitud", ylab='Frecuencia')
boxplot(housing$longitude,main="BoxPlot de Longitud",ylab='valores')
# Definir los cortes
breaks <- pretty(housing$latitude, n = 50)
# Crear etiquetas num?ricas limpias
intervalos <- cut(housing$latitude, breaks = breaks, include.lowest = TRUE, right = FALSE)
# Crear tabla de frecuencias
tabla_frecuencia <- table(intervalos)
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia)
)
# Mostrar la tabla
tabla_completa$Intervalo <- as.character(tabla_completa$Intervalo)
print(tabla_completa)
NA
NA
hist(housing$latitude,breaks =50, main= "Histograma de Latitud",
xlab = "Latitud", ylab='Frecuencia', xlim=c(32,43))
boxplot(housing$latitude,main="BoxPlot de Latitude",ylab='valores')
# Definir los cortes
breaks <- pretty(housing$housing_median_age, n = 10)
# Crear etiquetas num?ricas limpias
intervalos <- cut(housing$housing_median_age, breaks = breaks, include.lowest = TRUE, right = FALSE)
# Crear tabla de frecuencias
tabla_frecuencia <- table(intervalos)
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia)
)
# Mostrar la tabla
tabla_completa$Intervalo <- as.character(tabla_completa$Intervalo)
print(tabla_completa)
NA
NA
hist(housing$housing_median_age,breaks = 20, main= "Histograma de Edad de las casas",
xlab = "Edad", ylab='Frecuencia')
boxplot(housing$housing_median_age,main="BoxPlot de Edad de las Casas",ylab='valores')
# Definir los cortes
breaks <- pretty(housing$total_rooms, n = 50)
# Crear etiquetas num?ricas limpias
intervalos <- cut(housing$total_rooms, breaks = breaks, include.lowest = TRUE, right = FALSE)
# Crear tabla de frecuencias
tabla_frecuencia <- table(intervalos)
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia)
)
# Mostrar la tabla
tabla_completa$Intervalo <- as.character(tabla_completa$Intervalo)
print(tabla_completa)
NA
NA
hist(housing$total_rooms,breaks = 100, main= "Histograma del total de habitaciones del vecindario",
xlab = "habitaciones", ylab='Frecuencia')
boxplot(housing$total_rooms,main="BoxPlot del total de habitaciones",ylab='valores')
# Definir los cortes
breaks <- pretty(housing$total_bedrooms, n = 50)
# Crear etiquetas num?ricas limpias
intervalos <- cut(housing$total_bedrooms, breaks = breaks, include.lowest = TRUE, right = FALSE)
# Crear tabla de frecuencias
tabla_frecuencia <- table(intervalos)
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia)
)
# Mostrar la tabla
tabla_completa$Intervalo <- as.character(tabla_completa$Intervalo)
print(tabla_completa)
NA
NA
hist(housing$total_bedrooms,breaks = 100, main= "Histograma del total de dormitorios del vecindario",
xlab = "Total de Dormitorios", ylab='Frecuencia')
boxplot(housing$total_bedrooms,main="BoxPlot de Edad del total de dormitorios del vecindario",ylab='valores')
# Definir los cortes
breaks <- pretty(housing$population, n = 100)
# Crear etiquetas num?ricas limpias
intervalos <- cut(housing$population, breaks = breaks, include.lowest = TRUE, right = FALSE)
# Crear tabla de frecuencias
tabla_frecuencia <- table(intervalos)
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia)
)
# Mostrar la tabla
tabla_completa$Intervalo <- as.character(tabla_completa$Intervalo)
print(tabla_completa)
NA
NA
hist(housing$population,breaks = 100, main= "Histograma de población",
xlab = "Población", ylab='Frecuencia')
boxplot(housing$population,main="BoxPlot de la población",ylab='valores')
# Definir los cortes
breaks <- pretty(housing$households, n = 50)
# Crear etiquetas num?ricas limpias
intervalos <- cut(housing$households, breaks = breaks, include.lowest = TRUE, right = FALSE)
# Crear tabla de frecuencias
tabla_frecuencia <- table(intervalos)
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia)
)
# Mostrar la tabla
tabla_completa$Intervalo <- as.character(tabla_completa$Intervalo)
print(tabla_completa)
NA
NA
hist(housing$households,breaks = 100, main= "Histograma de Hogares",
xlab = "Hogares", ylab='Frecuencia')
boxplot(housing$households,main="BoxPlot de Hogares",ylab='valores')
# Definir los cortes
breaks <- pretty(housing$median_income, n = 10)
# Crear etiquetas num?ricas limpias
intervalos <- cut(housing$median_income, breaks = breaks, include.lowest = TRUE, right = FALSE)
# Crear tabla de frecuencias
tabla_frecuencia <- table(intervalos)
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia)
)
# Mostrar la tabla
tabla_completa$Intervalo <- as.character(tabla_completa$Intervalo)
print(tabla_completa)
NA
NA
hist(housing$median_income,breaks = 20, main= "Histograma del ingreso",
xlab = "Ingreso", ylab='Frecuencia')
boxplot(housing$median_income,main="BoxPlot del ingreso",ylab='valores')
tabla_frecuencia <- table(housing$ocean_proximity)
tabla_completa <- data.frame(
Categoria = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia)
)
# Mostrar la tabla
tabla_completa$Categoria <- as.character(tabla_completa$Categoria)
print(tabla_completa)
NA
NA
# Gráfico de barras
barplot(tabla_frecuencia,
col = "skyblue",
main = "Gráfico de Barras Proximidad al Oceano",
xlab = "Proximidad",
ylab = "Frecuencia",
ylim = c(0,10000),
cex.names = 0.7)
# Definir los cortes
breaks <- pretty(housing$median_house_value, n = 100)
# Crear etiquetas num?ricas limpias
intervalos <- cut(housing$median_house_value, breaks = breaks, include.lowest = TRUE, right = FALSE)
# Crear tabla de frecuencias
tabla_frecuencia <- table(intervalos)
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia)
)
# Mostrar la tabla
tabla_completa$Intervalo <- as.character(tabla_completa$Intervalo)
print(tabla_completa)
NA
NA
hist(housing$median_house_value,breaks = 100, main= "Histograma del precio",
xlab = "Precio Promedio", ylab='Frecuencia')
boxplot(housing$median_house_value,main="BoxPlot del precio de las casas",ylab='valores')
base <- na.omit(read.csv('housing.csv'))
base$ocean_proximity<-as.factor(base$ocean_proximity)
base_numeric <- na.omit(read.csv('housing.csv'))
base_numeric$ocean_proximity<-as.factor(base$ocean_proximity)
base_numeric$ocean_proximity <- as.numeric(base$ocean_proximity)
plot(base_numeric[, sapply(base_numeric, is.numeric)],main = "Matriz de Dispersión")
cor_matrix <- cor(base_numeric[, sapply(base_numeric, is.numeric)])
library(corrplot)
# Ajustar márgenes antes de graficar
par(mar = c(1, 1, 4, 1))
corrplot(cor_matrix, method = "color", type = "upper"
, tl.cex = 0.8
,title = "Matriz de Correlación"
,mar = c(0,0,2,0))
El primer resultado de nuetro análisis de multicolinealidad fue el siguiente:
TodasVar=lm(median_house_value~.,data=base)
library("car")
print(vif(TodasVar))
GVIF Df GVIF^(1/(2*Df))
longitude 17.703989 1 4.207611
latitude 19.662840 1 4.434280
housing_median_age 1.367696 1 1.169485
total_rooms 14.039723 1 3.746962
total_bedrooms 37.009555 1 6.083548
population 6.536153 1 2.556590
households 34.474343 1 5.871486
median_income 1.875301 1 1.369416
ocean_proximity 4.032026 4 1.190393
La primer varible a descartar sería Total Bedrooms
print(vif(lm(median_house_value~longitude+ latitude + housing_median_age + total_rooms + population+households +median_income +ocean_proximity,data=base)))
GVIF Df GVIF^(1/(2*Df))
longitude 17.536228 1 4.187628
latitude 19.567987 1 4.423572
housing_median_age 1.358056 1 1.165357
total_rooms 10.105478 1 3.178912
population 6.111420 1 2.472129
households 12.302297 1 3.507463
median_income 1.596687 1 1.263601
ocean_proximity 3.988666 4 1.188785
La segunda varible a descartar sería Latitude
print(vif(lm(median_house_value~longitude + housing_median_age + total_rooms + population+households +median_income +ocean_proximity,data=base)))
GVIF Df GVIF^(1/(2*Df))
longitude 1.347920 1 1.160999
housing_median_age 1.339613 1 1.157417
total_rooms 9.878153 1 3.142953
population 6.065901 1 2.462905
households 12.196284 1 3.492318
median_income 1.538663 1 1.240428
ocean_proximity 1.810099 4 1.076993
La ultima variable que se descartó fue households
print(vif(lm(median_house_value~longitude + housing_median_age + total_rooms + population +median_income +ocean_proximity,data=base)))
GVIF Df GVIF^(1/(2*Df))
longitude 1.346076 1 1.160205
housing_median_age 1.337128 1 1.156343
total_rooms 4.842184 1 2.200496
population 4.507587 1 2.123108
median_income 1.319313 1 1.148614
ocean_proximity 1.684002 4 1.067315
Quedando el modelo final de la siguiente manera
\[ \text{Median House Value} = \beta_0 + \beta_1 \cdot \text{longitude} + \beta_2 \cdot \text{housing_median_age} \\ + \beta_3 \cdot \text{total_rooms} + \beta_4 \cdot \text{population} \\ + \beta_5 \cdot \text{median_income} + \beta_6 \cdot \text{NEAR_BAY} \\ + \beta_7 \cdot \text{NEAR_OCEAN} + \beta_8 \cdot \text{INLAND} + \beta_9 \cdot \text{ISLAND} \] ### Analisis de Significancia y Ajuste
ModFin=lm(median_house_value~longitude + housing_median_age + total_rooms + population +median_income +ocean_proximity,data=base)
print(summary(ModFin))
Call:
lm(formula = median_house_value ~ longitude + housing_median_age +
total_rooms + population + median_income + ocean_proximity,
data = base)
Residuals:
Min 1Q Median 3Q Max
-488971 -40257 -9937 28465 365127
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.240e+05 3.108e+04 -7.207 5.93e-13 ***
longitude -2.380e+03 2.609e+02 -9.122 < 2e-16 ***
housing_median_age 9.221e+02 4.170e+01 22.113 < 2e-16 ***
total_rooms 1.088e+01 4.542e-01 23.964 < 2e-16 ***
population -1.620e+01 8.367e-01 -19.362 < 2e-16 ***
median_income 3.369e+04 3.302e+02 102.052 < 2e-16 ***
ocean_proximityINLAND -7.462e+04 1.152e+03 -64.794 < 2e-16 ***
ocean_proximityISLAND 1.848e+05 2.815e+04 6.565 5.33e-11 ***
ocean_proximityNEAR BAY -3.446e+03 1.813e+03 -1.901 0.0573 .
ocean_proximityNEAR OCEAN 1.084e+04 1.468e+03 7.385 1.58e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 62920 on 19438 degrees of freedom
Multiple R-squared: 0.5803, Adjusted R-squared: 0.5801
F-statistic: 2987 on 9 and 19438 DF, p-value: < 2.2e-16
\[ H_0 = \beta_{longitud} = \beta_{\text{housing_median_age}} = \beta_{\text{total_rooms}} = \beta_{population} = \beta_{\text{median_income}} = \beta_{\text{ocean_proximityINLAND}} \\ = \beta_{\text{ocean_proximityISLAND}} = \beta_{\text{ocean_proximityNEAR BAY}} = \beta_{\text{ocean_proximityNEAR OCEAN}} = 0 \] \[ H_1 \neq \beta_{j} \text{ Para al menos una varible} \]
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5803, podríamos considerar un ajuste moderado.
summary(ModFin)$coefficients
Estimate Std. Error t value Pr(>|t|)
(Intercept) -223998.93273 3.108064e+04 -7.207025 5.928128e-13
longitude -2380.31769 2.609499e+02 -9.121741 8.096318e-20
housing_median_age 922.12510 4.170130e+01 22.112623 4.979887e-107
total_rooms 10.88334 4.541557e-01 23.963889 4.303260e-125
population -16.19977 8.366812e-01 -19.361943 9.723523e-83
median_income 33692.66429 3.301533e+02 102.051589 0.000000e+00
ocean_proximityINLAND -74617.50351 1.151613e+03 -64.793932 0.000000e+00
ocean_proximityISLAND 184838.43458 2.815459e+04 6.565125 5.330284e-11
ocean_proximityNEAR BAY -3446.41645 1.812787e+03 -1.901171 5.729444e-02
ocean_proximityNEAR OCEAN 10844.13694 1.468337e+03 7.385320 1.582278e-13
\[ \text{Median House Value} = -223998.93 -2380.31 \cdot \text{longitude} + 922.12 \cdot \text{housing_median_age} \\ + 10.88 \cdot \text{total_rooms} -16.2 \cdot \text{population} + 33692.66 \cdot \text{median_income} -3446.4 \cdot \text{NEAR_BAY} \\ + 10844.13 \cdot \text{NEAR_OCEAN} -74617.50 \cdot \text{INLAND} + 184838.43 \cdot \text{ISLAND} \]
Variable | Aportacion | Comentarios |
---|---|---|
-2380.31 Longitude | Negativa | La Longitud tiene una relación inversa al valor de la casa |
922.12 Housing Median Age | Postiva | La edad tiene una relación directa con el valor de la casa |
+ 10.88 Total Rooms | Positiva | La cantidad de habitaciones afecta positivamente a la edad de al valor de la casa |
-16.2Population | Negativa | La población afecta inversamente al valor de la casa |
33692.66 Median Income | Positiva | El ingreso afecta de manera directa al valor de la casa |
-3446.4 Ocean Proximity INLAND | Negativa | Cuando la proximidad al océano se encuentra en la categoría INLAND afecta de manera inversa al valor de la casa |
-74617.50 Ocean Proximity ISLAND | Positiva | Cuando se encuentra en la categoría ISLAND afecta de manera directa |
184838.43 Ocean Proximity Near bay | Positiva | Cuando se encuentra cerca de la bahía afecta de manera directa al valor de la casa |
10844.1Ocean Proximity Near Ocean | Positiva | Cuando se encuentra cerca del oceano afecta de manera directa al valor de la casa |
library(olsrr)
todos<-ols_step_all_possible(lm(median_house_value~longitude + housing_median_age + total_rooms + population +median_income +ocean_proximity,data=base))
Modelos <- todos$result
head(Modelos[order(-Modelos$adjr),],10)
El modelo con mejor ajuste fue: \[ \text{Median House Value} = -223998.93 -2380.31 \cdot \text{longitude} + 922.12 \cdot \text{housing_median_age} \\ + 10.88 \cdot \text{total_rooms} -16.2 \cdot \text{population} + 33692.66 \cdot \text{median_income} -3446.4 \cdot \text{NEAR_BAY} \\ + 10844.13 \cdot \text{NEAR_OCEAN} -74617.50 \cdot \text{INLAND} + 184838.43 \cdot \text{ISLAND} \]
mm <- lm(median_house_value~longitude + housing_median_age+ total_rooms + population +median_income +ocean_proximity,data=base)
summary(mm)
Call:
lm(formula = median_house_value ~ longitude + housing_median_age +
total_rooms + population + median_income + ocean_proximity,
data = base)
Residuals:
Min 1Q Median 3Q Max
-488971 -40257 -9937 28465 365127
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.240e+05 3.108e+04 -7.207 5.93e-13 ***
longitude -2.380e+03 2.609e+02 -9.122 < 2e-16 ***
housing_median_age 9.221e+02 4.170e+01 22.113 < 2e-16 ***
total_rooms 1.088e+01 4.542e-01 23.964 < 2e-16 ***
population -1.620e+01 8.367e-01 -19.362 < 2e-16 ***
median_income 3.369e+04 3.302e+02 102.052 < 2e-16 ***
ocean_proximityINLAND -7.462e+04 1.152e+03 -64.794 < 2e-16 ***
ocean_proximityISLAND 1.848e+05 2.815e+04 6.565 5.33e-11 ***
ocean_proximityNEAR BAY -3.446e+03 1.813e+03 -1.901 0.0573 .
ocean_proximityNEAR OCEAN 1.084e+04 1.468e+03 7.385 1.58e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 62920 on 19438 degrees of freedom
Multiple R-squared: 0.5803, Adjusted R-squared: 0.5801
F-statistic: 2987 on 9 and 19438 DF, p-value: < 2.2e-16
confint(mm)
2.5 % 97.5 %
(Intercept) -2.849197e+05 -163078.21115
longitude -2.891802e+03 -1868.83336
housing_median_age 8.403870e+02 1003.86323
total_rooms 9.993153e+00 11.77352
population -1.783974e+01 -14.55981
median_income 3.304554e+04 34339.79307
ocean_proximityINLAND -7.687476e+04 -72360.24390
ocean_proximityISLAND 1.296530e+05 240023.86187
ocean_proximityNEAR BAY -6.999634e+03 106.80109
ocean_proximityNEAR OCEAN 7.966070e+03 13722.20343
\[ H_0 = \beta_{longitud} = \beta_{\text{housing_median_age}} = \beta_{\text{total_rooms}} = \beta_{population} = \beta_{\text{median_income}} = \beta_{\text{ocean_proximityINLAND}} \\ = \beta_{\text{ocean_proximityISLAND}} = \beta_{\text{ocean_proximityNEAR BAY}} = \beta_{\text{ocean_proximityNEAR OCEAN}} = 0 \] \[ H_1 \neq \beta_{j} \text{ Para al menos una varible} \]
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.6121, podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm)
ks.test(r,pnorm,mean=0,sd=62920)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.089334, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos a transformar nuestra variable
mm <- lm(sqrt(median_house_value)~longitude + housing_median_age + total_rooms + population +median_income +ocean_proximity,data=base)
summary(mm)
Call:
lm(formula = sqrt(median_house_value) ~ longitude + housing_median_age +
total_rooms + population + median_income + ocean_proximity,
data = base)
Residuals:
Min 1Q Median 3Q Max
-536.99 -45.52 -8.42 36.42 376.20
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.806e+00 3.366e+01 -0.113 0.90996
longitude -2.431e+00 2.826e-01 -8.603 < 2e-16 ***
housing_median_age 8.604e-01 4.516e-02 19.052 < 2e-16 ***
total_rooms 1.176e-02 4.918e-04 23.901 < 2e-16 ***
population -1.672e-02 9.061e-04 -18.452 < 2e-16 ***
median_income 3.741e+01 3.575e-01 104.627 < 2e-16 ***
ocean_proximityINLAND -9.541e+01 1.247e+00 -76.502 < 2e-16 ***
ocean_proximityISLAND 1.835e+02 3.049e+01 6.018 1.8e-09 ***
ocean_proximityNEAR BAY -5.431e+00 1.963e+00 -2.766 0.00567 **
ocean_proximityNEAR OCEAN 8.593e+00 1.590e+00 5.404 6.6e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 68.13 on 19438 degrees of freedom
Multiple R-squared: 0.6118, Adjusted R-squared: 0.6116
F-statistic: 3404 on 9 and 19438 DF, p-value: < 2.2e-16
confint(mm)
2.5 % 97.5 %
(Intercept) -69.78071483 62.16794551
longitude -2.98516396 -1.87733611
housing_median_age 0.77186485 0.94890211
total_rooms 0.01079115 0.01271921
population -0.01849524 -0.01494322
median_income 36.70761742 38.10923864
ocean_proximityINLAND -97.85394393 -92.96492793
ocean_proximityISLAND 123.71412375 243.24066599
ocean_proximityNEAR BAY -9.27891971 -1.58297846
ocean_proximityNEAR OCEAN 5.47621573 11.70984212
\[ H_0 = \beta_{\text{housing_median_age}} = \beta_{\text{total_rooms}} = \beta_{population} = \beta_{\text{median_income}} = \beta_{\text{ocean_proximityINLAND}} \\ = \beta_{\text{ocean_proximityISLAND}} = \beta_{\text{ocean_proximityNEAR BAY}} = \beta_{\text{ocean_proximityNEAR OCEAN}} = 0 \] \[ H_1 \neq \beta_{j} \text{ Para al menos una varible} \] Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.6336, podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm)
ks.test(r,pnorm,mean=0,sd=74.25)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.068168, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el tercer mejor modelo
# longitude housing_median_age total_rooms median_income ocean_proximity
mm <- lm(median_house_value~longitude + housing_median_age + total_rooms +median_income +ocean_proximity,data=base)
summary(mm)
Call:
lm(formula = median_house_value ~ longitude + housing_median_age +
total_rooms + median_income + ocean_proximity, data = base)
Residuals:
Min 1Q Median 3Q Max
-508169 -40806 -10492 28416 369534
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.714e+05 3.128e+04 -8.676 < 2e-16 ***
longitude -2.659e+03 2.630e+02 -10.109 < 2e-16 ***
housing_median_age 9.350e+02 4.209e+01 22.213 < 2e-16 ***
total_rooms 3.257e+00 2.283e-01 14.270 < 2e-16 ***
median_income 3.588e+04 3.132e+02 114.568 < 2e-16 ***
ocean_proximityINLAND -6.972e+04 1.134e+03 -61.467 < 2e-16 ***
ocean_proximityISLAND 1.939e+05 2.842e+04 6.822 9.24e-12 ***
ocean_proximityNEAR BAY -4.440e+02 1.823e+03 -0.244 0.808
ocean_proximityNEAR OCEAN 1.373e+04 1.475e+03 9.307 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 63520 on 19439 degrees of freedom
Multiple R-squared: 0.5722, Adjusted R-squared: 0.5721
F-statistic: 3250 on 8 and 19439 DF, p-value: < 2.2e-16
confint(mm)
2.5 % 97.5 %
(Intercept) -3.327091e+05 -2.100836e+05
longitude -3.174640e+03 -2.143453e+03
housing_median_age 8.525314e+02 1.017551e+03
total_rooms 2.809685e+00 3.704484e+00
median_income 3.526677e+04 3.649449e+04
ocean_proximityINLAND -7.193929e+04 -6.749304e+04
ocean_proximityISLAND 1.381757e+05 2.495876e+05
ocean_proximityNEAR BAY -4.018110e+03 3.130045e+03
ocean_proximityNEAR OCEAN 1.083439e+04 1.661570e+04
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.6016, podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm)
ks.test(r,pnorm,mean=0,sd=72860)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.10111, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el cuarto mejor modelo
# longitude total_rooms population median_income ocean_proximity
mm <- lm(sqrt(median_house_value)~longitude + total_rooms +population +median_income +ocean_proximity,data=base)
summary(mm)
Call:
lm(formula = sqrt(median_house_value) ~ longitude + total_rooms +
population + median_income + ocean_proximity, data = base)
Residuals:
Min 1Q Median 3Q Max
-507.31 -45.20 -9.36 36.22 382.73
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.915e+01 3.395e+01 0.564 0.573
longitude -2.527e+00 2.852e-01 -8.861 < 2e-16 ***
total_rooms 1.032e-02 4.905e-04 21.032 < 2e-16 ***
population -1.700e-02 9.144e-04 -18.587 < 2e-16 ***
median_income 3.613e+01 3.544e-01 101.935 < 2e-16 ***
ocean_proximityINLAND -1.006e+02 1.229e+00 -81.834 < 2e-16 ***
ocean_proximityISLAND 1.917e+02 3.077e+01 6.229 4.80e-10 ***
ocean_proximityNEAR BAY 8.975e-01 1.953e+00 0.460 0.646
ocean_proximityNEAR OCEAN 8.075e+00 1.605e+00 5.032 4.89e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 68.77 on 19439 degrees of freedom
Multiple R-squared: 0.6046, Adjusted R-squared: 0.6044
F-statistic: 3715 on 8 and 19439 DF, p-value: < 2.2e-16
confint(mm)
2.5 % 97.5 %
(Intercept) -4.739418e+01 85.69193745
longitude -3.085723e+00 -1.96780481
total_rooms 9.354858e-03 0.01127770
population -1.878762e-02 -0.01520314
median_income 3.543520e+01 36.82467098
ocean_proximityINLAND -1.029664e+02 -98.14935305
ocean_proximityISLAND 1.313457e+02 251.96793932
ocean_proximityNEAR BAY -2.930150e+00 4.72511785
ocean_proximityNEAR OCEAN 4.929908e+00 11.22038389
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.6006, podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm)
ks.test(r,pnorm,mean=0,sd=74.96)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.071639, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el quinto mejor modelo
# housing_median_age total_rooms median_income ocean_proximity
mm <- lm(median_house_value~housing_median_age+ total_rooms+ median_income+ ocean_proximity,data=base)
summary(mm)
Call:
lm(formula = median_house_value ~ housing_median_age + total_rooms +
median_income + ocean_proximity, data = base)
Residuals:
Min 1Q Median 3Q Max
-503075 -41211 -10447 28809 372503
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.404e+04 2.184e+03 20.166 < 2e-16 ***
housing_median_age 9.430e+02 4.220e+01 22.347 < 2e-16 ***
total_rooms 3.151e+00 2.286e-01 13.784 < 2e-16 ***
median_income 3.604e+04 3.136e+02 114.925 < 2e-16 ***
ocean_proximityINLAND -6.718e+04 1.109e+03 -60.579 < 2e-16 ***
ocean_proximityISLAND 1.925e+05 2.849e+04 6.757 1.44e-11 ***
ocean_proximityNEAR BAY 8.544e+03 1.596e+03 5.353 8.74e-08 ***
ocean_proximityNEAR OCEAN 1.496e+04 1.474e+03 10.153 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 63680 on 19440 degrees of freedom
Multiple R-squared: 0.57, Adjusted R-squared: 0.5698
F-statistic: 3681 on 7 and 19440 DF, p-value: < 2.2e-16
confint(mm)
2.5 % 97.5 %
(Intercept) 39760.778081 48322.099641
housing_median_age 860.269041 1025.688949
total_rooms 2.703127 3.599306
median_income 35425.434281 36654.785442
ocean_proximityINLAND -69351.639106 -65004.435692
ocean_proximityISLAND 136695.021973 248395.273597
ocean_proximityNEAR BAY 5415.624469 11672.561251
ocean_proximityNEAR OCEAN 12072.469425 17848.863546
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.6005 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm)
ks.test(r,pnorm,mean=0,sd=72960)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.10104, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el sexto mejor modelo
# total_rooms population median_income ocean_proximity
mm1 <- lm(sqrt(median_house_value)~total_rooms+ population+ median_income+ ocean_proximity,data=base)
summary(mm1)
Call:
lm(formula = sqrt(median_house_value) ~ total_rooms + population +
median_income + ocean_proximity, data = base)
Residuals:
Min 1Q Median 3Q Max
-501.71 -45.51 -9.34 36.80 385.48
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.196e+02 1.710e+00 186.934 < 2e-16 ***
total_rooms 1.041e-02 4.914e-04 21.195 < 2e-16 ***
population -1.744e-02 9.148e-04 -19.070 < 2e-16 ***
median_income 3.621e+01 3.550e-01 101.991 < 2e-16 ***
ocean_proximityINLAND -9.833e+01 1.205e+00 -81.588 < 2e-16 ***
ocean_proximityISLAND 1.902e+02 3.083e+01 6.170 6.99e-10 ***
ocean_proximityNEAR BAY 9.385e+00 1.705e+00 5.504 3.76e-08 ***
ocean_proximityNEAR OCEAN 9.162e+00 1.603e+00 5.715 1.11e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 68.9 on 19440 degrees of freedom
Multiple R-squared: 0.603, Adjusted R-squared: 0.6028
F-statistic: 4218 on 7 and 19440 DF, p-value: < 2.2e-16
confint(mm1)
2.5 % 97.5 %
(Intercept) 3.162244e+02 322.92621128
total_rooms 9.451344e-03 0.01137753
population -1.923780e-02 -0.01565171
median_income 3.551414e+01 36.90592784
ocean_proximityINLAND -1.006931e+02 -95.96845038
ocean_proximityISLAND 1.297784e+02 250.63918627
ocean_proximityNEAR BAY 6.042867e+00 12.72713866
ocean_proximityNEAR OCEAN 6.020001e+00 12.30455321
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de0.5997 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm1)
ks.test(r,pnorm,mean=0,sd=75.05)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.071009, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el septimo mejor modelo
# longitude housing_median_age median_income ocean_proximity
mm1 <- lm(median_house_value~longitude +housing_median_age+ median_income+ ocean_proximity,data=base)
summary(mm1)
Call:
lm(formula = median_house_value ~ longitude + housing_median_age +
median_income + ocean_proximity, data = base)
Residuals:
Min 1Q Median 3Q Max
-518466 -40667 -10259 28482 364984
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -239360.42 31362.14 -7.632 2.42e-14 ***
longitude -2486.82 264.14 -9.415 < 2e-16 ***
housing_median_age 732.99 39.85 18.395 < 2e-16 ***
median_income 36575.64 310.98 117.615 < 2e-16 ***
ocean_proximityINLAND -69579.13 1140.05 -61.031 < 2e-16 ***
ocean_proximityISLAND 194017.34 28567.88 6.791 1.14e-11 ***
ocean_proximityNEAR BAY 1470.92 1827.94 0.805 0.421
ocean_proximityNEAR OCEAN 13882.18 1482.38 9.365 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 63850 on 19440 degrees of freedom
Multiple R-squared: 0.5678, Adjusted R-squared: 0.5676
F-statistic: 3648 on 7 and 19440 DF, p-value: < 2.2e-16
confint(mm1)
2.5 % 97.5 %
(Intercept) -300832.9061 -177887.9303
longitude -3004.5504 -1969.0953
housing_median_age 654.8831 811.0946
median_income 35966.0958 37185.1846
ocean_proximityINLAND -71813.7316 -67344.5286
ocean_proximityISLAND 138021.8507 250012.8373
ocean_proximityNEAR BAY -2111.9906 5053.8333
ocean_proximityNEAR OCEAN 10976.5762 16787.7767
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5979 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
library(nortest)
r<-residuals(mm1)
lillie.test(r)
Lilliefors (Kolmogorov-Smirnov) normality test
data: r
D = 0.08864, p-value < 2.2e-16
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el octavos mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm1 <- lm(median_house_value~ longitude+ housing_median_age+ population+ median_income+ ocean_proximity,data=base)
summary(mm1)
Call:
lm(formula = median_house_value ~ longitude + housing_median_age +
population + median_income + ocean_proximity, data = base)
Residuals:
Min 1Q Median 3Q Max
-518105 -40697 -10363 28546 366090
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.483e+05 3.152e+04 -7.879 3.46e-15 ***
longitude -2.537e+03 2.647e+02 -9.584 < 2e-16 ***
housing_median_age 7.687e+02 4.181e+01 18.385 < 2e-16 ***
population 1.189e+00 4.226e-01 2.814 0.0049 **
median_income 3.662e+04 3.113e+02 117.638 < 2e-16 ***
ocean_proximityINLAND -6.924e+04 1.146e+03 -60.416 < 2e-16 ***
ocean_proximityISLAND 1.947e+05 2.856e+04 6.815 9.71e-12 ***
ocean_proximityNEAR BAY 1.362e+03 1.828e+03 0.745 0.4562
ocean_proximityNEAR OCEAN 1.407e+04 1.484e+03 9.482 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 63840 on 19439 degrees of freedom
Multiple R-squared: 0.5679, Adjusted R-squared: 0.5677
F-statistic: 3194 on 8 and 19439 DF, p-value: < 2.2e-16
confint(mm1)
2.5 % 97.5 %
(Intercept) -3.101259e+05 -1.865669e+05
longitude -3.055696e+03 -2.018078e+03
housing_median_age 6.867160e+02 8.506179e+02
population 3.608608e-01 2.017603e+00
median_income 3.600669e+04 3.722691e+04
ocean_proximityINLAND -7.148932e+04 -6.699643e+04
ocean_proximityISLAND 1.386706e+05 2.506452e+05
ocean_proximityNEAR BAY -2.220901e+03 4.945250e+03
ocean_proximityNEAR OCEAN 1.115873e+04 1.697458e+04
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5978 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
library(nortest)
r<-residuals(mm1)
ks.test(r,pnorm,mean=0,sd=73200)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.10079, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el octavos mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~ median_income +ocean_proximity,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ median_income + ocean_proximity,
data = base)
Residuals:
Min 1Q Median 3Q Max
-479385 -40789 -10925 27979 376737
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 83149.6 1400.0 59.393 < 2e-16 ***
median_income 35168.8 303.1 116.048 < 2e-16 ***
ocean_proximityINLAND -72061.3 1093.3 -65.911 < 2e-16 ***
ocean_proximityISLAND 200772.6 28884.4 6.951 3.74e-12 ***
ocean_proximityNEAR BAY 15788.2 1583.1 9.973 < 2e-16 ***
ocean_proximityNEAR OCEAN 14585.1 1493.7 9.765 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 64560 on 19442 degrees of freedom
Multiple R-squared: 0.558, Adjusted R-squared: 0.5579
F-statistic: 4908 on 5 and 19442 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) 80405.44 85893.68
median_income 34574.76 35762.78
ocean_proximityINLAND -74204.31 -69918.31
ocean_proximityISLAND 144156.59 257388.51
ocean_proximityNEAR BAY 12685.15 18891.33
ocean_proximityNEAR OCEAN 11657.40 17512.85
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.588 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm1)
ks.test(r,pnorm,mean=0,sd=74090)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.10205, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el octavos mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~longitude+housing_median_age+total_rooms+
population+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ longitude + housing_median_age +
total_rooms + population + median_income, data = base)
Residuals:
Min 1Q Median 3Q Max
-561262 -48560 -12205 35840 378276
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.074e+05 3.083e+04 -3.483 0.000497 ***
longitude -7.627e+02 2.579e+02 -2.957 0.003105 **
housing_median_age 1.744e+03 4.450e+01 39.186 < 2e-16 ***
total_rooms 5.926e+00 5.030e-01 11.783 < 2e-16 ***
population -5.306e+00 9.226e-01 -5.751 9.02e-09 ***
median_income 4.103e+04 3.521e+02 116.554 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 71160 on 19442 degrees of freedom
Multiple R-squared: 0.463, Adjusted R-squared: 0.4629
F-statistic: 3353 on 5 and 19442 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -1.678147e+05 -46956.487549
longitude -1.268242e+03 -257.231922
housing_median_age 1.656384e+03 1830.815621
total_rooms 4.940565e+00 6.912251
population -7.113806e+00 -3.497153
median_income 4.034481e+04 41724.978856
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5172, podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=80210)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.082297, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el decimo mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~housing_median_age+median_income+ocean_proximity,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ housing_median_age + median_income +
ocean_proximity, data = base)
Residuals:
Min 1Q Median 3Q Max
-513378 -41124 -10261 28882 367906
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 55293.25 2035.46 27.165 < 2e-16 ***
housing_median_age 746.58 39.91 18.706 < 2e-16 ***
median_income 36703.93 311.38 117.875 < 2e-16 ***
ocean_proximityINLAND -67204.56 1114.31 -60.311 < 2e-16 ***
ocean_proximityISLAND 192760.62 28631.88 6.732 1.72e-11 ***
ocean_proximityNEAR BAY 9836.29 1601.06 6.144 8.22e-10 ***
ocean_proximityNEAR OCEAN 15035.42 1480.64 10.155 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 63990 on 19441 degrees of freedom
Multiple R-squared: 0.5658, Adjusted R-squared: 0.5656
F-statistic: 4222 on 6 and 19441 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) 51303.585 59282.9194
housing_median_age 668.353 824.8134
median_income 36093.601 37314.2614
ocean_proximityINLAND -69388.698 -65020.4202
ocean_proximityISLAND 136639.664 248881.5727
ocean_proximityNEAR BAY 6698.082 12974.5069
ocean_proximityNEAR OCEAN 12133.240 17937.6061
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5172, podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=80210)
Warning :ties should not be present for the one-sample Kolmogorov-Smirnov test
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.10982, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 11 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~longitude+population+median_income+ocean_proximity,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ longitude + population + median_income +
ocean_proximity, data = base)
Residuals:
Min 1Q Median 3Q Max
-487424 -40319 -10871 27575 371948
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.244e+05 3.176e+04 -7.065 1.67e-12 ***
longitude -2.605e+03 2.669e+02 -9.760 < 2e-16 ***
population -1.167e+00 4.062e-01 -2.873 0.00407 **
median_income 3.509e+04 3.026e+02 115.964 < 2e-16 ***
ocean_proximityINLAND -7.460e+04 1.118e+03 -66.733 < 2e-16 ***
ocean_proximityISLAND 2.010e+05 2.881e+04 6.976 3.14e-12 ***
ocean_proximityNEAR BAY 6.571e+03 1.822e+03 3.607 0.00031 ***
ocean_proximityNEAR OCEAN 1.320e+04 1.496e+03 8.828 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 64390 on 19440 degrees of freedom
Multiple R-squared: 0.5604, Adjusted R-squared: 0.5603
F-statistic: 3541 on 7 and 19440 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -2.866570e+05 -1.621382e+05
longitude -3.128575e+03 -2.082105e+03
population -1.963162e+00 -3.708108e-01
median_income 3.450011e+04 3.568644e+04
ocean_proximityINLAND -7.679504e+04 -7.241250e+04
ocean_proximityISLAND 1.444875e+05 2.574204e+05
ocean_proximityNEAR BAY 3.000516e+03 1.014118e+04
ocean_proximityNEAR OCEAN 1.027143e+04 1.613453e+04
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5898 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=79930)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.11626, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 12 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~longitude+total_rooms+median_income+ocean_proximity,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ longitude + total_rooms + median_income +
ocean_proximity, data = base)
Residuals:
Min 1Q Median 3Q Max
-476261 -40301 -10992 27390 376714
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.473e+05 3.166e+04 -7.813 5.87e-15 ***
longitude -2.768e+03 2.663e+02 -10.394 < 2e-16 ***
total_rooms 1.552e+00 2.177e-01 7.129 1.05e-12 ***
median_income 3.453e+04 3.111e+02 110.998 < 2e-16 ***
ocean_proximityINLAND -7.522e+04 1.121e+03 -67.120 < 2e-16 ***
ocean_proximityISLAND 2.029e+05 2.877e+04 7.053 1.81e-12 ***
ocean_proximityNEAR BAY 6.491e+03 1.819e+03 3.568 0.00036 ***
ocean_proximityNEAR OCEAN 1.322e+04 1.493e+03 8.851 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 64320 on 19440 degrees of freedom
Multiple R-squared: 0.5614, Adjusted R-squared: 0.5612
F-statistic: 3554 on 7 and 19440 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -3.093682e+05 -1.852740e+05
longitude -3.290032e+03 -2.246049e+03
total_rooms 1.124981e+00 1.978243e+00
median_income 3.392161e+04 3.514117e+04
ocean_proximityINLAND -7.741868e+04 -7.302530e+04
ocean_proximityISLAND 1.465395e+05 2.593419e+05
ocean_proximityNEAR BAY 2.925316e+03 1.005655e+04
ocean_proximityNEAR OCEAN 1.028878e+04 1.614214e+04
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5897 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=73940)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.10915, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 13 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~longitude+median_income+ocean_proximity,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ longitude + median_income +
ocean_proximity, data = base)
Residuals:
Min 1Q Median 3Q Max
-485496 -40243 -10997 27537 373436
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -232907.2 31631.1 -7.363 1.87e-13 ***
longitude -2662.9 266.2 -10.002 < 2e-16 ***
median_income 35061.3 302.5 115.915 < 2e-16 ***
ocean_proximityINLAND -74509.3 1117.7 -66.665 < 2e-16 ***
ocean_proximityISLAND 201962.0 28811.4 7.010 2.46e-12 ***
ocean_proximityNEAR BAY 6714.6 1821.2 3.687 0.000228 ***
ocean_proximityNEAR OCEAN 13359.0 1494.9 8.936 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 64400 on 19441 degrees of freedom
Multiple R-squared: 0.5602, Adjusted R-squared: 0.5601
F-statistic: 4128 on 6 and 19441 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -294906.890 -170907.53
longitude -3184.734 -2141.02
median_income 34468.456 35654.21
ocean_proximityINLAND -76700.025 -72318.56
ocean_proximityISLAND 145489.240 258434.83
ocean_proximityNEAR BAY 3144.945 10284.24
ocean_proximityNEAR OCEAN 10428.853 16289.18
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5891 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=73990)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.10704, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 14 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~total_rooms median_income ocean_proximity,data=base)
G1;H1;Errorh: unexpected input en "mm2 <- lm(median_house_value ~total_rooms "
Error durante el wrapup: no hay tantas estructuras en la pila
Error: no more error handlers available (recursive errors?); invoking 'abort' restart
g
summary(mm2)
Call:
lm(formula = median_house_value ~ longitude + median_income +
ocean_proximity, data = base)
Residuals:
Min 1Q Median 3Q Max
-485496 -40243 -10997 27537 373436
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -232907.2 31631.1 -7.363 1.87e-13 ***
longitude -2662.9 266.2 -10.002 < 2e-16 ***
median_income 35061.3 302.5 115.915 < 2e-16 ***
ocean_proximityINLAND -74509.3 1117.7 -66.665 < 2e-16 ***
ocean_proximityISLAND 201962.0 28811.4 7.010 2.46e-12 ***
ocean_proximityNEAR BAY 6714.6 1821.2 3.687 0.000228 ***
ocean_proximityNEAR OCEAN 13359.0 1494.9 8.936 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 64400 on 19441 degrees of freedom
Multiple R-squared: 0.5602, Adjusted R-squared: 0.5601
F-statistic: 4128 on 6 and 19441 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -294906.890 -170907.53
longitude -3184.734 -2141.02
median_income 34468.456 35654.21
ocean_proximityINLAND -76700.025 -72318.56
ocean_proximityISLAND 145489.240 258434.83
ocean_proximityNEAR BAY 3144.945 10284.24
ocean_proximityNEAR OCEAN 10428.853 16289.18
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5891 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=73990)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.10704, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 16 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~ longitude+housing_median_age+total_rooms+population+median_income ,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ longitude + housing_median_age +
total_rooms + population + median_income, data = base)
Residuals:
Min 1Q Median 3Q Max
-561262 -48560 -12205 35840 378276
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.074e+05 3.083e+04 -3.483 0.000497 ***
longitude -7.627e+02 2.579e+02 -2.957 0.003105 **
housing_median_age 1.744e+03 4.450e+01 39.186 < 2e-16 ***
total_rooms 5.926e+00 5.030e-01 11.783 < 2e-16 ***
population -5.306e+00 9.226e-01 -5.751 9.02e-09 ***
median_income 4.103e+04 3.521e+02 116.554 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 71160 on 19442 degrees of freedom
Multiple R-squared: 0.463, Adjusted R-squared: 0.4629
F-statistic: 3353 on 5 and 19442 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -1.678147e+05 -46956.487549
longitude -1.268242e+03 -257.231922
housing_median_age 1.656384e+03 1830.815621
total_rooms 4.940565e+00 6.912251
population -7.113806e+00 -3.497153
median_income 4.034481e+04 41724.978856
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5172 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=80210)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.082297, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 17 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~housing_median_age+total_rooms+population+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ housing_median_age + total_rooms +
population + median_income, data = base)
Residuals:
Min 1Q Median 3Q Max
-560053 -48814 -12185 35853 377680
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.644e+04 2.192e+03 -7.499 6.72e-14 ***
housing_median_age 1.757e+03 4.429e+01 39.665 < 2e-16 ***
total_rooms 6.077e+00 5.005e-01 12.142 < 2e-16 ***
population -5.646e+00 9.156e-01 -6.166 7.12e-10 ***
median_income 4.103e+04 3.521e+02 116.513 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 71170 on 19443 degrees of freedom
Multiple R-squared: 0.4628, Adjusted R-squared: 0.4627
F-statistic: 4187 on 4 and 19443 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -20733.599175 -12140.635810
housing_median_age 1669.819417 1843.428840
total_rooms 5.095888 7.057852
population -7.440278 -3.851137
median_income 40337.465381 41717.872700
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5171 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=80210)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.082664, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 18 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~longitude+housing_median_age+total_rooms+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ longitude + housing_median_age +
total_rooms + median_income, data = base)
Residuals:
Min 1Q Median 3Q Max
-566878 -48555 -12328 35519 381575
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.326e+05 3.054e+04 -4.342 1.42e-05 ***
longitude -9.477e+02 2.561e+02 -3.700 0.000216 ***
housing_median_age 1.736e+03 4.451e+01 39.005 < 2e-16 ***
total_rooms 3.433e+00 2.552e-01 13.453 < 2e-16 ***
median_income 4.163e+04 3.366e+02 123.689 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 71220 on 19443 degrees of freedom
Multiple R-squared: 0.4621, Adjusted R-squared: 0.462
F-statistic: 4176 on 4 and 19443 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -1.924647e+05 -72736.474208
longitude -1.449644e+03 -445.698122
housing_median_age 1.649037e+03 1823.540912
total_rooms 2.933091e+00 3.933542
median_income 4.097386e+04 42293.382211
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5142 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=80460)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.084848, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 19 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~housing_median_age+total_rooms+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ housing_median_age + total_rooms +
median_income, data = base)
Residuals:
Min 1Q Median 3Q Max
-565806 -48721 -12313 35479 381089
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.986e+04 2.123e+03 -9.354 <2e-16 ***
housing_median_age 1.752e+03 4.432e+01 39.532 <2e-16 ***
total_rooms 3.421e+00 2.553e-01 13.403 <2e-16 ***
median_income 4.167e+04 3.365e+02 123.827 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 71240 on 19444 degrees of freedom
Multiple R-squared: 0.4617, Adjusted R-squared: 0.4616
F-statistic: 5560 on 3 and 19444 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -24017.346554 -15696.005020
housing_median_age 1665.259296 1839.010449
total_rooms 2.921086 3.921784
median_income 41013.307402 42332.604761
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.514 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=80470)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.085049, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 20 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~longitude+housing_median_age+population+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ longitude + housing_median_age +
population + median_income, data = base)
Residuals:
Min 1Q Median 3Q Max
-576455 -48718 -12271 35157 379752
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.443e+05 3.078e+04 -4.688 2.78e-06 ***
longitude -1.070e+03 2.575e+02 -4.156 3.25e-05 ***
housing_median_age 1.640e+03 4.378e+01 37.469 < 2e-16 ***
population 4.065e+00 4.694e-01 8.659 < 2e-16 ***
median_income 4.243e+04 3.328e+02 127.478 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 71410 on 19443 degrees of freedom
Multiple R-squared: 0.4592, Adjusted R-squared: 0.4591
F-statistic: 4127 on 4 and 19443 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -2.046234e+05 -83965.202782
longitude -1.574811e+03 -565.427632
housing_median_age 1.554522e+03 1726.141574
population 3.144555e+00 4.984654
median_income 4.177487e+04 43079.581206
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5106 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=80760)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.087031, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 21 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~housing_median_age+population+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ housing_median_age + population +
median_income, data = base)
Residuals:
Min 1Q Median 3Q Max
-575287 -48795 -12269 35439 378959
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.670e+04 2.200e+03 -7.592 3.3e-14 ***
housing_median_age 1.655e+03 4.365e+01 37.915 < 2e-16 ***
population 3.920e+00 4.683e-01 8.370 < 2e-16 ***
median_income 4.247e+04 3.328e+02 127.598 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 71440 on 19444 degrees of freedom
Multiple R-squared: 0.4587, Adjusted R-squared: 0.4586
F-statistic: 5492 on 3 and 19444 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -21015.305664 -12390.476698
housing_median_age 1569.513990 1740.640406
population 3.001656 4.837428
median_income 41814.733117 43119.446170
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5104 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=80770)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.087405, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 22 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~longitude+housing_median_age+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ longitude + housing_median_age +
median_income, data = base)
Residuals:
Min 1Q Median 3Q Max
-578768 -48775 -12189 35931 374044
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -115417.60 30655.77 -3.765 0.000167 ***
longitude -904.32 257.26 -3.515 0.000440 ***
housing_median_age 1532.64 42.05 36.444 < 2e-16 ***
median_income 42388.46 333.42 127.132 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 71550 on 19444 degrees of freedom
Multiple R-squared: 0.4571, Adjusted R-squared: 0.457
F-statistic: 5457 on 3 and 19444 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -175505.549 -55329.6598
longitude -1408.575 -400.0728
housing_median_age 1450.211 1615.0723
median_income 41734.929 43042.0002
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5097 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=80830)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.08512, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 23 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~housing_median_age+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ housing_median_age + median_income,
data = base)
Residuals:
Min 1Q Median 3Q Max
-577705 -48783 -12190 35958 373932
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -7870.41 1933.95 -4.07 4.73e-05 ***
housing_median_age 1548.44 41.83 37.02 < 2e-16 ***
median_income 42423.51 333.37 127.26 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 71570 on 19445 degrees of freedom
Multiple R-squared: 0.4568, Adjusted R-squared: 0.4567
F-statistic: 8175 on 2 and 19445 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -11661.112 -4079.70
housing_median_age 1466.455 1630.42
median_income 41770.081 43076.95
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.5096 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=79930)
Warning :ties should not be present for the one-sample Kolmogorov-Smirnov test
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.084496, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 24 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~longitude+total_rooms+population+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ longitude + total_rooms + population +
median_income, data = base)
Residuals:
Min 1Q Median 3Q Max
-512493 -51204 -12821 36620 369680
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.632e+05 3.199e+04 -5.100 3.42e-07 ***
longitude -1.763e+03 2.666e+02 -6.613 3.85e-11 ***
total_rooms 2.045e+00 5.122e-01 3.992 6.59e-05 ***
population -4.273e+00 9.579e-01 -4.460 8.23e-06 ***
median_income 3.949e+04 3.634e+02 108.672 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 73910 on 19443 degrees of freedom
Multiple R-squared: 0.4206, Adjusted R-squared: 0.4205
F-statistic: 3529 on 4 and 19443 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -2.258564e+05 -1.004534e+05
longitude -2.285424e+03 -1.240431e+03
total_rooms 1.040524e+00 3.048419e+00
population -6.150133e+00 -2.395004e+00
median_income 3.877933e+04 4.020393e+04
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.4774 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=79930)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.083947, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 25 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~total_rooms+population+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ total_rooms + population +
median_income, data = base)
Residuals:
Min 1Q Median 3Q Max
-508819 -51339 -13491 36799 371062
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 48163.0027 1525.2594 31.577 < 2e-16 ***
total_rooms 2.3280 0.5110 4.556 5.24e-06 ***
population -5.0487 0.9517 -5.305 1.14e-07 ***
median_income 39447.8542 363.7407 108.450 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 74000 on 19444 degrees of freedom
Multiple R-squared: 0.4193, Adjusted R-squared: 0.4192
F-statistic: 4680 on 3 and 19444 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) 45173.363136 51152.642315
total_rooms 1.326470 3.329517
population -6.914181 -3.183248
median_income 38734.891251 40160.817167
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.4757 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=83510)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.089804, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 26 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~longitude+population+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ longitude + population + median_income,
data = base)
Residuals:
Min 1Q Median 3Q Max
-518982 -50966 -13096 36458 371005
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.752e+05 3.186e+04 -5.500 3.85e-08 ***
longitude -1.852e+03 2.657e+02 -6.969 3.29e-12 ***
population -9.316e-01 4.660e-01 -1.999 0.0456 *
median_income 4.002e+04 3.382e+02 118.359 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 73940 on 19444 degrees of freedom
Multiple R-squared: 0.4201, Adjusted R-squared: 0.42
F-statistic: 4696 on 3 and 19444 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -2.376611e+05 -1.127708e+05
longitude -2.372849e+03 -1.331124e+03
population -1.845016e+00 -1.818640e-02
median_income 3.936132e+04 4.068696e+04
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.4757 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=83590)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.089461, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 27 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~longitude+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ longitude + median_income,
data = base)
Residuals:
Min 1Q Median 3Q Max
-517465 -50956 -12980 36380 372197
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -182921.6 31626.8 -5.784 7.42e-09 ***
longitude -1906.1 264.4 -7.210 5.80e-13 ***
median_income 39994.5 337.9 118.377 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 73950 on 19445 degrees of freedom
Multiple R-squared: 0.42, Adjusted R-squared: 0.42
F-statistic: 7041 on 2 and 19445 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -244912.791 -120930.391
longitude -2424.312 -1387.929
median_income 39332.242 40656.704
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.475 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
lillie.test(r)
Lilliefors (Kolmogorov-Smirnov) normality test
data: r
D = 0.079995, p-value < 2.2e-16
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 28 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~longitude+total_rooms+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ longitude + total_rooms + median_income,
data = base)
Residuals:
Min 1Q Median 3Q Max
-517183 -50990 -12946 36331 372267
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.833e+05 3.168e+04 -5.785 7.37e-09 ***
longitude -1.909e+03 2.647e+02 -7.211 5.77e-13 ***
total_rooms 4.823e-02 2.492e-01 0.194 0.847
median_income 3.998e+04 3.467e+02 115.306 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 73950 on 19444 degrees of freedom
Multiple R-squared: 0.42, Adjusted R-squared: 0.4199
F-statistic: 4694 on 3 and 19444 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) -2.453933e+05 -1.211847e+05
longitude -2.427411e+03 -1.389787e+03
total_rooms -4.402271e-01 5.366917e-01
median_income 3.929979e+04 4.065901e+04
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.475 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
ks.test(r,pnorm,mean=0,sd=83640)
Asymptotic one-sample Kolmogorov-Smirnov test
data: r
D = 0.090309, p-value < 2.2e-16
alternative hypothesis: two-sided
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 29 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~population+median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ population + median_income,
data = base)
Residuals:
Min 1Q Median 3Q Max
-516048 -51101 -13595 36590 370113
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 46573.9001 1485.5997 31.35 < 2e-16 ***
population -1.2626 0.4641 -2.72 0.00653 **
median_income 40055.9556 338.5404 118.32 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 74030 on 19445 degrees of freedom
Multiple R-squared: 0.4187, Adjusted R-squared: 0.4186
F-statistic: 7002 on 2 and 19445 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) 43661.996995 49485.8031885
population -2.172323 -0.3527815
median_income 39392.387178 40719.5239358
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.4746 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
lillie.test(r)
Lilliefors (Kolmogorov-Smirnov) normality test
data: r
D = 0.081752, p-value < 2.2e-16
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedemos con el 30 mejor modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~median_income,data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ median_income, data = base)
Residuals:
Min 1Q Median 3Q Max
-513852 -51108 -13674 36398 369870
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 44899.4 1352.3 33.2 <2e-16 ***
median_income 40016.6 338.3 118.3 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 74050 on 19446 degrees of freedom
Multiple R-squared: 0.4185, Adjusted R-squared: 0.4184
F-statistic: 1.399e+04 on 1 and 19446 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) 42248.85 47550.05
median_income 39353.53 40679.67
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.4738 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
lillie.test(r)
Lilliefors (Kolmogorov-Smirnov) normality test
data: r
D = 0.08271, p-value < 2.2e-16
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para concluir que los residuales no tienen distribución normal con media cero. Por lo que procedeeremos con transformaciones al modelo
# longitude housing_median_age population median_income ocean_proximity
mm2 <- lm(median_house_value ~ poly(median_income, 3, raw = TRUE),data=base)
summary(mm2)
Call:
lm(formula = median_house_value ~ poly(median_income, 3, raw = TRUE),
data = base)
Residuals:
Min 1Q Median 3Q Max
-306048 -51292 -13724 36143 358183
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 73987.6 4122.4 17.948 < 2e-16 ***
poly(median_income, 3, raw = TRUE)1 15432.8 2784.3 5.543 3.02e-08 ***
poly(median_income, 3, raw = TRUE)2 5820.5 559.4 10.405 < 2e-16 ***
poly(median_income, 3, raw = TRUE)3 -394.6 33.7 -11.706 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 73760 on 19444 degrees of freedom
Multiple R-squared: 0.423, Adjusted R-squared: 0.4229
F-statistic: 4752 on 3 and 19444 DF, p-value: < 2.2e-16
confint(mm2)
2.5 % 97.5 %
(Intercept) 65907.2364 82067.8713
poly(median_income, 3, raw = TRUE)1 9975.2418 20890.3539
poly(median_income, 3, raw = TRUE)2 4724.0525 6916.8634
poly(median_income, 3, raw = TRUE)3 -460.6161 -328.4872
Rechazo \(H_0\) si p- valor < α, dado que nuestro p-valor es igual a \(2.2 \times 10^{-16}\) concluimos que se rechaza \(H_0\), por lo que hay evidencia estadística para que alguna variable sea significativa
El modelo cuenta con un \(R^2\) Ajustado de 0.434 , podríamos considerar un ajuste moderado. No se aprecia Regresión al origen
Normalidad y Media cero
\(H_0\): residuales provienen de distribución normal con media cero
\(H_1\): residuales no provienen de distribución normal con media cero
r<-residuals(mm2)
lillie.test(r)
Lilliefors (Kolmogorov-Smirnov) normality test
data: r
D = 0.083566, p-value < 2.2e-16
Pera la latidud usaremos como distribución sospechada la log-normal. Empezamos definiendo los parametros estimados mediante estimación por maxima verosimilitud
hh<-base$latitude
#Estimación de Parametros
#install.packages("fitdistrplus") # Si no lo tienes
library(fitdistrplus)
# Estimación de parámetros de la lognorm
ajuste <- fitdist(hh, "lnorm")
Warning :Se han producido NaNs
Warning :Se han producido NaNs
Warning :Se han producido NaNs
Warning :Se han producido NaNs
print(ajuste)
Fitting of the distribution ' lnorm ' by maximum likelihood
Parameters:
\(H_0\): La variable se distribuye de forma log normal
\(H_1\): La variable no se distribuye de forma log normal
breaks <- pretty(hh, n = 10)
intervalos=cut(hh,breaks=breaks)
tabla_frecuencia <- table(intervalos)
#Generamos nuestra probabilidad por intervalo
Probs<-diff(plnorm(breaks,meanlog = 3.57205485, sdlog = 0.05963411 ))
cola_infinito <-1 - plnorm(max(breaks),meanlog = 3.57205485, sdlog = 0.05963411 )
# Sumar la cola al último intervalo
Probs[length(Probs)] <- Probs[length(Probs)] + cola_infinito
n <- length(hh)
esperadas <- Probs * n
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia))
#Prueba de Bondad
chisq.test(tabla_completa$Frecuencia,esperadas)
Warning :Chi-squared approximation may be incorrect
Pearson's Chi-squared test
data: tabla_completa$Frecuencia and esperadas
X-squared = 90, df = 81, p-value = 0.2313
Rechazamos H0 si P-Valor ≤ α, tomamos un α =0.05, por lo tanto podemos concluir que no rechazamos H0, por lo que hay evidencia estadística para concluir que se distribuye de forma lognormal
Pera la longitud usaremos como distribución sospechada la normal. Empezamos definiendo los parametros estimados mediante estimación por maxima verosimilitud
hh<-base$longitude
#Estimación de Parametros
#install.packages("fitdistrplus") # Si no lo tienes
library(fitdistrplus)
# Estimación de parámetros de la lognorm
ajuste <- fitdist(hh, "norm")
Warning :Se han producido NaNs
Warning :Se han producido NaNs
Warning :Se han producido NaNs
Warning :Se han producido NaNs
print(ajuste)
Fitting of the distribution ' norm ' by maximum likelihood
Parameters:
\(H_0\): La variable se distribuye de forma log normal
\(H_1\): La variable no se distribuye de forma log normal
breaks <- pretty(hh, n = 50)
intervalos=cut(hh,breaks=breaks)
tabla_frecuencia <- table(intervalos)
#Generamos nuestra probabilidad por intervalo
Probs<-diff(pnorm(breaks,mean = -119.563485 , sd = 2.005838 ))
cola_infinito <-1 - plnorm(max(breaks),meanlog = -119.563485, sdlog = 2.005838 )
# Sumar la cola al último intervalo
Probs[length(Probs)] <- Probs[length(Probs)] + cola_infinito
n <- length(hh)
esperadas <- Probs * n
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia))
#Prueba de Bondad
chisq.test(tabla_completa$Frecuencia,esperadas,simulate.p.value = TRUE)
Pearson's Chi-squared test with simulated p-value (based on 2000 replicates)
data: tabla_completa$Frecuencia and esperadas
X-squared = 2295, df = NA, p-value = 0.0004998
Rechazamos H0 si P-Valor ≤ α, tomamos un α =0.05, por lo tanto podemos concluir que rechazamos H0, por lo que hay evidencia estadística para concluir que no se distribuye de forma normal
Pera la variable housing median age usaremos como distribución sospechada la normal. Empezamos definiendo los parametros estimados mediante estimación por maxima verosimilitud
hh<-base$housing_median_age
#Estimación de Parametros
#install.packages("fitdistrplus") # Si no lo tienes
library(fitdistrplus)
# Estimación de parámetros de la lognorm
ajuste <- fitdist(hh, "norm")
Warning :Se han producido NaNs
Warning :Se han producido NaNs
print(ajuste)
Fitting of the distribution ' norm ' by maximum likelihood
Parameters:
\(H_0\): La variable se distribuye de forma normal
\(H_1\): La variable no se distribuye de forma normal
breaks <- pretty(hh, n = 20)
intervalos=cut(hh,breaks=breaks)
tabla_frecuencia <- table(intervalos)
#Generamos nuestra probabilidad por intervalo
Probs<-diff(pnorm(breaks,mean = 28.36472, sd = 12.50994 ))
cola_infinito <-1 - pnorm(max(breaks),mean= 28.36472, sd = 12.50994 )
# Sumar la cola al último intervalo
Probs[length(Probs)] <- Probs[length(Probs)] + cola_infinito
n <- length(hh)
esperadas <- Probs * n
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia))
#Prueba de Bondad
chisq.test(tabla_completa$Frecuencia,esperadas)
Warning :Chi-squared approximation may be incorrect
Pearson's Chi-squared test
data: tabla_completa$Frecuencia and esperadas
X-squared = 650, df = 625, p-value = 0.2368
Rechazamos H0 si P-Valor ≤ α, tomamos un α =0.05, por lo tanto podemos concluir que no rechazamos H0, por lo que hay evidencia estadística para concluir que se distribuye de forma normal
Pera la varibale total rooms usaremos como distribución sospechada la log-normal. Empezamos definiendo los parametros estimados mediante estimación por maxima verosimilitud
hh<-base$total_rooms
#Estimación de Parametros
#install.packages("fitdistrplus") # Si no lo tienes
library(fitdistrplus)
# Estimación de parámetros de la lognorm
ajuste <- fitdist(hh, "lnorm")
Warning :Se han producido NaNs
Warning :Se han producido NaNs
print(ajuste)
Fitting of the distribution ' lnorm ' by maximum likelihood
Parameters:
\(H_0\): La variable se distribuye de forma log normal
\(H_1\): La variable no se distribuye de forma log normal
breaks <- pretty(hh, n = 50)
intervalos=cut(hh,breaks=breaks)
tabla_frecuencia <- table(intervalos)
#Generamos nuestra probabilidad por intervalo
Probs<-diff(plnorm(breaks,meanlog = 7.622727, sdlog = 0.750080 ))
cola_infinito <-1 - plnorm(max(breaks),meanlog = 7.622727, sdlog = 0.750080 )
# Sumar la cola al último intervalo
Probs[length(Probs)] <- Probs[length(Probs)] + cola_infinito
n <- length(hh)
esperadas <- Probs * n
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia))
#Prueba de Bondad
chisq.test(tabla_completa$Frecuencia,esperadas,simulate.p.value = TRUE)
Pearson's Chi-squared test with simulated p-value (based on 2000 replicates)
data: tabla_completa$Frecuencia and esperadas
X-squared = 920, df = NA, p-value = 0.4838
Rechazamos H0 si P-Valor ≤ α, tomamos un α =0.05, por lo tanto podemos concluir que no rechazamos H0, por lo que hay evidencia estadística para concluir que se distribuye de forma lognormal
Pera la variable total bedrooms usaremos como distribución sospechada la log-normal. Empezamos definiendo los parametros estimados mediante estimación por maxima verosimilitud
hh<-base$total_bedrooms
#Estimación de Parametros
#install.packages("fitdistrplus") # Si no lo tienes
library(fitdistrplus)
# Estimación de parámetros de la lognorm
ajuste <- fitdist(hh, "lnorm")
Warning :Se han producido NaNs
Warning :Se han producido NaNs
print(ajuste)
Fitting of the distribution ' lnorm ' by maximum likelihood
Parameters:
\(H_0\): La variable se distribuye de forma log normal
\(H_1\): La variable no se distribuye de forma log normal
breaks <- pretty(hh, n = 10)
intervalos=cut(hh,breaks=breaks)
tabla_frecuencia <- table(intervalos)
#Generamos nuestra probabilidad por intervalo
Probs<-diff(plnorm(breaks,meanlog = 6.055793, sdlog = 0.728844 ))
cola_infinito <-1 - plnorm(max(breaks),meanlog = 6.055793, sdlog = 0.728844 )
# Sumar la cola al último intervalo
Probs[length(Probs)] <- Probs[length(Probs)] + cola_infinito
n <- length(hh)
esperadas <- Probs * n
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia))
#Prueba de Bondad
chisq.test(tabla_completa$Frecuencia,esperadas,simulate.p.value = TRUE)
Pearson's Chi-squared test with simulated p-value (based on 2000 replicates)
data: tabla_completa$Frecuencia and esperadas
X-squared = 156, df = NA, p-value = 1
Rechazamos H0 si P-Valor ≤ α, tomamos un α =0.05, por lo tanto podemos concluir que no rechazamos H0, por lo que hay evidencia estadística para concluir que se distribuye de forma lognormal
Pera la variable Population usaremos como distribución sospechada la log-normal. Empezamos definiendo los parametros estimados mediante estimación por maxima verosimilitud
hh<-base$population
#Estimación de Parametros
#install.packages("fitdistrplus") # Si no lo tienes
library(fitdistrplus)
# Estimación de parámetros de la lognorm
ajuste <- fitdist(hh, "lnorm")
Warning :Se han producido NaNs
Warning :Se han producido NaNs
print(ajuste)
Fitting of the distribution ' lnorm ' by maximum likelihood
Parameters:
\(H_0\): La variable se distribuye de forma log normal
\(H_1\): La variable no se distribuye de forma log normal
breaks <- pretty(hh, n = 50)
intervalos=cut(hh,breaks=breaks)
tabla_frecuencia <- table(intervalos)
#Generamos nuestra probabilidad por intervalo
Probs<-diff(plnorm(breaks,meanlog = 7.0359476, sdlog = 0.73646241 ))
cola_infinito <-1 - plnorm(max(breaks),meanlog = 7.0359476, sdlog = 0.7364624 )
# Sumar la cola al último intervalo
Probs[length(Probs)] <- Probs[length(Probs)] + cola_infinito
n <- length(hh)
esperadas <- Probs * n
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia))
#Prueba de Bondad
chisq.test(tabla_completa$Frecuencia,esperadas,simulate.p.value = TRUE)
Pearson's Chi-squared test with simulated p-value (based on 2000 replicates)
data: tabla_completa$Frecuencia and esperadas
X-squared = 540, df = NA, p-value = 1
Rechazamos H0 si P-Valor ≤ α, tomamos un α =0.05, por lo tanto podemos concluir que no rechazamos H0, por lo que hay evidencia estadística para concluir que se distribuye de forma lognormal
Pera la variable House Holds usaremos como distribución sospechada la log-normal. Empezamos definiendo los parametros estimados mediante estimación por maxima verosimilitud
hh<-base$households
#Estimación de Parametros
#install.packages("fitdistrplus") # Si no lo tienes
library(fitdistrplus)
# Estimación de parámetros de la lognorm
ajuste <- fitdist(hh, "lnorm")
Warning :Se han producido NaNs
Warning :Se han producido NaNs
print(ajuste)
Fitting of the distribution ' lnorm ' by maximum likelihood
Parameters:
\(H_0\): La variable se distribuye de forma log normal
\(H_1\): La variable no se distribuye de forma log normal
breaks <- pretty(hh, n = 50)
intervalos=cut(hh,breaks=breaks)
tabla_frecuencia <- table(intervalos)
#Generamos nuestra probabilidad por intervalo
Probs<-diff(plnorm(breaks,meanlog = 5.9852195, sdlog = 0.7298244 ))
cola_infinito <-1 - plnorm(max(breaks),meanlog = 5.9852195, sdlog = 0.7298244 )
# Sumar la cola al último intervalo
Probs[length(Probs)] <- Probs[length(Probs)] + cola_infinito
n <- length(hh)
esperadas <- Probs * n
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia))
#Prueba de Bondad
chisq.test(tabla_completa$Frecuencia,esperadas,simulate.p.value = TRUE)
Pearson's Chi-squared test with simulated p-value (based on 2000 replicates)
data: tabla_completa$Frecuencia and esperadas
X-squared = 2013, df = NA, p-value = 1
Rechazamos H0 si P-Valor ≤ α, tomamos un α =0.05, por lo tanto podemos concluir que no rechazamos H0, por lo que hay evidencia estadística para concluir que se distribuye de forma lognormal
Pera la variable Median Income usaremos como distribución sospechada la log-normal. Empezamos definiendo los parametros estimados mediante estimación por maxima verosimilitud
hh<-base$median_income
#Estimación de Parametros
#install.packages("fitdistrplus") # Si no lo tienes
library(fitdistrplus)
# Estimación de parámetros de la lognorm
ajuste <- fitdist(hh, "lnorm")
Warning :Se han producido NaNs
Warning :Se han producido NaNs
print(ajuste)
Fitting of the distribution ' lnorm ' by maximum likelihood
Parameters:
\(H_0\): La variable se distribuye de forma log normal
\(H_1\): La variable no se distribuye de forma log normal
breaks <- pretty(hh, n = 100)
intervalos=cut(hh,breaks=breaks)
tabla_frecuencia <- table(intervalos)
#Generamos nuestra probabilidad por intervalo
Probs<-diff(plnorm(breaks,meanlog = 1.2094913, sdlog = 0.4413968 ))
cola_infinito <-1 - plnorm(max(breaks),meanlog = 1.2094913, sdlog = 0.4413968 )
# Sumar la cola al último intervalo
Probs[length(Probs)] <- Probs[length(Probs)] + cola_infinito
n <- length(hh)
esperadas <- Probs * n
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia))
#Prueba de Bondad
chisq.test(tabla_completa$Frecuencia,esperadas,simulate.p.value = TRUE)
Pearson's Chi-squared test with simulated p-value (based on 2000 replicates)
data: tabla_completa$Frecuencia and esperadas
X-squared = 3626, df = NA, p-value = 0.0004998
Rechazamos H0 si P-Valor ≤ α, tomamos un α =0.05, por lo tanto podemos concluir que rechazamos H0, por lo que hay evidencia estadística para concluir que no se distribuye de forma lognormal
Pera la a predecir usaremos como distribución sospechada la log-normal. Empezamos definiendo los parametros estimados mediante estimación por maxima verosimilitud
hh<-base$median_house_value
#Estimación de Parametros
#install.packages("fitdistrplus") # Si no lo tienes
library(fitdistrplus)
# Estimación de parámetros de la lognorm
ajuste <- fitdist(hh, "lnorm")
Warning :Se han producido NaNs
Warning :Se han producido NaNs
Warning :Se han producido NaNs
print(ajuste)
Fitting of the distribution ' lnorm ' by maximum likelihood
Parameters:
\(H_0\): La variable se distribuye de forma log normal
\(H_1\): La variable no se distribuye de forma log normal
breaks <- pretty(hh, n = 143)
intervalos=cut(hh,breaks=breaks)
tabla_frecuencia <- table(intervalos)
#Generamos nuestra probabilidad por intervalo
Probs<-diff(plnorm(breaks,meanlog = 12.0323150, sdlog = 0.5320982 ))
cola_infinito <-1 - plnorm(max(breaks),meanlog = 12.0323150, sdlog = 0.5320982 )
# Sumar la cola al último intervalo
Probs[length(Probs)] <- Probs[length(Probs)] + cola_infinito
n <- length(hh)
esperadas <- Probs * n
tabla_completa <- data.frame(
Intervalo = names(tabla_frecuencia),
Frecuencia = as.vector(tabla_frecuencia))
#Prueba de Bondad
chisq.test(tabla_completa$Frecuencia,esperadas,simulate.p.value = TRUE)
Pearson's Chi-squared test with simulated p-value (based on 2000 replicates)
data: tabla_completa$Frecuencia and esperadas
X-squared = 8428, df = NA, p-value = 1
Rechazamos H0 si P-Valor ≤ α, tomamos un α =0.05, por lo tanto podemos concluir que no rechazamos H0, por lo que hay evidencia estadística para concluir que se distribuye de forma lognormal
La primer variable que usaremos para nuestras pruebas de hipotesis será Housing Median Age
¿Hay diferencia en la edad mediana de viviendas entre zonas cercanas al océano y zonas tierra adentro?
t.test(housing_median_age ~ ocean_proximity, data = base, subset = ocean_proximity %in% c("INLAND", "NEAR OCEAN"))
Welch Two Sample t-test
data: housing_median_age by ocean_proximity
t = -17.354, df = 4355.8, p-value < 2.2e-16
alternative hypothesis: true difference in means between group INLAND and group NEAR OCEAN is not equal to 0
95 percent confidence interval:
-5.500291 -4.383698
sample estimates:
mean in group INLAND mean in group NEAR OCEAN
24.24722 29.18921
\(H_0\): No hay diferencia en la edad mediana de las viviendas entre los grupos INLAND y NEAR OCEAN.
\(H_1\): Si hay diferencia en la edad mediana de las viviendas entre los grupos INLAND y NEAR OCEAN.
Rechazamos H0 si P-Valor ≤ α, tomamos un α =0.05, por lo tanto podemos concluir que rechazamos H0, por lo que hay evidencia estadística para concluir que si hay diferencia entre las viviendas que se encuentran cerca del oceano y las que se encuentran tierra dentro
Ahora bien, queremos probar que son más nuevas la casas cercas al oceano
\(H_0\): Los grupos de casa NEAR OCEAN son más antiguas que los grupos INLAND.
\(H_1\): Los grupos de casa NEAR OCEAN son más recientes que los grupos INLAND.
t.test(
housing_median_age ~ ocean_proximity,
data = base,
subset = ocean_proximity %in% c("INLAND", "NEAR OCEAN"),
alternative = "greater",
var.equal = FALSE
)
Welch Two Sample t-test
data: housing_median_age by ocean_proximity
t = -17.354, df = 4355.8, p-value = 1
alternative hypothesis: true difference in means between group INLAND and group NEAR OCEAN is greater than 0
95 percent confidence interval:
-5.410501 Inf
sample estimates:
mean in group INLAND mean in group NEAR OCEAN
24.24722 29.18921
Rechazamos H0 si P-Valor ≤ α, tomamos un α =0.05, por lo tanto podemos concluir que no rechazamos H0, por lo que hay evidencia estadística para concluir que las casas cercanas al oceanos son más antiguas que las nuevas
Continuaremos transformando nuestra variable Ocean Proximity a una distribución binomial, donde distinguiremos entre las propiedades cerca al oceano y aquellas que no lo estan
base$near_ocean_bin <- ifelse(base$ocean_proximity == "NEAR OCEAN", 1, 0)
print(table(base$near_ocean_bin))
0 1
17038 2410
Queremos comprobar si al menos un cuarto de las casas estan cercanas al oceano
\(H_0\): Los grupos de casa NEAR OCEAN representan por lo menos el 25%.
\(H_1\):Los grupos de casa NEAR OCEAN representan menos del 25%.
prop.test(sum(base$near_ocean_bin), length(base$near_ocean_bin), p = 0.25, alternative = "less")
1-sample proportions test with continuity correction
data: sum(base$near_ocean_bin) out of length(base$near_ocean_bin), null probability 0.25
X-squared = 1648.1, df = 1, p-value < 2.2e-16
alternative hypothesis: true p is less than 0.25
95 percent confidence interval:
0.0000000 0.1278849
sample estimates:
p
0.1239202
Rechazamos H0 si P-Valor ≤ α, tomamos un α =0.05, por lo tanto podemos concluir que rechazamos H0, por lo que hay evidencia estadística para concluir que las casas cercanas al oceanos son menos del 25%
Para mi trabajo con la base de casas en california se busco responder a la pregunta de cual es el costo de una casa según las características de su ubicación. Se probaron todos los modelos posibles de regresión, tanto múltiple como univariada. Como mejor modelo nos dio el siguiente:
\[ \text{Median House Value} = -223998.93 -2380.31 \cdot \text{longitude} + 922.12 \cdot \text{housing_median_age} \\ + 10.88 \cdot \text{total_rooms} -16.2 \cdot \text{population} + 33692.66 \cdot \text{median_income} -3446.4 \cdot \text{NEAR_BAY} \\ + 10844.13 \cdot \text{NEAR_OCEAN} -74617.50 \cdot \text{INLAND} + 184838.43 \cdot \text{ISLAND} \]
Con un ajuste de 0.5801 y nuestras variables aportan de la siguiente manera:
Variable | Aportacion | Comentarios |
---|---|---|
-2380.31 Longitude | Negativa | La Longitud tiene una relación inversa al valor de la casa |
922.12 Housing Median Age | Postiva | La edad tiene una relación directa con el valor de la casa |
+ 10.88 Total Rooms | Positiva | La cantidad de habitaciones afecta positivamente a la edad de al valor de la casa |
-16.2Population | Negativa | La población afecta inversamente al valor de la casa |
33692.66 Median Income | Positiva | El ingreso afecta de manera directa al valor de la casa |
-3446.4 Ocean Proximity INLAND | Negativa | Cuando la proximidad al océano se encuentra en la categoría INLAND afecta de manera inversa al valor de la casa |
-74617.50 Ocean Proximity ISLAND | Positiva | Cuando se encuentra en la categoría ISLAND afecta de manera directa |
184838.43 Ocean Proximity Near bay | Positiva | Cuando se encuentra cerca de la bahía afecta de manera directa al valor de la casa |
10844.1Ocean Proximity Near Ocean | Positiva | Cuando se encuentra cerca del oceano afecta de manera directa al valor de la casa |
Asi mismo podemos responder las siguientes preguntas:
plnorm(100,,meanlog = 5.9852195, sdlog = 0.7298244 )
[1] 0.02931662
Existe una probabilidad de 0.0293 de encontrar una casa con menos de 100 vecinos
pnorm(15,mean = 28.36472, sd = 12.50994 )
[1] 0.1426863
Existe una probabilidad de 0.1427 de encontrar una casa menor a 15 años
plnorm(36,meanlog = 3.57205485, sdlog = 0.05963411 ) - plnorm(35,meanlog = 3.57205485, sdlog = 0.05963411 )
[1] 0.1865437
Existe una probabilidad de 0.1865 de encontrar una casa entre esas coordenadas
plnorm(1000,meanlog = 7.0359476, sdlog = 0.73646241 ) - plnorm(800,meanlog = 7.0359476, sdlog = 0.73646241 )
[1] 0.1142471
Existe una probabilidad de 0.1142 de encontrar una casa con entre 1000 y 800 vecinos
1-plnorm(350,meanlog = 6.055793, sdlog = 0.728844 )
[1] 0.6069855
Existe una probablidad de 0.607 de encontrar una casas que el total de dormitorios de la casa sea mayor a 350