#(a) mejor - un enfoque más flexible se ajustará más a los datos y con el gran tamaño de la muestra se obtendría un mejor ajuste que con un enfoque inflexible
#(b) peor - un método flexible se ajustaría en exceso al reducido número de observaciones
#(c) mejor - con más grados de libertad, un modelo flexible obtendría un mejor ajuste
#(d) peor - los métodos flexibles se ajustan al ruido en los términos de error y aumentan la varianzaTarea Opcional
Ejercicios
Conceptuales
Para cada una de las partes (a) a (d), indique si generalmente esperar que el rendimiento de un método de aprendizaje estadístico flexible sea mejor o peor que un método inflexible. Justifica tu respuesta.
a El tamaño de la muestra n es extremadamente grande y el número de predictores p es pequeño.
b El número de predictores p es extremadamente grande y el número de observaciones n es pequeño.
c La relación entre los predictores y la respuesta es altamente no lineal.
d La varianza de los términos de error, es decir, σ2 = Var(“), es extremadamente alto.
- Explique si cada escenario es un problema de clasificación o de regresión, e indique si nos interesa más la inferencia o la predicción. Por último, indique n y p.
- Recopilamos un conjunto de datos sobre las 500 principales frms de EE.UU.. Para cada Para cada empresa, registramos los ingresos, el número de empleados, el sector y el salario del director general. y el salario del director general. Nos interesa saber qué factores afectan al salario del CEO.
- Estamos pensando en lanzar un nuevo producto y queremos saber si será un éxito o un fracaso. Recopilamos datos sobre 20 productos similares lanzados anteriormente. Para cada producto hemos registrado si fue un éxito o un fracaso, el precio cobrado por el producto, el presupuesto de marketing, el precio de la competencia y otras diez variables.
- Nos interesa predecir el % de variación del tipo de cambio USD/Euro en relación con la evolución semanal de las bolsas mundiales. mundiales. Por lo tanto, recogemos datos semanales para todo el año 2012. Para cada semana registramos el % de cambio del USD/Euro, el % de de cambio en el mercado estadounidense, el % de cambio en el mercado británico y el % de variación del mercado alemán.
#2. (a) regresión. inferencia. resultado cuantitativo del salario del CEO basado en las características de la empresa.
#n - 500 empresas en EE.UU.
#p - beneficios, número de empleados, sector
#(b) clasificación. predicción. predicción del éxito o fracaso de un nuevo producto.
#n - 20 productos similares lanzados anteriormente
#p - precio cobrado, presupuesto de marketing, precio compra., otras variables
#(c) regresión. predicción. resultado cuantitativo de % de cambio
#n - 52 semanas de datos semanales de 2012
#p - % de cambio en el mercado estadounidense, % de cambio en el mercado británico, % de cambio en el mercado alemán- Proporcione un esquema de las curvas típicas (al cuadrado) de sesgo, varianza, error de entrenamiento, error de prueba y error de Bayes (o irreducible), en un único gráfico, a medida que pasamos de métodos de aprendizaje estadístico menos fexibles hacia enfoques más flexibles. El eje x debería representar la cantidad de fexibilidad en el método, y el eje y debería representar los valores de cada curva. Debe haber cinco curvas. Asegúrate de etiquetar cada una de ellas.
- Explique por qué cada una de las cinco curvas tiene la forma mostrada en la parte (a).
#3.(b) las 5 líneas >= 0
#i. sesgo (al cuadrado) - disminuye de manera monotónica porque el aumento de la flexibilidad produce un ajuste más preciso
#ii. varianza - aumenta de forma monotónica porque al aumentar la flexibilidad se produce unsobreajuste
#iii. error de entrenamiento - disminuye monotónicamente porque el aumento de la flexibilidad produce un ajuste más preciso
#iv. error de prueba - curva cóncava ascendente porque el aumento de la flexibilidad produce un ajuste antes de sobreajustarse
#v. Error de Bayes (irreducible) - define el límite inferior, el error de prueba está limitado por el error irreducible debido a la varianza del error (épsilon) en los valores de salida (0 <= valor). de salida (0 <= valor). Cuando el error de entrenamiento es inferior al error irreducible se ha producido un sobreajuste. La tasa de error de Bayes se define para los problemas de clasificación y viene determinada por la proporción de puntos de datos que se encuentran en el lado "erróneo" de la frontera de decisión, (0 <= valor < 1).- Piense ahora en algunas aplicaciones reales del aprendizaje estadístico.
- Describa tres aplicaciones de la vida real en las que la clasificación pueda ser útil. ser útil. Describa la respuesta, así como los predictores. El objetivo de cada aplicación es la inferencia o la predicción? Explique su respuesta.
- Describa tres aplicaciones de la vida real en las que la regresión podría ser útil. ser útil. Describa la respuesta, así como los predictores. ¿Es elobjetivo de cada aplicación es la inferencia o la predicción? Explique surespuesta.
- Describa tres aplicaciones de la vida real en las que el análisis cluster puede ser útil.
#4. (a) i. dirección de la cotización bursátil, predicción, respuesta: al alza, a la baja,datos de entrada: % de variación del precio de ayer, % de variación del precio de los dos días anteriores, etc. cambio, etc.
#ii. clasificación de enfermedades, inferencia, respuesta: enfermo, sano, entrada: frecuencia cardíaca en reposo, frecuencia respiratoria en reposo, distancia recorrida en una milla, etc.
#iii. sustitución de piezas de automóvil, predicción, respuesta: hay que sustituir, bien,
#input: edad de la pieza, kilometraje utilizado, amperaje actual
#(b) i.salario del director general. inferencia. predictores: edad, experiencia en la industria, industria,años de educación.
#ii.sustitución de piezas del coche. inferencia. respuesta: vida útil de la pieza. predictores: edad de la pieza, kilometraje utilizado, amperaje actual.
#iii. clasificación de enfermedades, predicción, respuesta: edad de fallecimiento,entrada: edad actual, sexo, frecuencia cardiaca en reposo, frecuencia respiratoria en reposo, kilometraje recorrido
#(c)i. agrupación de tipos de cáncer. diagnosticar tipos de cáncer con mayor precisión.
#ii. Netflix movie recommendations. recomendar películas basándose en los usuarios que han han visto y valorado películas similares.
#iii. encuesta de marketing. agrupación de datos demográficos de un producto o productos para ver qué grupos de consumidores compran qué productos.- ¿Cuáles son las ventajas y los inconvenientes de un enfoque mucho menos flexible) para la regresión o la clasificación? ¿En qué circunstancias puede ser preferible un enfoque más fexible a uno menos fexible? ¿En qué casos puede ser preferible un enfoque menos fexible?
#5. Las ventajas de un enfoque muy flexible para la regresión o la clasificación son la obtención de un mejor ajuste de los modelos no lineales y la disminución del sesgo.
#Las desventajas de un enfoque muy flexible para la regresión o clasificación de parámetros, seguir el ruido demasiado de cerca (sobreajuste) y aumentar la varianza.
#Un enfoque más flexible sería preferible a uno menos flexible cuando nos cuando lo que nos interesa es la predicción y no la interpretabilidad de los resultados.
#Es preferible un enfoque menos flexible a uno más flexible cuando lo que nos interesa es la inferencia y no la interpretabilidad de los resultados.- Describa las diferencias entre un enfoque de aprendizaje estadístico paramétrico y no paramétrico. aprendizaje estadístico. ¿Cuáles son las ventajas de un enfoque paramétrico de la regresión o la clasificación (frente a un enfoque no paramétrico)? ¿Cuáles son sus desventajas?
#6. Un enfoque paramétrico reduce el problema de estimar f a uno de a la estimación de un conjunto de parámetros porque asume una forma para f.
#Un enfoque no paramétrico no asume una forma funcional para f, por lo que requiere un gran número de observaciones para estimar f con precisión.
#Las ventajas de un enfoque paramétrico de la regresión o la clasificación son la simplificación del modelado de f a unos pocos parámetros y no se requieren tantas observaciones en comparación con un enfoque no paramétrico.
#Las desventajas de un enfoque paramétrico de la regresión o la clasificación son la posibilidad de estimar f de forma imprecisa si la forma de f asumida es incorrecta o sobreajustar las observaciones si se utilizan modelos más flexibles.- La tabla siguiente proporciona un conjunto de datos de entrenamiento que contiene seis observaciones, tres predictores y una variable de respuesta cualitativa.
-
Obs. X1 X2 X3 Y
1 0 3 0 Red
2 2 0 0 Red
3 0 1 3 Red
4 0 1 2 Green
5 -1 0 1 Green
6 1 1 1 Red
Supongamos que deseamos utilizar este conjunto de datos para hacer una predicción de Y cuando X1 = X2 = X3 = 0 utilizando K vecinos más cercanos. (a) Calcule la distancia euclídea entre cada observación y el punto de prueba, X1 = X2 = X3 = 0.
(b) ¿Cuál es nuestra predicción con K = 1? ¿Por qué?
(c) ¿Cuál es nuestra predicción con K = 3? ¿Por qué? (d) Si la frontera de decisión de Bayes en este problema es altamente no lineal, entonces ¿esperaríamos que el mejor valor para K fuera grande o pequeño? ¿Por qué?
##Respuesta (a)
euclidean_distance <- function(q, p) sqrt(sum((q - p)^2))
obs_test <- c( 0, 0, 0)
obs_train <- list(
obs_01 = c( 0, 3, 0),
obs_02 = c( 2, 0, 0),
obs_03 = c( 0, 1, 3),
obs_04 = c( 0, 1, 2),
obs_05 = c(-1, 0, 0),
obs_06 = c( 1, 1, 1)
)
lapply(obs_train, function(x) euclidean_distance(obs_test, x))$obs_01
[1] 3
$obs_02
[1] 2
$obs_03
[1] 3.162278
$obs_04
[1] 2.236068
$obs_05
[1] 1
$obs_06
[1] 1.732051
# Obs. X1 X2 X3 Distance(0, 0, 0) Y
# ---------------------------------------------
# 1 0 3 0 3 Red
# 2 2 0 0 2 Red
# 3 0 1 3 3.16227 Red
#4 0 1 2 2.23606 Green
#5 -1 0 1 1 Green
#6 1 1 1 1.73205 Red
#(b) Verde. La observación nº 5 es la vecina más cercana para K = 1.
#(c) Rojo. Las observaciones #2, 5, 6 son las vecinas más cercanas para K = 3. 2 es Roja, 5 es Verde, y 6 es Roja.
#(d) Pequeño. Un K pequeño sería flexible para un límite de decisión no lineal, mientras que una K grande trataría de ajustarse a un límite más lineal porque tiene en cuenta más puntos. puntos en consideración.Aplicado
8. Este ejercicio se refiere al conjunto de datos College, que puede encontrarse en College.csv en el sitio web del libro. Contiene una serie de variables de 777 universidades y escuelas universitarias diferentes de Estados Unidos. Las variables son - Privada : Indicador público/privado - Apps : Número de solicitudes recibidas - Accept : Número de solicitantes aceptados - Enroll : Número de nuevos estudiantes matriculados - Top10perc : Alumnos nuevos del 10 % de los mejores de la clase de bachillerato - Top25perc : Nuevos estudiantes del 25% de los mejores de la clase de bachillerato - F.Undergrad : Número de estudiantes universitarios a tiempo completo - P.Undergrad : Número de estudiantes a tiempo parcial 2.4 Ejercicios 55 - Outstate : Matrícula fuera del estado - Room.Board : Costes de alojamiento y manutención - Libros : Gastos estimados en libros - Personal : Gastos personales estimados - PhD : Porcentaje de profesores con doctorado - Terminal : Porcentaje de profesores con título terminal - S.F.Ratio : Ratio estudiante/profesor - perc.alumni : Porcentaje de antiguos alumnos donantes - Expend : Gasto en formación por estudiante - Grad.Rate : Tasa de graduación Antes de leer los datos en R, pueden visualizarse en Excel o en un editor de texto. de texto.
- Utilice la función read.csv() para leer los datos en R. Llame a la universidad de datos cargada. Asegúrese de que tiene el directorio establecido en la ubicación correcta para los datos.
- Observa los datos utilizando la función View(). Debería observar que la primera columna es sólo el nombre de cada universidad. No queremos realmente queremos que R trate esto como dato. Sin embargo, puede ser útil tener estos nombres para más tarde. Pruebe los siguientes comandos: > rownames(college) <- college[, 1] > View(college)
Debería ver que ahora hay una columna row.names con el nombre de cada universidad. Esto significa que R ha dado a cada fila un nombre correspondiente a la universidad apropiada. R no intentará realizar cálculos con los nombres de las filas. Sin embargo,todavía tenemos que eliminar la primera columna de los datos donde se almacenan los nombres. los nombres. Pruebe: > college <- college[, -1] > View(college)
Ahora debería ver que la primera columna de datos es Privado. Observe en que ahora aparece otra columna llamada row.names antes de la columna Private. Sin embargo, ésta no es una columna de datos, sino más bien el nombre que R da a cada fila
- Utilice la función summary() para producir un resumen numérico de las variables del conjunto de datos.
- Utilice la función pairs() para producir una matriz de dispersión de de las diez primeras columnas o variables de los datos. Recuerde que puede hacer referencia a las diez primeras columnas de una matriz A utilizando A[,1:10].
- Utilice la función plot() para producir gráficos de caja paralelos de Estado externo frente a Privado.
- Cree una nueva variable cualitativa, denominada Elite la variable Top10perc. Vamos a dividir las universidades en dos grupos en función de si la proporción de de estudiantes que proceden del 10 % más alto de su superior supera el 50%.
Elite <- rep(“No”, nrow(college))
Elite[college$Top10perc > 50] <- “Yes”
Elite <- as.factor(Elite) college <- data.frame(college, Elite)
Utilice la función summary() para ver cuántas universidades de élite hay. Utilice ahora la función plot() para obtener boxplots paralelos de Outstate frente a Elite. v. Utilice la función hist() para producir algunos histogramas con diferentes números de intervalos para algunas de las variables cuantitativas. Puede que le resulte útil el comando par(mfrow = c(2,2)) dividirá la ventana de impresión en cuatro regiones para que para poder realizar cuatro gráficos simultáneamente. Modificando los argumentos de esta función dividirá la pantalla de otras formas. vi. Siga explorando los datos y haga un breve resumen de lo que descubra.
#(a)
college = read.csv("C:\\Users\\raule\\OneDrive\\Escritorio\\DOCUMENTOS\\I.A\\College.csv")
# 8. (b)
View(college)
rownames(college) <- college[, 1]
college <- college[, -1]
# 8. (c)
# i.
summary(college) Private Apps Accept Enroll
Length:777 Min. : 81 Min. : 72 Min. : 35
Class :character 1st Qu.: 776 1st Qu.: 604 1st Qu.: 242
Mode :character Median : 1558 Median : 1110 Median : 434
Mean : 3002 Mean : 2019 Mean : 780
3rd Qu.: 3624 3rd Qu.: 2424 3rd Qu.: 902
Max. :48094 Max. :26330 Max. :6392
Top10perc Top25perc F.Undergrad P.Undergrad
Min. : 1.00 Min. : 9.0 Min. : 139 Min. : 1.0
1st Qu.:15.00 1st Qu.: 41.0 1st Qu.: 992 1st Qu.: 95.0
Median :23.00 Median : 54.0 Median : 1707 Median : 353.0
Mean :27.56 Mean : 55.8 Mean : 3700 Mean : 855.3
3rd Qu.:35.00 3rd Qu.: 69.0 3rd Qu.: 4005 3rd Qu.: 967.0
Max. :96.00 Max. :100.0 Max. :31643 Max. :21836.0
Outstate Room.Board Books Personal
Min. : 2340 Min. :1780 Min. : 96.0 Min. : 250
1st Qu.: 7320 1st Qu.:3597 1st Qu.: 470.0 1st Qu.: 850
Median : 9990 Median :4200 Median : 500.0 Median :1200
Mean :10441 Mean :4358 Mean : 549.4 Mean :1341
3rd Qu.:12925 3rd Qu.:5050 3rd Qu.: 600.0 3rd Qu.:1700
Max. :21700 Max. :8124 Max. :2340.0 Max. :6800
PhD Terminal S.F.Ratio perc.alumni
Min. : 8.00 Min. : 24.0 Min. : 2.50 Min. : 0.00
1st Qu.: 62.00 1st Qu.: 71.0 1st Qu.:11.50 1st Qu.:13.00
Median : 75.00 Median : 82.0 Median :13.60 Median :21.00
Mean : 72.66 Mean : 79.7 Mean :14.09 Mean :22.74
3rd Qu.: 85.00 3rd Qu.: 92.0 3rd Qu.:16.50 3rd Qu.:31.00
Max. :103.00 Max. :100.0 Max. :39.80 Max. :64.00
Expend Grad.Rate
Min. : 3186 Min. : 10.00
1st Qu.: 6751 1st Qu.: 53.00
Median : 8377 Median : 65.00
Mean : 9660 Mean : 65.46
3rd Qu.:10830 3rd Qu.: 78.00
Max. :56233 Max. :118.00
# ii.
college[,1] = as.numeric(factor(college[,1]))
pairs(college[,1:10])# iii.
plot(Outstate ~ Private, data = college,
xlab = "Universidad Privada",
ylab = "Matricula en $")# iv.
Elite <- rep("No", nrow(college))
Elite[college$Top10perc > 50] <- "Si"
Elite <- as.factor(Elite)
college <- data.frame(college, Elite)
college$Elite <- as.factor(ifelse(college$Top10perc > 50, "Si", "No"))
summary(Elite) No Si
699 78
plot(Outstate ~ Elite, data = college,
xlab = "Universidad de Élite",
ylab = "Matricula en $")# v.
par(mfrow=c(2,2))
par(mar = c(4, 4, 2, 1))
hist(college$Apps, xlab = "Solicitudes recibidas",main = "")
hist(college$perc.alumni, col=2, xlab = "% exalumnos que donan", main = "")
hist(college$S.F.Ratio, col=3, breaks=10, xlab = "Proporción estudiantes/profesores", main = "")
hist(college$Expend, breaks=100, xlab = "Gastos de enseñanza por estudiante", main = "")par(mfrow = c(1, 1))
#vi
row.names(college)[which.max(college$Top10perc)][1] "Massachusetts Institute of Technology"
acceptance_rate <- college$Accept / college$Apps
row.names(college)[which.min(acceptance_rate)] [1] "Princeton University"
row.names(college)[which.max(acceptance_rate)][1] "Emporia State University"
plot(Grad.Rate ~ Outstate, data = college) plot(S.F.Ratio ~ I(Accept/Apps), data = college) plot(Grad.Rate ~ Top10perc, data = college)- Este ejercicio incluye el conjunto de datos Auto estudiado en el laboratorio. Asegúrese de que los valores que faltan se han eliminado de los datos.
- ¿Cuáles de los predictores son cuantitativos y cuáles cualitativos?
- ¿Cuál es el rango de cada predictor cuantitativo? Puede responder a esta pregunta utilizando la función range(). range()
- ¿Cuál es la media y la desviación típica de cada predictor cuantitativo? cuantitativo?
- Ahora elimine las observaciones 10ª a 85ª. ¿Cuál es el rango, la media y la desviación típica de cada predictor en el en el subconjunto de datos restante?
- Utilizando el conjunto de datos completo, investigue los predictores gráficamente, utilizando gráficos de dispersión u otras herramientas de su elección. Cree algunos gráficos que destaquen las relaciones entre los predictores. Comente tus resultados.
- Supongamos que queremos predecir el kilometraje de la gasolina (mpg) en función de otras variables de las demás variables. ¿Sugieren sus gráficos que alguna de las otras variables podría ser útil para predecir el mpg? Justifique su respuesta.
#(a)
Auto = read.csv("C:\\Users\\raule\\OneDrive\\Escritorio\\DOCUMENTOS\\I.A\\Auto.csv", header=T, na.strings="?")
Auto = na.omit(Auto)
dim(Auto)[1] 392 9
summary(Auto) mpg cylinders displacement horsepower weight
Min. : 9.00 Min. :3.000 Min. : 68.0 Min. : 46.0 Min. :1613
1st Qu.:17.00 1st Qu.:4.000 1st Qu.:105.0 1st Qu.: 75.0 1st Qu.:2225
Median :22.75 Median :4.000 Median :151.0 Median : 93.5 Median :2804
Mean :23.45 Mean :5.472 Mean :194.4 Mean :104.5 Mean :2978
3rd Qu.:29.00 3rd Qu.:8.000 3rd Qu.:275.8 3rd Qu.:126.0 3rd Qu.:3615
Max. :46.60 Max. :8.000 Max. :455.0 Max. :230.0 Max. :5140
acceleration year origin name
Min. : 8.00 Min. :70.00 Min. :1.000 Length:392
1st Qu.:13.78 1st Qu.:73.00 1st Qu.:1.000 Class :character
Median :15.50 Median :76.00 Median :1.000 Mode :character
Mean :15.54 Mean :75.98 Mean :1.577
3rd Qu.:17.02 3rd Qu.:79.00 3rd Qu.:2.000
Max. :24.80 Max. :82.00 Max. :3.000
#(b)
apply(Auto[,1:7], 2, range) mpg cylinders displacement horsepower weight acceleration year
[1,] 9.0 3 68 46 1613 8.0 70
[2,] 46.6 8 455 230 5140 24.8 82
#(c)
options(width = 95)
apply(Auto[,1:7], 2, mean) mpg cylinders displacement horsepower weight acceleration year
23.445918 5.471939 194.411990 104.469388 2977.584184 15.541327 75.979592
options(width = 95)
apply(Auto[,1:7], 2, sd) mpg cylinders displacement horsepower weight acceleration year
7.805007 1.705783 104.644004 38.491160 849.402560 2.758864 3.683737
#(d)
apply(Auto[-c(10:85),1:7], 2, range) mpg cylinders displacement horsepower weight acceleration year
[1,] 11.0 3 68 46 1649 8.5 70
[2,] 46.6 8 455 230 4997 24.8 82
options(width = 95)
apply(Auto[-c(10:85),1:7], 2, mean) mpg cylinders displacement horsepower weight acceleration year
24.404430 5.373418 187.240506 100.721519 2935.971519 15.726899 77.145570
apply(Auto[-c(10:85),1:7], 2, sd) mpg cylinders displacement horsepower weight acceleration year
7.867283 1.654179 99.678367 35.708853 811.300208 2.693721 3.106217
#(e)
pairs(Auto[,1:7])options(width = 80)
round(cor(Auto[,1:7]), 2) mpg cylinders displacement horsepower weight acceleration year
mpg 1.00 -0.78 -0.81 -0.78 -0.83 0.42 0.58
cylinders -0.78 1.00 0.95 0.84 0.90 -0.50 -0.35
displacement -0.81 0.95 1.00 0.90 0.93 -0.54 -0.37
horsepower -0.78 0.84 0.90 1.00 0.86 -0.69 -0.42
weight -0.83 0.90 0.93 0.86 1.00 -0.42 -0.31
acceleration 0.42 -0.50 -0.54 -0.69 -0.42 1.00 0.29
year 0.58 -0.35 -0.37 -0.42 -0.31 0.29 1.00
boxplot(mpg ~ origin, data = Auto)#(f)
plot(Auto$mpg, Auto$displacement)plot(Auto$mpg, Auto$horsepower)plot(Auto$mpg, Auto$weight)## Mirando estos gráficos podemos decir con certeza que a menor desplazamiento, potencia y peso, mayor mpg.- Este ejercicio incluye el conjunto de datos de viviendas de Boston.
- Para empezar, cargue el conjunto de datos de Boston. El conjunto de datos de Boston parte de la biblioteca ISLR2. > library(ISLR2)
Ahora el conjunto de datos está contenido en el objeto Boston. > Boston
Lee sobre el conjunto de datos: > Boston
¿Cuántas filas tiene este conjunto de datos? ¿Cuántas columnas? ¿Qué representan las filas y las columnas?
(b) Haz algunos diagramas de dispersión por pares de los predictores (columnas) en este conjunto de datos. Describe tus resultados.
(c) ¿Alguno de los predictores está asociado con la tasa de delincuencia per cápita? En caso afirmativo, explique la relación.
(d) ¿Alguno de los distritos censales de Boston parece tener tasas de delincuencia especialmente altas? especialmente altos? ¿Tasa de impuestos? ¿Relación alumnos-profesor? Comente el rango de cada predictor.
(e) ¿Cuántas de las secciones censales de este conjunto de datos limitan con el río Charles Charles?
(f) ¿Cuál es la mediana de la proporción alumnos-profesor entre las ciudades de este conjunto de datos? este conjunto de datos?
(g) ¿Qué sección censal de Boston tiene el valor medio más bajo de viviendas ocupadas por sus propietarios? ¿Cuáles son los valores de los demás predictores predictores para ese tramo censal, y cómo se comparan esos valores con los con los rangos generales de esos predictores? Comente sus resultados.
(h) En este conjunto de datos, ¿cuántos de los tramos censales tienen una media de más de siete habitaciones por vivienda? ¿Más de ocho habitaciones por vivienda? Comente los tramos censales con una media superior a ocho habitaciones por vivienda.
# (a)
library(MASS)
?Bostonstarting httpd help server ... done
dim(Boston)[1] 506 14
# (b)
par(mfrow = c(3, 3))
pairs(Boston[, 1:9])# (c) Gráficos de dispersión individuales
par(mfrow = c(1, 1))
plot(Boston$age, Boston$crim)plot(Boston$dis, Boston$crim)plot(Boston$rad, Boston$crim)plot(Boston$tax, Boston$crim)plot(Boston$ptratio, Boston$crim)#(d)
par(mfrow = c(1, 3))
hist(Boston$crim[Boston$crim > 1], breaks = 25)
hist(Boston$tax, breaks = 25)
hist(Boston$ptratio, breaks = 25)# (e)
dim(subset(Boston, chas == 1))[1] 35 14
# (f)
median(Boston$ptratio)[1] 19.05
# (g)
subset(Boston, medv == min(Boston$medv)) crim zn indus chas nox rm age dis rad tax ptratio black lstat
399 38.3518 0 18.1 0 0.693 5.453 100 1.4896 24 666 20.2 396.90 30.59
406 67.9208 0 18.1 0 0.693 5.683 100 1.4254 24 666 20.2 384.97 22.98
medv
399 5
406 5
# (h)
dim(subset(Boston, rm > 7))[1] 64 14
dim(subset(Boston, rm > 8))[1] 13 14
# (i)
summary(subset(Boston, rm > 8)) crim zn indus chas
Min. :0.02009 Min. : 0.00 Min. : 2.680 Min. :0.0000
1st Qu.:0.33147 1st Qu.: 0.00 1st Qu.: 3.970 1st Qu.:0.0000
Median :0.52014 Median : 0.00 Median : 6.200 Median :0.0000
Mean :0.71879 Mean :13.62 Mean : 7.078 Mean :0.1538
3rd Qu.:0.57834 3rd Qu.:20.00 3rd Qu.: 6.200 3rd Qu.:0.0000
Max. :3.47428 Max. :95.00 Max. :19.580 Max. :1.0000
nox rm age dis
Min. :0.4161 Min. :8.034 Min. : 8.40 Min. :1.801
1st Qu.:0.5040 1st Qu.:8.247 1st Qu.:70.40 1st Qu.:2.288
Median :0.5070 Median :8.297 Median :78.30 Median :2.894
Mean :0.5392 Mean :8.349 Mean :71.54 Mean :3.430
3rd Qu.:0.6050 3rd Qu.:8.398 3rd Qu.:86.50 3rd Qu.:3.652
Max. :0.7180 Max. :8.780 Max. :93.90 Max. :8.907
rad tax ptratio black
Min. : 2.000 Min. :224.0 Min. :13.00 Min. :354.6
1st Qu.: 5.000 1st Qu.:264.0 1st Qu.:14.70 1st Qu.:384.5
Median : 7.000 Median :307.0 Median :17.40 Median :386.9
Mean : 7.462 Mean :325.1 Mean :16.36 Mean :385.2
3rd Qu.: 8.000 3rd Qu.:307.0 3rd Qu.:17.40 3rd Qu.:389.7
Max. :24.000 Max. :666.0 Max. :20.20 Max. :396.9
lstat medv
Min. :2.47 Min. :21.9
1st Qu.:3.32 1st Qu.:41.7
Median :4.14 Median :48.3
Mean :4.31 Mean :44.2
3rd Qu.:5.12 3rd Qu.:50.0
Max. :7.44 Max. :50.0
# (j)
summary(Boston) crim zn indus chas
Min. : 0.00632 Min. : 0.00 Min. : 0.46 Min. :0.00000
1st Qu.: 0.08205 1st Qu.: 0.00 1st Qu.: 5.19 1st Qu.:0.00000
Median : 0.25651 Median : 0.00 Median : 9.69 Median :0.00000
Mean : 3.61352 Mean : 11.36 Mean :11.14 Mean :0.06917
3rd Qu.: 3.67708 3rd Qu.: 12.50 3rd Qu.:18.10 3rd Qu.:0.00000
Max. :88.97620 Max. :100.00 Max. :27.74 Max. :1.00000
nox rm age dis
Min. :0.3850 Min. :3.561 Min. : 2.90 Min. : 1.130
1st Qu.:0.4490 1st Qu.:5.886 1st Qu.: 45.02 1st Qu.: 2.100
Median :0.5380 Median :6.208 Median : 77.50 Median : 3.207
Mean :0.5547 Mean :6.285 Mean : 68.57 Mean : 3.795
3rd Qu.:0.6240 3rd Qu.:6.623 3rd Qu.: 94.08 3rd Qu.: 5.188
Max. :0.8710 Max. :8.780 Max. :100.00 Max. :12.127
rad tax ptratio black
Min. : 1.000 Min. :187.0 Min. :12.60 Min. : 0.32
1st Qu.: 4.000 1st Qu.:279.0 1st Qu.:17.40 1st Qu.:375.38
Median : 5.000 Median :330.0 Median :19.05 Median :391.44
Mean : 9.549 Mean :408.2 Mean :18.46 Mean :356.67
3rd Qu.:24.000 3rd Qu.:666.0 3rd Qu.:20.20 3rd Qu.:396.23
Max. :24.000 Max. :711.0 Max. :22.00 Max. :396.90
lstat medv
Min. : 1.73 Min. : 5.00
1st Qu.: 6.95 1st Qu.:17.02
Median :11.36 Median :21.20
Mean :12.65 Mean :22.53
3rd Qu.:16.95 3rd Qu.:25.00
Max. :37.97 Max. :50.00