Se realizó un análisis de la base de datos “Boston” del paquete MASS, el cual contiene datos sobre las viviendas en los suburbios de Boston

Las variables que contiene la base de datos son:

  1. Crim: Tasa de crimen per cápita en la ciudad.

  2. zn: Proporción de tierra destinada a zona residencial or arriba de 25,000 pies cuadrados

  3. indus: Proporción de acres de negocios no minoristas por ciudad.

  4. chas: Variable dummy Charles River (=1 si el terreno limita con el río; 0 de lo contrario)

  5. nox: Concentración de Nitrogeno (partes por 10 millones)

  6. rm: Número promedio de cuartos por casa.

  7. age: proporción de unidades ocupadas por sus propietarios construidas antes de 1940

  8. dis: Media ponderada de las distancias a 5 centros de trabajo en Boston.

  9. rad: Tasa de accesibilidad a las vías principales (radio)

  10. tax: Valor total de la tasa de interés de propiedad por cada $10,000.

  11. ptratio: relación alumno-profesor por ciudad.

  12. black: \(1000(Bk-0.63)^2\) donde Bk es la proporción de personas de color por ciudad.

  13. lstat: estatus más bajo de la población (porcentaje).

  14. medv: valor medio de las viviendas ocupadas por sus propietarios en miles de dólares.

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100
crim 0 1 3.61 8.60 0.01 0.08 0.26 3.68 88.98
zn 0 1 11.36 23.32 0.00 0.00 0.00 12.50 100.00
indus 0 1 11.14 6.86 0.46 5.19 9.69 18.10 27.74
chas 0 1 0.07 0.25 0.00 0.00 0.00 0.00 1.00
nox 0 1 0.55 0.12 0.38 0.45 0.54 0.62 0.87
rm 0 1 6.28 0.70 3.56 5.89 6.21 6.62 8.78
age 0 1 68.57 28.15 2.90 45.02 77.50 94.07 100.00
dis 0 1 3.80 2.11 1.13 2.10 3.21 5.19 12.13
rad 0 1 9.55 8.71 1.00 4.00 5.00 24.00 24.00
tax 0 1 408.24 168.54 187.00 279.00 330.00 666.00 711.00
ptratio 0 1 18.46 2.16 12.60 17.40 19.05 20.20 22.00
black 0 1 356.67 91.29 0.32 375.38 391.44 396.22 396.90
lstat 0 1 12.65 7.14 1.73 6.95 11.36 16.96 37.97
medv 0 1 22.53 9.20 5.00 17.02 21.20 25.00 50.00

A través del histograma de medv, observamos que la mayor concentración de viviendas tiene un valor promedio de entre 20 y 25 mil dólares. La distribución muestra un sesgo a la derecha, con una cola que abarca los valores más altos, y se acumulan de forma atípica en el extremo derecho (cerca de los 50 mil dólares), lo que podria significar que los datos tienen como límite este valor pero podrían extenderse.

Con esto podrían considerarse ciertas relaciones para saber si el costo de la propiedad aumenta en ciertas condiciones, se interpretaran dos de ellas:

Caso 1: Si la propiedad sube de precio al estar cerca del río Charles

Caso 2: Si la propiedad sube de precio al estar cerca de vialidades rápidas

El gráfico de los casos es:

Para el caso 1, se puede observar claramente que si la propiedad está cerca del rio aumenta su valor, mientras que para el caso 2 no es tan claro si tiene alguna relación la cercanía a vialidades rápidas el valor de la propiedad

En el caso de la variable “rm” la cual describe, el número promedio de cuartos por casa, nos hace saber que el promedio de cuartos por casa es de 6.2, lo que haría pensar que las casas de Boston son amplias.

Finalmente el histograma de “lstat” el cual nos muestra estatus más bajo de la población,esto nos lleva interpretar que el sector estudiado es de niver socioeconómico alto, lo cual tendría sentido considerando el histograma anterior donde se mencionó que el número promedio de habitaciones en una casa con 6, sin embargo la cola no se corta en valores cercanos a 20, por lo que también se puede concluir que existen espacios donde el nivel socioeconómico no es tan favorable.

Sin embargo sería bueno analizar si la antigüedad de propiedad está relacionado con el costo de esta, así como si precio de la propiedad depende del nivel socioeconómico de sus habitantes; para ello vamos a utilizar scatter plots.

En primer instancia se puede apreciar que no tiene relación absoluta la longevidad de la propiedad con su valor, sin embargo es visible que gran parte de las propiedades que componen las muestra cumplen que entre más años tenga la construcción menor es su valor; para el caso de el nivel socioeconómico con el valor de la casa se percibe una relación negativa muy fuerte, por lo que se tomará en cuenta para realizar un pequeño estudio de correlación.

Para esta herramienta se analizarán las relaciones del número promedio de cuartos por hogar y el nivel socioeconómico con el valor de la propiedad.

La primera relación analizada involucra a lstat (porcentaje de población con estatus socioeconómico bajo). Esta presenta una correlación negativa fuerte (\(r = -0.738\)), lo que indica que a medida que aumenta el nivel de pobreza en la zona, el valor de la propiedad disminuye significativamente. En el gráfico de dispersión, se observa que esta relación no es puramente lineal, sino que presenta una curvatura; además, existen valores atípicos en niveles altos de lstat donde el precio se estabiliza en su punto más bajo.

Por otro lado, la variable rm (número de habitaciones) muestra una relación positiva fuerte (\(r = 0.695\)). Esto confirma que el tamaño de la vivienda es un motor principal del precio: a mayor número de cuartos, mayor es el valor de mercado. Un detalle relevante es la presencia de una línea horizontal de puntos en el valor máximo de 50, lo que sugiere un “techo” o truncamiento en los datos de precios para propiedades de lujo.

Finalmente, al observar la variable dis (distancia ponderada a los centros de empleo de Boston), se percibe una correlación positiva débil (\(r = 0.250\)) con el precio. Esto sugiere que, curiosamente, las viviendas tienden a ser ligeramente más caras a medida que se alejan de los centros de trabajo principales, posiblemente buscando zonas residenciales menos densas o con menores niveles de contaminación (nitrógeno), como se intuye por su correlación negativa con otras variables de infraestructura.

En conjunto, los coeficientes y las gráficas muestran que el estatus social y el tamaño físico son los predictores más robustos y confiables para determinar el costo de la propiedad en este modelo.

Las conclusiones las vamos a dividir por variable de estudio.

  1. Impacto del Estatus Socioeconómico: La variable lstat es el valor que más influye en el valor de la vivienda, presentando una correlación negativa muy fuerte (\(r = -0.738\)). Esto indica que en zonas con mayor población de bajo estatus, los precios de las casas tienden a ser significativamente menores.

  2. Importancia del Espacio Físico: El número de personas por hogar (rm) tiene una correlación positiva fuerte (\(r = 0.695\)) con el valor medio de la propiedad, esto nos hace concluir que el tamaño de la vivienda es un factor importante del precio de mercado en Boston.

  3. Función techo de Precios: Se identifica que puede existir un truncamiento en los datos, en donde varias propiedades podrían estar en un valor máximo de 50 mil dólares, por ello se menciona que existe alguna función “techo” de precios en la muestra, independientemente de si las viviendas cuentan con un número considerable de habitaciones.

  4. Influencia del Entorno (Río Charles): Estar ubicado cerca del río Charles (chas) es una causa al incremento del valor de la propiedad.

  5. Relación con Centros de Empleo: Existe una correlación positiva pero débil (\(r = 0.250\)) entre la distancia a los centros de trabajo (dis) y el precio. Esto podría indicar una preferencia por zonas residenciales más alejadas de la zona urbana.

  6. Antigüedad y Valor: Aunque no existe una relación absoluta, se observa una tendencia donde las construcciones más antiguas (age) suelen tener un valor de mercado menor en comparación con las más recientes.