Regresión logistica - Precio apartamentos EE.UU.

Comprensión del negocio

El mercado de arriendo de apartamentos en Estados Unidos es muy variado y está influenciado por muchos factores. No es solo que cada ciudad tenga precios distintos, sino que dentro de una misma ciudad o estado los valores pueden cambiar bastante entre barrios, zonas comerciales, o áreas residenciales. Además, el precio de un arriendo no depende únicamente de la ubicación: también influye cuántos metros cuadrados tiene el apartamento, cuántos baños o habitaciones ofrece, si acepta mascotas, qué tipo de contrato de renta maneja (mensual, semanal, etc.) y hasta qué tan cerca está de puntos importantes como universidades o transporte público. Esta combinación de factores hace que, muchas veces, sea difícil saber si un precio de renta es justo o está por encima de lo normal.

Este proyecto tiene como objetivo construir un modelo de regresión logística que permita clasificar automáticamente si el precio de renta de un apartamento es caro o barato, usando como referencia la mediana de precios globales. Posteriormente, el modelo servirá como base para una aplicación web interactiva que permita categorizar apartamentos en cinco niveles de precio (muy bajo, bajo, medio, alto, muy alto), ajustándose a las variables más significativas detectadas por el modelo.

El modelo permitirá:

  • Analizar qué variables influyen más en el precio

  • Visualizar un mapa de calor con las ubicaciones de los apartamentos más caros y baratos.

  • Desarrollar una herramienta predictiva útil tanto para usuarios como para empresas del sector.

Preparación de los datos

Cambiando un poco el orden de la metodología CRISP-DM, decidimos primero realizar la preparación de los datos para eliminar valores vacíos, atípicos y ciertas categorías que no correspondían al análisis que se va a realizar. Esto nos permite, en etapas posteriores, visualizar de manera más clara y precisa la información contenida en la base de datos.

Durante esta fase de limpieza, se realizaron varios ajustes importantes. En primer lugar, se eliminaron los valores atípicos en las variables de precio y metros cuadrados, conservando únicamente aquellos registros que se encuentran dentro de los cuartiles, lo cual puede observarse en los boxplots generados.

Además, se conservaron únicamente las variables con información relevante para el análisis, eliminando aquellas que no aportaban valor. La variable mascotas fue reorganizada en categorías claras que permiten identificar si el apartamento acepta gatos, perros, ambos o ninguno, facilitando así su interpretación. Por último, se corrigió un error en la variable baños, ya que algunos registros presentaban valores decimales, lo cual no es válido; por ello, se filtraron únicamente los valores enteros entre 1 y 9.

Comprensión de los datos

La base de datos utilizada contiene información detallada sobre apartamentos en arriendo dentro del territorio de Estados Unidos. Cada fila representa un apartamento disponible para renta, y cada columna describe una característica específica de ese apartamento. A continuación, se presenta una descripción general de las variables incluidas:

  • ID: Identificador único de cada apartamento

  • Baños: Cantidad total de baños, con un rango entre 0 y 9

  • Habitaciones: número de cuartos disponibles, con un rango entre 0 y 9, considerando también estudios sin habitaciones.

  • Mascotas: clasifica el tipo de mascotas permitidas en cinco categorías: ninguna, solo gatos, solo perros, ambos (gatos y perros), o sin información registrada.

  • Tipo renta: Tipo de contrato de renta ofrecido, se filtraron los datos para que sean solo las mensuales

  • Ciudad, estado, latitud y longitud: representan la ubicación geográfica del apartamento, útil para análisis espaciales y visualizaciones como mapas de calor.

Precio y tamaño de los apartamentos

La distribución del precio de arriendo muestra que la mayoría de los apartamentos se encuentran en un rango entre 800 y 1600 dólares mensuales. Se observa una concentración clara en este tramo, con una menor frecuencia de apartamentos por debajo o por encima de ese rango.

En cuanto al tamaño, la mayoría de los apartamentos tienen entre 50 y 80 metros cuadrados, con un pico notable alrededor de los 75 m². Esto indica que hay una tendencia general hacia ese rango de tamaño, mientras que los apartamentos más pequeños o más grandes son menos comunes.

Distribución geografica

El mapa de calor permite visualizar en qué estados se concentran más los apartamentos disponibles. Los estados con mayor presencia son Texas, California, Virginia, Colorado y Carolina del Norte, todos superando los 5,000 registros. A medida que el color se intensifica, se representa una mayor cantidad de ofertas. Esto facilita identificar en qué zonas del país hay mayor disponibilidad de apartamentos según la base de datos.

Modelado

Modelo logistico con todas las variables

Dado que existen más de 50 estados en Estados Unidos, mantener cada uno como una variable individual haría el modelo muy extenso y difícil de interpretar. Por esa razón, decidimos conservar únicamente los cinco estados con mayor número de registros en la base de datos, y agrupar todos los demás bajo una sola categoría llamada “Other”. De esta forma, logramos evaluar el efecto de la ubicación en el precio sin saturar el modelo con demasiadas variables.

Resultados del Modelo Logístico (Estados Agrupados y Variables Claras)
Variable Estimación Error Std Valor z Pr(>|z|) Signif.
(Intercepto) -3.8932 0.0515 -75.55 0.0000 ***
Número de Habitaciones -0.2842 0.0167 -17.01 0.0000 ***
Número de Baños 0.2213 0.0231 9.57 0.0000 ***
Metros Cuadrados 0.0352 0.0006 62.41 0.0000 ***
Solo Acepta Gatos 0.1342 0.0670 2.00 0.0451
Solo Acepta Perros 0.7978 0.3361 2.37 0.0176
Acepta Gatos y Perros 0.2658 0.0391 6.81 0.0000
Mascotas (Dato Desconocido) 0.4131 0.0384 10.75 0.0000 ***
Estado:CA 3.3485 0.0442 75.69 0.0000 ***
Estado:VA 1.0994 0.0333 33.00 0.0000 ***
Estado:CO 1.8325 0.0374 49.00 0.0000 ***
Estado:NC -0.6964 0.0390 -17.84 0.0000 ***
Estado:Other 0.6279 0.0243 25.82 0.0000 ***

Variables más significativas:

  • Número de Habitaciones: Muestra un efecto negativo sobre el precio, lo que indica que, en promedio, los apartamentos con más habitaciones tienden a ser más económicos.

  • Número de Baños y Metros Cuadrados: Ambas variables tienen un efecto positivo y altamente significativo. Es decir, a mayor número de baños o mayor tamaño del apartamento, más alta es la probabilidad de que el precio esté por encima de la mediana.

  • Ubicación (Estado): Los estados agrupados muestran coeficientes claros y significativos, lo cual confirma que la ubicación geográfica influye directamente en el precio de los apartamentos.

  • Mascotas: al no ser una variable representativa dado su bajo impacto y significancia vamos a eliminar esta variable del modelo final.

Modelo logistico final

Resultados del Modelo Logístico Final (Sin Mascotas)
Variable Estimación Error Std Valor z Pr(>|z|) Signif.
(Intercept) -3.5860 0.0379 -94.62 0 ***
Número de Habitaciones -0.2972 0.0166 -17.86 0 ***
Número de Baños 0.2292 0.0230 9.95 0 ***
Metros Cuadrados 0.0356 0.0006 63.29 0 ***
Estado:CA 3.3388 0.0441 75.73 0 ***
Estado:VA 1.1128 0.0333 33.46 0 ***
Estado:CO 1.8486 0.0373 49.54 0 ***
Estado:NC -0.6931 0.0390 -17.77 0 ***
Estado:Other 0.6274 0.0243 25.86 0 ***

Para construir el modelo logístico, se creó una variable binaria llamada “expensive” que clasifica cada apartamento como “caro” o “barato”. Esta clasificación se basó en el valor de la mediana del precio dentro de toda la base de datos.

Los apartamentos con un precio superior a la mediana fueron codificados como 1 (caros).

Los apartamentos con un precio igual o inferior a la mediana fueron codificados como 0 (baratos).

Mediana del Precio de Arriendo: Todo valor por encima de esta mediana fue considerado como caro.

1305

Maximizar el umbral de desempeño

Los cuatro gráficos muestran cómo cambia la clasificación de los casos según el ajuste del umbral. La gráfica de la métrica compuesta es útil para identificar el umbral óptimo, ya que combina los tres indicadores principales: exactitud, sensibilidad y especificidad. El objetivo es encontrar el punto donde esta gráfica alcanza su valor máximo, logrando un equilibrio entre identificar los casos positivos y minimizar los errores, con el mejor desempeño general.

Aunque matemáticamente el umbral que maximiza la métrica compuesta es el más alto (0.50), este valor sacrifica considerablemente la sensibilidad, que es fundamental para identificar correctamente los casos positivos. Por esta razón, resulta más conveniente seleccionar un umbral que mantenga un mejor equilibrio entre todos los indicadores.

En este caso, optamos por un rango de umbral entre 0.37 y 0.42, con un umbral fijo de 0,4 ya que conserva una sensibilidad entre el 80% y 85%, una especificidad de aproximadamente 50% a 60%, y una exactitud superior al 65%. Este rango permite alcanzar una métrica compuesta también superior al 65%, logrando así un desempeño más balanceado y confiable del modelo.

Evaluación

Matriz de confusión

El umbral es el punto de partida para la clasificación. En este modelo, el umbral de referencia seleccionado es 0.22. Esto significa que si la probabilidad estimada de un caso supera ese valor, se clasifica como positivo, de lo contrario, se clasifica como negativo. A partir de esta decisión, se construye la matriz de confusión, que permite evaluar el rendimiento del modelo, mostrando cuántos casos se clasificaron correctamente y cuántos fueron errores, tanto en falsos positivos como en falsos negativos.

Matriz de Confusión del Modelo (Umbral = 0.40)
Predicción del Modelo
No
Observación Real
No 25045 19144
9518 34618
Nota:
Umbral de clasificación: 0.40

Metricas de desempeño

El modelo tiene un desempeño general del 67%, lo que significa que acierta en la mayoría de los casos. La sensibilidad es del 78%, lo que indica que detecta bien los casos positivos. La especificidad es del 56%, por lo que es un poco menos preciso al identificar los negativos. En promedio, la métrica compuesta es de 68%, lo cual refleja un buen equilibrio entre todos los indicadores.

Desempeño = (VP + VN) / Total: El modelo predice bien el 67% de los casos

0.6754

Sensibilidad = VP / (VP + FN): El modelo predice bien el 78% de los positivos

0.7844

Especificidad = VN / (VN + FP): El modelo predice bien el 56% de los negativos

0.5665

Métrica compuesta = (Desempeño + Sensibilidad + Especificidad) / 3

0.6754

Despliegue

Puedes acceder a la aplicación interactiva para calcular la probabilidad de rotación en el siguiente enlace:

Evaluación del precio de apartamentos

Conclusiones

1. Herramienta útil para tomar decisiones más informadas

El principal uso y beneficio del modelo viene de que permite identificar si el precio de un apartamento está por encima o por debajo del promedio del mercado. Esto le da tanto a usuarios como a empresas inmobiliarias una referencia clara para evaluar si una oferta representa un valor justo o si está sobrevalorada. En lugar de basarse únicamente en percepciones o comparaciones limitadas, esta herramienta facilita decisiones más objetivas y fundamentadas.

2. Segmentación rápida y efectiva del mercado

El usuario puede filtrar fácilmente por ubicación, número de habitaciones, baños y tamaño en metros cuadrados. Esto permite explorar solo las zonas de interés y visualizar de inmediato si las opciones disponibles están por encima del precio promedio o representan una oportunidad de arriendo razonable. La segmentación se hace en segundos, facilitando comparaciones más precisas y decisiones más rápidas.

3. Potencial para automatizar y escalar motores de búsqueda inteligentes

El modelo podría integrarse con bases de datos en tiempo real o plataformas digitales que actualizan constantemente su inventario de propiedades. Esto permite escalar su uso a sistemas de recomendación y motores de búsqueda inteligentes, capaces de categorizar apartamentos automáticamente según su valor.

Regresión lineal - Resistencia del cemento

Compresión del negocio

El presente documento se basa en un conjunto de datos que recoge información detallada sobre la composición y propiedades de diferentes mezclas de concreto. Este tipo de información es fundamental en el ámbito de la ingeniería civil y la construcción, ya que permite analizar la influencia de diversos materiales y condiciones de curado sobre la resistencia final del concreto. La base de datos incluye variables como la cantidad de cemento, escoria, ceniza volante, agua, superplastificante, agregados finos y gruesos, así como la edad del concreto al momento de medir su resistencia a la compresión.

El objetivo de este análisis es estudiar la relación entre estos componentes y la resistencia final del concreto, lo cual puede facilitar la optimización de mezclas para obtener un mejor desempeño estructural, eficiencia en costos, y sostenibilidad en proyectos constructivos.

Comprensión de los datos

Este conjunto de datos contiene información sobre diferentes ingredientes y condiciones que afectan la resistencia del concreto. Vamos a explicar qué significa cada variable de forma simple:

  • Cemento: es el polvo que se mezcla con agua para formar el concreto; entre más cemento se use, normalmente el concreto queda más fuerte.

  • Escoria: es un material reciclado del proceso de hacer acero, que se puede usar junto al cemento para hacer el concreto más duradero.

  • Ceniza Volante: es un polvo fino que viene de quemar carbón; ayuda a que la mezcla sea más manejable y puede mejorar la resistencia con el tiempo.

  • Agua: se usa para activar el cemento y unir todos los materiales; si se usa demasiada, el concreto puede quedar débil.

  • Superplastificante: es un químico que hace que la mezcla sea más fluida sin tener que agregar más agua, lo que ayuda a que el concreto sea más fuerte.

  • Agregado Grueso: son piedras grandes que se mezclan en el concreto para darle cuerpo y resistencia.

  • Agregado Fino: es arena que se mezcla con los demás materiales para rellenar espacios y que la mezcla quede uniforme.

  • Edad: es el número de días que han pasado desde que se hizo el concreto; mientras más tiempo pasa, más fuerte se vuelve.

  • Resistencia: es qué tan fuerte es el concreto y cuánta presión puede soportar sin romperse.

Correlación de los datos

La tabla muestra las 4 variables del conjunto de datos que tienen mayor relación (positiva o negativa) con la resistencia del concreto. Se eligieron estas variables porque presentan los valores de correlación más altos en términos absolutos, lo cual indica que tienen mayor potencial de influir en el comportamiento del concreto.

Cemento (correlación ≈ 0.50): es la variable con mayor asociación positiva. A medida que se usa más cemento, la resistencia tiende a aumentar.

Superplastificante (≈ 0.37): también muestra una relación positiva, indicando que este aditivo contribuye a mejorar la resistencia.

Edad (≈ 0.33): cuanto más tiempo pasa desde que se fabricó el concreto, más fuerte se vuelve.

Agua (≈ -0.29): tiene una correlación negativa, lo cual sugiere que al aumentar el contenido de agua, la resistencia disminuye.

Variables más correlacionadas con la Resistencia
Variable Correlación
Cemento Cemento 0.4978327
Superplastificante Superplastificante 0.3661023
Edad Edad 0.3288770
Agua Agua -0.2896135

Cemento vs Resistencia

Se observa una tendencia positiva: a mayor cantidad de cemento, mayor resistencia. Aunque hay dispersión, la línea de tendencia muestra una subida. Esto destaca su importancia como principal componente estructural del concreto.

Superplastificante vs Resistencia

También se aprecia una tendencia positiva: valores más altos de superplastificante están asociados a concretos más resistentes.

Edad vs Resistencia

La gráfica muestra que, con el paso de los días, la resistencia del concreto aumenta. Aunque en los primeros días hay muchas observaciones agrupadas, la tendencia sigue siendo claramente ascendente.

Agua vs Resistencia

Esta gráfica revela una relación inversa: cuando se añade más agua, la resistencia del concreto tiende a disminuir. Ya que el exceso de agua debilita la mezcla al aumentar su porosidad.

Histograma de las variables más importantes

Cemento

La mayoría de las observaciones se agrupan entre 100 y 400 kg/m³, con una caída progresiva hacia valores más altos.

Superplastificante

La distribución está muy concentrada en valores bajos, especialmente entre 0 y 10 kg/m³, indicando que en la mayoría de los casos se usa en pequeñas cantidades.

Edad

Se aprecia una gran cantidad de datos en los primeros días especialmente antes de los 30 días, indicando que la mayoria de las muestras fueron tomadas en el primer mes.

Agua

La mayoría de los valores entre 140 y 220 kg/m³. Es la que esta mejor distribuida de todas las variables acercandose ligeramente a una distribución de una campana de gauss.

Preparación de los datos

En esta parte limpiamos los datos quitando los registros que estaban incompletos y también eliminamos los valores que eran muy extremos o raros. Esto nos ayudó a quedarnos solo con información confiable y sin errores. Al hacer esta limpieza, nos aseguramos de que el modelo que construiremos más adelante funcione mejor y tenga resultados más precisos.

“Tamaño final del dataset limpio: 926 observaciones.”

Modelado

Modelo de regresión completo

Resultados del Modelo de Regresión Lineal (Variables Explicativas del Concreto)
Variable Estimación Error Std Valor t Pr(>|t|) Signif.
(Intercepto) 49.9873 22.4086 2.23 0.0259
Cantidad de Cemento 0.1020 0.0070 14.65 0.0000 ***
Cantidad de Escoria 0.0755 0.0084 8.98 0.0000 ***
Cantidad de Ceniza Volante 0.0482 0.0103 4.67 0.0000 ***
Cantidad de Agua -0.2496 0.0349 -7.16 0.0000 ***
Uso de Superplastificante 0.2160 0.0852 2.53 0.0114
Agregado Grueso -0.0103 0.0078 -1.31 0.1902
Agregado Fino -0.0103 0.0089 -1.15 0.2496
Edad del Concreto (días) 0.3127 0.0092 34.07 0.0000 ***

Vemos que las variables con mayor significancia en relación con la resistencia del concreto son: la cantidad de cemento, escoria, ceniza volante, agua y la edad del concreto en días.

Esto difiere del análisis previo, donde se observaba que el superplastificante tenía una correlación positiva considerable. Además, en este modelo se incluyen otras variables que anteriormente no se habían tomado en cuenta.

Dado que el modelo de regresión lineal utiliza un criterio más riguroso para seleccionar las variables relevantes, se optará por mantener únicamente aquellas que resultaron significativas en esta etapa.

Modelo de regresión final

Resultados del Modelo de Regresión Lineal Reducido (Solo Variables Significativas)
Variable Estimación Error Std Valor t Pr(>|t|) Signif.
(Intercepto) 27.5975 3.2346 8.53 0 ***
Cantidad de Cemento 0.1135 0.0032 35.64 0 ***
Cantidad de Escoria 0.0907 0.0036 24.87 0 ***
Cantidad de Ceniza Volante 0.0701 0.0053 13.17 0 ***
Cantidad de Agua -0.2487 0.0148 -16.83 0 ***
Edad del Concreto (días) 0.3132 0.0092 34.07 0 ***

Esta fórmula representa el modelo final que predice la resistencia del concreto en función de las variables que resultaron más significativas en el análisis. Cada coeficiente indica cuánto cambia la resistencia cuando la variable correspondiente aumenta en una unidad, manteniendo las demás constantes:

  • Cemento: por cada kg/m³ adicional, la resistencia aumenta en 0.1135 MPa.

  • Escoria: cada unidad adicional de escoria también incrementa la resistencia en 0.0907 MPa.

  • Ceniza Volante: por cada unidad adicional aporta 0.0701 MPa más de resistencia.

  • Agua: tiene un efecto negativo; por cada unidad extra, la resistencia disminuye en 0.2487 MPa.

  • Edad del Concreto: por cada día adicional de curado, la resistencia aumenta en 0.3132 MPa.

  • El valor 27.598 es el intercepto del modelo, es decir, la resistencia estimada cuando todas las variables valen cero.

Resistencia = 27.598 + 0.1135(Cemento) + 0.0907(Escoria) + 0.0701(Ceniza Volante) − 0.2487(Agua) + 0.3132(Edad)

Evaluación

Indicadores de Evaluación del Modelo de Regresión Lineal Reducido
Indicador Valor
R² (Coeficiente de determinación) 0.767
p-value del modelo 8.665e-293
Coeficiente de correlación múltiple (R) 0.8758
Error absoluto medio (MAE) 6.22
Error porcentual medio (MAPE) 22.51 %

R² (Coeficiente de determinación):

El valor de 0.767 indica que el modelo explica el 76.7% de la variabilidad en la resistencia del concreto a partir de las variables utilizadas.

p-value del modelo:

El valor extremadamente bajo (0.0000000009) confirma que el modelo es estadísticamente significativo. Evidenciando que las variables influyen de manera importante sobre la resistencia.

Coeficiente de correlación múltiple (R):

Con un valor de 0.8758, este coeficiente indica una relación fuerte y positiva entre las variables independientes (cemento, escoria, etc.) y la variable dependiente (resistencia).

Error absoluto medio (MAE):

El MAE de 6.22 nos dice que, en promedio, el modelo comete un error de 6.22 unidades al predecir la resistencia. Es un valor aceptable dentro del rango.

Error porcentual medio (MAPE):

Es traducir ese MAE a niveles de porcentaje, con un valor de 22.51%, este indicador refleja que el modelo tiene un error promedio moderado, e indica que es util para predecir valores reales en mayor medida.

Despliegue

Fórmula:

Resistencia = 27.5975 + 0.1135(Cemento) + 0.0907(Escoria) + 0.0701(Ceniza Volante) − 0.2487(Agua) + 0.3132(Edad)

Interpretación de rangos de resistencia:

  • 0 - 20 MPa: Concreto de baja resistencia → usado para rellenos o elementos temporales.

  • 20 - 35 MPa: Concreto para estructuras residenciales → como casas de uno o dos pisos.

  • 35 - 50 MPa: Concreto estructural estándar → utilizado en edificios, vigas, columnas y losas.

  • 50 - 65 MPa: Concreto de alta resistencia → ideal para puentes, estructuras industriales o cargas pesadas.

  • 65+ MPa: Concreto de ultra-alto rendimiento → usado en construcciones especializadas o proyectos de ingeniería avanzada.

Calculadora

Puedes acceder a la aplicación interactiva para calcular la densidad del concreto en el siguiente enlace:

Evaluación de la densidad del concreto

Conclusiones

  1. El modelo permite a las empresas evaluar de manera más sencilla cómo deben hacer las mezclas de concreto según el tipo de construcción, y también les ayuda a verificar si las combinaciones de materiales que están utilizando son adecuadas para los requerimientos de resistencia del proyecto.

  2. Cualquier persona puede usar esta herramienta para calcular la resistencia del concreto en proyectos personales, sin necesidad de hacer cálculos complicados ni tener conocimientos técnicos, lo que facilita la toma de decisiones en obras pequeñas o remodelaciones.