I.Introduction

Es importante resaltar el crecimiento en el sector inmobiliario presente en las principales ciudades de Colombia, en este reporte analizaremos el auge de este sector en la ciudad de Cali, el cual, está en desarrollo debido a diversas variables entre las cuales podemos destacar el crecimiento de la población, inversión extrajera y un Item social que es la violencia distribuida en este sector del país y enfocada en las zonas rurales.

El principal objetivo es analizar la base de datos de BYC para identificar tendencias y patrones en los datos, con el fin de desarrollar estratégias que permitan que la compañia pueda complir su visión empresarial en aras del crecimiento empresarial.

II.Análisis Descriptivo

En este punto, nos enfocaremos en dos items fundamentales, por una parte describiremos todos los errores, datos atípicos, datos faltantes y sus soluciones; en la otra sección expondremos análisis con estadística descriptiva.

A.Tratamiento de Datos

Se evidenciaron datos faltantes, datos atípicos y errores en los registros de algunos campos. Para poder definir una estratégia de limpieza, depuración y normalización, se deben tener en cuenta aspectos importantes como la volumetría con la que cuenta la base, los campos de la base y la lógica del sector inmobiliario.

Se procedío a analizar independientemente los errores, datos atípicos y N/A de la base, y luego, el desarrollo lógicas que permitieran agrupar e identificar el tipo de distribución que tienen los datos y la lógica a tener encuenta para hacer las imputaciones.

Para las imputaciones de datos faltantes, primero se creó una lógica que permitiera identificar los registros donde todos los campos categóricos de la fila estuvieran en N/A y se borraron. Es importante resaltar este punto, debido a que, sin campos de clasificación y categorización no es posible hacer una imputación lógica.

Para las otras imputaciones de datos faltantes y datos en cero, primero se filtraron los datos atípicos teniendo en cuenta la zona, barrio, tipo, piso; esta agrupación se realizó para que los outliers no afectaran la imputación de los N/A y luego se implemento una lógica que mediante el agrupado lógico calculara las funciones estadistícas e imputara según las variables.

Se encontraron también errores en el campo barrio, en el cual, la letra u acentuada(ú), era reemplazada por caracteres especiales que dan error al momento de cargar en RmarkDown y la letra e acentuada(é), era reemplazada por caracteres especiales que dan error al momento de cargar en RmarkDown. Estos errores se intentaron solucionar mediante el uso de la configuración regional, pero al parecer, son propios del archivo.

Se evidenciaron también valores atípicos en banios, habitac y preciom; sin embargo, es importante resaltar que para el campo preciom, estos valores pueden deberse a terminos contractuales entre el arrendador y arrendatario. Para el campo habitac, pasa algo similar, dado que, el numero de habitaciones depende del propietario en cuestion. Los valores atípicos de los baños fueron solucionados mediante el uso de lógicas agrupadas y el uso de mediana dado su distribución.

En el campo tipo, se normalizaron los registros, ya que, contaban con descripciones diferente por tipo de inmueble.

B.Análisis Gráfico e Indicadores Relevantes

Se puede evidenciar que la Zona Oeste es donde el costo por edificación es mayor teniendo en cuenta la distribución de precios sobre el numero de ofertas.Las Zonas Oriente y Centro tienen pocas ofertas con valores bajos en comparación con las demás zonas y su oferta inmobiliaria. Es importante resaltar el comportamiento de la Zona Sur, la cual, es donde mas ofertas de arriendos se tienen con múltiples costos.

Con el análisis se pudo identificar el comportamiento del precio del inmueble con el área construida, se puede concluir que el precio de la vivienda está directamente relacionado con el área construida; sin embargo, es importante resaltar que al momento de relacionar las zonas, se identifica que esta relación no es proporcional en todas las zonas de la base.

Se puede determinar cual es el tipo de inmueble con mas ofertas; sin embargo, antes de decidir una estratégia se debe conocer la lógica del negocio y que esta incluya las distribuciones de inmuebles por zonas, estratos, piso y barrios.

III.Discusiones y conclusiones

Con el análisis realizado se pueden generar estratégias basadas en datos, teniendo en cuenta el tipo de inmueble, zona, estrato, barrio, piso; se puede concluir que la variabilidad de ofertas en Cali puede ser explotada por BYC, al proponer estratégias basadas en análisis estadísticos y que puedan impactar en la necesidad del cliente.

De todo el análisis se pueden establecer los siguientes comportamientos:

  1. La mayor cantidad de inmuebles ofertados son apartamentos.
  2. La Zona Oeste, tiene los valores mas altos comparandola con el numero de ofertas.
  3. La Zona Sur,tiene mas inmuebles ofertados que las demás. 4.Existe una relación directamento proporcional entre el área y el precio; sin embargo, este comportamiento no se presenta en todas las zonas y la variable que influye es el barrio y estrato.
  4. Los estratos 4, 5 y 6 tienen una presencia significativa en la ofertas.
  5. Algunos precios, dependen no solo de las variables de la base de datos, sino al parecer de terminos contractuales.
  6. Para desarrollar estratégias basadas en este análisis se deben tener en cuenta las variables categóricas de la data y la relación entre zona, barrio, estrato y tipo de inmueble.

IV.Anexos

Se encontraron datos faltantes, datos en cero, datos atípicos y errores en algunos campos, los cuales se abordaran en el contenido del presente ítem.

Datos faltantes o N/A, se encontraron dos transacciones que presentaban N/A en todos los campos y también se encontró una transacción que solo tenía precio. Por otra parte, los campos parque y piso tenían todos los datos faltantes, con la excepción de las tres transacciones mencionadas anteriormente.

Primero se normalizó el campo tipo, ya que, presentaba diferentes categorías redundantes.

Se solucionaron los errores de caracteres especiales en el campo barrio, se identificó que eran propios de la base de datos y no de alguna configuración regional, la solución puede verse en la tabla II. No se puede crear un gráfico, debido a que, los caracteres especiales no son aceptados ni procesados por RmarkDown.

Datos faltantes y en cero.

Primero, eliminamos los tres registros que tienen todos los datos N/A, uno de ellos solo tiene precio. Luego, para poder imputar correctamente, se debe tener en cuenta que para esos campos se debe analizar el comportamiento agrupando por zona, barrio, tipo y estrato Y también descartar los atípicos.

Calculamos el tipo de distribución y aplicaremos la mediana para los campos N/A y ceros de forma independiente, agrupando por categorías como se explica a continuación.

La lógica aplicada realiza los siguiente pasos: 1. Filtra los outliers (valores atípicos) de las columnas del dataframe. 2. Utiliza el método del rango intercuartílico (IQR) para determinar los límites de los valores aceptables. 3. Los valores deben estar dentro de 1.5 veces el IQR por debajo del primer cuartil (Q1) y por encima del tercer cuartil (Q3). 4. Los valores de banios deben ser mayores que 0 y los de habitac deben ser mayores que 0. 5. Define una función que calcula la mediana dentro de cada grupo definido por zona, barrio, tipo y estrato. 6. Si todos los valores en un grupo son NA, se utiliza la mediana global. 7. Define una función que imputa los valores faltantes (NA) en la columna utilizando las medianas calculadas por grupo. 8. Realiza una unión (left_join) del dataframe original data con median_data basado en las columnas zona, barrio, tipo y estrato. 9. Si el resultado de la mediana agrupada es N/A, asigna la media grupal.

Al aplicar las lógicas y ejecutar las funciones de tablas se evidencia que los N/A fueron actualizados correctamente.

##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'

V.Referencias

[1] Aula digital Universidad Javeriana curso Simulación estadística Datos[online]recuperado de:https://auladigital.javerianacali.edu.co/d2l/le/enhancedSequenceViewer/234448?url=https%3A%2F%2F540940f3-4d0d-4e5b-ad45-0cd2e90a0380.sequences.api.brightspace.com%2F234448%2Factivity%2F1906996%3FfilterOnDatesAndDepth%3D1 [2] Ciencia De Datos [online]recuperado de:https://www.alpha-editorial.com/Papel/9789587784251/Ciencia+De+Datos