Actividad 1

Introducción

El mercado inmobiliario siempre ha sido un motor de crecimiento y desarrollo en el país al involucrar muchos actores productivos, en Cali esta no es la excepción como lo menciona el documento la ciudad ha crecido significativamente a través de la inversión extranjera y a las ventas que llegaron a superar los 6,000 millones de pesos en el 2023. En este sentido la información con la que se cuenta nos permitirá realizar un análisis estadístico que le sirva de guia a la empresa B&C para tomar decisiones que le generen beneficios económicos y hacer parte del mercado, se buscará por medio de este análisis y con indicadores de estadística puntuales información sobre el mercado y potenciales puntos de crecimiento.

Objetivos

Organizar y normalizar la información que se encuentra en la tabla de datos de tal manera de que sea confiable.
Utilizar las herramientas que ofrece R para imputar datos faltantes, eliminar datos y garantizar que la información sea confiable para el respectivo análisis.
Entregar un reporte que sirva de guia para tomar decisiones a la empresa B&C en temas de marketing y ventas.

Métodos

A continuación se describe la metodología y los pasos para llegar al reporte final que se relaciona en este documento y que tuvo como origen el paqueteMETODOS.

Lo primero que se realizó fue la instalación de las librerías correspondientes para poder leer tabla de datos vivienda_faltantes.
Después de cargada la información y analizados los datos se identificaron los registros que tenían datos que no permitían un análisis correcto de la información.

Se depuró la información de los tipos de vivienda ya que la base tenía escrito de diferentes formas la palabra que se refería a un mismo tipo de vivienda, por ejemplo. Apartamento, apto.
Se identificaron los valores NA en la columna ID donde no habían registros en ninguna de las columnas y no representaba ningún valor tenerlas para análisis.
Se encontraron los valores en NA de las columnas piso y parqueadero.
Se construyó la metodología para estimar los valores que correspondían a estos NA teniendo como base tres parámetros únicos para comparar.
Los parámetros definidos para esta comparación fueron el barrio, el estrato y el tipo de vivienda.
Con estos parámetros definidos se decidió tomar un indicador de tendencia central como referencia, en este caso la moda.
La moda corresponde a un valor o dato que más se repite y es utilizada como medida de tendencia central.
Después de que se calculó la moda para todos los registros que cumplían con los campos mencionados antes como el barrio, el estrato y el tipo de vivienda, se procedió a actualizar estos valores en los NA que se habían identificado.
Realizada esta validación se revisaron los datos NA faltantes que correspondían principalmente a datos que no tenían asociado otros campos por lo que no se podía estimar el piso ni el parqueadero.
Se modificó el piso para las casas ya que en algunos decía que quedaba en el piso 6, tema que no es correcto.
El arreglo y organización de la información fue el punto de partida para la realización de las gráficas de análisis que se describen a continuación.

Resultados

La normalización de los datos representó el principal reto en este proyecto, en lo que corresponde con la posibilidad de modificar los datos que se mostraban como NA, sin embargo, después de realizado esto se lograron hacer los análisis de datos respectivos como se muestra a continuación.

## Loading required package: cubature

## Loading required package: dplyr

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

## Loading required package: flextable

## Loading required package: ggplot2

## Loading required package: lmtest

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

## Loading required package: MASS

## 
## Attaching package: 'MASS'

## The following object is masked from 'package:dplyr':
## 
##     select

## Loading required package: psych

## 
## Attaching package: 'psych'

## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha

## Loading required package: summarytools

## Loading required package: randtests

## Loading required package: rapportools

## 
## Attaching package: 'rapportools'

## The following objects are masked from 'package:summarytools':
## 
##     label, label<-

## The following object is masked from 'package:dplyr':
## 
##     n

## The following objects are masked from 'package:stats':
## 
##     IQR, median, sd, var

## The following objects are masked from 'package:base':
## 
##     max, mean, min, range, sum

## 
## lessR 4.3.0                         feedback: gerbing@pdx.edu 
## --------------------------------------------------------------
## > d <- Read("")   Read text, Excel, SPSS, SAS, or R data file
##   d is default data frame, data= in analysis routines optional
## 
## Learn about reading, writing, and manipulating data, graphics,
## testing means and proportions, regression, factor analysis,
## customization, and descriptive statistics from pivot tables
##   Enter:  browseVignettes("lessR")
## 
## View changes in this and recent versions of lessR
##   Enter: news(package="lessR")
## 
## Interactive data analysis
##   Enter: interact()

## 
## Attaching package: 'lessR'

## The following objects are masked from 'package:rapportools':
## 
##     kurtosis, label

## The following object is masked from 'package:summarytools':
## 
##     label

## The following objects are masked from 'package:psych':
## 
##     reflect, rescale, scree, skew

## The following object is masked from 'package:flextable':
## 
##     style

## The following objects are masked from 'package:dplyr':
## 
##     recode, rename

Lo que demuestra la base de información es que la mayor oferta de viviendas ofrecidas en Cali son apartamentos.

## >>> suggestions
## PieChart(tipo, hole=0)  # traditional pie chart
## PieChart(tipo, values="%")  # display %'s on the chart
## PieChart(tipo)  # bar chart
## Plot(tipo)  # bubble plot
## Plot(tipo, values="count")  # lollipop plot 
## 
## --- tipo --- 
## 
##                Apartamento   Casa      Total 
## Frequencies:          4986   3221       8207 
## Proportions:         0.608  0.392      1.000 
## 
## Chi-squared test of null hypothesis of equal probabilities 
##   Chisq = 379.581, df = 1, p-value = 0.000

La zona con el precio promedio de los apartamentos más alto fue la zona oeste, lo que representa una oportunidad teniendo en cuenta que el tipo de vivienda que más se está ofertando son los apartamentos.
Para las casas se ve una oportunidad en dos zonas que tienen precios de venta importantes que superan en promedio los 600 millones, estas son la zona oeste y la zona sur respectivamente.
Si bien en la zona sur los apartamentos no tienen el mayor valor de venta, si es cierto que es donde se tienen la mayor cantidad de apartamentos disponibles para la venta lo que también puede ser una opción a la hora de plantear una incursión de la inmobiliaria, situación similiar que se da con las casas.
La dispersión mostrada en la siguiente gráfica muestra lo siguiente:

Para los apartamentos el primer cuartil se ubica en lo 178 millones y el tercer cuartil en los 430 millones, lo que quiere decir que nuestro segmento de construcción debe enfocarse en apartamentos que en su mayoría esten en este rango de precios.
Para las casas el primer cuartil se ubicó en los 300 millones y el tercer cuartil en los 670 millones, lo que significa que si se desea competir en este tipo de viviendas debemos buscar zonas que tengan el suficiente poder adquisitivo, en este caso la zona sur de la ciudad.

Discusión

La oferta de vivienda en Cali es variada y se encuentra distribuida por todas las zonas de la ciudad, importante mencionar, si bien la base de datos no estaba con todos sus datos completos, a través de métodos estadísticos como la imputación de datos y el uso de indicadores de tendencia central se lograron tener datos que garantizaron una alta confiabilidad de la información, esto demuestra que los datos son parte esencial a la hora de la toma de decisiones en una organización y mas cuando estas hacen parte del core del negocio como una constructora. A continuación se detallan las conclusiones principales del ejercicio.

Conclusiones

La estadística como una herramienta que permite tomar decisiones con mayor nivel de certidumbre basada en los datos y contemplando las variables que pueden afectar esta decisión y los resultados de la empresa son un arma poderosa que permite hacer movimientos estratégicos controlados, después del análisis descrito anteriormente concluimos con los siguientes puntos.

La mayor cantidad de viviendas que se están vendiendo en cali en este momento son apartamentos.
Si bien hay una mayor cantidad de apartamentos que se están vendiendo comparado con las casas, el precio promedio de venta de las casas puede significar una mayor rentabilidad para la inmobiliaria, adicional que la zona de venta es de mayores ingreso por lo que su venta puede llegar a ser más rápida.
El nicho de mercado que se sugiere atacar en este caso va hacia la venta de casas en la zona sur y zona oeste de la ciudad.
La estrategia de marketing va relacionada con el estatus por la zona en la que se venden las casas y el precio de las mismas.
De acuerdo al gráfico de cajas el precio de venta de las casas debería estar entre los 300 y lo 670 millones, sin embargo, hay valores que exceden el límite superior y que se podrían contemplar como una opción.

Anexos

Adjunto se relaciona el código utilizado para la limpieza de los datos.

Se realiza eliminan 3 filas NA que aparecen en toda la base, se elimnan con la columna ID.
Se unificaron los nombres de tipo de vivienda ya que para una misma referencia se etiqueban con nombres diferentes.
Se tomaron como referencia tres columnas para determinar en los datos faltantes de piso y parqueadero e imputar los valores.
Buscando la moda de los registros que cumplieran con el mismo barrio, mismo estrato y tipo de vivienda se reemplazó a los datos faltantes.
Después de este ejercicio, todos los registros casa se cambiaron a piso 1, ya que habían datos atípicos por ser muy altos para una casa.
Los últimos datos faltantes se eliminaron de la muestra por no tener ninguna parámetro para relacionarse como barrio o estrato, los datos estaban vacíos