Analisi del Mercato Immobiliare del Texas

Caricamento dataset e librerie

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## 
## Caricamento pacchetto: 'kableExtra'
## 
## 
## Il seguente oggetto è mascherato da 'package:dplyr':
## 
##     group_rows

Analisi delle variabili

city: Variabile qualitativa nominale che indica la città di riferimento.
year: Variabile quantitativa discreta che rappresenta l’anno di riferimento.
month: Variabile quantitativa discreta che rappresenta il mese di riferimento (valori da 1 a 12). Utile per analisi stagionali o mensili.
sales: Variabile quantitativa continua che indica il numero totale di vendite. Può essere utilizzata per analizzare le tendenze nelle vendite.
volume: Variabile quantitativa continua che indica il valore totale delle vendite (in milioni di dollari). Utile per comprendere il valore economico del mercato immobiliare.
median_price: Variabile quantitativa continua che indica il prezzo mediano di vendita (in dollari). Importante per analizzare l’andamento dei prezzi degli immobili.
listings: Variabile quantitativa continua che indica il numero totale di annunci attivi. Può essere utilizzata per valutare l’offerta immobiliare.
months_inventory: Variabile quantitativa continua che indica il tempo necessario per vendere tutte le inserzioni correnti, espresso in mesi. Utile per comprendere la dinamica tra domanda e offerta.

Per le variabili quantitative come: sales, volume, median_price, listings, months_inventory possiamo calcolare indici di posizione (media, mediana), variabilità (deviazione standard, varianza) e forma (asimmetria e curtosi).

Per le variabili qualitative (city): possiamo creare tabelle di frequenza, grafici a barre o analizzare differenze tra gruppi.

Indici di posizione, variabilità e forma

Calcolo delle deviazioni standard

Variabilità - Deviazione Standard per Variabile
Variable	Standard_Deviation
Sales	79.651111
Volume	16.651447
Median_Price	22662.148687
Listings	752.707756
Months_Inventory	2.303669

Calcolo dell’asimmetria

Asimmetria per Variabile
Variable	Skewness
Sales	0.7181040
Volume	0.8847420
Median_Price	-0.3645529
Listings	0.6494982
Months_Inventory	0.0409753

Calcolo della curtosi

Curtosi (Eccesso) per Variabile
Variable	Kurtosis
Sales	-0.3131764
Volume	0.1769870
Median_Price	-0.6229618
Listings	-0.7917900
Months_Inventory	-0.1744475

Identificazione delle variabili con maggiore variabilità e asimmetria

Per calcolare quanto richiesto, ho deciso di calcolare le statistiche di media (mean), deviazione standard (sd), coefficiente di variazione (cv) ed infine asimmetria (skewness).

## Variabile con maggiore CV: volume_cv

## Variabile con maggiore asimmetria: volume_skewness

La variabile con il coefficiente di variazione più alto è volume, il che significa che il valore totale delle vendite (in milioni di dollari) varia maggiormente rispetto alla sua media.

La variabile con l’asimmetria più elevata è volume, indicando che la distribuzione del volume delle vendite è la più asimmetrica.

Un alto coefficiente di variazione in volume suggerisce che ci sono significative fluttuazioni nel valore totale delle vendite, il che potrebbe indicare opportunità o rischi nel mercato immobiliare.

L’asimmetria positiva in volume indica che ci sono alcuni valori estremamente elevati che influenzano la distribuzione, probabilmente dovuti a periodi o città con vendite eccezionalmente alte.

Creazione di classi per una variabile quantitativa

La variabile quantitativa che ho scelto per la distribuzione di frequenze e la suddivisione in classi è sales.

Per prima cosa, ho diviso in n classi utilizzando la regola di Sturges con /\(n=⌈1+log 2 (N)]/\) dove N è il numero totale di osservazioni.

## 
## [78.7,117]  (117,155]  (155,194]  (194,232]  (232,270]  (270,308]  (308,347] 
##         46         51         44         27         23         26         10 
##  (347,385]  (385,423] 
##          9          4

Calcolo dell’indice di Gini

## [1] 0.3435185

Un indice di Gini di, 0.34 indica una moderata disuguaglianza nella distribuzione delle vendite tra le classi. Ciò significa che le vendite non sono distribuite uniformemente tra le classi, con alcune classi che contengono un numero maggiore di osservazioni.

##Calcolo della probabilità

In questo script ho calcolato la probabilità che, presa una riga a caso dal dataset, essa riporti la città “Beaumont”, il mese di Luglio, o il mese di dicembre 2012.

## [1] 0.25

## [1] 0.08333333

## [1] 0.01666667

La probabilità di selezionare una riga relativa a Beaumont è di 0.25, indicando che il 25% delle osservazioni nel dataset riguardano questa città.
La probabilità di selezionare una riga del mese di Luglio è di 0.08, suggerendo che i dati sono distribuiti uniformemente durante l’anno.
La probabilità di selezionare una riga del mese di dicembre 2012 è di 0.016, il che indica che questo specifico mese e anno rappresenta una piccola porzione del dataset (circa l’1.67%).

Creazione di nuove variabili

Creazione della colonna del prezzo medio

Per prima cosa creerò una nuova colonna che calcoli il prezzo medio degli immobili. Dato da: Average_price = Volume / Sales.

Moltiplico il volume per 1 x 10^6 per ottenere il prezzo medio in dollari.

Creazione della colonna che misura l’efficacia degli annunci

Per misurare l’efficacia degli annunci, si crea un indicatore che confronta il numero di vendite (sales) con il numero di annunci attivi (listings).

Con il prezzo medio sarà possibile definire il trend dei prezzi identificando come varia tra le diverse città, mesi e anni.

L’efficacia degli annunci invece può essere utilizzato per identificare il tasso di conversione e conseguentemente comprendere se il mercato è saturo o gli annunci non sono efficaci.

Analisi condizionata

In questi script, ho effettuato l’analisi statistica condizionata per città, mese e anno. Ho generato dei summary (media e dev.std) e rappresentato i risultati graficamente.

Analisi condizionata per città

statistiche riassuntive per città
city	mean_sales	sd_sales	mean_volume	sd_volume	mean_median_price	sd_median_price	mean_efficacia_annunci	sd_efficacia_annunci
Beaumont	177.3833	41.48395	26.13160	6.970384	129988.3	10104.993	0.1061332	0.0266852
Bryan-College Station	205.9667	84.98374	38.19160	17.248577	157488.3	8852.235	0.1473431	0.0728503
Tyler	269.7500	61.96380	45.76738	13.107146	141441.7	9336.538	0.0934894	0.0234561
Wichita Falls	116.0667	22.15192	13.93017	3.239766	101743.3	11320.034	0.1280140	0.0247173

Boxplot del prezzo mediano per città

Boxplot dell’efficacia degli annunci per città

###Analisi condizionata per anno

Statistiche per anno
year	mean_sales	sd_sales	mean_volume	sd_volume	mean_median_price	sd_median_price
2010	168.6667	60.53708	25.67590	10.79510	130191.7	21821.76
2011	164.1250	63.87042	25.15781	12.20349	127854.2	21317.80
2012	186.1458	70.90509	29.26756	14.52269	130077.1	21431.52
2013	211.9167	83.99641	35.15240	17.93470	135722.9	21708.08
2014	230.6042	95.51490	39.77227	21.18628	139481.2	25625.41

Line chart delle vendite medie per anno

Analisi condizionata per mese

Statistiche riassuntive per mese
month	mean_sales	sd_sales	mean_volume	sd_volume
1	127.40	43.38372	19.00075	8.371855
2	140.85	51.06783	21.65150	10.093587
3	189.45	59.17812	29.38470	12.017933
4	211.70	65.40489	33.30445	14.523259
5	238.85	83.11582	39.70210	19.020766
6	243.55	94.99832	41.30315	21.080942
7	235.75	96.27421	39.12190	21.412704
8	231.45	79.22883	38.01415	18.048059
9	182.35	72.51807	29.59915	15.220800
10	179.90	74.95395	29.07860	15.133707
11	156.85	55.46670	24.80715	11.153694
12	169.40	60.74658	27.09465	12.568417

Line chart delle vendite per mese

Creazione di grafici

In questa sezione effettuerò: Un boxplot per confrontare la distribuzione del prezzo mediano tra le città

Grafici a barre per confrontare il totale delle vendite per mese e città

Line Charts per confrontare l’andamento delle vendite in periodi storici differenti.

Boxplot per il prezzo mediano tra le città

I boxplot mostrano la distribuzione del prezzo mediano delle case in ciascuna città, in 3 di queste città sono presenti outlier, e il valore mediano è più alto per la città Bryan-College.

Grafici a barre per il totale delle vendite per mese e città

Grafico a barre normalizzato

Attraverso questo grafico è possibile osservare la stagionalità delle vendite, è osservabile come nei primi mesi dell’anno la città di Tyler moostra più vendite rispetto a Bryan-Collage Station che invece recupera le vendite nei mesi più caldi.