Analisi del Mercato Immobiliare del Texas

Descrizione del progetto:

L’azienda Texas Realty Insights desidera analizzare le tendenze del mercato immobiliare nello stato del Texas, sfruttando i dati storici relativi alle vendite di immobili. L’obiettivo è fornire insight statistici e visivi che supportino le decisioni strategiche di vendita e ottimizzazione delle inserzioni immobiliari.

Obiettivi del progetto:

Identificare e interpretare i trend storici delle vendite immobiliari in Texas.
Valutare l’efficacia delle strategie di marketing delle inserzioni immobiliari.
Offrire una rappresentazione grafica dei dati che evidenzi la distribuzione dei prezzi e delle vendite tra città, mesi e anni.

1. Analisi delle variabili:

Identifica e descrivi il tipo di variabili statistiche presenti nel dataset. Valuta come gestire le variabili che sottintendono una dimensione tempo e commenta sul tipo di analisi che può essere condotta su ciascuna variabile.

Caricamento del dataset “Real Estate Texas.csv” in un dataframe R denominato df e visualizzazione dell’intestazione in formato tabella per verificarne il caricamento.

city	year	month	sales	volume	median_price	listings	months_inventory
Beaumont	2010	1	83	14.162	163800	1533	9.5
Beaumont	2010	2	108	17.690	138200	1586	10.0
Beaumont	2010	3	182	28.701	122400	1689	10.6
Beaumont	2010	4	200	26.819	123200	1708	10.6
Beaumont	2010	5	202	28.833	123100	1771	10.9
Beaumont	2010	6	189	27.219	122800	1803	11.1

Il dataset contiene le seguenti variabili:

city: città di riferimento
year: anno di riferimento
month: mese di riferimento
sales: numero totale di vendite
volume: valore totale delle vendite (in milioni di dollari)
median_price: prezzo mediano di vendita (in dollari)
listings: numero totale di annunci attivi
months_inventory: quantità di tempo necessaria per vendere tutte le inserzioni correnti, espresso in mesi

Caricamento delle librerie necessarie per condurre l’analisi.

library(dplyr)
library(e1071)
library(ggplot2)
library(ggrepel)
library(kableExtra)
library(knitr)
library(tidyr)

Utilizzo delle funzioni str(df), duplicated(df), summary(df) e dplyr::glimpse(df) per ispezionare la struttura, le tipologie di dati e la statistica descrittiva iniziale del dataset caricato.

## 'data.frame':    240 obs. of  8 variables:
##  $ city            : chr  "Beaumont" "Beaumont" "Beaumont" "Beaumont" ...
##  $ year            : int  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
##  $ month           : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ sales           : int  83 108 182 200 202 189 164 174 124 150 ...
##  $ volume          : num  14.2 17.7 28.7 26.8 28.8 ...
##  $ median_price    : num  163800 138200 122400 123200 123100 ...
##  $ listings        : int  1533 1586 1689 1708 1771 1803 1857 1830 1829 1779 ...
##  $ months_inventory: num  9.5 10 10.6 10.6 10.9 11.1 11.7 11.6 11.7 11.5 ...

Il dataset contiene 240 osservazioni

df[duplicated(df), ]

## [1] city             year             month            sales           
## [5] volume           median_price     listings         months_inventory
## <0 rows> (or 0-length row.names)

Il dataset non contiene duplicati

city	year	month	sales	volume	median_price	listings	months_inventory
Length:240	Min. :2010	Min. : 1.00	Min. : 79.0	Min. : 8.166	Min. : 73800	Min. : 743	Min. : 3.400
Class :character	1st Qu.:2011	1st Qu.: 3.75	1st Qu.:127.0	1st Qu.:17.660	1st Qu.:117300	1st Qu.:1026	1st Qu.: 7.800
Mode :character	Median :2012	Median : 6.50	Median :175.5	Median :27.062	Median :134500	Median :1618	Median : 8.950
NA	Mean :2012	Mean : 6.50	Mean :192.3	Mean :31.005	Mean :132665	Mean :1738	Mean : 9.193
NA	3rd Qu.:2013	3rd Qu.: 9.25	3rd Qu.:247.0	3rd Qu.:40.893	3rd Qu.:150050	3rd Qu.:2056	3rd Qu.:10.950
NA	Max. :2014	Max. :12.00	Max. :423.0	Max. :83.547	Max. :180000	Max. :3296	Max. :14.900

Riassunto statistico e descrittivo di ogni colonna del dataframe: Calcolo di Minimo, Massimo, Mediana (50° Percentile), Media, Terzo Quartile (75° Percentile) e Primo Quartile (25° Percentile)

## Rows: 240
## Columns: 8
## $ city             <chr> "Beaumont", "Beaumont", "Beaumont", "Beaumont", "Beau…
## $ year             <int> 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010,…
## $ month            <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3, 4, 5,…
## $ sales            <int> 83, 108, 182, 200, 202, 189, 164, 174, 124, 150, 150,…
## $ volume           <dbl> 14.162, 17.690, 28.701, 26.819, 28.833, 27.219, 22.70…
## $ median_price     <dbl> 163800, 138200, 122400, 123200, 123100, 122800, 12430…
## $ listings         <int> 1533, 1586, 1689, 1708, 1771, 1803, 1857, 1830, 1829,…
## $ months_inventory <dbl> 9.5, 10.0, 10.6, 10.6, 10.9, 11.1, 11.7, 11.6, 11.7, …

Categorizzazione delle variabili del dataset in base alla tipologia: Variabili Qualitative / Variabili Quantitative. Sulla base dell’analisi dei dati, di seguito una classificazione delle variabili:

Variabili qualitative:

city: Questa è una variabile qualitativa nominale che rappresenta diverse città del Texas. Utile per raggruppare i dati e confrontare le tendenze in diverse località.

Variabili quantitative:

year: Una variabile intera che rappresenta l’anno. Sebbene numericamente sia un numero intero, è intrinsecamente una componente di serie temporale, che indica periodi di osservazione specifici. Può essere trattata come quantitativa discreta su scala di intervalli per alcune analisi (ad esempio, aggregazioni per anno) e/o come una componente temporale se combinata con month.
month: Una variabile intera che rappresenta il mese dell’anno. Simile a year, è una variabile quantitativa discreta su scala di rapporti. È fondamentale per identificare le tendenze stagionali.
sales: variabile intera che rappresenta il numero totale di vendite. Questa è una variabile quantitativa discreta adatta per calcolare somme, medie e analizzare la distribuzione.
volume: variabile numerica che rappresenta il valore totale delle vendite (in milioni di dollari). Questa è una variabile quantitativa continua, adatta a vari calcoli statistici come media, deviazione standard e per l’analisi delle tendenze.
median_price: variabile numerica che rappresenta il prezzo mediano delle vendite (in dollari). Questa è una variabile quantitativa continua, fondamentale per comprendere le tendenze e le distribuzioni dei prezzi.
listings: variabile intera che rappresenta il numero totale di inserzioni attive. Questa è una variabile quantitativa discreta, utile per valutare l’offerta di mercato.
months_inventory: variabile numerica che rappresenta il tempo necessario per vendere tutte le inserzioni correnti. Questa è una variabile quantitativa continua, fondamentale per comprendere l’equilibrio e la domanda di mercato.

Per un’analisi affidabile delle serie temporali o una rappresentazione grafica più intuitiva, è utile gestire le variabili intere ‘year’ e ‘month’, che rappresentano una dimensione temporale, combinandole in una nuova variabile, chiamata ‘date’ e che rappresenta il primo giorno di ogni mese.

city	year	month	sales	volume	median_price	listings	months_inventory	date
Beaumont	2010	1	83	14.162	163800	1533	9.5	2010-01-01
Beaumont	2010	2	108	17.690	138200	1586	10.0	2010-02-01
Beaumont	2010	3	182	28.701	122400	1689	10.6	2010-03-01
Beaumont	2010	4	200	26.819	123200	1708	10.6	2010-04-01
Beaumont	2010	5	202	28.833	123100	1771	10.9	2010-05-01
Beaumont	2010	6	189	27.219	122800	1803	11.1	2010-06-01

Ciò consentirà:

Analisi delle serie temporali: tracciare facilmente i trend nel tempo.
Analisi della stagionalità: raggruppamento per mese per osservare i modelli stagionali, o per anno per osservare le variazioni annuali.
Filtraggio e aggregazione: filtrare efficacemente i dati per periodi specifici o aggregare i dati su intervalli di tempo più lunghi (ad esempio, trimestrali o annuali).

2. Indici di posizione, variabilità e forma:

Calcola Indici di posizione, variabilità e forma per tutte le variabili per le quali ha senso farlo, per le altre crea una distribuzione di frequenza. Infine, commenta tutto brevemente.

Calcolo della statistica descrittiva (media, mediana, deviazione standard, IQR, varianza, asimmetria e curtosi) per le variabili quantitative: vendite, volume, prezzo_mediano, listings e mese_inventario. Verifica che la variabile sia numerica e aggiunta dei risultati al dataframe.

Descriptive Statistics for Quantitative Variables
Variable	Mean	Median	SD	Variance	IQR	Skewness	Kurtosis
sales	192.29	175.50	79.65	6344.30	120.00	0.71	-0.34
volume	31.01	27.06	16.65	277.27	23.23	0.88	0.15
median_price	132665.42	134500.00	22662.15	513572983.09	32750.00	-0.36	-0.64
listings	1738.02	1618.50	752.71	566568.97	1029.50	0.65	-0.81
months_inventory	9.19	8.95	2.30	5.31	3.15	0.04	-0.20

Generazione delle distribuzioni di frequenza per le variabili qualitative e quantitative discrete: city, year, and month.

Frequenze assolute e relative per city
City	Frequenza_Assoluta	Frequenza_Relativa
Beaumont	60	0.25
Bryan-College Station	60	0.25
Tyler	60	0.25
Wichita Falls	60	0.25

Frequenze assolute e relative per year
Year	Frequenza_Assoluta	Frequenza_Relativa
2010	48	0.2
2011	48	0.2
2012	48	0.2
2013	48	0.2
2014	48	0.2

Frequenze assolute e relative per month
Month	Frequenza_Assoluta	Frequenza_Relativa
1	20	0.08
2	20	0.08
3	20	0.08
4	20	0.08
5	20	0.08
6	20	0.08
7	20	0.08
8	20	0.08
9	20	0.08
10	20	0.08
11	20	0.08
12	20	0.08

Infine possiamo evidenziare i seguenti risultati principali dall’analisi dei dati:

Vendite e volume mostrano un’asimmetria positiva:
vendite (media: 192,29, mediana: 175,5, asimmetria: 0,714) e volume (media: 31,01 milioni, mediana: 27,06 milioni, asimmetria: 0,879) hanno entrambi medie superiori alle loro mediane, indicando una concentrazione di valori inferiori e occasionali valori superiori che spingono la media verso l’alto.
Il prezzo mediano è leggermente asimmetrico negativamente:
prezzo_mediano (media: 132.665$ , mediana: 134.500$ , asimmetria: -0,362) ha una mediana leggermente superiore alla media, suggerendo una concentrazione di prezzi nella fascia alta. Presenta inoltre un’elevata variabilità con una deviazione standard di 22.662$.
Gli annunci presentano un’asimmetria positiva con elevata variabilità:
Anche listings (media: 1738,02, mediana: 1618,5, asimmetria: 0,645) presenta un’asimmetria positiva e una variabilità sostanziale (deviazione standard: 752,71).
L’inventario mensile è quasi simmetrico e meno variabile:
months_inventory (media: 9,19, mediana: 8,95, asimmetria: 0,041) presenta una distribuzione quasi simmetrica e la più bassa variabilità relativa (deviazione standard: 2,30) tra le variabili quantitative.
Le distribuzioni platicurtiche sono comuni:
vendite, prezzo_mediano e listings presentano tutte distribuzioni platicurtiche (valori di curtosi rispettivamente di -0,336, -0,643 e -0,810), il che significa che hanno code più chiare e sono meno acuminate rispetto a una distribuzione normale. volume è mesocurtico (curtosi: 0,151) e inventario_mesi è quasi mesocurtico (curtosi: -0,198).
Il set di dati è perfettamente bilanciato per le variabili categoriali:
Ciascuna delle quattro voci città, delle cinque voci anno e delle dodici voci mese presenta un numero uguale di osservazioni (60 per la città, 48 per l’anno e 20 per il mese), garantendo un set di dati bilanciato per analisi comparative tra queste dimensioni.

In conclusione, la prevalente asimmetria positiva in vendite, volume e inserzioni suggerisce che, sebbene la maggior parte dei periodi presenti un’attività moderata, si verificano occasionali picchi che aumentano significativamente le medie. Inoltre la distribuzione equilibrata delle osservazioni tra le variabili città, anno e mese rende il set di dati altamente adatto per analisi di serie temporali, studi di stagionalità e confronti specifici per città, senza la necessità di ponderazione o normalizzazione a causa di una rappresentazione non uniforme.

3. Identificazione delle variabili con maggiore variabilità e asimmetria:

Determina: - Qual è la variabile con la più alta variabilità - Qual è la variabile con la distribuzione più asimmetrica. Spiega come sei giunto a queste conclusioni e fornisci considerazioni statistiche.

Calcolo del Coefficiente di Variazione $CV = \frac{SD}{Mean}$ per confontare la variabilità tra variabili con scale diverse. Per ognuna vengono calcolate media e deviazione standard, necessarie per determinare il CV. Successivamente sarà possibile identificare la variabile con il CV più alto. Infine viene stampata una tabella per raggruppare i risultati.

Coefficiente di Variazione e Skewness delle Variabili Quantitative
	Variable	Mean	SD	CV	Sk
2	volume	31.01	16.65	0.54	0.88
4	listings	1738.02	752.71	0.43	0.65
1	sales	192.29	79.65	0.41	0.71
5	months_inventory	9.19	2.30	0.25	0.04
3	median_price	132665.42	22662.15	0.17	-0.36

In seguito ai risultati riscontrati dall’analisi è emerso che:

La variabile con il CV più alto (0.54) e quindi con la più alta variabilità è: volume
La variabile con la Sk più alta (0.88) e quindi con la distribuzione più asimmetrica è: volume

Di seguito la rappresentazione grafica dei risultati ottenuti:

Destra → variabili con alta variabilità relativa (CV alto)
Alto → variabili molto asimmetriche (skewness alta)
Basso → variabili simmetriche
In alto a destra → variabili molto variabili e molto asimmetriche
In basso a sinistra → variabili stabili e simmetriche

4. Creazione di classi per una variabile quantitativa:

Seleziona una variabile quantitativa (es. sales o median_price) e suddividila in classi. Crea una distribuzione di frequenze e rappresenta i dati con un grafico a barre. Calcola l’indice di eterogeneità Gini e discuti i risultati.

Per l’analisi viene selezionata la variabile median_price e viene deciso di suddividerla in 5 classi equidistanti rappresentabili tramite istogramma. Viene anche generata la distribuzione di frequenza e inclusa in tabella.

Distribuzione di median_price per intervalli numerati con frequenze assoluta delle classi di median_price ed esempi reali
	Intervallo	Classe	Frequenza_Assoluta	Esempio
[ 73,800 - 95,040]	Intervallo1	[ 73,800 - 95,040]	18	87,200
[ 95,040 - 116,280]	Intervallo2	[ 95,040 - 116,280]	40	111,100
[116,280 - 137,520]	Intervallo3	[116,280 - 137,520]	73	122,400
[137,520 - 158,760]	Intervallo4	[137,520 - 158,760]	84	138,200
[158,760 - 180,000]	Intervallo5	[158,760 - 180,000]	25	163,800

Successivamente viene generato il grafico a barre.

Calcolo dell’indice di eterogeneità di Gini $(G = 1 - \sum_{i=1}^{I} p_i^2)$ e discussione dei risultati.

Indice di eterogeneità di Gini (non normalizzato e normalizzato)
Gini_Heterogeneity_Index	Gini_Heterogeneity_Index_Normalized
0.7407	0.9259

Grafico dell’Indice di Eterogeneità di Gini

L’Indice di Eterogeneità di Gini misura la propensione di una variabile qualitativa ad assumere le sue diverse modalità, andando quindi a considerare la distribuzione di frequenze.
Ad esempio:

G’ = 0 Eterogeneità nulla o omogeneità (Massima concentrazione)
G’ = 1 Eterogeneità massima (Equidistribuzione)

Quindi per concludere, considerando in questo caso Gini normalizzato, abbiamo un indice pari a 0.9 che indica un’alta eterogeneità. La suddivisione della varianbile median_price in 5 classi, ha influenzato il risultato. Infatti se le classi fossero state di meno l’indice sarebbe stato più basso. Questo risultato comunque, evidenzia l’alta propensione della variabile, suddivisa in 5 classi, ad assumere le sue diverse modalità.

5. Calcolo della probabilità:

Qual è la probabilità che, presa una riga a caso di questo dataset, essa riporti la città “Beaumont”? E la probabilità che riporti il mese di Luglio? E la probabilità che riporti il mese di dicembre 2012?

Per stimare la probabilità che una riga scelta a caso dal dataset riporti una certa caratteristica, ovvero la probabilità del singolo evento, si calcola il rapporto tra il numero di righe che soddisfano l’evento e il numero totale di righe.

Probability for Beaumont
Number_of_rows_for_Beaumont	Total_number_of_rows	Probability_of_selecting_a_row_for_Beaumont
60	240	0.25

Stesso calcolo per stimare la probabilità che una riga scelta a caso dal dataset riporti il mese di Luglio.

Probability for July
Number_of_rows_for_July	Total_number_of_rows	Probability_of_selecting_a_row_for_July
20	240	0.083

Anche per stimare la probabilità che una riga scelta a caso dal dataset riporti il mese di dicembre 2012 si effettua lo stesso calcolo

Probability for December 2012
Number_of_rows_for_July	Total_number_of_rows	Probability_of_selecting_a_row_for_December_2012
4	240	0.017

Sintetizzando i risultati ottenuti con questo calcolo della probabilità riscontriamo che:

Per la Città ‘Beaumont’, la probabilità di selezionare casualmente una riga è uguale a P = 0.25, che corrisponde al 25%. Questo dato conferma la distribuzione bilanciata del dataset, con 4 città e 60 osservazioni ciascuna su 240, reppresentate in modo uniforme.
Per il Mese ‘July’, la probabilità di selezionare casualmente una riga è uguale a P ≈ 0.083, che corrisponde circa al 8,33% delle osservazioni. Anche questo dato conferma la struttura bilanciata del dataset, con 12 mesi e 20 osservazioni ciascuna, reppresentate equamente.
Per il Mese ‘December 2012’, la probabilità di selezionare casualmente una riga è uguale a P ≈ 0.0167, che corrisponde circa al 1,67% delle osservazioni. In questo caso si tratta di un’intersezione mese-anno, e dato che ogni combinazione mese‑anno‑città compare una sola volta, le 4 città generano 4 righe su 240 (1/60), dimostrando che la probabilità di scegliere un intervallo di tempo molto specifico è piuttosto bassa, come previsto dalla granularità dei dati.

6. Creazione di nuove variabili:

Crea una nuova colonna che calcoli il prezzo medio degli immobili utilizzando le variabili disponibili. Prova a creare una colonna che misuri l’efficacia degli annunci di vendita. Commenta e discuti i risultati.

Sono state create due nuove variabili nel dataframe df:

average_price, calcolata come (volume * 1.000.000) / sales, per stimare il prezzo medio per transazione.
listing_effectiveness, calcolata come sales / listings, per misurare l’efficacia degli annunci di vendita.

Per ciascuna variabile sono stati visualizzati l’head del dataframe aggiornato e le statistiche descrittive, al fine di verificarne la corretta creazione e analizzare le distribuzioni.

Head del dataframe con ‘average_price’ e ‘listing_effectiveness’
city	year	month	sales	volume	median_price	listings	months_inventory	date	median_price_class	average_price	listing_effectiveness
Beaumont	2010	1	83	14.16	163800	1533	9.5	2010-01-01	[158,760 - 180,000]	170627	0.05
Beaumont	2010	2	108	17.69	138200	1586	10.0	2010-02-01	[137,520 - 158,760]	163796	0.07
Beaumont	2010	3	182	28.70	122400	1689	10.6	2010-03-01	[116,280 - 137,520]	157698	0.11
Beaumont	2010	4	200	26.82	123200	1708	10.6	2010-04-01	[116,280 - 137,520]	134095	0.12
Beaumont	2010	5	202	28.83	123100	1771	10.9	2010-05-01	[116,280 - 137,520]	142738	0.11
Beaumont	2010	6	189	27.22	122800	1803	11.1	2010-06-01	[116,280 - 137,520]	144016	0.10

Statistiche descrittive di ‘average_price’ e ‘listing_effectiveness’
Statistica	Average_Price	Listing_Effectiveness
Min.	97010.0	0.0501
1st Qu.	132939.0	0.0898
Median	156588.5	0.1096
Mean	154320.4	0.1187
3rd Qu.	173915.0	0.1349
Max.	213234.0	0.3871

Commenti:

average_price:

average_price rappresenta il prezzo medio per transazione immobiliare, ottenuto dividendo il volume totale delle vendite (in dollari) per il numero di vendite. A differenza di median_price, che indica il valore tipico di un immobile, questa misura riflette il valore medio delle transazioni e può essere influenzata da vendite di fascia alta.

Distribuzione (statistiche):

Min: 97.010
1° Qu.: 132.939
Mediana: 156.588
Media: 154.320
3° Qu.: 173.915
Max: 213.234

Il range va da circa 97.000 a 213.000 dollari. La media è leggermente inferiore alla mediana (media ≈ 154.320; mediana ≈ 156.588), indicando una lieve asimmetria negativa. I valori sono generalmente più alti rispetto a median_price (media ≈ 132.665; mediana ≈ 134.500), suggerendo che le vendite di fascia alta contribuiscono in modo significativo al volume totale. La piccola differenza tra media e mediana indica una distribuzione relativamente simmetrica. Si può quindi assumere che: - Per quanto riguarda la prospettiva di ricavo, average_price è un indicatore diretto del valore medio generato per vendita. - Invece, per la segmentazione del mercato, una differenza marcata rispetto alla mediana può indicare la presenza di immobili di fascia alta che lo influenzano.

listing_effectiveness:

listing_effectiveness misura quante vendite avvengono per ogni annuncio attivo. È un indicatore dell’efficienza del mercato o dell’efficacia delle strategie di vendita.

Distribuzione (statistiche):

Min: 0.050
1° Qu.: 0.089
Mediana: 0.110
Media: 0.119
3° Qu.: 0.135
Max: 0.387

I valori variano dal 5% al 38,7%, mostrando una forte variabilità. La media superiore alla mediana indica una asimmetria positiva: la maggior parte dei periodi presenta livelli moderati di efficacia, ma alcuni casi particolarmente favorevoli innalzano la media. Si può quindi assumere che: - Per il rapporto tra domanda e offerta, ivalori elevati indicano un mercato dinamico o una forte domanda. - Efficacia del marketing: città o periodi con valori costantemente alti potrebbero beneficiare di strategie di vendita più efficaci. - Variabilità: l’ampio range suggerisce che l’efficacia dipende da fattori specifici (stagionalità, area geografica, condizioni di mercato).

Per i next steps e il supporto alle decisioni e analisi future è possibile considerare che le nuove variabili forniscono metriche utili per comprendere la dinamica del mercato. Nello specifico average_price aiuta a valutare il valore medio delle transazioni, mentre listing_effectiveness misura la capacità del mercato di trasformare annunci in vendite. Inoltre l’analisi dell’efficacia degli annunci può aiutare a identificare i periodi o le città più favorevoli per pubblicare nuovi annunci

7. Analisi condizionata:

Usa il pacchetto dplyr o il linguaggio base di R per effettuare analisi statistiche condizionate per città, anno e mese. Genera dei summary (media, deviazione standard) e rappresenta graficamente i risultati.

Per l’analisi statistica condizionata viene considerata la variabile sales.

Il primo raggruppamento è quello per citta rappresentato tramite un grafico a barre affiancate:

city	mean_sales	sd_sales	cv_sales
Beaumont	177.383	41.484	0.234
Bryan-College Station	205.967	84.984	0.413
Tyler	269.750	61.964	0.230
Wichita Falls	116.067	22.152	0.191

Il secondo raggruppamento è quello per anno rappresentato tramite Line Chart con tre linee (media, sd, cv):

year	mean_sales	sd_sales	cv_sales
2010	168.667	60.537	0.359
2011	164.125	63.870	0.389
2012	186.146	70.905	0.381
2013	211.917	83.996	0.396
2014	230.604	95.515	0.414

Il terzo raggruppamento è quello per mese rappresentato anch’esso tramite Line Chart, con due linee (media, sd) e un pannello per anno:

In conclusione i tre livelli di aggregazione analizzati forniscono tre prospettive complementari che permettono di comprendere sia l’evoluzione generale del mercato con le sue variazioni stagionali e territoriali, sia le sue specificità operative:

Il raggruppamento per città è utile a capire dove si vende meglio e dove c’è più volatilità, permettendo di pianificare delle strategie territoriali. Qui si possono notare delle differenze territoriali marcate. Alcune città presentano livelli medi di vendita più elevati, come Tyler e Bryan‑College Station, mentre altre mostrano valori più contenuti. La deviazione standard cresce in modo coerente con la media, ma il coefficiente di variazione evidenzia che città come Bryan‑College Station mostrano una variabilità relativa più alta, indicando un mercato meno stabile e più difficile da prevedere. Al contrario, realtà come Wichita Falls presentano una domanda più regolare e meno soggetta a oscillazioni.
Il raggruppamento per anno permette di capire come evolve il mercato nel lungo periodo ed utile a definire il trend di fondo, crescità e stabilità. Questa osservazione mostra un trend di crescita costante della media delle vendite dal 2010 al 2014, accompagnato da un aumento progressivo della deviazione standard, suggerendo che, pur in presenza di una domanda in espansione, la variabilità assoluta delle vendite cresce nel tempo.
Il raggruppamento per mese risponde al quesito sulla stagionalità, ovvero quando si vende meglio, e può essere utile a definire pianificazione e forecasting. Infatti in tutti gli anni analizzati emergono pattern ricorrenti (stagionalità), con valori più elevati nei mesi centrali e livelli più bassi all’inizio e alla fine dell’anno.

8. Creazione di visualizzazioni con ggplot2:

Utilizza ggplot2 per creare grafici personalizzati. Assicurati di esplorare:

Boxplot per confrontare la distribuzione del prezzo mediano tra le città.
Grafici a barre per confrontare il totale delle vendite per mese e città.
Line charts per confrontare l’andamento delle vendite in periodi storici differenti.

Rappresentazione della distribuzione del prezzo mediano nelle diverse Città lungo gli anni tramite Boxplot.

Rappresentazione:

Tramite grafico a barre della distribuzione del valore totale delle vendite per mese, tra le varie città e anche tra i vari anni.
Tramite grafico a barre normalizzate della distribuzione del valore percentuale delle vendite per mese, tra le varie città e anche tra i vari anni.

Confronto dell’andamento delle vendite in periodi storici e città differenti tramite Line Chart.

Analisi Complessiva dei Risultati:

L’analisi dei grafici prodotti consente di delineare un quadro dell’andamento del mercato immobiliare nelle quattro città considerate. Le evidenze principali riguardano tre dimensioni fondamentali:

Differenze territoriali:
- Tyler si distingue come il mercato più dinamico e con i valori più elevati, sia in termini di prezzi che di vendite totali.
- Bryan-College Station presenta livelli medio-alti e un comportamento particolarmente variabile nel corso dell’anno.
- Beaumont si colloca in una fascia intermedia, con valori più contenuti ma relativamente stabili.
- Wichita Falls risulta costantemente il mercato meno performante, con prezzi e volumi sensibilmente inferiori rispetto alle altre città.
Stagionalità mensile delle vendite molto pronunciata e comune a tutte le città, seppure con ciclicità differenti. Questo elemento è evidenziato sia dai grafici a barre che dai line chart, in particolare si osserva che:
- Un incremento delle vendite tra maggio e luglio.
- Un calo progressivo verso la fine dell’anno.
- Livelli più bassi nei primi mesi.
Stabilità delle quote di mercato evidenziata dal grafico normalizzato delle ripartizioni percentuali delle vendite mesili tra le città. Le quote di mercato risultano infatti:
- Stabili nel tempo.
- Caratterizzate da una predominanza costante di Tyler.
- Con un ruolo marginale di Wichita Falls.
- Con variazioni mensili molto contenute.

9. Conclusioni:

Fornisci una sintesi dei risultati ottenuti, facendo riferimento alle principali tendenze emerse e fornendo raccomandazioni basate sull’analisi. Questo non è un progetto di programmazione, ma di statistica, e ci si aspetta di leggere commenti e considerazioni statistiche per i vari passaggi e risultati.

L’analisi esplorativa del mercato immobiliare texano, condotta attraverso statistiche descrittive, indici di variabilità e visualizzazioni con ggplot2, ha permesso di delineare un quadro chiaro e coerente delle dinamiche di vendita nelle quattro città considerate. Le evidenze emerse possono essere sintetizzate lungo tre direttrici principali: differenze territoriali, stagionalità delle vendite e stabilità delle quote di mercato. Come evidenziato nel punto 8, le differenze territoriali sono marcate e persistenti, la stagionalità delle vendite è un elemento dominante e le quote di mercato risultano stabili nel tempo. Queste evidenze suggeriscono un mercato maturo, caratterizzato da dinamiche prevedibili e da una forte eterogeneità tra aree geografiche.

Raccomandazioni:

Sulla base delle evidenze statistiche e grafiche è possibile formulare alcune raccomandazioni operative e strategiche:

Pianificazione delle attività commerciali: la forte stagionalità suggerisce di concentrare campagne di marketing, aumento delle inserzioni e iniziative promozionali nei mesi primaverili ed estivi, quando la domanda è più elevata.
Ottimizzazione delle strategie per città: Tyler e Bryan-College Station rappresentano i mercati più redditizi: investimenti mirati potrebbero generare ritorni significativi. Beaumont richiede strategie di stabilizzazione e consolidamento. Wichita Falls potrebbe beneficiare di interventi specifici per aumentare visibilità e competitività.
Monitoraggio della variabilità: la crescente variabilità delle vendite nel tempo (aumento della deviazione standard) indica che il mercato diventa progressivamente più dinamico. È consigliabile monitorare mensilmente gli indicatori chiave, aggiornare regolarmente i modelli previsionali e infine valutare l’impatto di fattori esterni (economici, demografici, stagionali).
Utilizzo delle nuove variabili create: average_price fornisce una misura utile per valutare il valore medio delle transazioni e identificare eventuali scostamenti rispetto al prezzo mediano. Listing_effectiveness permette di misurare l’efficienza del mercato e l’efficacia delle strategie di vendita: valori elevati indicano un buon rapporto tra domanda e offerta. Queste metriche possono essere integrate in dashboard operative o modelli decisionali.