L’azienda Texas Realty Insights desidera analizzare le tendenze del
mercato immobiliare nello stato del Texas, sfruttando i dati storici
relativi alle vendite di immobili. L’obiettivo è fornire insight
statistici e visivi che supportino le decisioni strategiche di vendita e
ottimizzazione delle inserzioni immobiliari.
Obiettivi del progetto:
Identifica e descrivi il tipo di variabili statistiche presenti
nel dataset. Valuta come gestire le variabili che sottintendono una
dimensione tempo e commenta sul tipo di analisi che può essere condotta
su ciascuna variabile.
Caricamento del dataset “Real Estate Texas.csv” in un dataframe R denominato df e visualizzazione dell’intestazione in formato tabella per verificarne il caricamento.
| city | year | month | sales | volume | median_price | listings | months_inventory |
|---|---|---|---|---|---|---|---|
| Beaumont | 2010 | 1 | 83 | 14.162 | 163800 | 1533 | 9.5 |
| Beaumont | 2010 | 2 | 108 | 17.690 | 138200 | 1586 | 10.0 |
| Beaumont | 2010 | 3 | 182 | 28.701 | 122400 | 1689 | 10.6 |
| Beaumont | 2010 | 4 | 200 | 26.819 | 123200 | 1708 | 10.6 |
| Beaumont | 2010 | 5 | 202 | 28.833 | 123100 | 1771 | 10.9 |
| Beaumont | 2010 | 6 | 189 | 27.219 | 122800 | 1803 | 11.1 |
Il dataset contiene le seguenti variabili:
Caricamento delle librerie necessarie per condurre l’analisi.
library(dplyr)
library(e1071)
library(ggplot2)
library(ggrepel)
library(kableExtra)
library(knitr)
library(tidyr)
Utilizzo delle funzioni str(df), duplicated(df), summary(df) e dplyr::glimpse(df) per ispezionare la struttura, le tipologie di dati e la statistica descrittiva iniziale del dataset caricato.
## 'data.frame': 240 obs. of 8 variables:
## $ city : chr "Beaumont" "Beaumont" "Beaumont" "Beaumont" ...
## $ year : int 2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
## $ month : int 1 2 3 4 5 6 7 8 9 10 ...
## $ sales : int 83 108 182 200 202 189 164 174 124 150 ...
## $ volume : num 14.2 17.7 28.7 26.8 28.8 ...
## $ median_price : num 163800 138200 122400 123200 123100 ...
## $ listings : int 1533 1586 1689 1708 1771 1803 1857 1830 1829 1779 ...
## $ months_inventory: num 9.5 10 10.6 10.6 10.9 11.1 11.7 11.6 11.7 11.5 ...
Il dataset contiene 240 osservazioni
df[duplicated(df), ]
## [1] city year month sales
## [5] volume median_price listings months_inventory
## <0 rows> (or 0-length row.names)
Il dataset non contiene duplicati
| city | year | month | sales | volume | median_price | listings | months_inventory | |
|---|---|---|---|---|---|---|---|---|
| Length:240 | Min. :2010 | Min. : 1.00 | Min. : 79.0 | Min. : 8.166 | Min. : 73800 | Min. : 743 | Min. : 3.400 | |
| Class :character | 1st Qu.:2011 | 1st Qu.: 3.75 | 1st Qu.:127.0 | 1st Qu.:17.660 | 1st Qu.:117300 | 1st Qu.:1026 | 1st Qu.: 7.800 | |
| Mode :character | Median :2012 | Median : 6.50 | Median :175.5 | Median :27.062 | Median :134500 | Median :1618 | Median : 8.950 | |
| NA | Mean :2012 | Mean : 6.50 | Mean :192.3 | Mean :31.005 | Mean :132665 | Mean :1738 | Mean : 9.193 | |
| NA | 3rd Qu.:2013 | 3rd Qu.: 9.25 | 3rd Qu.:247.0 | 3rd Qu.:40.893 | 3rd Qu.:150050 | 3rd Qu.:2056 | 3rd Qu.:10.950 | |
| NA | Max. :2014 | Max. :12.00 | Max. :423.0 | Max. :83.547 | Max. :180000 | Max. :3296 | Max. :14.900 |
Riassunto statistico e descrittivo di ogni colonna del dataframe: Calcolo di Minimo, Massimo, Mediana (50° Percentile), Media, Terzo Quartile (75° Percentile) e Primo Quartile (25° Percentile)
## Rows: 240
## Columns: 8
## $ city <chr> "Beaumont", "Beaumont", "Beaumont", "Beaumont", "Beau…
## $ year <int> 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010,…
## $ month <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3, 4, 5,…
## $ sales <int> 83, 108, 182, 200, 202, 189, 164, 174, 124, 150, 150,…
## $ volume <dbl> 14.162, 17.690, 28.701, 26.819, 28.833, 27.219, 22.70…
## $ median_price <dbl> 163800, 138200, 122400, 123200, 123100, 122800, 12430…
## $ listings <int> 1533, 1586, 1689, 1708, 1771, 1803, 1857, 1830, 1829,…
## $ months_inventory <dbl> 9.5, 10.0, 10.6, 10.6, 10.9, 11.1, 11.7, 11.6, 11.7, …
Categorizzazione delle variabili del dataset in base alla tipologia:
Variabili Qualitative / Variabili Quantitative. Sulla base dell’analisi
dei dati, di seguito una classificazione delle variabili:
city: Questa è una variabile qualitativa nominale che
rappresenta diverse città del Texas. Utile per raggruppare i dati e
confrontare le tendenze in diverse località. year: Una variabile intera che rappresenta l’anno.
Sebbene numericamente sia un numero intero, è intrinsecamente una
componente di serie temporale, che indica periodi di osservazione
specifici. Può essere trattata come quantitativa discreta su scala di
intervalli per alcune analisi (ad esempio, aggregazioni per anno) e/o
come una componente temporale se combinata con month.
month: Una variabile intera che rappresenta il mese
dell’anno. Simile a year, è una variabile quantitativa
discreta su scala di rapporti. È fondamentale per identificare le
tendenze stagionali. sales: variabile intera che rappresenta il numero
totale di vendite. Questa è una variabile quantitativa discreta adatta
per calcolare somme, medie e analizzare la distribuzione. volume: variabile numerica che rappresenta il valore
totale delle vendite (in milioni di dollari). Questa è una variabile
quantitativa continua, adatta a vari calcoli statistici come media,
deviazione standard e per l’analisi delle tendenze. median_price: variabile numerica che rappresenta il
prezzo mediano delle vendite (in dollari). Questa è una variabile
quantitativa continua, fondamentale per comprendere le tendenze e le
distribuzioni dei prezzi. listings: variabile intera che rappresenta il numero
totale di inserzioni attive. Questa è una variabile quantitativa
discreta, utile per valutare l’offerta di mercato. months_inventory: variabile numerica che rappresenta il
tempo necessario per vendere tutte le inserzioni correnti. Questa è una
variabile quantitativa continua, fondamentale per comprendere
l’equilibrio e la domanda di mercato. Per un’analisi affidabile delle serie temporali o una rappresentazione grafica più intuitiva, è utile gestire le variabili intere ‘year’ e ‘month’, che rappresentano una dimensione temporale, combinandole in una nuova variabile, chiamata ‘date’ e che rappresenta il primo giorno di ogni mese.
| city | year | month | sales | volume | median_price | listings | months_inventory | date |
|---|---|---|---|---|---|---|---|---|
| Beaumont | 2010 | 1 | 83 | 14.162 | 163800 | 1533 | 9.5 | 2010-01-01 |
| Beaumont | 2010 | 2 | 108 | 17.690 | 138200 | 1586 | 10.0 | 2010-02-01 |
| Beaumont | 2010 | 3 | 182 | 28.701 | 122400 | 1689 | 10.6 | 2010-03-01 |
| Beaumont | 2010 | 4 | 200 | 26.819 | 123200 | 1708 | 10.6 | 2010-04-01 |
| Beaumont | 2010 | 5 | 202 | 28.833 | 123100 | 1771 | 10.9 | 2010-05-01 |
| Beaumont | 2010 | 6 | 189 | 27.219 | 122800 | 1803 | 11.1 | 2010-06-01 |
Ciò consentirà:
Analisi delle serie temporali: tracciare facilmente i
trend nel tempo.
Analisi della stagionalità: raggruppamento per mese per
osservare i modelli stagionali, o per anno per osservare le variazioni
annuali.
Filtraggio e aggregazione: filtrare efficacemente i dati
per periodi specifici o aggregare i dati su intervalli di tempo più
lunghi (ad esempio, trimestrali o annuali).
Calcola Indici di posizione, variabilità e forma per tutte le
variabili per le quali ha senso farlo, per le altre crea una
distribuzione di frequenza. Infine, commenta tutto brevemente.
Calcolo della statistica descrittiva (media, mediana, deviazione
standard, IQR, varianza, asimmetria e curtosi) per le variabili
quantitative: vendite, volume,
prezzo_mediano, listings e
mese_inventario. Verifica che la variabile sia numerica e
aggiunta dei risultati al dataframe.
| Variable | Mean | Median | SD | Variance | IQR | Skewness | Kurtosis |
|---|---|---|---|---|---|---|---|
| sales | 192.29 | 175.50 | 79.65 | 6344.30 | 120.00 | 0.71 | -0.34 |
| volume | 31.01 | 27.06 | 16.65 | 277.27 | 23.23 | 0.88 | 0.15 |
| median_price | 132665.42 | 134500.00 | 22662.15 | 513572983.09 | 32750.00 | -0.36 | -0.64 |
| listings | 1738.02 | 1618.50 | 752.71 | 566568.97 | 1029.50 | 0.65 | -0.81 |
| months_inventory | 9.19 | 8.95 | 2.30 | 5.31 | 3.15 | 0.04 | -0.20 |
Generazione delle distribuzioni di frequenza per le variabili
qualitative e quantitative discrete: city,
year, and month.
| City | Frequenza_Assoluta | Frequenza_Relativa |
|---|---|---|
| Beaumont | 60 | 0.25 |
| Bryan-College Station | 60 | 0.25 |
| Tyler | 60 | 0.25 |
| Wichita Falls | 60 | 0.25 |
| Year | Frequenza_Assoluta | Frequenza_Relativa |
|---|---|---|
| 2010 | 48 | 0.2 |
| 2011 | 48 | 0.2 |
| 2012 | 48 | 0.2 |
| 2013 | 48 | 0.2 |
| 2014 | 48 | 0.2 |
| Month | Frequenza_Assoluta | Frequenza_Relativa |
|---|---|---|
| 1 | 20 | 0.08 |
| 2 | 20 | 0.08 |
| 3 | 20 | 0.08 |
| 4 | 20 | 0.08 |
| 5 | 20 | 0.08 |
| 6 | 20 | 0.08 |
| 7 | 20 | 0.08 |
| 8 | 20 | 0.08 |
| 9 | 20 | 0.08 |
| 10 | 20 | 0.08 |
| 11 | 20 | 0.08 |
| 12 | 20 | 0.08 |
Infine possiamo evidenziare i seguenti risultati principali
dall’analisi dei dati:
Vendite e volume mostrano un’asimmetria positiva:
vendite (media: 192,29, mediana: 175,5, asimmetria: 0,714)
e volume (media: 31,01 milioni, mediana: 27,06 milioni,
asimmetria: 0,879) hanno entrambi medie superiori alle loro mediane,
indicando una concentrazione di valori inferiori e occasionali valori
superiori che spingono la media verso l’alto.
Il prezzo mediano è leggermente asimmetrico negativamente:
prezzo_mediano (media: 132.665$ , mediana: 134.500$ ,
asimmetria: -0,362) ha una mediana leggermente superiore alla media,
suggerendo una concentrazione di prezzi nella fascia alta. Presenta
inoltre un’elevata variabilità con una deviazione standard di 22.662$.
Gli annunci presentano un’asimmetria positiva con elevata
variabilità:
Anche listings (media: 1738,02, mediana:
1618,5, asimmetria: 0,645) presenta un’asimmetria positiva e una
variabilità sostanziale (deviazione standard: 752,71).
L’inventario mensile è quasi simmetrico e meno variabile:
months_inventory (media: 9,19, mediana: 8,95, asimmetria:
0,041) presenta una distribuzione quasi simmetrica e la più bassa
variabilità relativa (deviazione standard: 2,30) tra le variabili
quantitative.
Le distribuzioni platicurtiche sono comuni:
vendite, prezzo_mediano e
listings presentano tutte distribuzioni platicurtiche
(valori di curtosi rispettivamente di -0,336, -0,643 e -0,810), il che
significa che hanno code più chiare e sono meno acuminate rispetto a una
distribuzione normale. volume è mesocurtico (curtosi:
0,151) e inventario_mesi è quasi mesocurtico (curtosi:
-0,198).
Il set di dati è perfettamente bilanciato per le variabili
categoriali:
Ciascuna delle quattro voci città, delle
cinque voci anno e delle dodici voci mese
presenta un numero uguale di osservazioni (60 per la città, 48 per
l’anno e 20 per il mese), garantendo un set di dati bilanciato per
analisi comparative tra queste dimensioni.
In conclusione, la prevalente asimmetria positiva in
vendite, volume e inserzioni
suggerisce che, sebbene la maggior parte dei periodi presenti
un’attività moderata, si verificano occasionali picchi che aumentano
significativamente le medie. Inoltre la distribuzione equilibrata delle
osservazioni tra le variabili città, anno e
mese rende il set di dati altamente adatto per analisi di
serie temporali, studi di stagionalità e confronti specifici per città,
senza la necessità di ponderazione o normalizzazione a causa di una
rappresentazione non uniforme.
Determina: - Qual è la variabile con la più alta variabilità -
Qual è la variabile con la distribuzione più asimmetrica. Spiega come
sei giunto a queste conclusioni e fornisci considerazioni
statistiche.
Calcolo del Coefficiente di Variazione \(CV
= \frac{SD}{Mean}\) per confontare la variabilità tra variabili
con scale diverse. Per ognuna vengono calcolate media e deviazione
standard, necessarie per determinare il CV. Successivamente sarà
possibile identificare la variabile con il CV più alto. Infine viene
stampata una tabella per raggruppare i risultati.
| Variable | Mean | SD | CV | Sk | |
|---|---|---|---|---|---|
| 2 | volume | 31.01 | 16.65 | 0.54 | 0.88 |
| 4 | listings | 1738.02 | 752.71 | 0.43 | 0.65 |
| 1 | sales | 192.29 | 79.65 | 0.41 | 0.71 |
| 5 | months_inventory | 9.19 | 2.30 | 0.25 | 0.04 |
| 3 | median_price | 132665.42 | 22662.15 | 0.17 | -0.36 |
In seguito ai risultati riscontrati dall’analisi è emerso che:
volume volume Di seguito la rappresentazione grafica dei risultati ottenuti:
Seleziona una variabile quantitativa (es. sales o median_price) e
suddividila in classi. Crea una distribuzione di frequenze e rappresenta
i dati con un grafico a barre. Calcola l’indice di eterogeneità Gini e
discuti i risultati.
Per l’analisi viene selezionata la variabile
median_price e viene deciso di suddividerla in 5 classi
equidistanti rappresentabili tramite istogramma. Viene anche generata la
distribuzione di frequenza e inclusa in tabella.
| Intervallo | Classe | Frequenza_Assoluta | Esempio | |
|---|---|---|---|---|
| [ 73,800 - 95,040] | Intervallo1 | [ 73,800 - 95,040] | 18 | 87,200 |
| [ 95,040 - 116,280] | Intervallo2 | [ 95,040 - 116,280] | 40 | 111,100 |
| [116,280 - 137,520] | Intervallo3 | [116,280 - 137,520] | 73 | 122,400 |
| [137,520 - 158,760] | Intervallo4 | [137,520 - 158,760] | 84 | 138,200 |
| [158,760 - 180,000] | Intervallo5 | [158,760 - 180,000] | 25 | 163,800 |
Successivamente viene generato il grafico a barre.
Calcolo dell’indice di eterogeneità di Gini \((G = 1 - \sum_{i=1}^{I} p_i^2)\) e
discussione dei risultati.
| Gini_Heterogeneity_Index | Gini_Heterogeneity_Index_Normalized |
|---|---|
| 0.7407 | 0.9259 |
Grafico dell’Indice di Eterogeneità di Gini
L’Indice di Eterogeneità di Gini misura la propensione di una
variabile qualitativa ad assumere le sue diverse modalità, andando
quindi a considerare la distribuzione di frequenze.
Ad esempio:
Quindi per concludere, considerando in questo caso Gini normalizzato, abbiamo un indice pari a 0.9 che indica un’alta eterogeneità. La suddivisione della varianbile median_price in 5 classi, ha influenzato il risultato. Infatti se le classi fossero state di meno l’indice sarebbe stato più basso. Questo risultato comunque, evidenzia l’alta propensione della variabile, suddivisa in 5 classi, ad assumere le sue diverse modalità.
Qual è la probabilità che, presa una riga a caso di questo
dataset, essa riporti la città “Beaumont”? E la probabilità che riporti
il mese di Luglio? E la probabilità che riporti il mese di dicembre
2012?
Per stimare la probabilità che una riga scelta a caso dal dataset riporti una certa caratteristica, ovvero la probabilità del singolo evento, si calcola il rapporto tra il numero di righe che soddisfano l’evento e il numero totale di righe.
| Number_of_rows_for_Beaumont | Total_number_of_rows | Probability_of_selecting_a_row_for_Beaumont |
|---|---|---|
| 60 | 240 | 0.25 |
Stesso calcolo per stimare la probabilità che una riga scelta a caso dal dataset riporti il mese di Luglio.
| Number_of_rows_for_July | Total_number_of_rows | Probability_of_selecting_a_row_for_July |
|---|---|---|
| 20 | 240 | 0.083 |
Anche per stimare la probabilità che una riga scelta a caso dal dataset riporti il mese di dicembre 2012 si effettua lo stesso calcolo
| Number_of_rows_for_July | Total_number_of_rows | Probability_of_selecting_a_row_for_December_2012 |
|---|---|---|
| 4 | 240 | 0.017 |
Sintetizzando i risultati ottenuti con questo calcolo della probabilità riscontriamo che:
Per la Città ‘Beaumont’, la probabilità di selezionare casualmente una riga è uguale a P = 0.25, che corrisponde al 25%. Questo dato conferma la distribuzione bilanciata del dataset, con 4 città e 60 osservazioni ciascuna su 240, reppresentate in modo uniforme.
Per il Mese ‘July’, la probabilità di selezionare casualmente una riga è uguale a P ≈ 0.083, che corrisponde circa al 8,33% delle osservazioni. Anche questo dato conferma la struttura bilanciata del dataset, con 12 mesi e 20 osservazioni ciascuna, reppresentate equamente.
Per il Mese ‘December 2012’, la probabilità di selezionare casualmente una riga è uguale a P ≈ 0.0167, che corrisponde circa al 1,67% delle osservazioni. In questo caso si tratta di un’intersezione mese-anno, e dato che ogni combinazione mese‑anno‑città compare una sola volta, le 4 città generano 4 righe su 240 (1/60), dimostrando che la probabilità di scegliere un intervallo di tempo molto specifico è piuttosto bassa, come previsto dalla granularità dei dati.
Crea una nuova colonna che calcoli il prezzo medio degli immobili
utilizzando le variabili disponibili. Prova a creare una colonna che
misuri l’efficacia degli annunci di vendita. Commenta e discuti i
risultati.
Sono state create due nuove variabili nel dataframe df:
average_price, calcolata come (volume * 1.000.000) / sales, per stimare il prezzo medio per transazione.
listing_effectiveness, calcolata come sales / listings, per misurare l’efficacia degli annunci di vendita.
Per ciascuna variabile sono stati visualizzati l’head del dataframe aggiornato e le statistiche descrittive, al fine di verificarne la corretta creazione e analizzare le distribuzioni.
| city | year | month | sales | volume | median_price | listings | months_inventory | date | median_price_class | average_price | listing_effectiveness |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Beaumont | 2010 | 1 | 83 | 14.16 | 163800 | 1533 | 9.5 | 2010-01-01 | [158,760 - 180,000] | 170627 | 0.05 |
| Beaumont | 2010 | 2 | 108 | 17.69 | 138200 | 1586 | 10.0 | 2010-02-01 | [137,520 - 158,760] | 163796 | 0.07 |
| Beaumont | 2010 | 3 | 182 | 28.70 | 122400 | 1689 | 10.6 | 2010-03-01 | [116,280 - 137,520] | 157698 | 0.11 |
| Beaumont | 2010 | 4 | 200 | 26.82 | 123200 | 1708 | 10.6 | 2010-04-01 | [116,280 - 137,520] | 134095 | 0.12 |
| Beaumont | 2010 | 5 | 202 | 28.83 | 123100 | 1771 | 10.9 | 2010-05-01 | [116,280 - 137,520] | 142738 | 0.11 |
| Beaumont | 2010 | 6 | 189 | 27.22 | 122800 | 1803 | 11.1 | 2010-06-01 | [116,280 - 137,520] | 144016 | 0.10 |
| Statistica | Average_Price | Listing_Effectiveness |
|---|---|---|
| Min. | 97010.0 | 0.0501 |
| 1st Qu. | 132939.0 | 0.0898 |
| Median | 156588.5 | 0.1096 |
| Mean | 154320.4 | 0.1187 |
| 3rd Qu. | 173915.0 | 0.1349 |
| Max. | 213234.0 | 0.3871 |
Commenti:
average_price rappresenta il prezzo medio per transazione
immobiliare, ottenuto dividendo il volume totale delle vendite (in
dollari) per il numero di vendite. A differenza di median_price, che
indica il valore tipico di un immobile, questa misura riflette il valore
medio delle transazioni e può essere influenzata da vendite di fascia
alta.
Distribuzione (statistiche):
Il range va da circa 97.000 a 213.000 dollari. La media è leggermente inferiore alla mediana (media ≈ 154.320; mediana ≈ 156.588), indicando una lieve asimmetria negativa. I valori sono generalmente più alti rispetto a median_price (media ≈ 132.665; mediana ≈ 134.500), suggerendo che le vendite di fascia alta contribuiscono in modo significativo al volume totale. La piccola differenza tra media e mediana indica una distribuzione relativamente simmetrica. Si può quindi assumere che: - Per quanto riguarda la prospettiva di ricavo, average_price è un indicatore diretto del valore medio generato per vendita. - Invece, per la segmentazione del mercato, una differenza marcata rispetto alla mediana può indicare la presenza di immobili di fascia alta che lo influenzano.
listing_effectiveness misura quante vendite avvengono per ogni
annuncio attivo. È un indicatore dell’efficienza del mercato o
dell’efficacia delle strategie di vendita.
Distribuzione (statistiche):
I valori variano dal 5% al 38,7%, mostrando una forte variabilità. La media superiore alla mediana indica una asimmetria positiva: la maggior parte dei periodi presenta livelli moderati di efficacia, ma alcuni casi particolarmente favorevoli innalzano la media. Si può quindi assumere che: - Per il rapporto tra domanda e offerta, ivalori elevati indicano un mercato dinamico o una forte domanda. - Efficacia del marketing: città o periodi con valori costantemente alti potrebbero beneficiare di strategie di vendita più efficaci. - Variabilità: l’ampio range suggerisce che l’efficacia dipende da fattori specifici (stagionalità, area geografica, condizioni di mercato).
Per i next steps e il supporto alle decisioni e analisi future è possibile considerare che le nuove variabili forniscono metriche utili per comprendere la dinamica del mercato. Nello specifico average_price aiuta a valutare il valore medio delle transazioni, mentre listing_effectiveness misura la capacità del mercato di trasformare annunci in vendite. Inoltre l’analisi dell’efficacia degli annunci può aiutare a identificare i periodi o le città più favorevoli per pubblicare nuovi annunci
Usa il pacchetto dplyr o il linguaggio base di R per effettuare
analisi statistiche condizionate per città, anno e mese. Genera dei
summary (media, deviazione standard) e rappresenta graficamente i
risultati.
Per l’analisi statistica condizionata viene considerata la variabile sales.
| city | mean_sales | sd_sales | cv_sales |
|---|---|---|---|
| Beaumont | 177.383 | 41.484 | 0.234 |
| Bryan-College Station | 205.967 | 84.984 | 0.413 |
| Tyler | 269.750 | 61.964 | 0.230 |
| Wichita Falls | 116.067 | 22.152 | 0.191 |
| year | mean_sales | sd_sales | cv_sales |
|---|---|---|---|
| 2010 | 168.667 | 60.537 | 0.359 |
| 2011 | 164.125 | 63.870 | 0.389 |
| 2012 | 186.146 | 70.905 | 0.381 |
| 2013 | 211.917 | 83.996 | 0.396 |
| 2014 | 230.604 | 95.515 | 0.414 |
In conclusione i tre livelli di aggregazione analizzati forniscono
tre prospettive complementari che permettono di comprendere sia
l’evoluzione generale del mercato con le sue variazioni stagionali e
territoriali, sia le sue specificità operative:
Il raggruppamento per città è utile a capire dove si vende meglio e dove c’è più volatilità, permettendo di pianificare delle strategie territoriali. Qui si possono notare delle differenze territoriali marcate. Alcune città presentano livelli medi di vendita più elevati, come Tyler e Bryan‑College Station, mentre altre mostrano valori più contenuti. La deviazione standard cresce in modo coerente con la media, ma il coefficiente di variazione evidenzia che città come Bryan‑College Station mostrano una variabilità relativa più alta, indicando un mercato meno stabile e più difficile da prevedere. Al contrario, realtà come Wichita Falls presentano una domanda più regolare e meno soggetta a oscillazioni.
Il raggruppamento per anno permette di capire come evolve il mercato nel lungo periodo ed utile a definire il trend di fondo, crescità e stabilità. Questa osservazione mostra un trend di crescita costante della media delle vendite dal 2010 al 2014, accompagnato da un aumento progressivo della deviazione standard, suggerendo che, pur in presenza di una domanda in espansione, la variabilità assoluta delle vendite cresce nel tempo.
Il raggruppamento per mese risponde al quesito sulla stagionalità, ovvero quando si vende meglio, e può essere utile a definire pianificazione e forecasting. Infatti in tutti gli anni analizzati emergono pattern ricorrenti (stagionalità), con valori più elevati nei mesi centrali e livelli più bassi all’inizio e alla fine dell’anno.
Utilizza ggplot2 per creare grafici personalizzati. Assicurati di
esplorare:
Tramite grafico a barre della distribuzione del valore totale
delle vendite per mese, tra le varie città e anche tra i vari anni.
Tramite grafico a barre normalizzate della distribuzione del
valore percentuale delle vendite per mese, tra le varie città e anche
tra i vari anni.
Analisi Complessiva dei Risultati:
L’analisi dei grafici prodotti consente di delineare un quadro dell’andamento del mercato immobiliare nelle quattro città considerate. Le evidenze principali riguardano tre dimensioni fondamentali:
Differenze territoriali:
Tyler si distingue come il mercato più dinamico e con i valori più elevati, sia in termini di prezzi che di vendite totali.
Bryan-College Station presenta livelli medio-alti e un comportamento particolarmente variabile nel corso dell’anno.
Beaumont si colloca in una fascia intermedia, con valori più contenuti ma relativamente stabili.
Wichita Falls risulta costantemente il mercato meno performante, con prezzi e volumi sensibilmente inferiori rispetto alle altre città.
Stagionalità mensile delle vendite molto pronunciata e comune a tutte le città, seppure con ciclicità differenti. Questo elemento è evidenziato sia dai grafici a barre che dai line chart, in particolare si osserva che:
Un incremento delle vendite tra maggio e luglio.
Un calo progressivo verso la fine dell’anno.
Livelli più bassi nei primi mesi.
Stabilità delle quote di mercato evidenziata dal grafico normalizzato delle ripartizioni percentuali delle vendite mesili tra le città. Le quote di mercato risultano infatti:
Stabili nel tempo.
Caratterizzate da una predominanza costante di Tyler.
Con un ruolo marginale di Wichita Falls.
Con variazioni mensili molto contenute.
Fornisci una sintesi dei risultati ottenuti, facendo riferimento
alle principali tendenze emerse e fornendo raccomandazioni basate
sull’analisi. Questo non è un progetto di programmazione, ma di
statistica, e ci si aspetta di leggere commenti e considerazioni
statistiche per i vari passaggi e risultati.
L’analisi esplorativa del mercato immobiliare texano, condotta attraverso statistiche descrittive, indici di variabilità e visualizzazioni con ggplot2, ha permesso di delineare un quadro chiaro e coerente delle dinamiche di vendita nelle quattro città considerate. Le evidenze emerse possono essere sintetizzate lungo tre direttrici principali: differenze territoriali, stagionalità delle vendite e stabilità delle quote di mercato. Come evidenziato nel punto 8, le differenze territoriali sono marcate e persistenti, la stagionalità delle vendite è un elemento dominante e le quote di mercato risultano stabili nel tempo. Queste evidenze suggeriscono un mercato maturo, caratterizzato da dinamiche prevedibili e da una forte eterogeneità tra aree geografiche.
Raccomandazioni:
Sulla base delle evidenze statistiche e grafiche è possibile formulare alcune raccomandazioni operative e strategiche:
Pianificazione delle attività commerciali: la forte stagionalità suggerisce di concentrare campagne di marketing, aumento delle inserzioni e iniziative promozionali nei mesi primaverili ed estivi, quando la domanda è più elevata.
Ottimizzazione delle strategie per città: Tyler e Bryan-College Station rappresentano i mercati più redditizi: investimenti mirati potrebbero generare ritorni significativi. Beaumont richiede strategie di stabilizzazione e consolidamento. Wichita Falls potrebbe beneficiare di interventi specifici per aumentare visibilità e competitività.
Monitoraggio della variabilità: la crescente variabilità delle vendite nel tempo (aumento della deviazione standard) indica che il mercato diventa progressivamente più dinamico. È consigliabile monitorare mensilmente gli indicatori chiave, aggiornare regolarmente i modelli previsionali e infine valutare l’impatto di fattori esterni (economici, demografici, stagionali).
Utilizzo delle nuove variabili create: average_price fornisce una misura utile per valutare il valore medio delle transazioni e identificare eventuali scostamenti rispetto al prezzo mediano. Listing_effectiveness permette di misurare l’efficienza del mercato e l’efficacia delle strategie di vendita: valori elevati indicano un buon rapporto tra domanda e offerta. Queste metriche possono essere integrate in dashboard operative o modelli decisionali.