Descrizione del progetto:

L’azienda Texas Realty Insights desidera analizzare le tendenze del mercato immobiliare nello stato del Texas, sfruttando i dati storici relativi alle vendite di immobili. L’obiettivo è fornire insight statistici e visivi che supportino le decisioni strategiche di vendita e ottimizzazione delle inserzioni immobiliari.

Obiettivi del progetto:


1. Analisi delle variabili:

Identifica e descrivi il tipo di variabili statistiche presenti nel dataset. Valuta come gestire le variabili che sottintendono una dimensione tempo e commenta sul tipo di analisi che può essere condotta su ciascuna variabile.

Caricamento del dataset “Real Estate Texas.csv” in un dataframe R denominato df e visualizzazione dell’intestazione in formato tabella per verificarne il caricamento.

city year month sales volume median_price listings months_inventory
Beaumont 2010 1 83 14.162 163800 1533 9.5
Beaumont 2010 2 108 17.690 138200 1586 10.0
Beaumont 2010 3 182 28.701 122400 1689 10.6
Beaumont 2010 4 200 26.819 123200 1708 10.6
Beaumont 2010 5 202 28.833 123100 1771 10.9
Beaumont 2010 6 189 27.219 122800 1803 11.1

Il dataset contiene le seguenti variabili:

  • city: città di riferimento
  • year: anno di riferimento
  • month: mese di riferimento
  • sales: numero totale di vendite
  • volume: valore totale delle vendite (in milioni di dollari)
  • median_price: prezzo mediano di vendita (in dollari)
  • listings: numero totale di annunci attivi
  • months_inventory: quantità di tempo necessaria per vendere tutte le inserzioni correnti, espresso in mesi

Caricamento delle librerie necessarie per condurre l’analisi.

library(dplyr)
library(e1071)
library(ggplot2)
library(ggrepel)
library(kableExtra)
library(knitr)
library(tidyr)

Utilizzo delle funzioni str(df), duplicated(df), summary(df) e dplyr::glimpse(df) per ispezionare la struttura, le tipologie di dati e la statistica descrittiva iniziale del dataset caricato.

## 'data.frame':    240 obs. of  8 variables:
##  $ city            : chr  "Beaumont" "Beaumont" "Beaumont" "Beaumont" ...
##  $ year            : int  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
##  $ month           : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ sales           : int  83 108 182 200 202 189 164 174 124 150 ...
##  $ volume          : num  14.2 17.7 28.7 26.8 28.8 ...
##  $ median_price    : num  163800 138200 122400 123200 123100 ...
##  $ listings        : int  1533 1586 1689 1708 1771 1803 1857 1830 1829 1779 ...
##  $ months_inventory: num  9.5 10 10.6 10.6 10.9 11.1 11.7 11.6 11.7 11.5 ...

Il dataset contiene 240 osservazioni

df[duplicated(df), ]
## [1] city             year             month            sales           
## [5] volume           median_price     listings         months_inventory
## <0 rows> (or 0-length row.names)

Il dataset non contiene duplicati

city year month sales volume median_price listings months_inventory
Length:240 Min. :2010 Min. : 1.00 Min. : 79.0 Min. : 8.166 Min. : 73800 Min. : 743 Min. : 3.400
Class :character 1st Qu.:2011 1st Qu.: 3.75 1st Qu.:127.0 1st Qu.:17.660 1st Qu.:117300 1st Qu.:1026 1st Qu.: 7.800
Mode :character Median :2012 Median : 6.50 Median :175.5 Median :27.062 Median :134500 Median :1618 Median : 8.950
NA Mean :2012 Mean : 6.50 Mean :192.3 Mean :31.005 Mean :132665 Mean :1738 Mean : 9.193
NA 3rd Qu.:2013 3rd Qu.: 9.25 3rd Qu.:247.0 3rd Qu.:40.893 3rd Qu.:150050 3rd Qu.:2056 3rd Qu.:10.950
NA Max. :2014 Max. :12.00 Max. :423.0 Max. :83.547 Max. :180000 Max. :3296 Max. :14.900

Riassunto statistico e descrittivo di ogni colonna del dataframe: Calcolo di Minimo, Massimo, Mediana (50° Percentile), Media, Terzo Quartile (75° Percentile) e Primo Quartile (25° Percentile)

## Rows: 240
## Columns: 8
## $ city             <chr> "Beaumont", "Beaumont", "Beaumont", "Beaumont", "Beau…
## $ year             <int> 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010,…
## $ month            <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3, 4, 5,…
## $ sales            <int> 83, 108, 182, 200, 202, 189, 164, 174, 124, 150, 150,…
## $ volume           <dbl> 14.162, 17.690, 28.701, 26.819, 28.833, 27.219, 22.70…
## $ median_price     <dbl> 163800, 138200, 122400, 123200, 123100, 122800, 12430…
## $ listings         <int> 1533, 1586, 1689, 1708, 1771, 1803, 1857, 1830, 1829,…
## $ months_inventory <dbl> 9.5, 10.0, 10.6, 10.6, 10.9, 11.1, 11.7, 11.6, 11.7, …

Categorizzazione delle variabili del dataset in base alla tipologia: Variabili Qualitative / Variabili Quantitative. Sulla base dell’analisi dei dati, di seguito una classificazione delle variabili:

  1. Variabili qualitative:
  • city: Questa è una variabile qualitativa nominale che rappresenta diverse città del Texas. Utile per raggruppare i dati e confrontare le tendenze in diverse località.
  1. Variabili quantitative:
  • year: Una variabile intera che rappresenta l’anno. Sebbene numericamente sia un numero intero, è intrinsecamente una componente di serie temporale, che indica periodi di osservazione specifici. Può essere trattata come quantitativa discreta su scala di intervalli per alcune analisi (ad esempio, aggregazioni per anno) e/o come una componente temporale se combinata con month.
  • month: Una variabile intera che rappresenta il mese dell’anno. Simile a year, è una variabile quantitativa discreta su scala di rapporti. È fondamentale per identificare le tendenze stagionali.
  • sales: variabile intera che rappresenta il numero totale di vendite. Questa è una variabile quantitativa discreta adatta per calcolare somme, medie e analizzare la distribuzione.
  • volume: variabile numerica che rappresenta il valore totale delle vendite (in milioni di dollari). Questa è una variabile quantitativa continua, adatta a vari calcoli statistici come media, deviazione standard e per l’analisi delle tendenze.
  • median_price: variabile numerica che rappresenta il prezzo mediano delle vendite (in dollari). Questa è una variabile quantitativa continua, fondamentale per comprendere le tendenze e le distribuzioni dei prezzi.
  • listings: variabile intera che rappresenta il numero totale di inserzioni attive. Questa è una variabile quantitativa discreta, utile per valutare l’offerta di mercato.
  • months_inventory: variabile numerica che rappresenta il tempo necessario per vendere tutte le inserzioni correnti. Questa è una variabile quantitativa continua, fondamentale per comprendere l’equilibrio e la domanda di mercato.

Per un’analisi affidabile delle serie temporali o una rappresentazione grafica più intuitiva, è utile gestire le variabili intere ‘year’ e ‘month’, che rappresentano una dimensione temporale, combinandole in una nuova variabile, chiamata ‘date’ e che rappresenta il primo giorno di ogni mese.

city year month sales volume median_price listings months_inventory date
Beaumont 2010 1 83 14.162 163800 1533 9.5 2010-01-01
Beaumont 2010 2 108 17.690 138200 1586 10.0 2010-02-01
Beaumont 2010 3 182 28.701 122400 1689 10.6 2010-03-01
Beaumont 2010 4 200 26.819 123200 1708 10.6 2010-04-01
Beaumont 2010 5 202 28.833 123100 1771 10.9 2010-05-01
Beaumont 2010 6 189 27.219 122800 1803 11.1 2010-06-01

Ciò consentirà:

  1. Analisi delle serie temporali: tracciare facilmente i trend nel tempo.

  2. Analisi della stagionalità: raggruppamento per mese per osservare i modelli stagionali, o per anno per osservare le variazioni annuali.

  3. Filtraggio e aggregazione: filtrare efficacemente i dati per periodi specifici o aggregare i dati su intervalli di tempo più lunghi (ad esempio, trimestrali o annuali).


2. Indici di posizione, variabilità e forma:

Calcola Indici di posizione, variabilità e forma per tutte le variabili per le quali ha senso farlo, per le altre crea una distribuzione di frequenza. Infine, commenta tutto brevemente.

Calcolo della statistica descrittiva (media, mediana, deviazione standard, IQR, varianza, asimmetria e curtosi) per le variabili quantitative: vendite, volume, prezzo_mediano, listings e mese_inventario. Verifica che la variabile sia numerica e aggiunta dei risultati al dataframe.

Descriptive Statistics for Quantitative Variables
Variable Mean Median SD Variance IQR Skewness Kurtosis
sales 192.29 175.50 79.65 6344.30 120.00 0.71 -0.34
volume 31.01 27.06 16.65 277.27 23.23 0.88 0.15
median_price 132665.42 134500.00 22662.15 513572983.09 32750.00 -0.36 -0.64
listings 1738.02 1618.50 752.71 566568.97 1029.50 0.65 -0.81
months_inventory 9.19 8.95 2.30 5.31 3.15 0.04 -0.20

Generazione delle distribuzioni di frequenza per le variabili qualitative e quantitative discrete: city, year, and month.

Frequenze assolute e relative per city
City Frequenza_Assoluta Frequenza_Relativa
Beaumont 60 0.25
Bryan-College Station 60 0.25
Tyler 60 0.25
Wichita Falls 60 0.25
Frequenze assolute e relative per year
Year Frequenza_Assoluta Frequenza_Relativa
2010 48 0.2
2011 48 0.2
2012 48 0.2
2013 48 0.2
2014 48 0.2
Frequenze assolute e relative per month
Month Frequenza_Assoluta Frequenza_Relativa
1 20 0.08
2 20 0.08
3 20 0.08
4 20 0.08
5 20 0.08
6 20 0.08
7 20 0.08
8 20 0.08
9 20 0.08
10 20 0.08
11 20 0.08
12 20 0.08

Infine possiamo evidenziare i seguenti risultati principali dall’analisi dei dati:

  1. Vendite e volume mostrano un’asimmetria positiva:
    vendite (media: 192,29, mediana: 175,5, asimmetria: 0,714) e volume (media: 31,01 milioni, mediana: 27,06 milioni, asimmetria: 0,879) hanno entrambi medie superiori alle loro mediane, indicando una concentrazione di valori inferiori e occasionali valori superiori che spingono la media verso l’alto.

  2. Il prezzo mediano è leggermente asimmetrico negativamente:
    prezzo_mediano (media: 132.665$ , mediana: 134.500$ , asimmetria: -0,362) ha una mediana leggermente superiore alla media, suggerendo una concentrazione di prezzi nella fascia alta. Presenta inoltre un’elevata variabilità con una deviazione standard di 22.662$.

  3. Gli annunci presentano un’asimmetria positiva con elevata variabilità:
    Anche listings (media: 1738,02, mediana: 1618,5, asimmetria: 0,645) presenta un’asimmetria positiva e una variabilità sostanziale (deviazione standard: 752,71).

  4. L’inventario mensile è quasi simmetrico e meno variabile:
    months_inventory (media: 9,19, mediana: 8,95, asimmetria: 0,041) presenta una distribuzione quasi simmetrica e la più bassa variabilità relativa (deviazione standard: 2,30) tra le variabili quantitative.

  5. Le distribuzioni platicurtiche sono comuni:
    vendite, prezzo_mediano e listings presentano tutte distribuzioni platicurtiche (valori di curtosi rispettivamente di -0,336, -0,643 e -0,810), il che significa che hanno code più chiare e sono meno acuminate rispetto a una distribuzione normale. volume è mesocurtico (curtosi: 0,151) e inventario_mesi è quasi mesocurtico (curtosi: -0,198).

  6. Il set di dati è perfettamente bilanciato per le variabili categoriali:
    Ciascuna delle quattro voci città, delle cinque voci anno e delle dodici voci mese presenta un numero uguale di osservazioni (60 per la città, 48 per l’anno e 20 per il mese), garantendo un set di dati bilanciato per analisi comparative tra queste dimensioni.

In conclusione, la prevalente asimmetria positiva in vendite, volume e inserzioni suggerisce che, sebbene la maggior parte dei periodi presenti un’attività moderata, si verificano occasionali picchi che aumentano significativamente le medie. Inoltre la distribuzione equilibrata delle osservazioni tra le variabili città, anno e mese rende il set di dati altamente adatto per analisi di serie temporali, studi di stagionalità e confronti specifici per città, senza la necessità di ponderazione o normalizzazione a causa di una rappresentazione non uniforme.


3. Identificazione delle variabili con maggiore variabilità e asimmetria:

Determina: - Qual è la variabile con la più alta variabilità - Qual è la variabile con la distribuzione più asimmetrica. Spiega come sei giunto a queste conclusioni e fornisci considerazioni statistiche.

Calcolo del Coefficiente di Variazione \(CV = \frac{SD}{Mean}\) per confontare la variabilità tra variabili con scale diverse. Per ognuna vengono calcolate media e deviazione standard, necessarie per determinare il CV. Successivamente sarà possibile identificare la variabile con il CV più alto. Infine viene stampata una tabella per raggruppare i risultati.

Coefficiente di Variazione e Skewness delle Variabili Quantitative
Variable Mean SD CV Sk
2 volume 31.01 16.65 0.54 0.88
4 listings 1738.02 752.71 0.43 0.65
1 sales 192.29 79.65 0.41 0.71
5 months_inventory 9.19 2.30 0.25 0.04
3 median_price 132665.42 22662.15 0.17 -0.36

In seguito ai risultati riscontrati dall’analisi è emerso che:

  1. La variabile con il CV più alto (0.54) e quindi con la più alta variabilità è: volume
  2. La variabile con la Sk più alta (0.88) e quindi con la distribuzione più asimmetrica è: volume

Di seguito la rappresentazione grafica dei risultati ottenuti:

  • Destra → variabili con alta variabilità relativa (CV alto)
  • Alto → variabili molto asimmetriche (skewness alta)
  • Basso → variabili simmetriche
  • In alto a destra → variabili molto variabili e molto asimmetriche
  • In basso a sinistra → variabili stabili e simmetriche


4. Creazione di classi per una variabile quantitativa:

Seleziona una variabile quantitativa (es. sales o median_price) e suddividila in classi. Crea una distribuzione di frequenze e rappresenta i dati con un grafico a barre. Calcola l’indice di eterogeneità Gini e discuti i risultati.

Per l’analisi viene selezionata la variabile median_price e viene deciso di suddividerla in 5 classi equidistanti rappresentabili tramite istogramma. Viene anche generata la distribuzione di frequenza e inclusa in tabella.

Distribuzione di median_price per intervalli numerati con frequenze assoluta delle classi di median_price ed esempi reali
Intervallo Classe Frequenza_Assoluta Esempio
[ 73,800 - 95,040] Intervallo1 [ 73,800 - 95,040] 18 87,200
[ 95,040 - 116,280] Intervallo2 [ 95,040 - 116,280] 40 111,100
[116,280 - 137,520] Intervallo3 [116,280 - 137,520] 73 122,400
[137,520 - 158,760] Intervallo4 [137,520 - 158,760] 84 138,200
[158,760 - 180,000] Intervallo5 [158,760 - 180,000] 25 163,800

Successivamente viene generato il grafico a barre.


Calcolo dell’indice di eterogeneità di Gini \((G = 1 - \sum_{i=1}^{I} p_i^2)\) e discussione dei risultati.

Indice di eterogeneità di Gini (non normalizzato e normalizzato)
Gini_Heterogeneity_Index Gini_Heterogeneity_Index_Normalized
0.7407 0.9259

Grafico dell’Indice di Eterogeneità di Gini


L’Indice di Eterogeneità di Gini misura la propensione di una variabile qualitativa ad assumere le sue diverse modalità, andando quindi a considerare la distribuzione di frequenze.
Ad esempio:

  • G’ = 0 Eterogeneità nulla o omogeneità (Massima concentrazione)
  • G’ = 1 Eterogeneità massima (Equidistribuzione)

Quindi per concludere, considerando in questo caso Gini normalizzato, abbiamo un indice pari a 0.9 che indica un’alta eterogeneità. La suddivisione della varianbile median_price in 5 classi, ha influenzato il risultato. Infatti se le classi fossero state di meno l’indice sarebbe stato più basso. Questo risultato comunque, evidenzia l’alta propensione della variabile, suddivisa in 5 classi, ad assumere le sue diverse modalità.


5. Calcolo della probabilità:

Qual è la probabilità che, presa una riga a caso di questo dataset, essa riporti la città “Beaumont”? E la probabilità che riporti il mese di Luglio? E la probabilità che riporti il mese di dicembre 2012?

Per stimare la probabilità che una riga scelta a caso dal dataset riporti una certa caratteristica, ovvero la probabilità del singolo evento, si calcola il rapporto tra il numero di righe che soddisfano l’evento e il numero totale di righe.

Probability for Beaumont
Number_of_rows_for_Beaumont Total_number_of_rows Probability_of_selecting_a_row_for_Beaumont
60 240 0.25

Stesso calcolo per stimare la probabilità che una riga scelta a caso dal dataset riporti il mese di Luglio.

Probability for July
Number_of_rows_for_July Total_number_of_rows Probability_of_selecting_a_row_for_July
20 240 0.083

Anche per stimare la probabilità che una riga scelta a caso dal dataset riporti il mese di dicembre 2012 si effettua lo stesso calcolo

Probability for December 2012
Number_of_rows_for_July Total_number_of_rows Probability_of_selecting_a_row_for_December_2012
4 240 0.017

Sintetizzando i risultati ottenuti con questo calcolo della probabilità riscontriamo che:

  1. Per la Città ‘Beaumont’, la probabilità di selezionare casualmente una riga è uguale a P = 0.25, che corrisponde al 25%. Questo dato conferma la distribuzione bilanciata del dataset, con 4 città e 60 osservazioni ciascuna su 240, reppresentate in modo uniforme.

  2. Per il Mese ‘July’, la probabilità di selezionare casualmente una riga è uguale a P ≈ 0.083, che corrisponde circa al 8,33% delle osservazioni. Anche questo dato conferma la struttura bilanciata del dataset, con 12 mesi e 20 osservazioni ciascuna, reppresentate equamente.

  3. Per il Mese ‘December 2012’, la probabilità di selezionare casualmente una riga è uguale a P ≈ 0.0167, che corrisponde circa al 1,67% delle osservazioni. In questo caso si tratta di un’intersezione mese-anno, e dato che ogni combinazione mese‑anno‑città compare una sola volta, le 4 città generano 4 righe su 240 (1/60), dimostrando che la probabilità di scegliere un intervallo di tempo molto specifico è piuttosto bassa, come previsto dalla granularità dei dati.


6. Creazione di nuove variabili:

Crea una nuova colonna che calcoli il prezzo medio degli immobili utilizzando le variabili disponibili. Prova a creare una colonna che misuri l’efficacia degli annunci di vendita. Commenta e discuti i risultati.

Sono state create due nuove variabili nel dataframe df:

  1. average_price, calcolata come (volume * 1.000.000) / sales, per stimare il prezzo medio per transazione.

  2. listing_effectiveness, calcolata come sales / listings, per misurare l’efficacia degli annunci di vendita.

Per ciascuna variabile sono stati visualizzati l’head del dataframe aggiornato e le statistiche descrittive, al fine di verificarne la corretta creazione e analizzare le distribuzioni.

Head del dataframe con ‘average_price’ e ‘listing_effectiveness’
city year month sales volume median_price listings months_inventory date median_price_class average_price listing_effectiveness
Beaumont 2010 1 83 14.16 163800 1533 9.5 2010-01-01 [158,760 - 180,000] 170627 0.05
Beaumont 2010 2 108 17.69 138200 1586 10.0 2010-02-01 [137,520 - 158,760] 163796 0.07
Beaumont 2010 3 182 28.70 122400 1689 10.6 2010-03-01 [116,280 - 137,520] 157698 0.11
Beaumont 2010 4 200 26.82 123200 1708 10.6 2010-04-01 [116,280 - 137,520] 134095 0.12
Beaumont 2010 5 202 28.83 123100 1771 10.9 2010-05-01 [116,280 - 137,520] 142738 0.11
Beaumont 2010 6 189 27.22 122800 1803 11.1 2010-06-01 [116,280 - 137,520] 144016 0.10
Statistiche descrittive di ‘average_price’ e ‘listing_effectiveness’
Statistica Average_Price Listing_Effectiveness
Min. 97010.0 0.0501
1st Qu. 132939.0 0.0898
Median 156588.5 0.1096
Mean 154320.4 0.1187
3rd Qu. 173915.0 0.1349
Max. 213234.0 0.3871

Commenti:

  1. average_price:

average_price rappresenta il prezzo medio per transazione immobiliare, ottenuto dividendo il volume totale delle vendite (in dollari) per il numero di vendite. A differenza di median_price, che indica il valore tipico di un immobile, questa misura riflette il valore medio delle transazioni e può essere influenzata da vendite di fascia alta.

Distribuzione (statistiche):

  • Min: 97.010
  • 1° Qu.: 132.939
  • Mediana: 156.588
  • Media: 154.320
  • 3° Qu.: 173.915
  • Max: 213.234

Il range va da circa 97.000 a 213.000 dollari. La media è leggermente inferiore alla mediana (media ≈ 154.320; mediana ≈ 156.588), indicando una lieve asimmetria negativa. I valori sono generalmente più alti rispetto a median_price (media ≈ 132.665; mediana ≈ 134.500), suggerendo che le vendite di fascia alta contribuiscono in modo significativo al volume totale. La piccola differenza tra media e mediana indica una distribuzione relativamente simmetrica. Si può quindi assumere che: - Per quanto riguarda la prospettiva di ricavo, average_price è un indicatore diretto del valore medio generato per vendita. - Invece, per la segmentazione del mercato, una differenza marcata rispetto alla mediana può indicare la presenza di immobili di fascia alta che lo influenzano.

  1. listing_effectiveness:

listing_effectiveness misura quante vendite avvengono per ogni annuncio attivo. È un indicatore dell’efficienza del mercato o dell’efficacia delle strategie di vendita.

Distribuzione (statistiche):

  • Min: 0.050
  • 1° Qu.: 0.089
  • Mediana: 0.110
  • Media: 0.119
  • 3° Qu.: 0.135
  • Max: 0.387

I valori variano dal 5% al 38,7%, mostrando una forte variabilità. La media superiore alla mediana indica una asimmetria positiva: la maggior parte dei periodi presenta livelli moderati di efficacia, ma alcuni casi particolarmente favorevoli innalzano la media. Si può quindi assumere che: - Per il rapporto tra domanda e offerta, ivalori elevati indicano un mercato dinamico o una forte domanda. - Efficacia del marketing: città o periodi con valori costantemente alti potrebbero beneficiare di strategie di vendita più efficaci. - Variabilità: l’ampio range suggerisce che l’efficacia dipende da fattori specifici (stagionalità, area geografica, condizioni di mercato).

Per i next steps e il supporto alle decisioni e analisi future è possibile considerare che le nuove variabili forniscono metriche utili per comprendere la dinamica del mercato. Nello specifico average_price aiuta a valutare il valore medio delle transazioni, mentre listing_effectiveness misura la capacità del mercato di trasformare annunci in vendite. Inoltre l’analisi dell’efficacia degli annunci può aiutare a identificare i periodi o le città più favorevoli per pubblicare nuovi annunci


7. Analisi condizionata:

Usa il pacchetto dplyr o il linguaggio base di R per effettuare analisi statistiche condizionate per città, anno e mese. Genera dei summary (media, deviazione standard) e rappresenta graficamente i risultati.

Per l’analisi statistica condizionata viene considerata la variabile sales.

  1. Il primo raggruppamento è quello per citta rappresentato tramite un grafico a barre affiancate:
city mean_sales sd_sales cv_sales
Beaumont 177.383 41.484 0.234
Bryan-College Station 205.967 84.984 0.413
Tyler 269.750 61.964 0.230
Wichita Falls 116.067 22.152 0.191

  1. Il secondo raggruppamento è quello per anno rappresentato tramite Line Chart con tre linee (media, sd, cv):
year mean_sales sd_sales cv_sales
2010 168.667 60.537 0.359
2011 164.125 63.870 0.389
2012 186.146 70.905 0.381
2013 211.917 83.996 0.396
2014 230.604 95.515 0.414

  1. Il terzo raggruppamento è quello per mese rappresentato anch’esso tramite Line Chart, con due linee (media, sd) e un pannello per anno:

In conclusione i tre livelli di aggregazione analizzati forniscono tre prospettive complementari che permettono di comprendere sia l’evoluzione generale del mercato con le sue variazioni stagionali e territoriali, sia le sue specificità operative:

  1. Il raggruppamento per città è utile a capire dove si vende meglio e dove c’è più volatilità, permettendo di pianificare delle strategie territoriali. Qui si possono notare delle differenze territoriali marcate. Alcune città presentano livelli medi di vendita più elevati, come Tyler e Bryan‑College Station, mentre altre mostrano valori più contenuti. La deviazione standard cresce in modo coerente con la media, ma il coefficiente di variazione evidenzia che città come Bryan‑College Station mostrano una variabilità relativa più alta, indicando un mercato meno stabile e più difficile da prevedere. Al contrario, realtà come Wichita Falls presentano una domanda più regolare e meno soggetta a oscillazioni.

  2. Il raggruppamento per anno permette di capire come evolve il mercato nel lungo periodo ed utile a definire il trend di fondo, crescità e stabilità. Questa osservazione mostra un trend di crescita costante della media delle vendite dal 2010 al 2014, accompagnato da un aumento progressivo della deviazione standard, suggerendo che, pur in presenza di una domanda in espansione, la variabilità assoluta delle vendite cresce nel tempo.

  3. Il raggruppamento per mese risponde al quesito sulla stagionalità, ovvero quando si vende meglio, e può essere utile a definire pianificazione e forecasting. Infatti in tutti gli anni analizzati emergono pattern ricorrenti (stagionalità), con valori più elevati nei mesi centrali e livelli più bassi all’inizio e alla fine dell’anno.


8. Creazione di visualizzazioni con ggplot2:

Utilizza ggplot2 per creare grafici personalizzati. Assicurati di esplorare:

  • Boxplot per confrontare la distribuzione del prezzo mediano tra le città.
  • Grafici a barre per confrontare il totale delle vendite per mese e città.
  • Line charts per confrontare l’andamento delle vendite in periodi storici differenti.
  1. Rappresentazione della distribuzione del prezzo mediano nelle diverse Città lungo gli anni tramite Boxplot.

  1. Rappresentazione:
  • Tramite grafico a barre della distribuzione del valore totale delle vendite per mese, tra le varie città e anche tra i vari anni.

  • Tramite grafico a barre normalizzate della distribuzione del valore percentuale delle vendite per mese, tra le varie città e anche tra i vari anni.

  1. Confronto dell’andamento delle vendite in periodi storici e città differenti tramite Line Chart.

Analisi Complessiva dei Risultati:

L’analisi dei grafici prodotti consente di delineare un quadro dell’andamento del mercato immobiliare nelle quattro città considerate. Le evidenze principali riguardano tre dimensioni fondamentali:

  1. Differenze territoriali:

    • Tyler si distingue come il mercato più dinamico e con i valori più elevati, sia in termini di prezzi che di vendite totali.

    • Bryan-College Station presenta livelli medio-alti e un comportamento particolarmente variabile nel corso dell’anno.

    • Beaumont si colloca in una fascia intermedia, con valori più contenuti ma relativamente stabili.

    • Wichita Falls risulta costantemente il mercato meno performante, con prezzi e volumi sensibilmente inferiori rispetto alle altre città.

  2. Stagionalità mensile delle vendite molto pronunciata e comune a tutte le città, seppure con ciclicità differenti. Questo elemento è evidenziato sia dai grafici a barre che dai line chart, in particolare si osserva che:

    • Un incremento delle vendite tra maggio e luglio.

    • Un calo progressivo verso la fine dell’anno.

    • Livelli più bassi nei primi mesi.

  3. Stabilità delle quote di mercato evidenziata dal grafico normalizzato delle ripartizioni percentuali delle vendite mesili tra le città. Le quote di mercato risultano infatti:

    • Stabili nel tempo.

    • Caratterizzate da una predominanza costante di Tyler.

    • Con un ruolo marginale di Wichita Falls.

    • Con variazioni mensili molto contenute.


9. Conclusioni:

Fornisci una sintesi dei risultati ottenuti, facendo riferimento alle principali tendenze emerse e fornendo raccomandazioni basate sull’analisi. Questo non è un progetto di programmazione, ma di statistica, e ci si aspetta di leggere commenti e considerazioni statistiche per i vari passaggi e risultati.

L’analisi esplorativa del mercato immobiliare texano, condotta attraverso statistiche descrittive, indici di variabilità e visualizzazioni con ggplot2, ha permesso di delineare un quadro chiaro e coerente delle dinamiche di vendita nelle quattro città considerate. Le evidenze emerse possono essere sintetizzate lungo tre direttrici principali: differenze territoriali, stagionalità delle vendite e stabilità delle quote di mercato. Come evidenziato nel punto 8, le differenze territoriali sono marcate e persistenti, la stagionalità delle vendite è un elemento dominante e le quote di mercato risultano stabili nel tempo. Queste evidenze suggeriscono un mercato maturo, caratterizzato da dinamiche prevedibili e da una forte eterogeneità tra aree geografiche.

Raccomandazioni:

Sulla base delle evidenze statistiche e grafiche è possibile formulare alcune raccomandazioni operative e strategiche:

  1. Pianificazione delle attività commerciali: la forte stagionalità suggerisce di concentrare campagne di marketing, aumento delle inserzioni e iniziative promozionali nei mesi primaverili ed estivi, quando la domanda è più elevata.

  2. Ottimizzazione delle strategie per città: Tyler e Bryan-College Station rappresentano i mercati più redditizi: investimenti mirati potrebbero generare ritorni significativi. Beaumont richiede strategie di stabilizzazione e consolidamento. Wichita Falls potrebbe beneficiare di interventi specifici per aumentare visibilità e competitività.

  3. Monitoraggio della variabilità: la crescente variabilità delle vendite nel tempo (aumento della deviazione standard) indica che il mercato diventa progressivamente più dinamico. È consigliabile monitorare mensilmente gli indicatori chiave, aggiornare regolarmente i modelli previsionali e infine valutare l’impatto di fattori esterni (economici, demografici, stagionali).

  4. Utilizzo delle nuove variabili create: average_price fornisce una misura utile per valutare il valore medio delle transazioni e identificare eventuali scostamenti rispetto al prezzo mediano. Listing_effectiveness permette di misurare l’efficienza del mercato e l’efficacia delle strategie di vendita: valori elevati indicano un buon rapporto tra domanda e offerta. Queste metriche possono essere integrate in dashboard operative o modelli decisionali.