I dati presenti in questa analisi sono valori quantitativi relativi al mercato immobiliare del Texas raggruppati per città, mese e anno. Questi tre parametri raggruppano i dati grezzi e possono essere utilizzate per svolgere delle analisi in grado di confrontare tra loro diverse città (parametro qualitativo) o i diversi anni/mesi (parametri quantitativi-qualitativi). Iniziamo identificando quale tipo di variabile sono rappresentate nel nostro database:
city, month: qualitative su scala nominale;
year: qualitativa su scala ordinale, nonostante la natura numerica;
month: qualitativa su scala ordinale, nonostante la sua natura numerica;
sales, listings: quantitative in scala di rapporti a valori interi
volume, median_price, month_inventory, avg_price: quantitative in scala di rapporti a valori continui
Su “city”, “month” e “year” è possibile fare una distribuzione di frequenze, anche se vedremo in seguito ha senso farla sulla somma dei valori di “sales” più che sul numero di record.
Cominciamo concentrandoci sulle variabili quantitative:
| Statistica | Sales | Volume | Median_Price | Listings | Months_Inventory |
|---|---|---|---|---|---|
| Min. | 79.00 | 8.17 | 73800.0 | 743.00 | 3.40 |
| 1st Qu. | 127.00 | 17.66 | 117300.0 | 1026.50 | 7.80 |
| Median | 175.50 | 27.06 | 134500.0 | 1618.50 | 8.95 |
| Mean | 192.29 | 31.01 | 132665.4 | 1738.02 | 9.19 |
| 3rd Qu. | 247.00 | 40.89 | 150050.0 | 2056.00 | 10.95 |
| Max. | 423.00 | 83.55 | 180000.0 | 3296.00 | 14.90 |
| Statistica | Sales | Volume | Median_Price | Listings | Months_Inventory |
|---|---|---|---|---|---|
| Dev.sd | 79.65 | 16.65 | 22662.15 | 752.71 | 2.30 |
| IQR | 120.00 | 23.23 | 32750.00 | 1029.50 | 3.15 |
| CV | 41.42 | 53.71 | 17.08 | 43.31 | 25.06 |
| Indice.Fisher | 0.72 | 0.88 | -0.36 | 0.65 | 0.04 |
| Curtosi | -0.31 | 0.18 | -0.62 | -0.79 | -0.17 |
Per “city”, “year” e “month” ha meno senso un analisi di questo tipo, perciò daremo una distribuzione di frequenza. In particolare studieremo frequenze cumulate solo sulla variabile ordinale “year”:
| City | Abs_freq | Rel_freq |
|---|---|---|
| Beaumont | 60 | 0.25 |
| Bryan-College Station | 60 | 0.25 |
| Tyler | 60 | 0.25 |
| Wichita Falls | 60 | 0.25 |
| Year | Abs_freq | Rel_freq | Cum_abs_freq | Cum_rel_freq |
|---|---|---|---|---|
| 2010 | 48 | 0.2 | 48 | 0.2 |
| 2011 | 48 | 0.2 | 96 | 0.4 |
| 2012 | 48 | 0.2 | 144 | 0.6 |
| 2013 | 48 | 0.2 | 192 | 0.8 |
| 2014 | 48 | 0.2 | 240 | 1.0 |
| Month | Abs_freq | Rel_freq |
|---|---|---|
| 1 | 20 | 0.08 |
| 2 | 20 | 0.08 |
| 3 | 20 | 0.08 |
| 4 | 20 | 0.08 |
| 5 | 20 | 0.08 |
| 6 | 20 | 0.08 |
| 7 | 20 | 0.08 |
| 8 | 20 | 0.08 |
| 9 | 20 | 0.08 |
| 10 | 20 | 0.08 |
| 11 | 20 | 0.08 |
| 12 | 20 | 0.08 |
Commenti: notiamo come le distribuzioni di frequenza non ci danno alcun dato rilevante. Infatti le rilevazioni sono dati già raggruppati e in particolare ne abbiamo uno per ogni mese per quattro anni, in ciascune delle 4 città analizzate. Per avere dei dati significativi conviene trattare le distribuzioni di frequenza utilizzando il valore “sales” e non il numero di records:
| City | Abs_freq | Rel_freq |
|---|---|---|
| Beaumont | 10643 | 0.23 |
| Bryan-College Station | 12358 | 0.27 |
| Tyler | 16185 | 0.35 |
| Wichita Falls | 6964 | 0.15 |
| Year | Abs_freq | Rel_freq | Cum_abs_freq | Cum_rel_freq |
|---|---|---|---|---|
| 2010 | 8096 | 0.18 | 8096 | 0.18 |
| 2011 | 7878 | 0.17 | 15974 | 0.35 |
| 2012 | 8935 | 0.19 | 24909 | 0.54 |
| 2013 | 10172 | 0.22 | 35081 | 0.76 |
| 2014 | 11069 | 0.24 | 46150 | 1.00 |
| Month | Abs_freq | Rel_freq |
|---|---|---|
| 1 | 2548 | 0.06 |
| 2 | 2817 | 0.06 |
| 3 | 3789 | 0.08 |
| 4 | 4234 | 0.09 |
| 5 | 4777 | 0.10 |
| 6 | 4871 | 0.11 |
| 7 | 4715 | 0.10 |
| 8 | 4629 | 0.10 |
| 9 | 3647 | 0.08 |
| 10 | 3598 | 0.08 |
| 11 | 3137 | 0.07 |
| 12 | 3388 | 0.07 |
Possiamo identificare la variabile “volume” come quella con la
variabilità più alta in quanto possiede il coefficiente di variazione
(CV) più elevalto. Questo criterio risulta efficace perché ogni
variabile è strettamente positiva e in scala di rapporti. Inoltre la
distribuzione più asimmetrica può essere determinata guardando la
variabile con indice di asimmetria di Fisher più alto in valore
assoluto, ovvero ancora “volume”. In particolare è a distribuzione
asimmetrica positiva. Creiamo ora delle classi per la variabile “sales”.
Considerando il valore minimo e massimo creiamo un passo adatto ad avere
un numero adeguato di classi (che scegliamo essere 8).
Calcoliamo ora l’indice di eterogeneità di Gini su queste classi
## Indice di Gini normalizzato: 0.95
Dato che l’indice di eterogeneità assume valori prossimi all’1 possiamo dire che siamo nel caso di elevata eterogeneità. Calcoliamo ora la probabilità che presa una riga a caso di questo dataset, essa riporti la città di “Beaumont”. Nota che è sufficente considerare la frequenza relativa associata ma qui ripresentiamo il calcolo
## Probabilità che prendendo una riga dal dataset essa riporti Beaumont come città: 0.25
Ora facciamo lo stesso con il mese di Luglio
## Probabilità che prendendo una riga dal dataset essa riporti luglio come mese: 0.08
Infine per dicembre 2012
## Probabilità che prendendo una riga dal dataset essa riporti dicembre come mese e 2012 come anno: 0.02
Creiamo ora due nuove colonne: una con i prezzi medi degli immobili e una che misuri l’efficacia degli annunci di vendita
dati$avg_price = volume*1000000/sales
dati$sell_rate = sales/listings
kable(head(dati, 10))
| city | year | month | sales | volume | median_price | listings | months_inventory | avg_price | sell_rate |
|---|---|---|---|---|---|---|---|---|---|
| Beaumont | 2010 | 1 | 83 | 14.162 | 163800 | 1533 | 9.5 | 170626.5 | 0.0541422 |
| Beaumont | 2010 | 2 | 108 | 17.690 | 138200 | 1586 | 10.0 | 163796.3 | 0.0680958 |
| Beaumont | 2010 | 3 | 182 | 28.701 | 122400 | 1689 | 10.6 | 157697.8 | 0.1077561 |
| Beaumont | 2010 | 4 | 200 | 26.819 | 123200 | 1708 | 10.6 | 134095.0 | 0.1170960 |
| Beaumont | 2010 | 5 | 202 | 28.833 | 123100 | 1771 | 10.9 | 142737.6 | 0.1140599 |
| Beaumont | 2010 | 6 | 189 | 27.219 | 122800 | 1803 | 11.1 | 144015.9 | 0.1048253 |
| Beaumont | 2010 | 7 | 164 | 22.706 | 124300 | 1857 | 11.7 | 138451.2 | 0.0883145 |
| Beaumont | 2010 | 8 | 174 | 25.237 | 136800 | 1830 | 11.6 | 145040.2 | 0.0950820 |
| Beaumont | 2010 | 9 | 124 | 17.233 | 121100 | 1829 | 11.7 | 138975.8 | 0.0677966 |
| Beaumont | 2010 | 10 | 150 | 23.904 | 138500 | 1779 | 11.5 | 159360.0 | 0.0843170 |
Questo ultimo dato misura il rapporto tra immobili venduti e immobili
listati tramite annunci attivi. Più è alto e più ci sono state vendite
in proporzione agli annunci, misurando così l’efficacia di essi.
Passiamo ora alle visualizzazione utilizzando ggplot2
Dal confronto dei boxplot notiamo come essi mantengano bene o male le
stesse posizioni relative tra città anno per anno. Guardando invece
l’andamento delle singole città vediamo che:
Wichita Falls presenza una asimmetria verso il basso nel 2011 e un andamento di leggera crescita un po’ altalenante. La variabilità è più alta delle altre città e ha un picco nel 2012. Infine notiamo l’assenza di outlier tranne per un picco elevato nel 2014;
Tyler invece presenta una variabilità molto bassa (specialmente nel 2010 e 2013), un’elevata simmetria tranne per il 2014 e un andamento di costante crescita;
Bryan-Collage Station ha la variabilità più basssa tra tutte le città, una asimmetria verso il basso (tranne nel 2012) e, dopo un leggero ribasso nel 2011, un andatura crescente;
Beaumont infine è quella che ha un andamento più costante di
tutte le città. Qui possiamo notare una progressiva riduzione della
variabilità negli anni e qualche asimmetria specialmente tra il 2010 e
il 2012.
Questi due grafici a barre rappresentano bene gli andamenti delle
vendite anno per anno divisi rispettivamente per città e per mese.
L’andamento per città era già stato studiato con i boxplot e qui
ritroviamo informazioni coerenti con quanto detto prima. Per quanto
riguarda le vendite per mese vediamo che invece esse cambiano
sensibilmente di anno in anno: nel 2010 i mesi di punta sono stati tra
aprile e giugno, mentre nei tre anni successivi si sono spostati tra
giugno e agosto. Nel 2014 invece i tre mesi di punta sono stati tra
maggio e luglio. Di seguito proviamo ad aggregare queste informazioni
utilizzando grafici a barre sovrapposte:
Infine produciamo ed analizziamo dei line chart.
L’analisi finale con i line chart ci permette di osservare un andamento a picchi nel periodo tardo primaverile-estivo, che anno dopo anno è in crescita costante dopo la diminuzione nel 2011 se aggreghiamo i dati. Se invece li dividiamo per città notiamo che questo non è più vero se non per Tyler e Bryan-Collage Station. Beaumont e Witcha Falls infatti hanno degli andamenti mensili molto più variabili e irrefolari rispetto a quelli delle altre due città e delle vendite complessive, oltre a gestire un numero di vendite generalmente più basso.