I dati presenti in questa analisi sono valori quantitativi relativi al mercato immobiliare del Texas raggruppati per città, mese e anno. Questi tre parametri raggruppano i dati grezzi e possono essere utilizzate per svolgere delle analisi in grado di confrontare tra loro diverse città (parametro qualitativo) o i diversi anni/mesi (parametri quantitativi-qualitativi). Iniziamo identificando quale tipo di variabile sono rappresentate nel nostro database:

Su “city”, “month” e “year” è possibile fare una distribuzione di frequenze, anche se vedremo in seguito ha senso farla sulla somma dei valori di “sales” più che sul numero di record.

Cominciamo concentrandoci sulle variabili quantitative:

Statistica Sales Volume Median_Price Listings Months_Inventory
Min. 79.00 8.17 73800.0 743.00 3.40
1st Qu. 127.00 17.66 117300.0 1026.50 7.80
Median 175.50 27.06 134500.0 1618.50 8.95
Mean 192.29 31.01 132665.4 1738.02 9.19
3rd Qu. 247.00 40.89 150050.0 2056.00 10.95
Max. 423.00 83.55 180000.0 3296.00 14.90
Statistica Sales Volume Median_Price Listings Months_Inventory
Dev.sd 79.65 16.65 22662.15 752.71 2.30
IQR 120.00 23.23 32750.00 1029.50 3.15
CV 41.42 53.71 17.08 43.31 25.06
Indice.Fisher 0.72 0.88 -0.36 0.65 0.04
Curtosi -0.31 0.18 -0.62 -0.79 -0.17

Per “city”, “year” e “month” ha meno senso un analisi di questo tipo, perciò daremo una distribuzione di frequenza. In particolare studieremo frequenze cumulate solo sulla variabile ordinale “year”:

City Abs_freq Rel_freq
Beaumont 60 0.25
Bryan-College Station 60 0.25
Tyler 60 0.25
Wichita Falls 60 0.25
Year Abs_freq Rel_freq Cum_abs_freq Cum_rel_freq
2010 48 0.2 48 0.2
2011 48 0.2 96 0.4
2012 48 0.2 144 0.6
2013 48 0.2 192 0.8
2014 48 0.2 240 1.0
Month Abs_freq Rel_freq
1 20 0.08
2 20 0.08
3 20 0.08
4 20 0.08
5 20 0.08
6 20 0.08
7 20 0.08
8 20 0.08
9 20 0.08
10 20 0.08
11 20 0.08
12 20 0.08

Commenti: notiamo come le distribuzioni di frequenza non ci danno alcun dato rilevante. Infatti le rilevazioni sono dati già raggruppati e in particolare ne abbiamo uno per ogni mese per quattro anni, in ciascune delle 4 città analizzate. Per avere dei dati significativi conviene trattare le distribuzioni di frequenza utilizzando il valore “sales” e non il numero di records:

City Abs_freq Rel_freq
Beaumont 10643 0.23
Bryan-College Station 12358 0.27
Tyler 16185 0.35
Wichita Falls 6964 0.15
Year Abs_freq Rel_freq Cum_abs_freq Cum_rel_freq
2010 8096 0.18 8096 0.18
2011 7878 0.17 15974 0.35
2012 8935 0.19 24909 0.54
2013 10172 0.22 35081 0.76
2014 11069 0.24 46150 1.00
Month Abs_freq Rel_freq
1 2548 0.06
2 2817 0.06
3 3789 0.08
4 4234 0.09
5 4777 0.10
6 4871 0.11
7 4715 0.10
8 4629 0.10
9 3647 0.08
10 3598 0.08
11 3137 0.07
12 3388 0.07

Possiamo identificare la variabile “volume” come quella con la variabilità più alta in quanto possiede il coefficiente di variazione (CV) più elevalto. Questo criterio risulta efficace perché ogni variabile è strettamente positiva e in scala di rapporti. Inoltre la distribuzione più asimmetrica può essere determinata guardando la variabile con indice di asimmetria di Fisher più alto in valore assoluto, ovvero ancora “volume”. In particolare è a distribuzione asimmetrica positiva. Creiamo ora delle classi per la variabile “sales”. Considerando il valore minimo e massimo creiamo un passo adatto ad avere un numero adeguato di classi (che scegliamo essere 8).

Calcoliamo ora l’indice di eterogeneità di Gini su queste classi

## Indice di Gini normalizzato: 0.95

Dato che l’indice di eterogeneità assume valori prossimi all’1 possiamo dire che siamo nel caso di elevata eterogeneità. Calcoliamo ora la probabilità che presa una riga a caso di questo dataset, essa riporti la città di “Beaumont”. Nota che è sufficente considerare la frequenza relativa associata ma qui ripresentiamo il calcolo

## Probabilità che prendendo una riga dal dataset essa riporti Beaumont come città: 0.25

Ora facciamo lo stesso con il mese di Luglio

## Probabilità che prendendo una riga dal dataset essa riporti luglio come mese: 0.08

Infine per dicembre 2012

## Probabilità che prendendo una riga dal dataset essa riporti dicembre come mese e 2012 come anno: 0.02

Creiamo ora due nuove colonne: una con i prezzi medi degli immobili e una che misuri l’efficacia degli annunci di vendita

dati$avg_price = volume*1000000/sales
dati$sell_rate = sales/listings
kable(head(dati, 10))
city year month sales volume median_price listings months_inventory avg_price sell_rate
Beaumont 2010 1 83 14.162 163800 1533 9.5 170626.5 0.0541422
Beaumont 2010 2 108 17.690 138200 1586 10.0 163796.3 0.0680958
Beaumont 2010 3 182 28.701 122400 1689 10.6 157697.8 0.1077561
Beaumont 2010 4 200 26.819 123200 1708 10.6 134095.0 0.1170960
Beaumont 2010 5 202 28.833 123100 1771 10.9 142737.6 0.1140599
Beaumont 2010 6 189 27.219 122800 1803 11.1 144015.9 0.1048253
Beaumont 2010 7 164 22.706 124300 1857 11.7 138451.2 0.0883145
Beaumont 2010 8 174 25.237 136800 1830 11.6 145040.2 0.0950820
Beaumont 2010 9 124 17.233 121100 1829 11.7 138975.8 0.0677966
Beaumont 2010 10 150 23.904 138500 1779 11.5 159360.0 0.0843170

Questo ultimo dato misura il rapporto tra immobili venduti e immobili listati tramite annunci attivi. Più è alto e più ci sono state vendite in proporzione agli annunci, misurando così l’efficacia di essi. Passiamo ora alle visualizzazione utilizzando ggplot2 Dal confronto dei boxplot notiamo come essi mantengano bene o male le stesse posizioni relative tra città anno per anno. Guardando invece l’andamento delle singole città vediamo che:

L’analisi finale con i line chart ci permette di osservare un andamento a picchi nel periodo tardo primaverile-estivo, che anno dopo anno è in crescita costante dopo la diminuzione nel 2011 se aggreghiamo i dati. Se invece li dividiamo per città notiamo che questo non è più vero se non per Tyler e Bryan-Collage Station. Beaumont e Witcha Falls infatti hanno degli andamenti mensili molto più variabili e irrefolari rispetto a quelli delle altre due città e delle vendite complessive, oltre a gestire un numero di vendite generalmente più basso.