L’azienda Texas Realty Insights desidera analizzare le tendenze del mercato immobiliare nello stato del Texas, per fare ciò è stato fornito il dataset Real Estate Texas, il quale contiene dati storici relativi alle vendite di immobili. Le variabili all’interno del dataset sono le seguenti:
| Variable | Descrizione Variabile | Tipo di Variabile |
|---|---|---|
| city | città | qualitativa |
| year | anno di riferimento | qualitativa |
| month | mese di riferimento | qualitativa |
| sales | numero totale di vendite | quantitativa discreta |
| volume | valore totale delle vendite in milioni di dollari | quantitativa continua |
| median_price | prezzo mediano di vendita in dollari | quantitativa continua |
| listings | numero totale di annunci attivi | quantitativa discreta |
| months_inventory | quantità di tempo necessaria per vendere tutte le inserzioni correnti al ritmo attuale delle vendite, espresso in mesi | quantitativa continua |
Il dataset contiene un totale di otto variabili, è importante individuare il tipo di variabile in modo da riuscire a sintetizzare i dati tramite delle statistiche descrittive. Le prime tre, presentate nella tabella precedente, possono essere considerate varibili qualitative, per questo motivo è opportuno utilizzare delle tabelle di frequenza:
| Città | Frequenza.Assoluta | Frequenza.Relativa |
|---|---|---|
| Beaumont | 60 | 0.25 |
| Bryan-College Station | 60 | 0.25 |
| Tyler | 60 | 0.25 |
| Wichita Falls | 60 | 0.25 |
| Anno | Frequenza.Assoluta | Frequenza.Relativa |
|---|---|---|
| 2010 | 48 | 0.2 |
| 2011 | 48 | 0.2 |
| 2012 | 48 | 0.2 |
| 2013 | 48 | 0.2 |
| 2014 | 48 | 0.2 |
| Mese | Frequenza.Assoluta | Frequenza.Relativa |
|---|---|---|
| January | 20 | 0.083 |
| February | 20 | 0.083 |
| March | 20 | 0.083 |
| April | 20 | 0.083 |
| May | 20 | 0.083 |
| June | 20 | 0.083 |
| July | 20 | 0.083 |
| August | 20 | 0.083 |
| September | 20 | 0.083 |
| October | 20 | 0.083 |
| November | 20 | 0.083 |
| December | 20 | 0.083 |
Possiamo concludere che tutte e tre le variabili qualitative sono ugualmente distribuite, ognuna di esse è distribuita uniformemente.
Le variabili quantitative, invece, sono sintetizzate dalle statistiche descrittive riportare nella seguente tabella:
| n | mean | sd | median | min | max | range | skew | kurtosis | |
|---|---|---|---|---|---|---|---|---|---|
| sales | 240 | 192.29167 | 79.651111 | 175.5000 | 79.000 | 423.000 | 344.000 | 0.7136206 | -0.3355200 |
| volume | 240 | 31.00519 | 16.651447 | 27.0625 | 8.166 | 83.547 | 75.381 | 0.8792182 | 0.1505673 |
| median_price | 240 | 132665.41667 | 22662.148687 | 134500.0000 | 73800.000 | 180000.000 | 106200.000 | -0.3622768 | -0.6427292 |
| listings | 240 | 1738.02083 | 752.707756 | 1618.5000 | 743.000 | 3296.000 | 2553.000 | 0.6454431 | -0.8101534 |
| months_inventory | 240 | 9.19250 | 2.303669 | 8.9500 | 3.400 | 14.900 | 11.500 | 0.0407194 | -0.1979448 |
Dalla tabella si evince che la variabile più alta è il prezzo medio, poiché è quella con la media più alta, tuttavia è anche quella con la volatilità maggiore. La variabile Sales è quella con l’asimmetria maggiore.
Prendendo in considerazione solo la variabile Listing, che identifica il numero di annunci attivi, è possibile suddividerla in classi e visualizzare la frequenza di queste ultime. Inoltre, per trarre conclusione, è possibile visualizzare un grafico a barre che mostra la frequenza di ogni classe:
| Frequenza Assoluta | Frequenza Relativa | Frequenza Assoluta Cumulata | Frequenza Relativa Cumulata | |
|---|---|---|---|---|
| (740.4,998.3] | 54 | 0.2250 | 54 | 0.2250 |
| (998.3,1254] | 20 | 0.0833 | 74 | 0.3083 |
| (1254,1509] | 20 | 0.0833 | 94 | 0.3916 |
| (1509,1764] | 67 | 0.2792 | 161 | 0.6708 |
| (1764,2020] | 19 | 0.0792 | 180 | 0.7500 |
| (2020,2275] | 1 | 0.0042 | 181 | 0.7542 |
| (2275,2530] | 2 | 0.0083 | 183 | 0.7625 |
| (2530,2785] | 15 | 0.0625 | 198 | 0.8250 |
| (2785,3041] | 24 | 0.1000 | 222 | 0.9250 |
| (3041,3299] | 18 | 0.0750 | 240 | 1.0000 |
Possiamo quindi concludere che la classe con maggiore frequenza è quella tra 1510 e 1764 annunci al mese, queste classe contiene anche il valore mediano. Considerando le frequenze cumulate, possiamo concludere che il 1° quartile è nella seconda classe ((998.3,1254]), mentre l’ultimo quartile è nella 5° classe. La classe con minor frquenza è quella in cui il numero degli annunci è compreso tra 2021 e 2275. Infine, possiamo calcolare l’indice di Gini per comprendere se i dati sono distribuiti omogeneamente o meno. Il valore dell’indice di Gini è il seguente: \[G=\frac{1-\sum_{i=1}^Nf_i^2}{\frac{N-1}{N}} = \frac{1-0.1683458}{\frac{10-1}{10}}=0.9240602\] Quindi possiamo concludere che, essendo 0.9240602 vicino a 1, i dati sono relativamente equamente distribuiti nelle classi considerate.
Calcolando nuovamente l’indice di Gini, considerando la variabile City, esso ha il seguente valore: \[G=\frac{1-\sum_{i=1}^Nf_i^2}{\frac{N-1}{N}} = \frac{1-0.25}{\frac{4-1}{4}}=1\] Come già visto precedentemente, abbiamo la conferma che i dati abbiano etereogenità massima e che quindi siano equamente distribuiti.
La probabilità che presa casualmente una riga dal dataset, questa riporti Bermut come valore della variabile City è del \(25\%\). Il calcolo utilizzato per arrivare a questo risultato è il seguente: \[p_1=\frac{\text{# eventi favorevoli}}{\text{# eventi possibili}} = \frac{60}{240}=0.25\].
La probabilità che presa casualmente una riga dal dataset, questa riporti sia la variabile City uguale a Bermut e Luglio come valore della variabile Month è dell’\(2.08\%\); la probabilità che questa riga appartenga anche all’anno 2012 è del \(0.42\%\).
Per creare una variabile del prezzo medio è possibile moltiplicare la variabile Volume per 1 milione, andando a identificare le valore totale delle vendite espresse in dollari, per poi dividere il risultato per la variabile Sales, che indica il numero totale di vendite. In questo modo, partiamo dal presupposto che: \[\text{Volume} = \text{Sales} * \text{Price} \Rightarrow \text{Price} = \frac{\text{Volume}}{\text{Sales}}\] In questo caso il Prezzo che troviamo attraverso questa formula è esattamente il prezzo medio, in quanto è dato dal valore totale delle vendite (Volume) e dal numero di vendite registate (Sales) in un determinato periodo e città.
Una nuova colonna che può essere introdotta per valutare l’efficacia degli annunci delle vendite è data dal rapporto tra il numero di vendite e il numero di annunci attivi, in questo modo è possibile capire qual è la porzione di annunci attivi che sono effettivamente stati venduti. Questa nuova variabile è calcolata come segue: \[\text{Sales per listing rate} = \frac{\text{Sales}}{\text{Listing}}\] Considerando la tabella di frequenza e l’istogramma di questa nuova variabile, possiamo concludere che la moda, quindi la classe che si ripete con più frequenza è quella compresa tra 0.09828 e 0.1464. Perciò con maggior frequenza, la probabilità che gli annunci attivi si trasformino in vendite effettive è compresa tra il \(9.89\%\) e il \(14,64\%\). Inoltre, circa l’\(80\%\) degli annunci attivi ha una probabilità di trasformarsi in una vendita effettiva non superiore al \(14,64\%\). Questo risultato si ricava dalla tabella delle frequenze, in cui la frequenza cumulata della seconda classe è pari a \(0,8125\) e il limite superiore della classe è \(0.1464\).
| Frequenza Assoluta | Frequenza Relativa | Frequenza Assoluta Cumulata | Frequenza Relativa Cumulata | |
|---|---|---|---|---|
| (0.0498,0.09828] | 86 | 0.3583 | 86 | 0.3583 |
| (0.09828,0.1464] | 109 | 0.4542 | 195 | 0.8125 |
| (0.1464,0.1946] | 31 | 0.1292 | 226 | 0.9417 |
| (0.1946,0.2427] | 8 | 0.0333 | 234 | 0.9750 |
| (0.2427,0.2908] | 2 | 0.0083 | 236 | 0.9833 |
| (0.2908,0.339] | 3 | 0.0125 | 239 | 0.9958 |
| (0.339,0.3875] | 1 | 0.0042 | 240 | 1.0000 |
Si possono creare delle statistiche descrittive di più variabili quantitative, condizionatamente a una variabile qualitativa, ecco alcuni esempi:
## # A tibble: 4 × 5
## City `Sales Mean` `Sales Std Dev` `Volumes Mean` `Volumes Std Dev`
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Beaumont 192. 79.7 31.0 16.7
## 2 Bryan-College S… 192. 79.7 31.0 16.7
## 3 Tyler 192. 79.7 31.0 16.7
## 4 Wichita Falls 192. 79.7 31.0 16.7
## # A tibble: 5 × 5
## City `Sales Mean` `Sales Std Dev` `Volumes Mean` `Volumes Std Dev`
## <int> <dbl> <dbl> <dbl> <dbl>
## 1 2010 192. 79.7 31.0 16.7
## 2 2011 192. 79.7 31.0 16.7
## 3 2012 192. 79.7 31.0 16.7
## 4 2013 192. 79.7 31.0 16.7
## 5 2014 192. 79.7 31.0 16.7
## # A tibble: 12 × 5
## City `Sales Mean` `Sales Std Dev` `Volumes Mean` `Volumes Std Dev`
## <int> <dbl> <dbl> <dbl> <dbl>
## 1 1 192. 79.7 31.0 16.7
## 2 2 192. 79.7 31.0 16.7
## 3 3 192. 79.7 31.0 16.7
## 4 4 192. 79.7 31.0 16.7
## 5 5 192. 79.7 31.0 16.7
## 6 6 192. 79.7 31.0 16.7
## 7 7 192. 79.7 31.0 16.7
## 8 8 192. 79.7 31.0 16.7
## 9 9 192. 79.7 31.0 16.7
## 10 10 192. 79.7 31.0 16.7
## 11 11 192. 79.7 31.0 16.7
## 12 12 192. 79.7 31.0 16.7
In tutti e tre i casi, essendo le variabili quantitative equamente distribute, non vediamo differenza delle le statistiche descrittive tra le diverse modalità della variabile.
Tramite la visualizzazione di alcuni grafici possiamo andare ad arricchire ulteriormente le statistiche descrittive del dataset.
Possiamo utilizzare un boxplot per confrontare la distribuzione del prezzo mediano delle case tra le varie città:
Possiamo concludere che la città dove il presso mediano è più alto è Bryan-College Station, mentre quella con il prezzo mediano più basso è Witchita Falls. Inoltre, possiamo dire che che in tutte e tre le città, tranne Tyler, c’è un outlier che eccede superiormente il Tukey fence. Da questo boxplot possiamo capire anche che la città con il range di prezzi mediani più ampio è Wichita Falls.
Il box poò essere utilizzato anche per paragonare i dati considerando più di una variabile quantitativa, ad esempio possiamo paragonare il valore totale delle vendite considerando sia la città che l’anno:
Dal boxplot possiamo concludere che per ogni anno, la mediana del valore totale delle vendite è superiore nella città di Tyler. In generale, il valore totale delle vendite sale ogni anno, tranne per la città di Witchata Falls in cui il valore rimane pressochè stabile negli anni.
Nel grafico a barre sovrapposte riportato sotto, viene paragonata la distribuzione delle vendite mensili per ogni anno e per ogni città.
Una tra le molte conclusioni che possono essere fatte dal grafico è che da gennaio a giugno e da settembre a dicembre, le vendite di tutte le città è superiore nel 2014, mentre da giugno ad agosto le vendite sono superiori nel 2013. Inoltre, le vendite maggiori sono generalmente nella città di Tyler, mentre il volume di vendite minore si registra nella citta di Wichita Falls per ogmni anno e mese, confermando quello concluso nel boxplot precedente.
Infine, possiamo considerare un grafico a linee per vedere
l’anadamento delle vendite:
Si conclude che negli anni, la città di Wichata Falls è quella che ha registrato un volume di vendita minore, mentre quella di Tyler è quella con un volume di vendita maggiore tranne poco prima dell’inizio del 2014, che viene superata da Bryan-College Station. Inoltre sembra che l’inizio dell’anno sia un periodo in cui vi è un basso volume di vendite in ogni città, in quanto ci sono dei picchi verso il basso.