Introduzione

L’azienda Texas Realty Insights desidera analizzare le tendenze del mercato immobiliare nello stato del Texas, per fare ciò è stato fornito il dataset Real Estate Texas, il quale contiene dati storici relativi alle vendite di immobili. Le variabili all’interno del dataset sono le seguenti:

Variable Descrizione Variabile Tipo di Variabile
city città qualitativa
year anno di riferimento qualitativa
month mese di riferimento qualitativa
sales numero totale di vendite quantitativa discreta
volume valore totale delle vendite in milioni di dollari quantitativa continua
median_price prezzo mediano di vendita in dollari quantitativa continua
listings numero totale di annunci attivi quantitativa discreta
months_inventory quantità di tempo necessaria per vendere tutte le inserzioni correnti al ritmo attuale delle vendite, espresso in mesi quantitativa continua

Il dataset contiene un totale di otto variabili, è importante individuare il tipo di variabile in modo da riuscire a sintetizzare i dati tramite delle statistiche descrittive. Le prime tre, presentate nella tabella precedente, possono essere considerate varibili qualitative, per questo motivo è opportuno utilizzare delle tabelle di frequenza:

Tabella di frequenza: variabile Città
Città Frequenza.Assoluta Frequenza.Relativa
Beaumont 60 0.25
Bryan-College Station 60 0.25
Tyler 60 0.25
Wichita Falls 60 0.25
Tabella di frequenza: variabile Anno
Anno Frequenza.Assoluta Frequenza.Relativa
2010 48 0.2
2011 48 0.2
2012 48 0.2
2013 48 0.2
2014 48 0.2
Tabella di frequenza: variabile Mese
Mese Frequenza.Assoluta Frequenza.Relativa
January 20 0.083
February 20 0.083
March 20 0.083
April 20 0.083
May 20 0.083
June 20 0.083
July 20 0.083
August 20 0.083
September 20 0.083
October 20 0.083
November 20 0.083
December 20 0.083

Possiamo concludere che tutte e tre le variabili qualitative sono ugualmente distribuite, ognuna di esse è distribuita uniformemente.

Le variabili quantitative, invece, sono sintetizzate dalle statistiche descrittive riportare nella seguente tabella:

Statistiche descrittive per variabili quantitative
n mean sd median min max range skew kurtosis
sales 240 192.29167 79.651111 175.5000 79.000 423.000 344.000 0.7136206 -0.3355200
volume 240 31.00519 16.651447 27.0625 8.166 83.547 75.381 0.8792182 0.1505673
median_price 240 132665.41667 22662.148687 134500.0000 73800.000 180000.000 106200.000 -0.3622768 -0.6427292
listings 240 1738.02083 752.707756 1618.5000 743.000 3296.000 2553.000 0.6454431 -0.8101534
months_inventory 240 9.19250 2.303669 8.9500 3.400 14.900 11.500 0.0407194 -0.1979448

Dalla tabella si evince che la variabile più alta è il prezzo medio, poiché è quella con la media più alta, tuttavia è anche quella con la volatilità maggiore. La variabile Sales è quella con l’asimmetria maggiore.

Prendendo in considerazione solo la variabile Listing, che identifica il numero di annunci attivi, è possibile suddividerla in classi e visualizzare la frequenza di queste ultime. Inoltre, per trarre conclusione, è possibile visualizzare un grafico a barre che mostra la frequenza di ogni classe:

Tabella di Frequenza: Listing
Frequenza Assoluta Frequenza Relativa Frequenza Assoluta Cumulata Frequenza Relativa Cumulata
(740.4,998.3] 54 0.2250 54 0.2250
(998.3,1254] 20 0.0833 74 0.3083
(1254,1509] 20 0.0833 94 0.3916
(1509,1764] 67 0.2792 161 0.6708
(1764,2020] 19 0.0792 180 0.7500
(2020,2275] 1 0.0042 181 0.7542
(2275,2530] 2 0.0083 183 0.7625
(2530,2785] 15 0.0625 198 0.8250
(2785,3041] 24 0.1000 222 0.9250
(3041,3299] 18 0.0750 240 1.0000

Possiamo quindi concludere che la classe con maggiore frequenza è quella tra 1510 e 1764 annunci al mese, queste classe contiene anche il valore mediano. Considerando le frequenze cumulate, possiamo concludere che il 1° quartile è nella seconda classe ((998.3,1254]), mentre l’ultimo quartile è nella 5° classe. La classe con minor frquenza è quella in cui il numero degli annunci è compreso tra 2021 e 2275. Infine, possiamo calcolare l’indice di Gini per comprendere se i dati sono distribuiti omogeneamente o meno. Il valore dell’indice di Gini è il seguente: \[G=\frac{1-\sum_{i=1}^Nf_i^2}{\frac{N-1}{N}} = \frac{1-0.1683458}{\frac{10-1}{10}}=0.9240602\] Quindi possiamo concludere che, essendo 0.9240602 vicino a 1, i dati sono relativamente equamente distribuiti nelle classi considerate.

Calcolando nuovamente l’indice di Gini, considerando la variabile City, esso ha il seguente valore: \[G=\frac{1-\sum_{i=1}^Nf_i^2}{\frac{N-1}{N}} = \frac{1-0.25}{\frac{4-1}{4}}=1\] Come già visto precedentemente, abbiamo la conferma che i dati abbiano etereogenità massima e che quindi siano equamente distribuiti.

La probabilità che presa casualmente una riga dal dataset, questa riporti Bermut come valore della variabile City è del \(25\%\). Il calcolo utilizzato per arrivare a questo risultato è il seguente: \[p_1=\frac{\text{# eventi favorevoli}}{\text{# eventi possibili}} = \frac{60}{240}=0.25\].

La probabilità che presa casualmente una riga dal dataset, questa riporti sia la variabile City uguale a Bermut e Luglio come valore della variabile Month è dell’\(2.08\%\); la probabilità che questa riga appartenga anche all’anno 2012 è del \(0.42\%\).

Per creare una variabile del prezzo medio è possibile moltiplicare la variabile Volume per 1 milione, andando a identificare le valore totale delle vendite espresse in dollari, per poi dividere il risultato per la variabile Sales, che indica il numero totale di vendite. In questo modo, partiamo dal presupposto che: \[\text{Volume} = \text{Sales} * \text{Price} \Rightarrow \text{Price} = \frac{\text{Volume}}{\text{Sales}}\] In questo caso il Prezzo che troviamo attraverso questa formula è esattamente il prezzo medio, in quanto è dato dal valore totale delle vendite (Volume) e dal numero di vendite registate (Sales) in un determinato periodo e città.

Una nuova colonna che può essere introdotta per valutare l’efficacia degli annunci delle vendite è data dal rapporto tra il numero di vendite e il numero di annunci attivi, in questo modo è possibile capire qual è la porzione di annunci attivi che sono effettivamente stati venduti. Questa nuova variabile è calcolata come segue: \[\text{Sales per listing rate} = \frac{\text{Sales}}{\text{Listing}}\] Considerando la tabella di frequenza e l’istogramma di questa nuova variabile, possiamo concludere che la moda, quindi la classe che si ripete con più frequenza è quella compresa tra 0.09828 e 0.1464. Perciò con maggior frequenza, la probabilità che gli annunci attivi si trasformino in vendite effettive è compresa tra il \(9.89\%\) e il \(14,64\%\). Inoltre, circa l’\(80\%\) degli annunci attivi ha una probabilità di trasformarsi in una vendita effettiva non superiore al \(14,64\%\). Questo risultato si ricava dalla tabella delle frequenze, in cui la frequenza cumulata della seconda classe è pari a \(0,8125\) e il limite superiore della classe è \(0.1464\).

Tabella di Frequenza: Sales per Listing rate
Frequenza Assoluta Frequenza Relativa Frequenza Assoluta Cumulata Frequenza Relativa Cumulata
(0.0498,0.09828] 86 0.3583 86 0.3583
(0.09828,0.1464] 109 0.4542 195 0.8125
(0.1464,0.1946] 31 0.1292 226 0.9417
(0.1946,0.2427] 8 0.0333 234 0.9750
(0.2427,0.2908] 2 0.0083 236 0.9833
(0.2908,0.339] 3 0.0125 239 0.9958
(0.339,0.3875] 1 0.0042 240 1.0000

Si possono creare delle statistiche descrittive di più variabili quantitative, condizionatamente a una variabile qualitativa, ecco alcuni esempi:

## # A tibble: 4 × 5
##   City             `Sales Mean` `Sales Std Dev` `Volumes Mean` `Volumes Std Dev`
##   <chr>                   <dbl>           <dbl>          <dbl>             <dbl>
## 1 Beaumont                 192.            79.7           31.0              16.7
## 2 Bryan-College S…         192.            79.7           31.0              16.7
## 3 Tyler                    192.            79.7           31.0              16.7
## 4 Wichita Falls            192.            79.7           31.0              16.7
## # A tibble: 5 × 5
##    City `Sales Mean` `Sales Std Dev` `Volumes Mean` `Volumes Std Dev`
##   <int>        <dbl>           <dbl>          <dbl>             <dbl>
## 1  2010         192.            79.7           31.0              16.7
## 2  2011         192.            79.7           31.0              16.7
## 3  2012         192.            79.7           31.0              16.7
## 4  2013         192.            79.7           31.0              16.7
## 5  2014         192.            79.7           31.0              16.7
## # A tibble: 12 × 5
##     City `Sales Mean` `Sales Std Dev` `Volumes Mean` `Volumes Std Dev`
##    <int>        <dbl>           <dbl>          <dbl>             <dbl>
##  1     1         192.            79.7           31.0              16.7
##  2     2         192.            79.7           31.0              16.7
##  3     3         192.            79.7           31.0              16.7
##  4     4         192.            79.7           31.0              16.7
##  5     5         192.            79.7           31.0              16.7
##  6     6         192.            79.7           31.0              16.7
##  7     7         192.            79.7           31.0              16.7
##  8     8         192.            79.7           31.0              16.7
##  9     9         192.            79.7           31.0              16.7
## 10    10         192.            79.7           31.0              16.7
## 11    11         192.            79.7           31.0              16.7
## 12    12         192.            79.7           31.0              16.7

In tutti e tre i casi, essendo le variabili quantitative equamente distribute, non vediamo differenza delle le statistiche descrittive tra le diverse modalità della variabile.

Tramite la visualizzazione di alcuni grafici possiamo andare ad arricchire ulteriormente le statistiche descrittive del dataset.

Possiamo utilizzare un boxplot per confrontare la distribuzione del prezzo mediano delle case tra le varie città:

Possiamo concludere che la città dove il presso mediano è più alto è Bryan-College Station, mentre quella con il prezzo mediano più basso è Witchita Falls. Inoltre, possiamo dire che che in tutte e tre le città, tranne Tyler, c’è un outlier che eccede superiormente il Tukey fence. Da questo boxplot possiamo capire anche che la città con il range di prezzi mediani più ampio è Wichita Falls.

Il box poò essere utilizzato anche per paragonare i dati considerando più di una variabile quantitativa, ad esempio possiamo paragonare il valore totale delle vendite considerando sia la città che l’anno:

Dal boxplot possiamo concludere che per ogni anno, la mediana del valore totale delle vendite è superiore nella città di Tyler. In generale, il valore totale delle vendite sale ogni anno, tranne per la città di Witchata Falls in cui il valore rimane pressochè stabile negli anni.

Nel grafico a barre sovrapposte riportato sotto, viene paragonata la distribuzione delle vendite mensili per ogni anno e per ogni città.

Una tra le molte conclusioni che possono essere fatte dal grafico è che da gennaio a giugno e da settembre a dicembre, le vendite di tutte le città è superiore nel 2014, mentre da giugno ad agosto le vendite sono superiori nel 2013. Inoltre, le vendite maggiori sono generalmente nella città di Tyler, mentre il volume di vendite minore si registra nella citta di Wichita Falls per ogmni anno e mese, confermando quello concluso nel boxplot precedente.

Infine, possiamo considerare un grafico a linee per vedere l’anadamento delle vendite:

Si conclude che negli anni, la città di Wichata Falls è quella che ha registrato un volume di vendita minore, mentre quella di Tyler è quella con un volume di vendita maggiore tranne poco prima dell’inizio del 2014, che viene superata da Bryan-College Station. Inoltre sembra che l’inizio dell’anno sia un periodo in cui vi è un basso volume di vendite in ogni città, in quanto ci sono dei picchi verso il basso.