##
## Caricamento pacchetto: 'dplyr'
## I seguenti oggetti sono mascherati da 'package:stats':
##
## filter, lag
## I seguenti oggetti sono mascherati da 'package:base':
##
## intersect, setdiff, setequal, union
##
## Caricamento pacchetto: 'kableExtra'
## Il seguente oggetto è mascherato da 'package:dplyr':
##
## group_rows
Il dataset è composto da 8 variabili:
Le variabili temporali possono essere raffigurate come serie storiche:
Possibili analisi per variabile:
| Measure | Sales (unità) | Volume (milioni di dollari) | Median_price (dollari) | Listings (unità) | Months_inventory (mesi) |
|---|---|---|---|---|---|
| Min | 79.000 | 8.166 | 73800.000 | 743.000 | 3.400 |
| Max | 423.000 | 83.547 | 180000.000 | 3296.000 | 14.900 |
| Median | 175.500 | 27.062 | 134500.000 | 1618.500 | 8.950 |
| Mean | 192.292 | 31.005 | 132665.417 | 1738.021 | 9.193 |
| Measure | Sales (unità) | Volume (milioni di dollari) | Median_price (dollari) | Listings (unità) | Months_inventory (mesi) |
|---|---|---|---|---|---|
| Range | 344.000 | 75.381 | 106200.000 | 2553.000 | 11.500 |
| IQR | 120.000 | 23.233 | 32750.000 | 1029.500 | 3.150 |
| Variance | 6344.300 | 277.271 | 513572983.089 | 566568.966 | 5.307 |
| Standard Deviation | 79.651 | 16.651 | 22662.149 | 752.708 | 2.304 |
| Coefficient of Variation [%] | 41.422 | 53.705 | 17.082 | 43.308 | 25.060 |
| Measure | Sales (unità) | Volume (milioni di dollari) | Median_price (dollari) | Listings (unità) | Months_inventory (mesi) |
|---|---|---|---|---|---|
| Skewness | 0.718 | 0.885 | -0.365 | 0.649 | 0.041 |
| Kurtosis | -0.313 | 0.177 | -0.623 | -0.792 | -0.174 |
Dalle tabelle sopra riportate si possono fare le seguenti considerazioni
per variabile:
| ni | fi | Ni | Fi | |
|---|---|---|---|---|
| Beaumont | 60 | 0.25 | 60 | 0.25 |
| Bryan-College Station | 60 | 0.25 | 120 | 0.50 |
| Tyler | 60 | 0.25 | 180 | 0.75 |
| Wichita Falls | 60 | 0.25 | 240 | 1.00 |
| ni | fi | Ni | Fi | |
|---|---|---|---|---|
| 2010 | 48 | 0.2 | 48 | 0.2 |
| 2011 | 48 | 0.2 | 96 | 0.4 |
| 2012 | 48 | 0.2 | 144 | 0.6 |
| 2013 | 48 | 0.2 | 192 | 0.8 |
| 2014 | 48 | 0.2 | 240 | 1.0 |
| Month | ni | fi | Ni | Fi |
|---|---|---|---|---|
| Gennaio | 20 | 0.0833333 | 20 | 0.0833333 |
| Febbraio | 20 | 0.0833333 | 40 | 0.1666667 |
| Marzo | 20 | 0.0833333 | 60 | 0.2500000 |
| Aprile | 20 | 0.0833333 | 80 | 0.3333333 |
| Maggio | 20 | 0.0833333 | 100 | 0.4166667 |
| Giugno | 20 | 0.0833333 | 120 | 0.5000000 |
| Luglio | 20 | 0.0833333 | 140 | 0.5833333 |
| Agosto | 20 | 0.0833333 | 160 | 0.6666667 |
| Settembre | 20 | 0.0833333 | 180 | 0.7500000 |
| Ottobre | 20 | 0.0833333 | 200 | 0.8333333 |
| Novembre | 20 | 0.0833333 | 220 | 0.9166667 |
| Dicembre | 20 | 0.0833333 | 240 | 1.0000000 |
Le distribuzioni di frequenza per city,
year e month dimostrano che il dataset
è uniforme con uno stesso numero di osservazioni per città, per anno e
per mese evitando così un bias geografico e temporale.
La variabile con più alta variabilità è volume in
quanto presenta un coefficiente di variazione più elevato (circa
53.7%).
Tutti i valori di skewness sono bassi (inferiori a 1) indicando
distribuzioni più o meno simmetriche. Il valore più elevato è quello che
corrisponde alla variabile volume (circa 0.885) che
quindi è la distribuzione più asimmetrica e presenta un’asimmetria
positiva (asimmetria destra).
La variabile Sales ha un range che va da 79 a 423, quindi è possibile
creare 5 classi:
## <div style='text-align: center;'>
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
L’indice di Gini è 0.9038628.
La distribuzione di frequenza indica una distribuzione non uniforme tra
le varie classi. La classe che rappresenta il numero di vendite più
basso è quella con frequenza maggiore e la frequenza delle osservazioni
nelle classi diminuisce per le classi con il numero di vendite
crescenti, arrivando al minimo per la classe con numero di vendite
maggiori.
Dal barplot si può vedere che la distribuzione tra le classi non è
omogenea, il che è confermato dall’indice di Gini vicino a 1 che indica
una distribuzione delle osservazioni all’interno delle classi molto
concentrata.
Beaumont ha un frequenza assoluta nel datates di 60, le osservazioni
del dataset sono 240, quindila probabilità che presa una riga a caso di
questo dataset essa riporti la città “Beaumont” è del 25%.
Luglio ha una frequenza assoluta nel dataset di 20, le osservazioni sono
240 quindi la probabilità che presa una riga a caso di questo dataset
essa riporti il mese di luglio è del 8.3%.
Dicembre 2012 compare nel dataset una volta per ogni città, 4
osservazioni su 240, quindi la probabilità che presa una riga a caso di
questo dataset essa riporti Dicembre 2012 è del 1.67%.
La variabile dell’efficacia degli annunci di vendita è calcolata come
numero di vendite/numero degli annunci. Si ottiene così una variabile
che va da 0 a 1, dove 0 significa che il numero delle vendite è stato
nullo e 1 che tutte le unità immobiliari che hanno un annuncio sono
state vendute.
Viene di seguito riportata la distribuzione di frequenza dell’efficacia
degli annunci.
## I seguenti oggetti sono mascherati da dati (pos = 3):
##
## city, listings, median_price, month, months_inventory, sales,
## volume, year
## <div style='text-align: center;'>
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
La distribuzione di frequenza è tagliata al valore di 0.4 in quanto si è
visto che dopo quel valore non ci sono osservazioni quindi si è ridotto
il dominio del grafico per renderne più facile la visualizzazione.
La maggior parte delle osservazione ricade nelle classi (0.05,0.1] e
(0.1,0.15] indicando che una piccola percentuale di annunci conduce a
una vendita, per cui si ha una bassa efficacia degli annunci di
vendita.
Sono stati creati dei summary per analisi statistiche condizionate
per città, anno, mese, città e anno, città e mese, anno e mese. Vengono
di seguito riportate alcune rappresentazioni grafiche per le variabili
ritenute più d’interesse e che non rappresentano una ripetizione dei
grafici che verrano riportati in seguito (punto 8).
## `summarise()` has grouped output by 'city'. You can override using the
## `.groups` argument.
## `summarise()` has grouped output by 'year'. You can override using the
## `.groups` argument.
## Warning: The `size` argument of `element_line()` is deprecated as of ggplot2 3.4.0.
## ℹ Please use the `linewidth` argument instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Il grafico rapprenta l’andamento della media mensile delle vendite e
degli annunci attivi diviso per città nei vari anni con relativa
deviazione standard. Si può notare come il numero delle vendite è per
tutte le città molto inferiore al numero di annunci attivi evidenziando
una bassa efficacia degli annunci di vendita. Si nota una diminuzione
del numero di annunci negli anni con un aumento del numero di vendite,
evidenziando una ripresa del mercato immobiliare.
Il grafico evidenzia un aumento generale dei prezzi delle unità
immobiliari in tutte le città dal 2010 al 2014, tranne che per la città
di Wichita Falls per cui il prezzo medio rimane pressocchè costante.
Bryan-College Station risulta essere la città con le unità immobiliari
più costose.
Mettendo in relazione il prezzo medio con il numero di unità vendute, si
nota come, nonostante Wichita Falls abbia il prezzo medio minore questo
non si riflette in un maggior numero di unità immobiliari vendute,
evidenziando una saturazione del mercato. D’altra parte la città di
Tyler registra un numero di vendite più elevato rispetto a un prezzo
medio comparabile con quello di Beaumont e Bryan-College Station.
Nel grafico è mostrato l’andamento della variabile
months_inventory, che rappresenta l’equilibrio tra
domanda e offerta. Dopo un leggero peggioramento dal 2010 al 2011, si
nota un generale andamento migliorativo nel tempo ad eccezione di
Wichita Falls che mantiene un andamento regolare.
Di seguito il boxplot di confronto tra le distribuzioni dei prezzi
mediani tra le città e la variazione che hanno subito negli anni.
## <div style='text-align: center;'>
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## <div style='text-align: center;'>
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
Dal boxplot è subito chiaro che i prezzi mediani più alti sono quelli
per le proprietà di Bryan-College Station, con una proprietà che supera
i $175.000, seguiti da Tyler, Beaumont e Wichita Falls. La variabilità
nei prezzi mediani è più alta per la città di Wichita Falls.
Dallo studio della variazione dei prezzi tra il 2010 e il 2014, si nota
come tutte le città abbiano registrato un aumento dei prezzi con
l’avanzare degli anni. Questo aumento è più marcato per la città di
Bryan-College Station che vede aumentare le sue proprietà da circa
$150.000 a circa $170.000 . Per la città di Beaumont i prezzi oscillano
invece intorno ai $130.000 durante gli anni.
Di seguito viene mostrata la distribuzione delle vendite nei diversi
periodi storici.
## <div style='text-align: center;'>
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
Appare chiaro come, dopo una piccola diminuzione delle vendite dal 2010
al 2011, ci sia un aumento lineare delle vendite in Texas che porta da
circa 150 vendite nel 2011 a superare le 220 vendite nel 2014
evidenziando una ripresa generale del mercato.
Qui di seguito viene riportato lo stesso grafico dividendo le quattro
città in esame.
## <div style='text-align: center;'>
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
Le città di Beaumont, Bryan-College Station e Tyler presentano lo stesso
andamento crescente, mentre la città di Wichita Falls mostra solo
piccole variazioni attorno alle 120 vendite per anno.
Viene di seguito riportato un boxplot che rappresenta la ditribuzione
del valore totale delle vendite per città e un timeplot rappresentante
l’andamento della stessa variabile tra i vari anni.
## <div style='text-align: center;'>
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
## <div style='text-align: center;'>
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
La città con valore totale delle vendite maggiore risulta essere Tyler,
seguita da Bryan-College Station, che presenta anche la variabilità
maggiore, e Beaumont, mentre Wichita Falls è la città con valore totale
minore e più bassa variabilità.
Analizzando l’andamento del valore totale delle vendite per città nei
vari periodi storici si ritrova lo stesso andamento riscontrato per il
numero di vendite, ovvero vediamo una crescita abbastanza lineare per le
città di Beaumont, Bryan-College Station e Tyler, mentre un andamento
pressocchè lineare per la città di Wichita Falls.
Viene di seguito riportato l’andamento del totale delle vendite nei
mesi, distinguendo per città, e il relativo grafico normalizzato.
## <div style='text-align: center;'>
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
## <div style='text-align: center;'>
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
## <div style='text-align: center;'>
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
L’andamento del mercato immobiliare lungo i mesi dell’anno è comparabile
per le città di Tyler e Bryan-College Station, con il minimo delle
vendite nei primi mesi (Gennaio e Febbraio), un picco nei mesi centrali
(Maggio, Giugno, Luglio) e una conseguente diminuzione nei mesi
finali.
Anche per la città di Beaumont e Wichita Falls si registra il minimo
delle vendite nei mesi di Gennaio, Febbraio, Novembre e Dicembre, ma il
picco è meno marcato per i mesi estivi, soprattutto per la città di
Wichita Falls che mostra un andamento più costante, mentre Beaumont
registra il maggior numero di vendite ad Agosto.
Anche in questo caso Wichita Falls registra in generale il numero minimo
di vendite, seguita da Beaumont, mentre è la città di Tyler a registrare
il numero di vendite maggiore.
## <div style='text-align: center;'>
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
Prendendo in considerazione anche la variabilità degli anni, si può
notare come nel 2010 il picco di vendite sia più spostato verso sinistra
(ovvero nei mesi di Aprile, Maggio e Giugno), nel 2011 e nel 2014 il
picco si sposta invece nel mese di Giugno, mentre nel 2012 e nel 2013 il
picco si verifica nei mesi di Luglio e Agosto.
Di seguito viene riportato l’andamento negli anni dell’efficacia
degli annunci di vendita per le varie città.
## <div style='text-align: center;'>
## function (x, y, ...)
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
L’efficacia degli annunci è relativamente bassa per tutte le città nei
vari periodi storici (inferiore al 25%), ma si nota come in generale si
registri un aumento dell’efficacia con il passare degli anni.
In particolare la città di Bryan-College Station vede un aumento
consistente dell’efficacia degli annunci dal 2011, con circa il 10%, al
2014, con circa il 23%. Le città di Tyler e Beaumont registrano un
aumento più contenuto, mentre Wichita Falls è l’unica città a registrare
nuovamente una diminuzione dal 2013 al 2014.
Tra le quattro città prese in considerazione, Beaumont, Bryan-College
Station e Tyler mostrano un andamento comparabile negli anni.
Se si considera in generale il mercato immobiliare del Texas negli anni
dal 2010 al 2014, a seguito della crisi del 2008, si vede una generale
ripresa con un aumento del prezzo medio e del prezzo mediano delle unità
immobiliari (più marcato per le città di Bryan-College Station e Tyler,
quasi costante per la città di Beaumont) contestualmente ad un aumento
significativo delle vendite e di conseguenza del valore totale delle
vendite. A supporto di quest’ipotesi, si vede anche una diminuzione del
numero di annunci attivi e della variabile months
inventory, che indica un migliore bilanciamento tra domanda e
offerta.
Distinguendo l’andamento del mercato tra le quattro città si possono
fare le seguenti considerazioni: