## 
## Caricamento pacchetto: 'dplyr'
## I seguenti oggetti sono mascherati da 'package:stats':
## 
##     filter, lag
## I seguenti oggetti sono mascherati da 'package:base':
## 
##     intersect, setdiff, setequal, union
## 
## Caricamento pacchetto: 'kableExtra'
## Il seguente oggetto è mascherato da 'package:dplyr':
## 
##     group_rows

Punto 1

Il dataset è composto da 8 variabili:

Le variabili temporali possono essere raffigurate come serie storiche:

Possibili analisi per variabile:

Punto 2

Gli indici di posizione, variabilità e forma vengono calcolati per le variabili quanitative.
Vengono riportate di seguito delle tabelle riassuntive degli indici calcolati.

Indici di Posizione
Measure Sales (unità) Volume (milioni di dollari) Median_price (dollari) Listings (unità) Months_inventory (mesi)
Min 79.000 8.166 73800.000 743.000 3.400
Max 423.000 83.547 180000.000 3296.000 14.900
Median 175.500 27.062 134500.000 1618.500 8.950
Mean 192.292 31.005 132665.417 1738.021 9.193
Indici di Variabilità
Measure Sales (unità) Volume (milioni di dollari) Median_price (dollari) Listings (unità) Months_inventory (mesi)
Range 344.000 75.381 106200.000 2553.000 11.500
IQR 120.000 23.233 32750.000 1029.500 3.150
Variance 6344.300 277.271 513572983.089 566568.966 5.307
Standard Deviation 79.651 16.651 22662.149 752.708 2.304
Coefficient of Variation [%] 41.422 53.705 17.082 43.308 25.060
Indici di Forma
Measure Sales (unità) Volume (milioni di dollari) Median_price (dollari) Listings (unità) Months_inventory (mesi)
Skewness 0.718 0.885 -0.365 0.649 0.041
Kurtosis -0.313 0.177 -0.623 -0.792 -0.174


Dalle tabelle sopra riportate si possono fare le seguenti considerazioni per variabile:

Distribuzione di frequenza per la variabile city
ni fi Ni Fi
Beaumont 60 0.25 60 0.25
Bryan-College Station 60 0.25 120 0.50
Tyler 60 0.25 180 0.75
Wichita Falls 60 0.25 240 1.00
Distribuzione di frequenza per la variabile year
ni fi Ni Fi
2010 48 0.2 48 0.2
2011 48 0.2 96 0.4
2012 48 0.2 144 0.6
2013 48 0.2 192 0.8
2014 48 0.2 240 1.0
Distribuzione di frequenza per la variabile month
Month ni fi Ni Fi
Gennaio 20 0.0833333 20 0.0833333
Febbraio 20 0.0833333 40 0.1666667
Marzo 20 0.0833333 60 0.2500000
Aprile 20 0.0833333 80 0.3333333
Maggio 20 0.0833333 100 0.4166667
Giugno 20 0.0833333 120 0.5000000
Luglio 20 0.0833333 140 0.5833333
Agosto 20 0.0833333 160 0.6666667
Settembre 20 0.0833333 180 0.7500000
Ottobre 20 0.0833333 200 0.8333333
Novembre 20 0.0833333 220 0.9166667
Dicembre 20 0.0833333 240 1.0000000

Le distribuzioni di frequenza per city, year e month dimostrano che il dataset è uniforme con uno stesso numero di osservazioni per città, per anno e per mese evitando così un bias geografico e temporale.


Punto 3

La variabile con più alta variabilità è volume in quanto presenta un coefficiente di variazione più elevato (circa 53.7%).
Tutti i valori di skewness sono bassi (inferiori a 1) indicando distribuzioni più o meno simmetriche. Il valore più elevato è quello che corrisponde alla variabile volume (circa 0.885) che quindi è la distribuzione più asimmetrica e presenta un’asimmetria positiva (asimmetria destra).


Punto 4

La variabile Sales ha un range che va da 79 a 423, quindi è possibile creare 5 classi:

## <div style='text-align: center;'>
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>



L’indice di Gini è 0.9038628.
La distribuzione di frequenza indica una distribuzione non uniforme tra le varie classi. La classe che rappresenta il numero di vendite più basso è quella con frequenza maggiore e la frequenza delle osservazioni nelle classi diminuisce per le classi con il numero di vendite crescenti, arrivando al minimo per la classe con numero di vendite maggiori.
Dal barplot si può vedere che la distribuzione tra le classi non è omogenea, il che è confermato dall’indice di Gini vicino a 1 che indica una distribuzione delle osservazioni all’interno delle classi molto concentrata.

Punto 5

Beaumont ha un frequenza assoluta nel datates di 60, le osservazioni del dataset sono 240, quindila probabilità che presa una riga a caso di questo dataset essa riporti la città “Beaumont” è del 25%.
Luglio ha una frequenza assoluta nel dataset di 20, le osservazioni sono 240 quindi la probabilità che presa una riga a caso di questo dataset essa riporti il mese di luglio è del 8.3%.
Dicembre 2012 compare nel dataset una volta per ogni città, 4 osservazioni su 240, quindi la probabilità che presa una riga a caso di questo dataset essa riporti Dicembre 2012 è del 1.67%.

Punto 6

La variabile dell’efficacia degli annunci di vendita è calcolata come numero di vendite/numero degli annunci. Si ottiene così una variabile che va da 0 a 1, dove 0 significa che il numero delle vendite è stato nullo e 1 che tutte le unità immobiliari che hanno un annuncio sono state vendute.
Viene di seguito riportata la distribuzione di frequenza dell’efficacia degli annunci.


## I seguenti oggetti sono mascherati da dati (pos = 3):
## 
##     city, listings, median_price, month, months_inventory, sales,
##     volume, year

## <div style='text-align: center;'>
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>



La distribuzione di frequenza è tagliata al valore di 0.4 in quanto si è visto che dopo quel valore non ci sono osservazioni quindi si è ridotto il dominio del grafico per renderne più facile la visualizzazione.
La maggior parte delle osservazione ricade nelle classi (0.05,0.1] e (0.1,0.15] indicando che una piccola percentuale di annunci conduce a una vendita, per cui si ha una bassa efficacia degli annunci di vendita.


Punto 7

Sono stati creati dei summary per analisi statistiche condizionate per città, anno, mese, città e anno, città e mese, anno e mese. Vengono di seguito riportate alcune rappresentazioni grafiche per le variabili ritenute più d’interesse e che non rappresentano una ripetizione dei grafici che verrano riportati in seguito (punto 8).


## `summarise()` has grouped output by 'city'. You can override using the
## `.groups` argument.
## `summarise()` has grouped output by 'year'. You can override using the
## `.groups` argument.
## Warning: The `size` argument of `element_line()` is deprecated as of ggplot2 3.4.0.
## ℹ Please use the `linewidth` argument instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.



Il grafico rapprenta l’andamento della media mensile delle vendite e degli annunci attivi diviso per città nei vari anni con relativa deviazione standard. Si può notare come il numero delle vendite è per tutte le città molto inferiore al numero di annunci attivi evidenziando una bassa efficacia degli annunci di vendita. Si nota una diminuzione del numero di annunci negli anni con un aumento del numero di vendite, evidenziando una ripresa del mercato immobiliare.


Il grafico evidenzia un aumento generale dei prezzi delle unità immobiliari in tutte le città dal 2010 al 2014, tranne che per la città di Wichita Falls per cui il prezzo medio rimane pressocchè costante. Bryan-College Station risulta essere la città con le unità immobiliari più costose.



Mettendo in relazione il prezzo medio con il numero di unità vendute, si nota come, nonostante Wichita Falls abbia il prezzo medio minore questo non si riflette in un maggior numero di unità immobiliari vendute, evidenziando una saturazione del mercato. D’altra parte la città di Tyler registra un numero di vendite più elevato rispetto a un prezzo medio comparabile con quello di Beaumont e Bryan-College Station.



Nel grafico è mostrato l’andamento della variabile months_inventory, che rappresenta l’equilibrio tra domanda e offerta. Dopo un leggero peggioramento dal 2010 al 2011, si nota un generale andamento migliorativo nel tempo ad eccezione di Wichita Falls che mantiene un andamento regolare.

Punto 8

Distribuzione del prezzo mediano

Di seguito il boxplot di confronto tra le distribuzioni dei prezzi mediani tra le città e la variazione che hanno subito negli anni.


## <div style='text-align: center;'>
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

## <div style='text-align: center;'>
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>



Dal boxplot è subito chiaro che i prezzi mediani più alti sono quelli per le proprietà di Bryan-College Station, con una proprietà che supera i $175.000, seguiti da Tyler, Beaumont e Wichita Falls. La variabilità nei prezzi mediani è più alta per la città di Wichita Falls.
Dallo studio della variazione dei prezzi tra il 2010 e il 2014, si nota come tutte le città abbiano registrato un aumento dei prezzi con l’avanzare degli anni. Questo aumento è più marcato per la città di Bryan-College Station che vede aumentare le sue proprietà da circa $150.000 a circa $170.000 . Per la città di Beaumont i prezzi oscillano invece intorno ai $130.000 durante gli anni.

Andamento delle vendite

Di seguito viene mostrata la distribuzione delle vendite nei diversi periodi storici.

## <div style='text-align: center;'>
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>



Appare chiaro come, dopo una piccola diminuzione delle vendite dal 2010 al 2011, ci sia un aumento lineare delle vendite in Texas che porta da circa 150 vendite nel 2011 a superare le 220 vendite nel 2014 evidenziando una ripresa generale del mercato.
Qui di seguito viene riportato lo stesso grafico dividendo le quattro città in esame.


## <div style='text-align: center;'>
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>



Le città di Beaumont, Bryan-College Station e Tyler presentano lo stesso andamento crescente, mentre la città di Wichita Falls mostra solo piccole variazioni attorno alle 120 vendite per anno.

Distribuzione del valore totale delle vendite

Viene di seguito riportato un boxplot che rappresenta la ditribuzione del valore totale delle vendite per città e un timeplot rappresentante l’andamento della stessa variabile tra i vari anni.


## <div style='text-align: center;'>
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>

## <div style='text-align: center;'>
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>



La città con valore totale delle vendite maggiore risulta essere Tyler, seguita da Bryan-College Station, che presenta anche la variabilità maggiore, e Beaumont, mentre Wichita Falls è la città con valore totale minore e più bassa variabilità.
Analizzando l’andamento del valore totale delle vendite per città nei vari periodi storici si ritrova lo stesso andamento riscontrato per il numero di vendite, ovvero vediamo una crescita abbastanza lineare per le città di Beaumont, Bryan-College Station e Tyler, mentre un andamento pressocchè lineare per la città di Wichita Falls.

Distribuzione delle vendite per città e mesi

Viene di seguito riportato l’andamento del totale delle vendite nei mesi, distinguendo per città, e il relativo grafico normalizzato.

## <div style='text-align: center;'>
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>

## <div style='text-align: center;'>
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>

## <div style='text-align: center;'>
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>



L’andamento del mercato immobiliare lungo i mesi dell’anno è comparabile per le città di Tyler e Bryan-College Station, con il minimo delle vendite nei primi mesi (Gennaio e Febbraio), un picco nei mesi centrali (Maggio, Giugno, Luglio) e una conseguente diminuzione nei mesi finali.
Anche per la città di Beaumont e Wichita Falls si registra il minimo delle vendite nei mesi di Gennaio, Febbraio, Novembre e Dicembre, ma il picco è meno marcato per i mesi estivi, soprattutto per la città di Wichita Falls che mostra un andamento più costante, mentre Beaumont registra il maggior numero di vendite ad Agosto.
Anche in questo caso Wichita Falls registra in generale il numero minimo di vendite, seguita da Beaumont, mentre è la città di Tyler a registrare il numero di vendite maggiore.


## <div style='text-align: center;'>
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>



Prendendo in considerazione anche la variabilità degli anni, si può notare come nel 2010 il picco di vendite sia più spostato verso sinistra (ovvero nei mesi di Aprile, Maggio e Giugno), nel 2011 e nel 2014 il picco si sposta invece nel mese di Giugno, mentre nel 2012 e nel 2013 il picco si verifica nei mesi di Luglio e Agosto.

Andamento efficacia degli annunci di vendita

Di seguito viene riportato l’andamento negli anni dell’efficacia degli annunci di vendita per le varie città.


## <div style='text-align: center;'>
## function (x, y, ...) 
## UseMethod("plot")
## <bytecode: 0x00000193c2c4f0f0>
## <environment: namespace:base>
## </div>



L’efficacia degli annunci è relativamente bassa per tutte le città nei vari periodi storici (inferiore al 25%), ma si nota come in generale si registri un aumento dell’efficacia con il passare degli anni.
In particolare la città di Bryan-College Station vede un aumento consistente dell’efficacia degli annunci dal 2011, con circa il 10%, al 2014, con circa il 23%. Le città di Tyler e Beaumont registrano un aumento più contenuto, mentre Wichita Falls è l’unica città a registrare nuovamente una diminuzione dal 2013 al 2014.


Punto 9

Tra le quattro città prese in considerazione, Beaumont, Bryan-College Station e Tyler mostrano un andamento comparabile negli anni.
Se si considera in generale il mercato immobiliare del Texas negli anni dal 2010 al 2014, a seguito della crisi del 2008, si vede una generale ripresa con un aumento del prezzo medio e del prezzo mediano delle unità immobiliari (più marcato per le città di Bryan-College Station e Tyler, quasi costante per la città di Beaumont) contestualmente ad un aumento significativo delle vendite e di conseguenza del valore totale delle vendite. A supporto di quest’ipotesi, si vede anche una diminuzione del numero di annunci attivi e della variabile months inventory, che indica un migliore bilanciamento tra domanda e offerta.
Distinguendo l’andamento del mercato tra le quattro città si possono fare le seguenti considerazioni: