Caricamento dataset e librerie

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## 
## Caricamento pacchetto: 'kableExtra'
## 
## 
## Il seguente oggetto è mascherato da 'package:dplyr':
## 
##     group_rows

Analisi delle variabili

Per le variabili quantitative come: sales, volume, median_price, listings, months_inventory possiamo calcolare indici di posizione (media, mediana), variabilità (deviazione standard, varianza) e forma (asimmetria e curtosi).

Per le variabili qualitative (city): possiamo creare tabelle di frequenza, grafici a barre o analizzare differenze tra gruppi.

Indici di posizione, variabilità e forma

Calcolo delle deviazioni standard

Variabilità - Deviazione Standard per Variabile
Variable Standard_Deviation
Sales 79.651111
Volume 16.651447
Median_Price 22662.148687
Listings 752.707756
Months_Inventory 2.303669

Calcolo dell’asimmetria

Asimmetria per Variabile
Variable Skewness
Sales 0.7181040
Volume 0.8847420
Median_Price -0.3645529
Listings 0.6494982
Months_Inventory 0.0409753

Calcolo della curtosi

Curtosi (Eccesso) per Variabile
Variable Kurtosis
Sales -0.3131764
Volume 0.1769870
Median_Price -0.6229618
Listings -0.7917900
Months_Inventory -0.1744475

Identificazione delle variabili con maggiore variabilità e asimmetria

Per calcolare quanto richiesto, ho deciso di calcolare le statistiche di media (mean), deviazione standard (sd), coefficiente di variazione (cv) ed infine asimmetria (skewness).

## Variabile con maggiore CV: volume_cv
## Variabile con maggiore asimmetria: volume_skewness

La variabile con il coefficiente di variazione più alto è volume, il che significa che il valore totale delle vendite (in milioni di dollari) varia maggiormente rispetto alla sua media.

La variabile con l’asimmetria più elevata è volume, indicando che la distribuzione del volume delle vendite è la più asimmetrica.

Un alto coefficiente di variazione in volume suggerisce che ci sono significative fluttuazioni nel valore totale delle vendite, il che potrebbe indicare opportunità o rischi nel mercato immobiliare.

L’asimmetria positiva in volume indica che ci sono alcuni valori estremamente elevati che influenzano la distribuzione, probabilmente dovuti a periodi o città con vendite eccezionalmente alte.

Creazione di classi per una variabile quantitativa

La variabile quantitativa che ho scelto per la distribuzione di frequenze e la suddivisione in classi è sales.

Per prima cosa, ho diviso in n classi utilizzando la regola di Sturges con /\(n=⌈1+log 2 ​ (N)]/\) dove N è il numero totale di osservazioni.

## 
## [78.7,117]  (117,155]  (155,194]  (194,232]  (232,270]  (270,308]  (308,347] 
##         46         51         44         27         23         26         10 
##  (347,385]  (385,423] 
##          9          4

Calcolo dell’indice di Gini

## [1] 0.3435185

Un indice di Gini di, 0.34 indica una moderata disuguaglianza nella distribuzione delle vendite tra le classi. Ciò significa che le vendite non sono distribuite uniformemente tra le classi, con alcune classi che contengono un numero maggiore di osservazioni.

##Calcolo della probabilità

In questo script ho calcolato la probabilità che, presa una riga a caso dal dataset, essa riporti la città “Beaumont”, il mese di Luglio, o il mese di dicembre 2012.

## [1] 0.25
## [1] 0.08333333
## [1] 0.01666667
  1. La probabilità di selezionare una riga relativa a Beaumont è di 0.25, indicando che il 25% delle osservazioni nel dataset riguardano questa città.

  2. La probabilità di selezionare una riga del mese di Luglio è di 0.08, suggerendo che i dati sono distribuiti uniformemente durante l’anno.

  3. La probabilità di selezionare una riga del mese di dicembre 2012 è di 0.016, il che indica che questo specifico mese e anno rappresenta una piccola porzione del dataset (circa l’1.67%).

Creazione di nuove variabili

Creazione della colonna del prezzo medio

Per prima cosa creerò una nuova colonna che calcoli il prezzo medio degli immobili. Dato da: Average_price = Volume / Sales.

Moltiplico il volume per 1 x 10^6 per ottenere il prezzo medio in dollari.

Creazione della colonna che misura l’efficacia degli annunci

Per misurare l’efficacia degli annunci, si crea un indicatore che confronta il numero di vendite (sales) con il numero di annunci attivi (listings).

Con il prezzo medio sarà possibile definire il trend dei prezzi identificando come varia tra le diverse città, mesi e anni.

L’efficacia degli annunci invece può essere utilizzato per identificare il tasso di conversione e conseguentemente comprendere se il mercato è saturo o gli annunci non sono efficaci.

Analisi condizionata

In questi script, ho effettuato l’analisi statistica condizionata per città, mese e anno. Ho generato dei summary (media e dev.std) e rappresentato i risultati graficamente.

Analisi condizionata per città

statistiche riassuntive per città
city mean_sales sd_sales mean_volume sd_volume mean_median_price sd_median_price mean_efficacia_annunci sd_efficacia_annunci
Beaumont 177.3833 41.48395 26.13160 6.970384 129988.3 10104.993 0.1061332 0.0266852
Bryan-College Station 205.9667 84.98374 38.19160 17.248577 157488.3 8852.235 0.1473431 0.0728503
Tyler 269.7500 61.96380 45.76738 13.107146 141441.7 9336.538 0.0934894 0.0234561
Wichita Falls 116.0667 22.15192 13.93017 3.239766 101743.3 11320.034 0.1280140 0.0247173

Boxplot del prezzo mediano per città

Boxplot dell’efficacia degli annunci per città

###Analisi condizionata per anno

Statistiche per anno
year mean_sales sd_sales mean_volume sd_volume mean_median_price sd_median_price
2010 168.6667 60.53708 25.67590 10.79510 130191.7 21821.76
2011 164.1250 63.87042 25.15781 12.20349 127854.2 21317.80
2012 186.1458 70.90509 29.26756 14.52269 130077.1 21431.52
2013 211.9167 83.99641 35.15240 17.93470 135722.9 21708.08
2014 230.6042 95.51490 39.77227 21.18628 139481.2 25625.41

Line chart delle vendite medie per anno

Analisi condizionata per mese

Statistiche riassuntive per mese
month mean_sales sd_sales mean_volume sd_volume
1 127.40 43.38372 19.00075 8.371855
2 140.85 51.06783 21.65150 10.093587
3 189.45 59.17812 29.38470 12.017933
4 211.70 65.40489 33.30445 14.523259
5 238.85 83.11582 39.70210 19.020766
6 243.55 94.99832 41.30315 21.080942
7 235.75 96.27421 39.12190 21.412704
8 231.45 79.22883 38.01415 18.048059
9 182.35 72.51807 29.59915 15.220800
10 179.90 74.95395 29.07860 15.133707
11 156.85 55.46670 24.80715 11.153694
12 169.40 60.74658 27.09465 12.568417

Line chart delle vendite per mese

Creazione di grafici

In questa sezione effettuerò: Un boxplot per confrontare la distribuzione del prezzo mediano tra le città

Grafici a barre per confrontare il totale delle vendite per mese e città

Line Charts per confrontare l’andamento delle vendite in periodi storici differenti.

Boxplot per il prezzo mediano tra le città

I boxplot mostrano la distribuzione del prezzo mediano delle case in ciascuna città, in 3 di queste città sono presenti outlier, e il valore mediano è più alto per la città Bryan-College.

Grafici a barre per il totale delle vendite per mese e città

Grafico a barre normalizzato

Attraverso questo grafico è possibile osservare la stagionalità delle vendite, è osservabile come nei primi mesi dell’anno la città di Tyler moostra più vendite rispetto a Bryan-Collage Station che invece recupera le vendite nei mesi più caldi.

Aggiungere la variabile ‘year’

Line Chart per confrontare le vendite