## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.3 ✔ tidyr 1.3.1
## ✔ purrr 1.0.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
##
## Caricamento pacchetto: 'kableExtra'
##
##
## Il seguente oggetto è mascherato da 'package:dplyr':
##
## group_rows
city: Variabile qualitativa nominale che indica la città di riferimento.
year: Variabile quantitativa discreta che rappresenta l’anno di riferimento.
month: Variabile quantitativa discreta che rappresenta il mese di riferimento (valori da 1 a 12). Utile per analisi stagionali o mensili.
sales: Variabile quantitativa continua che indica il numero totale di vendite. Può essere utilizzata per analizzare le tendenze nelle vendite.
volume: Variabile quantitativa continua che indica il valore totale delle vendite (in milioni di dollari). Utile per comprendere il valore economico del mercato immobiliare.
median_price: Variabile quantitativa continua che indica il prezzo mediano di vendita (in dollari). Importante per analizzare l’andamento dei prezzi degli immobili.
listings: Variabile quantitativa continua che indica il numero totale di annunci attivi. Può essere utilizzata per valutare l’offerta immobiliare.
months_inventory: Variabile quantitativa continua che indica il tempo necessario per vendere tutte le inserzioni correnti, espresso in mesi. Utile per comprendere la dinamica tra domanda e offerta.
Per le variabili quantitative come: sales, volume, median_price, listings, months_inventory possiamo calcolare indici di posizione (media, mediana), variabilità (deviazione standard, varianza) e forma (asimmetria e curtosi).
Per le variabili qualitative (city): possiamo creare tabelle di frequenza, grafici a barre o analizzare differenze tra gruppi.
| Variable | Standard_Deviation |
|---|---|
| Sales | 79.651111 |
| Volume | 16.651447 |
| Median_Price | 22662.148687 |
| Listings | 752.707756 |
| Months_Inventory | 2.303669 |
| Variable | Skewness |
|---|---|
| Sales | 0.7181040 |
| Volume | 0.8847420 |
| Median_Price | -0.3645529 |
| Listings | 0.6494982 |
| Months_Inventory | 0.0409753 |
| Variable | Kurtosis |
|---|---|
| Sales | -0.3131764 |
| Volume | 0.1769870 |
| Median_Price | -0.6229618 |
| Listings | -0.7917900 |
| Months_Inventory | -0.1744475 |
Per calcolare quanto richiesto, ho deciso di calcolare le statistiche di media (mean), deviazione standard (sd), coefficiente di variazione (cv) ed infine asimmetria (skewness).
## Variabile con maggiore CV: volume_cv
## Variabile con maggiore asimmetria: volume_skewness
La variabile con il coefficiente di variazione più alto è volume, il che significa che il valore totale delle vendite (in milioni di dollari) varia maggiormente rispetto alla sua media.
La variabile con l’asimmetria più elevata è volume, indicando che la distribuzione del volume delle vendite è la più asimmetrica.
Un alto coefficiente di variazione in volume suggerisce che ci sono significative fluttuazioni nel valore totale delle vendite, il che potrebbe indicare opportunità o rischi nel mercato immobiliare.
L’asimmetria positiva in volume indica che ci sono alcuni valori estremamente elevati che influenzano la distribuzione, probabilmente dovuti a periodi o città con vendite eccezionalmente alte.
La variabile quantitativa che ho scelto per la distribuzione di frequenze e la suddivisione in classi è sales.
Per prima cosa, ho diviso in n classi utilizzando la regola di Sturges con /\(n=⌈1+log 2 (N)]/\) dove N è il numero totale di osservazioni.
##
## [78.7,117] (117,155] (155,194] (194,232] (232,270] (270,308] (308,347]
## 46 51 44 27 23 26 10
## (347,385] (385,423]
## 9 4
## [1] 0.3435185
Un indice di Gini di, 0.34 indica una moderata disuguaglianza nella distribuzione delle vendite tra le classi. Ciò significa che le vendite non sono distribuite uniformemente tra le classi, con alcune classi che contengono un numero maggiore di osservazioni.
##Calcolo della probabilità
In questo script ho calcolato la probabilità che, presa una riga a caso dal dataset, essa riporti la città “Beaumont”, il mese di Luglio, o il mese di dicembre 2012.
## [1] 0.25
## [1] 0.08333333
## [1] 0.01666667
La probabilità di selezionare una riga relativa a Beaumont è di 0.25, indicando che il 25% delle osservazioni nel dataset riguardano questa città.
La probabilità di selezionare una riga del mese di Luglio è di 0.08, suggerendo che i dati sono distribuiti uniformemente durante l’anno.
La probabilità di selezionare una riga del mese di dicembre 2012 è di 0.016, il che indica che questo specifico mese e anno rappresenta una piccola porzione del dataset (circa l’1.67%).
Per prima cosa creerò una nuova colonna che calcoli il prezzo medio degli immobili. Dato da: Average_price = Volume / Sales.
Moltiplico il volume per 1 x 10^6 per ottenere il prezzo medio in dollari.
Per misurare l’efficacia degli annunci, si crea un indicatore che confronta il numero di vendite (sales) con il numero di annunci attivi (listings).
Con il prezzo medio sarà possibile definire il trend dei prezzi identificando come varia tra le diverse città, mesi e anni.
L’efficacia degli annunci invece può essere utilizzato per identificare il tasso di conversione e conseguentemente comprendere se il mercato è saturo o gli annunci non sono efficaci.
In questi script, ho effettuato l’analisi statistica condizionata per città, mese e anno. Ho generato dei summary (media e dev.std) e rappresentato i risultati graficamente.
| city | mean_sales | sd_sales | mean_volume | sd_volume | mean_median_price | sd_median_price | mean_efficacia_annunci | sd_efficacia_annunci |
|---|---|---|---|---|---|---|---|---|
| Beaumont | 177.3833 | 41.48395 | 26.13160 | 6.970384 | 129988.3 | 10104.993 | 0.1061332 | 0.0266852 |
| Bryan-College Station | 205.9667 | 84.98374 | 38.19160 | 17.248577 | 157488.3 | 8852.235 | 0.1473431 | 0.0728503 |
| Tyler | 269.7500 | 61.96380 | 45.76738 | 13.107146 | 141441.7 | 9336.538 | 0.0934894 | 0.0234561 |
| Wichita Falls | 116.0667 | 22.15192 | 13.93017 | 3.239766 | 101743.3 | 11320.034 | 0.1280140 | 0.0247173 |
###Analisi condizionata per anno
| year | mean_sales | sd_sales | mean_volume | sd_volume | mean_median_price | sd_median_price |
|---|---|---|---|---|---|---|
| 2010 | 168.6667 | 60.53708 | 25.67590 | 10.79510 | 130191.7 | 21821.76 |
| 2011 | 164.1250 | 63.87042 | 25.15781 | 12.20349 | 127854.2 | 21317.80 |
| 2012 | 186.1458 | 70.90509 | 29.26756 | 14.52269 | 130077.1 | 21431.52 |
| 2013 | 211.9167 | 83.99641 | 35.15240 | 17.93470 | 135722.9 | 21708.08 |
| 2014 | 230.6042 | 95.51490 | 39.77227 | 21.18628 | 139481.2 | 25625.41 |
| month | mean_sales | sd_sales | mean_volume | sd_volume |
|---|---|---|---|---|
| 1 | 127.40 | 43.38372 | 19.00075 | 8.371855 |
| 2 | 140.85 | 51.06783 | 21.65150 | 10.093587 |
| 3 | 189.45 | 59.17812 | 29.38470 | 12.017933 |
| 4 | 211.70 | 65.40489 | 33.30445 | 14.523259 |
| 5 | 238.85 | 83.11582 | 39.70210 | 19.020766 |
| 6 | 243.55 | 94.99832 | 41.30315 | 21.080942 |
| 7 | 235.75 | 96.27421 | 39.12190 | 21.412704 |
| 8 | 231.45 | 79.22883 | 38.01415 | 18.048059 |
| 9 | 182.35 | 72.51807 | 29.59915 | 15.220800 |
| 10 | 179.90 | 74.95395 | 29.07860 | 15.133707 |
| 11 | 156.85 | 55.46670 | 24.80715 | 11.153694 |
| 12 | 169.40 | 60.74658 | 27.09465 | 12.568417 |
In questa sezione effettuerò: Un boxplot per confrontare la distribuzione del prezzo mediano tra le città
Grafici a barre per confrontare il totale delle vendite per mese e città
Line Charts per confrontare l’andamento delle vendite in periodi storici differenti.
I boxplot mostrano la distribuzione del prezzo mediano delle case in ciascuna città, in 3 di queste città sono presenti outlier, e il valore mediano è più alto per la città Bryan-College.
Attraverso questo grafico è possibile osservare la stagionalità delle vendite, è osservabile come nei primi mesi dell’anno la città di Tyler moostra più vendite rispetto a Bryan-Collage Station che invece recupera le vendite nei mesi più caldi.