Introduzione
Texas Realty Insights ha richiesto un’analisi approfondita del
mercato immobiliare texano per il periodo 2010–2014. L’obiettivo è
identificare tendenze storiche, valutare l’efficacia delle inserzioni
immobiliari e fornire insight strategici basati su dati concreti. Il
dataset include informazioni mensili su vendite, prezzi, volumi e
inventario per diverse città del Texas.
Attraverso un approccio statistico e visivo, questo report guiderà
l’azienda nell’ottimizzazione delle strategie di vendita, evidenziando
le città più dinamiche e i periodi più favorevoli per il mercato.
0. Esplorazione dataset
l numero totale di record nel dataset è: 240
1. Analisi delle variabili
di seguito una tabella riassuntiva sulle variabili del data set
realestate_texas.csv
city |
Categoriale |
Nome della città: variabile cardine su cui basare l’analisi
condizionata |
year |
Quantitativa |
Anno di riferimento: variabile tempo utilizzabile per analizzare il
trend delle vendite negli anni |
month |
Categoriale |
Mese (da 1 a 12): variabile tempo utilizzabile per analizzare il
trend nei mesi dell’anno più prolifici |
sales |
Quantitativa |
Numero di vendite: variabile utilizzabile per determinare sull’asse
Y la quantità di vendite per ciascuna città o mese/anno |
volume |
Quantitativa |
Valore totale delle vendite (milioni di $) |
median_price |
Quantitativa |
Prezzo mediano di vendita: utilizzabile per analizzare il valore del
mercato nel tempo, nello spazio e rispetto ad altri indicatori |
listings |
Quantitativa |
Numero di annunci attivi: variabile utilizzabile per analizzare la
correlazione tra annunci e vendite |
months_inventory |
Quantitativa |
Mesi necessari per vendere tutte le case disponibili: variabile
utilizzabile per |
2. Indici di posizione - Analisi della variabilità e
dell’asimmetria
Calcola Indici di posizione, variabilità e forma per tutte le
variabili per le quali ha senso farlo, per le altre crea una
distribuzione di frequenza.
Tabella- Indici di posizione, variabilità e asimmetria per variabili quantitative
| Variabile |
Media |
Deviazione_Standard |
Coeff_Variazione |
Minimo |
Massimo |
Skewness |
Kurtosis |
| sales |
192.29 |
79.65 |
0.41 |
79.00 |
423.00 |
0.72 |
2.69 |
| volume |
31.01 |
16.65 |
0.54 |
8.17 |
83.55 |
0.88 |
3.18 |
| median_price |
132665.42 |
22662.15 |
0.17 |
73800.00 |
180000.00 |
-0.36 |
2.38 |
| listings |
1738.02 |
752.71 |
0.43 |
743.00 |
3296.00 |
0.65 |
2.21 |
| months_inventory |
9.19 |
2.30 |
0.25 |
3.40 |
14.90 |
0.04 |
2.83 |
Tabella- Frequenza delle osservazioni per città
| Città |
Numero di osservazioni |
| Beaumont |
60 |
| Bryan-College Station |
60 |
| Tyler |
60 |
| Wichita Falls |
60 |
3. Identificazione delle variabili con maggiore variabilità e
asimmetria
Determina: - Qual è la variabile con la più alta variabilità - Qual è
la variabile con la distribuzione più asimmetrica

4. Creazione di classi per una variabile quantitativa
Seleziona una variabile quantitativa (es. sales o median_price) e
suddividila in classi. Crea una distribuzione di frequenze e rappresenta
i dati con un grafico a barre. Calcola l’indice di eterogeneità Gini e
discuti i risultati.

Calcola l’indice di eterogeneità Gini
Gini index sales = 0.2311
Commenti:
Un valore di Gini pari a 0.2311 indica una disuguaglianza
moderata-bassa nella distribuzione delle vendite. Questo significa che,
pur esistendo differenze tra le osservazioni, la maggior parte dei
valori di sales si concentra in un intervallo relativamente omogeneo. Lo
conferma anche il grafico a barre: la classe (100,200) domina
nettamente, mentre le classi estreme sono poco rappresentate.
5. Calcolo della probabilità
Qual è la probabilità che, presa una riga a caso di questo dataset,
essa riporti la città “Beaumont”? E la probabilità che riporti il mese
di Luglio? E la probabilità che riporti il mese di dicembre 2012?
Probabilità che la città sia Beaumont = 25 %
Probabilità che il mese sia Luglio = 8.3 %
Probabilità che il mese sia dicembre 2012 = 1.7 %
6. Creazione di nuove variabili
Crea una nuova colonna che calcoli il prezzo medio degli immobili
utilizzando le variabili disponibili
La seguente tabella mostra i primi 5 record della nuova colonna
prezzo_mediodel dataframe che contiene prezzo_medio =
volume/sales
| prezzo_medio |
| 170627 |
| 163796 |
| 157698 |
| 134095 |
| 142738 |
Prova a creare una colonna che misuri l’efficacia degli annunci di
vendita. Commenta e discuti i risultati La seguente tabella mostra i
primi 5 record della nuova colonna efficacia_annuncio del
dataframe che contiente il prezzo_medio = volume/sales
Questa metrica indica quanti immobili sono stati venduti rispetto al
numero di annunci attivi. In altre parole:
Valori vicini a 1 → quasi ogni annuncio ha portato a una vendita →
molto efficace
Valori < 1 → non tutti gli annunci hanno generato vendite → meno
efficace
| efficacia_annuncio |
| 0.0541422 |
| 0.0680958 |
| 0.1077561 |
| 0.1170960 |
| 0.1140599 |
Colonna creata nel dataset come da immagine.
La nuova variabile è stata subito utilizzata per creare il grafico
“efficacia degl annunci per città”.
Il seguente grafico dell’efficacia degli annunci per città mostra
infatti come gli annunci siano mediamente più efficaci nella città di
Bryan-Collage Station

7. Analisi condizionata
Usa il pacchetto dplyr o il linguaggio base di R per effettuare
analisi statistiche condizionate per città, anno e mese. Genera dei
summary (media, deviazione standard) e rappresenta graficamente i
risultati.
7.1 Statistiche condizionate per città
–Il grafico mette a confronto il prezzo medio per ogni Città. La
città di Bryan-College Station risulta la città con il
prezzo medio più alto.

7.2 Statistiche condizionate per anno
–Il grafico mostra l’andamento del prezzo medio su base annua.
L’andamento subisce un ribasso dal 2010 al 2011 per poi riprendere in
crescente fino al 2014

7.3 Statistiche condizionate per mese
–Il grafico mostra l’andamento del prezzo medio su base mensile per
evidenziare una “variazione stagionale”
Il grafico mostra un trend al rialzo del prezzi medi a partire da
Aprile. I mesi iniziali sono quelli con il prezzo medio inferiore
rispetto nell’anno.
Giugno è il mese con il picco di prezzo medio pù
alto

8. Creazione di visualizzazioni con ggplot2
Visual 1: Confronto volume fatturato derivante dalle vendite
(YoY)

il 2014 è l’anno con il volume più alto di vendite
espresse in milioni di dollari
Visual 2: Confronto delle vendite MoM (filtrabile per anno)
Il grafico mostra che nei mesi centrali dell’anno
sono concentrate più vendite. Giugno è il mese Top.
Gennaio il mese peggiore
Visual 3: Andamento delle vendite per città e nel tempo
Il grafico mostra che Tyler è la top city per
vendite di sempre

Visual 4: Andamento delle vendite per città e nel tempo
Il grafico interattivo mostra l’andamento delle vendite per città nel
tempo ed effettuare eventuali previsioni future
La città di Tyler storicamente è quella con vendite
maggiori anche se superata nel Luglio 2013 da Bryan-Collage
Station
Visual 5: Andamento delle vendite per città su base mensile
Il grafico interattivo mostra la distribuzione del totale vendite
delle città su base mensile
Visual 6: Andamento prezzo medio nel tempo (filtrabile per
anno)
Il grafico interattivo mostra il trend del prezzo medio nel tempo per
individuare cali o aumenti nel periodo ed effettuare eventuali
previsioni future
Visual 7: Confrono prezzo medio per città
Il grafico mette a confronto il prezzo medio delle città.
Bryan-Collage Station risulta la città con il prezzo
medio più alto

Visual 8: Correlazione tra le vatiabili annunci e vendite di
casa
C’è una relazione positiva tra annunci e vendite: più annunci, più
vendite .
Il valore r = 0.62 indica una buona correlazione, ma non perfetta
Il p-value molto basso conferma che la correlazione non è dovuta al
caso

Pearson's product-moment correlation
data: dati$listings and dati$sales
t = 12.212, df = 238, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5361890 0.6928509
sample estimates:
cor
0.6206765
Add-on insight
⏱️ Il tempo medio per vendere le inserzioni è: 9.19 mesi
Nella città di Tyler mediamente si impiega più tempo a vendere gli
immobili (11.3 mesi), mentre Bryan-Collage Station è
quella con mediamente minor tempo(7.5 mesi) .

