Introduzione

Texas Realty Insights ha richiesto un’analisi approfondita del mercato immobiliare texano per il periodo 2010–2014. L’obiettivo è identificare tendenze storiche, valutare l’efficacia delle inserzioni immobiliari e fornire insight strategici basati su dati concreti. Il dataset include informazioni mensili su vendite, prezzi, volumi e inventario per diverse città del Texas.

Attraverso un approccio statistico e visivo, questo report guiderà l’azienda nell’ottimizzazione delle strategie di vendita, evidenziando le città più dinamiche e i periodi più favorevoli per il mercato.

0. Esplorazione dataset

l numero totale di record nel dataset è: 240 


1. Analisi delle variabili

di seguito una tabella riassuntiva sulle variabili del data set realestate_texas.csv

Variabile Tipo Descrizione
city Categoriale Nome della città: variabile cardine su cui basare l’analisi condizionata
year Quantitativa Anno di riferimento: variabile tempo utilizzabile per analizzare il trend delle vendite negli anni
month Categoriale Mese (da 1 a 12): variabile tempo utilizzabile per analizzare il trend nei mesi dell’anno più prolifici
sales Quantitativa Numero di vendite: variabile utilizzabile per determinare sull’asse Y la quantità di vendite per ciascuna città o mese/anno
volume Quantitativa Valore totale delle vendite (milioni di $)
median_price Quantitativa Prezzo mediano di vendita: utilizzabile per analizzare il valore del mercato nel tempo, nello spazio e rispetto ad altri indicatori
listings Quantitativa Numero di annunci attivi: variabile utilizzabile per analizzare la correlazione tra annunci e vendite
months_inventory Quantitativa Mesi necessari per vendere tutte le case disponibili: variabile utilizzabile per


2. Indici di posizione - Analisi della variabilità e dell’asimmetria

Calcola Indici di posizione, variabilità e forma per tutte le variabili per le quali ha senso farlo, per le altre crea una distribuzione di frequenza.

Tabella- Indici di posizione, variabilità e asimmetria per variabili quantitative
Variabile Media Deviazione_Standard Coeff_Variazione Minimo Massimo Skewness Kurtosis
sales 192.29 79.65 0.41 79.00 423.00 0.72 2.69
volume 31.01 16.65 0.54 8.17 83.55 0.88 3.18
median_price 132665.42 22662.15 0.17 73800.00 180000.00 -0.36 2.38
listings 1738.02 752.71 0.43 743.00 3296.00 0.65 2.21
months_inventory 9.19 2.30 0.25 3.40 14.90 0.04 2.83
Tabella- Frequenza delle osservazioni per città
Città Numero di osservazioni
Beaumont 60
Bryan-College Station 60
Tyler 60
Wichita Falls 60


3. Identificazione delle variabili con maggiore variabilità e asimmetria

Determina: - Qual è la variabile con la più alta variabilità - Qual è la variabile con la distribuzione più asimmetrica

Commenti punto 2 e punto 3:

La variabile city presenta una distribuzione uniforme, con frequenze identiche per ciascuna modalità. Questo suggerisce che il dataset è bilanciato rispetto alla rappresentazione delle città analizzate.

La tabella “Indici di variabilità” e asimmetria per variabili quantitative mostra invece gli indici di variabilità e di forma per cinque variabili quantitative del dataset.

  • Variabilità: Le variabili volume e listings presentano la maggiore dispersione relativa (CV = 0.54 e 0.43), indicando un’elevata eterogeneità tra le osservazioni. Al contrario, median_price risulta la più stabile (CV = 0.17), suggerendo che i prezzi medi di vendita variano meno rispetto ad altri indicatori.

  • Asimmetria (Skewness): Le variabili sales, volume e listings mostrano una asimmetria positiva, con una coda più lunga verso destra. Questo implica la presenza di valori occasionalmente molto elevati. median_price ha una asimmetria negativa moderata (-0.36), indicando una leggera concentrazione di valori più alti. months_inventory è quasi simmetrica (skewness ≈ 0).

  • Forma della distribuzione (Kurtosis): Tutte le variabili hanno valori di kurtosis compresi tra 2.2 e 3.2, vicini a quelli di una distribuzione normale (kurtosis = 3). volume e sales sono leggermente leptocurtiche, con una maggiore concentrazione attorno alla media e code più pronunciate.



4. Creazione di classi per una variabile quantitativa

Seleziona una variabile quantitativa (es. sales o median_price) e suddividila in classi. Crea una distribuzione di frequenze e rappresenta i dati con un grafico a barre. Calcola l’indice di eterogeneità Gini e discuti i risultati.

Calcola l’indice di eterogeneità Gini

Gini index sales = 0.2311 

Commenti:

Un valore di Gini pari a 0.2311 indica una disuguaglianza moderata-bassa nella distribuzione delle vendite. Questo significa che, pur esistendo differenze tra le osservazioni, la maggior parte dei valori di sales si concentra in un intervallo relativamente omogeneo. Lo conferma anche il grafico a barre: la classe (100,200) domina nettamente, mentre le classi estreme sono poco rappresentate.



5. Calcolo della probabilità

Qual è la probabilità che, presa una riga a caso di questo dataset, essa riporti la città “Beaumont”? E la probabilità che riporti il mese di Luglio? E la probabilità che riporti il mese di dicembre 2012?

Probabilità che la città sia Beaumont = 25 %
Probabilità che il mese sia Luglio = 8.3 %
Probabilità che il mese sia dicembre 2012 = 1.7 %


6. Creazione di nuove variabili

Crea una nuova colonna che calcoli il prezzo medio degli immobili utilizzando le variabili disponibili

La seguente tabella mostra i primi 5 record della nuova colonna prezzo_mediodel dataframe che contiene prezzo_medio = volume/sales

prezzo_medio
170627
163796
157698
134095
142738

Prova a creare una colonna che misuri l’efficacia degli annunci di vendita. Commenta e discuti i risultati La seguente tabella mostra i primi 5 record della nuova colonna efficacia_annuncio del dataframe che contiente il prezzo_medio = volume/sales

Questa metrica indica quanti immobili sono stati venduti rispetto al numero di annunci attivi. In altre parole:

Valori vicini a 1 → quasi ogni annuncio ha portato a una vendita → molto efficace

Valori < 1 → non tutti gli annunci hanno generato vendite → meno efficace

efficacia_annuncio
0.0541422
0.0680958
0.1077561
0.1170960
0.1140599

Colonna creata nel dataset come da immagine.

La nuova variabile è stata subito utilizzata per creare il grafico “efficacia degl annunci per città”.

Il seguente grafico dell’efficacia degli annunci per città mostra infatti come gli annunci siano mediamente più efficaci nella città di Bryan-Collage Station



7. Analisi condizionata

Usa il pacchetto dplyr o il linguaggio base di R per effettuare analisi statistiche condizionate per città, anno e mese. Genera dei summary (media, deviazione standard) e rappresenta graficamente i risultati.

7.1 Statistiche condizionate per città

–Il grafico mette a confronto il prezzo medio per ogni Città. La città di Bryan-College Station risulta la città con il prezzo medio più alto.


7.2 Statistiche condizionate per anno

–Il grafico mostra l’andamento del prezzo medio su base annua.

L’andamento subisce un ribasso dal 2010 al 2011 per poi riprendere in crescente fino al 2014


7.3 Statistiche condizionate per mese

–Il grafico mostra l’andamento del prezzo medio su base mensile per evidenziare una “variazione stagionale”

Il grafico mostra un trend al rialzo del prezzi medi a partire da Aprile. I mesi iniziali sono quelli con il prezzo medio inferiore rispetto nell’anno.

Giugno è il mese con il picco di prezzo medio pù alto



8. Creazione di visualizzazioni con ggplot2

Visual 1: Confronto volume fatturato derivante dalle vendite (YoY)

il 2014 è l’anno con il volume più alto di vendite espresse in milioni di dollari


Visual 2: Confronto delle vendite MoM (filtrabile per anno)

Il grafico mostra che nei mesi centrali dell’anno sono concentrate più vendite. Giugno è il mese Top. Gennaio il mese peggiore


Visual 3: Andamento delle vendite per città e nel tempo

Il grafico mostra che Tyler è la top city per vendite di sempre


Visual 4: Andamento delle vendite per città e nel tempo

Il grafico interattivo mostra l’andamento delle vendite per città nel tempo ed effettuare eventuali previsioni future

La città di Tyler storicamente è quella con vendite maggiori anche se superata nel Luglio 2013 da Bryan-Collage Station


Visual 5: Andamento delle vendite per città su base mensile

Il grafico interattivo mostra la distribuzione del totale vendite delle città su base mensile


Visual 6: Andamento prezzo medio nel tempo (filtrabile per anno)

Il grafico interattivo mostra il trend del prezzo medio nel tempo per individuare cali o aumenti nel periodo ed effettuare eventuali previsioni future



Visual 7: Confrono prezzo medio per città

Il grafico mette a confronto il prezzo medio delle città.

Bryan-Collage Station risulta la città con il prezzo medio più alto

Visual 8: Correlazione tra le vatiabili annunci e vendite di casa

C’è una relazione positiva tra annunci e vendite: più annunci, più vendite .

Il valore r = 0.62 indica una buona correlazione, ma non perfetta

Il p-value molto basso conferma che la correlazione non è dovuta al caso


    Pearson's product-moment correlation

data:  dati$listings and dati$sales
t = 12.212, df = 238, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.5361890 0.6928509
sample estimates:
      cor 
0.6206765 

Add-on insight

⏱️ Il tempo medio per vendere le inserzioni è: 9.19 mesi

Nella città di Tyler mediamente si impiega più tempo a vendere gli immobili (11.3 mesi), mentre Bryan-Collage Station è quella con mediamente minor tempo(7.5 mesi) .


Conclusioni finali del progetto:

GRAZIE PER L’ATTENZIONE (Emanuele Risa)

