Executive Summary

Questo report offre un’analisi dettagliata del mercato immobiliare texano per il periodo 2010–2014, utilizzando esclusivamente i dati forniti nel file texas_data.csv.
Le città analizzate sono: Beaumont, Bryan-College Station, Tyler, Wichita Falls.

Principali evidenze: - Bryan-College Station si distingue per prezzi medi significativamente più elevati e maggiore stabilità. - Tyler rappresenta il mercato più voluminoso in termini di numero di transazioni e valore. - Wichita Falls si conferma il più accessibile per prezzo e mostra una progressiva contrazione dell’inventario. - Tutte le città presentano stagionalità con picchi di vendite tra aprile e agosto. - Le correlazioni tra variabili mettono in luce relazioni chiave tra prezzo, volume e inventario.


1. Panoramica del Dataset

File analizzato: texas_data.csv
Città coperte: Beaumont, Bryan-College Station, Tyler, Wichita Falls
Anni: 2010-2014
Numero totale di osservazioni: 240

1.1 Variabili disponibili

Variabile Tipo Significato
city Categoriale Area metropolitana
year Intero Anno di osservazione
month Intero Mese di osservazione
sales Intero Numero di immobili venduti
volume Numerico Volume transato (milioni di USD)
median_price Numerico Prezzo mediano di vendita
listings Intero Numero di immobili in vendita (inventario)
months_inventory Numerico Mesi per assorbire l’inventario al ritmo attuale

1.2 Anteprima del dataset

Prime 10 righe del dataset
city year month sales volume median_price listings months_inventory
Beaumont 2010 1 83 14.162 163800 1533 9.5
Beaumont 2010 2 108 17.690 138200 1586 10.0
Beaumont 2010 3 182 28.701 122400 1689 10.6
Beaumont 2010 4 200 26.819 123200 1708 10.6
Beaumont 2010 5 202 28.833 123100 1771 10.9
Beaumont 2010 6 189 27.219 122800 1803 11.1
Beaumont 2010 7 164 22.706 124300 1857 11.7
Beaumont 2010 8 174 25.237 136800 1830 11.6
Beaumont 2010 9 124 17.233 121100 1829 11.7
Beaumont 2010 10 150 23.904 138500 1779 11.5

1.3 Struttura e tipi delle colonne

Colonne del dataset con esempi
Colonna Tipo Esempi
city city character Beaumont, Beaumont, Beaumont
year year numeric 2010, 2010, 2010
month month numeric 1, 2, 3
sales sales numeric 83, 108, 182
volume volume numeric 14.162, 17.69, 28.701
median_price median_price numeric 163800, 138200, 122400
listings listings numeric 1533, 1586, 1689
months_inventory months_inventory numeric 9.5, 10, 10.6

1.4 Distribuzione di frequenza delle variabili categoriche

# ATTENZIONE: Assicurati che il dataframe df sia stato caricato dal file reale, ad esempio:
# df <- read.csv("texas_data.csv")
# oppure
# df <- readr::read_csv("texas_data.csv")

# Frequenza delle città
freq_city <- as.data.frame(table(df$city))
colnames(freq_city) <- c("Città", "Frequenza")
kable(freq_city, caption = "Distribuzione di frequenza delle città", align = "l") %>%
  kable_styling(bootstrap_options = "condensed", full_width = FALSE, position = "left")
Distribuzione di frequenza delle città
Città Frequenza
Beaumont 60
Bryan-College Station 60
Tyler 60
Wichita Falls 60
# Frequenza degli anni
freq_year <- as.data.frame(table(df$year))
colnames(freq_year) <- c("Anno", "Frequenza")
kable(freq_year, caption = "Distribuzione di frequenza degli anni", align = "l") %>%
  kable_styling(bootstrap_options = "condensed", full_width = FALSE, position = "left")
Distribuzione di frequenza degli anni
Anno Frequenza
2010 48
2011 48
2012 48
2013 48
2014 48
# Frequenza dei mesi
freq_month <- as.data.frame(table(df$month))
colnames(freq_month) <- c("Mese", "Frequenza")
kable(freq_month, caption = "Distribuzione di frequenza dei mesi", align = "l") %>%
  kable_styling(bootstrap_options = "condensed", full_width = FALSE, position = "left")
Distribuzione di frequenza dei mesi
Mese Frequenza
1 20
2 20
3 20
4 20
5 20
6 20
7 20
8 20
9 20
10 20
11 20
12 20

Commento:
Le tabelle sopra mostrano la frequenza assoluta di ciascuna città, anno e mese presenti nel dataset. Questo permette di verificare la distribuzione delle osservazioni e la copertura temporale e geografica dei dati.

2. Statistiche Descrittive Globali

Statistiche descrittive (tutte le città)

Statistiche descrittive (tutte le città)
Variabile Media Mediana Dev_Std Min Max Coeff_Variazione_pct
sales Vendite mensili 192.29 175.50 79.65 79.00 423.00 41.42
volume Volume transato (M) 31.01 27.06 16.65 8.17 83.55 53.71
median_price Prezzo mediano ($) 132665.42 134500.00 22662.15 73800.00 180000.00 17.08
listings Annunci attivi 1738.02 1618.50 752.71 743.00 3296.00 43.31
months_inventory Mesi inventario 9.19 8.95 2.30 3.40 14.90 25.06

2.1 Distribuzione e asimmetria

Indice di skewness per variabili quantitative
Variabile Asimmetria
sales Vendite mensili 0.71
volume Volume transato (M) 0.88
median_price Prezzo mediano ($) -0.36
listings Annunci attivi 0.65
months_inventory Mesi inventario 0.04

2.2 Suddivisione del prezzo mediano in classi e indice di Gini

library(ineq)

# Suddividiamo la variabile median_price in 5 classi (quintili)
num_classi <- 5
df$median_price_class <- cut(
  df$median_price, 
  breaks = quantile(df$median_price, probs = seq(0, 1, length.out = num_classi + 1), na.rm = TRUE), 
  include.lowest = TRUE, dig.lab = 8
)

# Tabella con la frequenza delle classi
tab_classi <- as.data.frame(table(df$median_price_class))
colnames(tab_classi) <- c("Classe Prezzo Mediano", "Frequenza")
kable(tab_classi, caption = "Distribuzione di frequenza delle classi di prezzo mediano", align = "l") %>%
  kable_styling(bootstrap_options = "condensed", full_width = FALSE, position = "left")
Distribuzione di frequenza delle classi di prezzo mediano
Classe Prezzo Mediano Frequenza
[73800,110000] 49
(110000,130700] 48
(130700,141220] 47
(141220,152360] 48
(152360,180000] 48
# Grafico a barre della distribuzione delle classi
ggplot(tab_classi, aes(x=`Classe Prezzo Mediano`, y=Frequenza)) +
  geom_bar(stat="identity", fill="#440154FF", alpha=0.8) +
  labs(title="Distribuzione delle classi di prezzo mediano", x="Classe prezzo mediano", y="Frequenza") +
  theme_minimal()

# Calcolo dell'indice di Gini per la variabile 'median_price'
gini_median_price <- ineq::Gini(df$median_price, na.rm=TRUE)

Indice di Gini per il prezzo mediano:
0.097

Commento:
La tabella e il grafico illustrano come si distribuiscono i prezzi mediani nelle classi definite dai quantili.
L’indice di Gini quantifica l’eterogeneità della distribuzione: valori vicini a 0 indicano omogeneità, valori vicini a 1 indicano forte disuguaglianza.


3.1 Indicatori chiave per città

Indicatori chiave per città
city Prezzo_Mediano_Medio Dev_Std_Prezzo Vendite_Medie Volume_Medio_M Inventario_Medio
Bryan-College Station 157488 8852 206.0 38.19 1458.1
Tyler 141442 9337 269.8 45.77 2905.1
Beaumont 129988 10105 177.4 26.13 1679.3
Wichita Falls 101743 11320 116.1 13.93 909.6

3.2 Trend prezzi medi mensili

3.3 Dinamica delle vendite mensili

3.4 Analisi dei volumi transati


4. Analisi della stagionalità

4.1 Vendite medie per mese (stagionalità)

4.2 Prezzo mediano per mese


5. Correlazione tra variabili

Matrice di correlazione tra variabili di mercato
sales volume median_price listings months_inventory
sales 1.000 0.976 0.590 0.621 0.147
volume 0.976 1.000 0.704 0.570 0.055
median_price 0.590 0.704 1.000 0.396 -0.035
listings 0.621 0.570 0.396 1.000 0.735
months_inventory 0.147 0.055 -0.035 0.735 1.000

5.1 Calcolo di probabilità specifiche

Abbiamo calcolato:

  1. La probabilità che una riga del dataset riporti la città “Beaumont”.
  2. La probabilità che una riga del dataset riporti il mese di Luglio (mese 7).
  3. La probabilità che una riga riporti mese di dicembre (mese 12) dell’anno 2012.
# Calcolo delle probabilità
p_beaumont <- sum(df$city == "Beaumont") / nrow(df)
p_july <- sum(df$month == 7) / nrow(df)
p_dec2012 <- sum(df$month == 12 & df$year == 2012) / nrow(df)

# Formattazione delle probabilità come percentuali
library(scales)
risultati <- data.frame(
  Domanda = c(
    "P(city = 'Beaumont')",
    "P(month = 7)",
    "P(month = 12 & year = 2012)"
  ),
  Probabilita = percent(
    c(p_beaumont, p_july, p_dec2012),
    accuracy = 0.1
  )
)

kable(risultati, caption = "Probabilità specifiche richieste", align = "l") %>%
  kable_styling(bootstrap_options = "condensed", full_width = FALSE, position = "left")
Probabilità specifiche richieste
Domanda Probabilita
P(city = ‘Beaumont’) 25.0%
P(month = 7) 8.3%
P(month = 12 & year = 2012) 1.7%

Spiegazione

  • P(city = “Beaumont”):
    Numero di righe con città “Beaumont” diviso il numero totale delle righe.
  • P(month = 7):
    Numero di righe con mese uguale a 7 (luglio) diviso il numero totale delle righe.
  • P(month = 12 & year = 2012):
    Numero di righe con mese 12 e anno 2012, diviso il totale delle righe.

6. Analisi dell’inventario

6.1 Andamento annunci attivi

6.2 Mesi di inventario


7. Approfondimenti e Analisi Avanzate

7.1 Boxplot prezzo mediano per città

7.2 Heatmap delle vendite mensili


8. Conclusioni e Raccomandazioni Strategiche

  • Bryan-College Station: mercato premium e stabile, ideale per investitori a basso rischio.
  • Tyler: mercato dinamico e ad alto volume, ottimo per chi punta su liquidità e rotazione.
  • Wichita Falls: mercato più accessibile, interessante per giovani acquirenti o strategie di entry-level.
  • Beaumont: equilibrio fra prezzo e dinamismo, attenzione alle oscillazioni dell’inventario.
  • Stagionalità: la primavera e l’estate sono i periodi migliori per concentrare strategie di vendita.
  • Monitoraggio: attenzione a dinamiche di inventario e volatilità locale per cogliere opportunità o rischi emergenti.

Appendice

Glossario

  • Prezzo mediano: prezzo a metà della distribuzione delle vendite mensili.
  • Annunci attivi: immobili pubblicizzati in vendita nel mese.
  • Mesi inventario: mesi necessari per assorbire tutto l’invenduto al ritmo attuale di vendita.
  • Coeff. variazione: dev. std. / media, in percentuale.
  • Skewness: indice di asimmetria della distribuzione.

Metodologia

  • Tutte le analisi sono state condotte con R v4.3.0 utilizzando esclusivamente il dataset fornito.
  • Per ogni città e variabile sono stati calcolati media, deviazione standard, indicatori di dispersione e asimmetria.
  • Le visualizzazioni sono generate con ggplot2 e viridis per una migliore leggibilità.

Report generato il: 2025-08-17 | Autore: Claudio Urbani | Texas Realty Insights