Introduzione

Il mercato immobiliare in Texas tra il 2010 e il 2014 presenta dati su 4 città: Beaumont, Bryan-College Station, Tyler e Wichita Falls.


1️⃣ Analisi delle variabili

# Caricamento del dataset
data <- read.csv("realestate_texas.csv")

# Creazione della variabile 'date' per facilitare l'analisi temporale
data$date <- as.Date(paste(data$year, data$month, "01", sep = "-"))

# Struttura del dataset
str(data)
## 'data.frame':    240 obs. of  9 variables:
##  $ city            : chr  "Beaumont" "Beaumont" "Beaumont" "Beaumont" ...
##  $ year            : int  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
##  $ month           : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ sales           : int  83 108 182 200 202 189 164 174 124 150 ...
##  $ volume          : num  14.2 17.7 28.7 26.8 28.8 ...
##  $ median_price    : num  163800 138200 122400 123200 123100 ...
##  $ listings        : int  1533 1586 1689 1708 1771 1803 1857 1830 1829 1779 ...
##  $ months_inventory: num  9.5 10 10.6 10.6 10.9 11.1 11.7 11.6 11.7 11.5 ...
##  $ date            : Date, format: "2010-01-01" "2010-02-01" ...

Commento sui tipi di variabili


Andamento delle variabili numeriche nel tempo

# Creiamo un dataset aggregato nel tempo
data_aggregata <- data %>%
  group_by(date) %>%
  summarise(
    sales = sum(sales, na.rm = TRUE),
    volume = sum(volume, na.rm = TRUE),
    median_price = mean(median_price, na.rm = TRUE),
    listings = sum(listings, na.rm = TRUE),
    months_inventory = mean(months_inventory, na.rm = TRUE)
  )

# Grafico delle vendite totali nel tempo
ggplot(data_aggregata, aes(x = date, y = sales)) +
  geom_line(color = "blue", size = 1) +
  ggtitle("Andamento totale delle vendite nel tempo") +
  xlab("Data") +
  ylab("Numero di vendite") +
  theme_minimal()

# Grafico del volume totale delle transazioni nel tempo
ggplot(data_aggregata, aes(x = date, y = volume)) +
  geom_line(color = "red", size = 1) +
  ggtitle("Andamento del volume totale delle transazioni nel tempo") +
  xlab("Data") +
  ylab("Volume delle vendite ($M)") +
  theme_minimal()

# Grafico del prezzo mediano degli immobili nel tempo
ggplot(data_aggregata, aes(x = date, y = median_price)) +
  geom_line(color = "green", size = 1) +
  ggtitle("Andamento del prezzo mediano nel tempo") +
  xlab("Data") +
  ylab("Prezzo Mediano ($)") +
  theme_minimal()

# Grafico del numero di annunci attivi nel tempo
ggplot(data_aggregata, aes(x = date, y = listings)) +
  geom_line(color = "purple", size = 1) +
  ggtitle("Andamento del numero di annunci attivi nel tempo") +
  xlab("Data") +
  ylab("Numero di annunci") +
  theme_minimal()

# Grafico dei mesi di inventario nel tempo
ggplot(data_aggregata, aes(x = date, y = months_inventory)) +
  geom_line(color = "orange", size = 1) +
  ggtitle("Andamento dei mesi di inventario nel tempo") +
  xlab("Data") +
  ylab("Mesi di Inventario") +
  theme_minimal()

Commenti

1️⃣ Andamento delle vendite (sales) nel tempo
Il grafico mostra l’andamento complessivo delle vendite immobiliari nel periodo 2010-2014. Si osserva una chiara stagionalità con picchi regolari nei mesi estivi e cali nei mesi invernali. Complessivamente, il numero di vendite mostra una tendenza al rialzo, segnalando un mercato in espansione.

2️⃣ Andamento del volume totale delle vendite nel tempo
Il volume totale delle vendite segue un andamento simile a quello delle vendite totali, con picchi e flessioni che rispecchiano la stagionalità del mercato. Tuttavia, si notano oscillazioni più accentuate, suggerendo variazioni nel valore unitario delle transazioni, probabilmente dovute a cambiamenti nella composizione del mercato immobiliare.

3️⃣ Andamento del prezzo mediano nel tempo
L’andamento del prezzo mediano degli immobili evidenzia una crescita costante dal 2010 al 2014, con alcune oscillazioni. L’aumento dei prezzi suggerisce una domanda crescente o una riduzione dell’offerta, che ha contribuito a far salire i valori medi degli immobili come conseguenza del fenomeno inflazionistico

4️⃣ Andamento del numero di annunci attivi (listings) nel tempo
l numero di annunci attivi mostra una tendenza inizialmente crescente fino al 2012, seguita da una fase di declino. Questo potrebbe indicare un aumento della domanda, che ha portato a una riduzione dell’offerta disponibile nel mercato immobiliare.

5️⃣ Andamento dei mesi di inventario (months_inventory) nel tempo Il numero di mesi di inventario, che indica il tempo necessario per esaurire l’offerta di immobili, mostra una progressiva diminuzione dal 2011. Questo suggerisce che le case venivano vendute più rapidamente, coerentemente con l’aumento delle vendite e la crescita dei prezzi, segnalando un mercato più dinamico e competitivo.

Andamento delle variabili numeriche nel tempo per città

# Creazione di grafici per ogni variabile numerica suddivisa per città
numeric_vars <- c("sales", "volume", "median_price", "listings", "months_inventory")

ggplot_list <- lapply(numeric_vars, function(var) {
  ggplot(data, aes(x = date, y = .data[[var]], color = city)) +
    geom_line(size = 1) +
    ggtitle(paste("Andamento di", var, "nel tempo per città")) +
    xlab("Data") +
    ylab(var) +
    theme_minimal()
})

print(ggplot_list)
## [[1]]

## 
## [[2]]

## 
## [[3]]

## 
## [[4]]

## 
## [[5]]

Commenti

1️⃣ Andamento delle vendite (sales) nel tempo per città
Le vendite immobiliari mostrano una tendenza fluttuante con picchi e cali stagionali.
- Tyler e Bryan-College Station registrano il maggior numero di transazioni, con valori che superano le 300 vendite nei periodi di picco.
- Wichita Falls presenta un numero di vendite più contenuto, rimanendo generalmente sotto le 100 vendite mensili.

2️⃣ Andamento del volume totale delle vendite nel tempo per città
Anche il volume delle transazioni riflette l’andamento delle vendite:
- Tyler e Bryan-College Station mostrano valori più elevati e ciclicità stagionale.
- Wichita Falls ha un volume significativamente inferiore, indicando un mercato più contenuto rispetto alle altre città.

3️⃣ Andamento del prezzo mediano nel tempo per città
Il prezzo mediano degli immobili mostra un trend di crescita costante nel tempo:
- Bryan-College Station presenta i valori più elevati.
- Tyler e Beaumont seguono un andamento simile ma con livelli inferiori.
- Wichita Falls è la città con i prezzi medi più bassi, con una maggiore volatilità rispetto alle altre.

4️⃣ Andamento del numero di annunci attivi (listings) nel tempo per città
L’offerta di immobili sul mercato varia significativamente:
- Tyler ha il numero più elevato di annunci, superando le 3000 unità nei periodi di picco.
- Le altre città mostrano valori più bassi, con Wichita Falls che ha il numero minore di annunci disponibili.
- Nel tempo si osserva una leggera tendenza al ribasso, segnale di possibile riduzione dell’offerta.

5️⃣ Andamento dei mesi di inventario (months_inventory) nel tempo per città
Il numero di mesi necessari a esaurire l’inventario immobiliare è in diminuzione in tutte le città, segnalando un mercato progressivamente più liquido:
- Tyler aveva inizialmente il valore più alto, ma mostra un calo significativo.
- Questo andamento potrebbe riflettere un aumento della domanda o una riduzione dell’offerta.

2️⃣-3️⃣ Indici di posizione, variabilità e forma + Identificazione delle variabili con maggiore variabilità e asimmetria

Calcoliamo alcuni indici statistici per le variabili numeriche.

# Calcolo delle statistiche descrittive e coefficienti di variazione
cv_sales <- sd(data$sales, na.rm = TRUE) / mean(data$sales, na.rm = TRUE)
cv_volume <- sd(data$volume, na.rm = TRUE) / mean(data$volume, na.rm = TRUE)
cv_median_price <- sd(data$median_price, na.rm = TRUE) / mean(data$median_price, na.rm = TRUE)
cv_listings <- sd(data$listings, na.rm = TRUE) / mean(data$listings, na.rm = TRUE)
cv_months_inventory <- sd(data$months_inventory, na.rm = TRUE) / mean(data$months_inventory, na.rm = TRUE)

stats_summary <- data.frame(
  Variabile = c("sales", "volume", "median_price", "listings", "months_inventory"),
  Media = sapply(data[, c("sales", "volume", "median_price", "listings", "months_inventory")], mean, na.rm = TRUE),
  Dev_Std = sapply(data[, c("sales", "volume", "median_price", "listings", "months_inventory")], sd, na.rm = TRUE),
  Varianza = sapply(data[, c("sales", "volume", "median_price", "listings", "months_inventory")], var, na.rm = TRUE),
  Asimmetria = sapply(data[, c("sales", "volume", "median_price", "listings", "months_inventory")], skewness, na.rm = TRUE),
  Curtosi = sapply(data[, c("sales", "volume", "median_price", "listings", "months_inventory")], kurtosis, na.rm = TRUE)-3,
  CV = c(cv_sales, cv_volume, cv_median_price, cv_listings, cv_months_inventory)
)

print(stats_summary)
##                         Variabile        Media      Dev_Std     Varianza
## sales                       sales    192.29167    79.651111 6.344300e+03
## volume                     volume     31.00519    16.651447 2.772707e+02
## median_price         median_price 132665.41667 22662.148687 5.135730e+08
## listings                 listings   1738.02083   752.707756 5.665690e+05
## months_inventory months_inventory      9.19250     2.303669 5.306889e+00
##                   Asimmetria    Curtosi        CV
## sales             0.71810402 -0.3131764 0.4142203
## volume            0.88474203  0.1769870 0.5370536
## median_price     -0.36455288 -0.6229618 0.1708218
## listings          0.64949823 -0.7917900 0.4330833
## months_inventory  0.04097527 -0.1744475 0.2506031

Commento delle Statistiche Descrittive delle Variabili

L’output riporta diverse statistiche descrittive per le variabili numeriche presenti nel dataset:

Considerazioni sui risultati:

  • La variabile sales ha una deviazione standard elevata (79.65) e un CV di 0.41, indicando una significativa variabilità nelle vendite tra le città e i periodi temporali.
  • Volume ha un CV di 0.53, suggerendo una forte dispersione rispetto alla media, il che potrebbe essere dovuto a grandi differenze nel valore totale delle vendite tra le città.
  • Median_price mostra una leggera asimmetria negativa (-0.36), indicando che ci sono più osservazioni sopra la media che sotto.
  • Listings ha un’asimmetria positiva (0.64) e una curtosi negativa (-0.79), suggerendo una distribuzione più appiattita e sbilanciata verso valori più elevati.
  • Months_inventory ha un CV di 0.25, il che indica una variabilità relativamente contenuta rispetto ad altre variabili.

Questa analisi preliminare evidenzia che sales e volume sono le variabili con la maggiore variabilità relativa, mentre months_inventory risulta più stabile.


4️⃣ Creazione di classi per una variabile quantitativa

# Creiamo classi fisse per le vendite
breaks_fixed <- c(0, 100, 200, 300, 400, max(data$sales, na.rm = TRUE))
labels_fixed <- c("0-100", "101-200", "201-300", "301-400", "400+")
data$sales_class_fixed <- cut(data$sales, breaks = breaks_fixed, include.lowest = TRUE, labels = labels_fixed)

# Creazione tabella di frequenze
freq_table_fixed <- table(data$sales_class_fixed)
print(freq_table_fixed)
## 
##   0-100 101-200 201-300 301-400    400+ 
##      21     128      66      22       3
# Grafico
library(ggplot2)
ggplot(data, aes(x = sales_class_fixed)) +
  geom_bar(fill = "lightblue", color = "black") +
  ggtitle("Distribuzione delle vendite con classi fisse") +
  xlab("Classi di vendite") +
  ylab("Frequenza") +
  theme_minimal()

Commento sull’output del grafico:

# Calcoliamo l'indice di Gini per la distribuzione delle vendite
gini_sales <- Gini(data$sales, na.rm = TRUE)
print(paste("Indice di Gini per le vendite:", round(gini_sales, 4)))
## [1] "Indice di Gini per le vendite: 0.2311"

Commento:

L’indice di Gini calcolato per la distribuzione delle vendite è 0.2311. Questo valore indica un livello relativamente basso di disuguaglianza nella distribuzione delle vendite tra le diverse città e periodi considerati.

Un indice di Gini pari a 0 rappresenta una perfetta equidistribuzione, mentre un valore vicino a 1 indica un’alta concentrazione delle vendite in pochi casi. Il nostro valore di 0.2311 suggerisce che, pur essendoci una certa variabilità nelle vendite, queste non sono eccessivamente concentrate in pochi mesi o città.

Tuttavia, sarebbe utile approfondire il confronto calcolando il Gini per singola città per verificare se ci sono differenze locali nella distribuzione delle vendite.

# Creiamo le classi fisse per ogni città
data$sales_class_fixed <- cut(data$sales, breaks = breaks_fixed, include.lowest = TRUE, labels = labels_fixed)

# Creiamo la tabella di frequenze per città
freq_table_city <- table(data$city, data$sales_class_fixed)
print(freq_table_city)
##                        
##                         0-100 101-200 201-300 301-400 400+
##   Beaumont                  1      43      16       0    0
##   Bryan-College Station     3      34      15       6    2
##   Tyler                     0       8      35      16    1
##   Wichita Falls            17      43       0       0    0
# Grafico a barre della distribuzione delle vendite per città
ggplot(data, aes(x = sales_class_fixed, fill = city)) +
  geom_bar(position = "dodge", color = "black") +
  ggtitle("Distribuzione delle vendite per classi e città") +
  xlab("Classi di vendite") +
  ylab("Frequenza") +
  theme_minimal()

# Calcoliamo l'indice di Gini per ciascuna città
gini_city <- aggregate(data$sales, by = list(data$city), FUN = function(x) Gini(x, na.rm = TRUE))
colnames(gini_city) <- c("City", "Gini_Index")

# Stampiamo il risultato
print(gini_city)
##                    City Gini_Index
## 1              Beaumont  0.1302750
## 2 Bryan-College Station  0.2288558
## 3                 Tyler  0.1293204
## 4         Wichita Falls  0.1077542
ggplot(gini_city, aes(x = City, y = Gini_Index, fill = City)) +
  geom_bar(stat = "identity", color = "black") +
  ggtitle("Indice di Gini per la distribuzione delle vendite nelle città") +
  xlab("Città") +
  ylab("Indice di Gini") +
  theme_minimal()

Commento:

Il primo grafico mostra la distribuzione delle vendite immobiliari suddivise per classi di volume di vendite e per città. Si osserva che la maggior parte delle transazioni avviene nella fascia 101-200 vendite, con differenze tra le città.

Wichita Falls e Beaumont hanno il maggior numero di transazioni in questa fascia. Tyler ha una distribuzione più spostata verso fasce più alte, con un numero rilevante di vendite anche nella fascia 201-300. Bryan-College Station, pur avendo una buona distribuzione tra le prime tre fasce, mostra un minor numero di vendite nelle fasce alte (301-400 e 400+). Questo suggerisce che il mercato immobiliare non è uniforme tra le città, con alcune aree caratterizzate da un numero più elevato di transazioni rispetto ad altre.

Il secondo grafico illustra l’indice di Gini per la distribuzione delle vendite nelle quattro città considerate. L’indice di Gini misura la disuguaglianza nella distribuzione delle vendite: valori più alti indicano una distribuzione più squilibrata.

Bryan-College Station presenta l’indice di Gini più alto (~0.23), indicando che la distribuzione delle vendite è meno uniforme rispetto alle altre città. Beaumont, Tyler e Wichita Falls hanno indici più bassi (~0.11-0.13), suggerendo una distribuzione delle vendite relativamente più equilibrata. Questa informazione può essere utile per comprendere le dinamiche del mercato: una maggiore disuguaglianza nelle vendite può riflettere la presenza di alcune aree con volumi molto elevati rispetto ad altre con scarsa attività.


5️⃣ Calcolo della probabilità

# Probabilità della città Beaumont
p_beaumont <- sum(data$city == "Beaumont") / nrow(data)
print(paste("Probabilità di Beaumont:", round(p_beaumont, 4)))
## [1] "Probabilità di Beaumont: 0.25"
# Probabilità del mese di Luglio
p_july <- sum(data$month == 7) / nrow(data)
print(paste("Probabilità di Luglio:", round(p_july, 4)))
## [1] "Probabilità di Luglio: 0.0833"
# Probabilità di Dicembre 2012
p_december_2012 <- sum(data$month == 12 & data$year == 2012) / nrow(data)
print(paste("Probabilità di Dicembre 2012:", round(p_december_2012, 4)))
## [1] "Probabilità di Dicembre 2012: 0.0167"

6️⃣ Creazione di nuove variabili

# Creazione della variabile prezzo medio
data$prezzo_medio <- (data$volume * 1000000) / data$sales

ggplot(data, aes(x = median_price, y = prezzo_medio)) +
  geom_point(color = "blue") +
  geom_abline(slope = 1, intercept = 0, color = "red") +
  ggtitle("Confronto tra Prezzo Mediano e Prezzo Medio") +
  xlab("Prezzo Mediano") +
  ylab("Prezzo Medio") +
  theme_minimal()

# Creazione della variabile efficacia degli annunci
data$efficacia_annunci <- data$sales / data$listings

ggplot(data, aes(x = date, y = efficacia_annunci, color = city)) +
  geom_line() +
  ggtitle("Efficacia degli annunci nel tempo") +
  xlab("Data") +
  ylab("Efficacia degli annunci") +
  theme_minimal()

Commento sui grafici

Il grafico di dispersione mostra una forte correlazione positiva tra il prezzo mediano e il prezzo medio, indicando che le due misure tendono a muoversi insieme. Tuttavia, la presenza di punti al di sopra e al di sotto della linea di riferimento (identità) suggerisce variazioni nel rapporto tra i due valori, probabilmente dovute a distribuzioni non simmetriche dei prezzi o alla presenza di outlier.

L’andamento temporale dell’efficacia degli annunci mostra un trend oscillante ma in crescita per alcune città, suggerendo che nel tempo una quota maggiore degli annunci ha portato a vendite effettive. Bryan-College Station registra picchi più marcati rispetto alle altre città, il che potrebbe indicare dinamiche di mercato più favorevoli o variazioni stagionali nella domanda e nell’offerta.

# Analisi della stagionalità

ggplot(data, aes(x=factor(month), y=sales, fill=city)) +
  geom_boxplot() +
  ggtitle("Distribuzione delle vendite per mese") +
  xlab("Mese") +
  ylab("Numero di vendite") +
  theme_minimal()

Commento sulla stagionalità

Il boxplot evidenzia una chiara stagionalità nelle vendite immobiliari nelle diverse città analizzate. Si osserva un incremento significativo delle vendite nei mesi primaverili ed estivi (aprile-luglio), con un picco massimo attorno a giugno-luglio, per poi diminuire nei mesi autunnali e invernali. Questo andamento è coerente con la stagionalità tipica del mercato immobiliare, in cui il periodo estivo è più dinamico grazie a condizioni climatiche favorevoli e una maggiore disponibilità di tempo da parte degli acquirenti.

Si notano anche differenze tra le città: Bryan-College Station e Tyler presentano i volumi di vendita più elevati, mentre Wichita Falls mostra una minore variabilità e un numero di vendite generalmente inferiore. Inoltre, la presenza di outlier in alcuni mesi suggerisce eventi particolari o anomalie nel mercato.


7️⃣ Analisi condizionata

# Raggruppiamo per città e calcoliamo statistiche riassuntive
stats_city <- data %>%
  group_by(city) %>%
  summarise(
    PrezzoMedio = mean(prezzo_medio, na.rm = TRUE),
    DevStdPrezzo = sd(prezzo_medio, na.rm = TRUE),
    EffAnnunciMedia = mean(efficacia_annunci, na.rm = TRUE),
    DevStdEffAnnunci = sd(efficacia_annunci, na.rm = TRUE)
  )

print(stats_city)
## # A tibble: 4 × 5
##   city                 PrezzoMedio DevStdPrezzo EffAnnunciMedia DevStdEffAnnunci
##   <chr>                      <dbl>        <dbl>           <dbl>            <dbl>
## 1 Beaumont                 146640.       11232.          0.106            0.0267
## 2 Bryan-College Stati…     183534.       15149.          0.147            0.0729
## 3 Tyler                    167677.       12351.          0.0935           0.0235
## 4 Wichita Falls            119430.       11398.          0.128            0.0247
ggplot(data, aes(x = city, y = prezzo_medio, fill = city)) +
  geom_boxplot() +
  ggtitle("Distribuzione del prezzo medio per città") +
  xlab("Città") +
  ylab("Prezzo Medio") +
  theme_minimal()

ggplot(data, aes(x = date, y = prezzo_medio, color = city)) +
  geom_line(size = 1) +
  ggtitle("Andamento del Prezzo Medio nel Tempo per Città") +
  xlab("Data") +
  ylab("Prezzo Medio") +
  theme_minimal()

ggplot(data, aes(x = efficacia_annunci, y = prezzo_medio, color = city)) +
  geom_point(alpha = 0.6) +
  geom_smooth(method = "lm", se = FALSE) +
  ggtitle("Relazione tra Prezzo Medio ed Efficacia degli Annunci") +
  xlab("Efficacia degli Annunci") +
  ylab("Prezzo Medio") +
  theme_minimal()

model <- lm(prezzo_medio ~ sales + listings + months_inventory + efficacia_annunci + city, data = data)
summary(model)
## 
## Call:
## lm(formula = prezzo_medio ~ sales + listings + months_inventory + 
##     efficacia_annunci + city, data = data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -28241  -6336      8   6133  35381 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                1.607e+05  1.021e+04  15.740  < 2e-16 ***
## sales                      3.397e+01  3.492e+01   0.973   0.3317    
## listings                   7.058e-01  1.071e+01   0.066   0.9475    
## months_inventory          -2.564e+03  1.034e+03  -2.480   0.0138 *  
## efficacia_annunci          4.066e+04  4.827e+04   0.842   0.4004    
## cityBryan-College Station  2.848e+04  2.201e+03  12.936  < 2e-16 ***
## cityTyler                  2.102e+04  1.014e+04   2.074   0.0392 *  
## cityWichita Falls         -3.100e+04  5.330e+03  -5.815 1.99e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10770 on 232 degrees of freedom
## Multiple R-squared:  0.8472, Adjusted R-squared:  0.8426 
## F-statistic: 183.8 on 7 and 232 DF,  p-value: < 2.2e-16

Commenti

  1. Il boxplot mostra la distribuzione del prezzo medio delle case nelle quattro città analizzate. Si osservano differenze significative tra le città:

Bryan-College Station ha il prezzo medio più elevato e una variabilità relativamente alta. Tyler segue con un prezzo medio inferiore rispetto a Bryan-College Station ma comunque elevato. Beaumont ha un prezzo medio inferiore rispetto alle prime due città, con una distribuzione leggermente più concentrata. Wichita Falls registra il prezzo medio più basso, con una dispersione relativamente contenuta, indicando una maggiore stabilità nei prezzi. Questi risultati suggeriscono che il mercato immobiliare è più costoso e dinamico in Bryan-College Station e Tyler rispetto a Beaumont e Wichita Falls.

  1. Il grafico a linee mostra l’evoluzione del prezzo medio nel tempo per ciascuna città. Si evidenziano alcuni trend importanti:

Il prezzo medio è in crescita costante in tutte le città, segnalando un apprezzamento degli immobili tra il 2010 e il 2014. Bryan-College Station e Tyler hanno registrato i prezzi più elevati e un andamento più volatile. Beaumont e Wichita Falls mostrano prezzi più contenuti, con Wichita Falls che ha avuto il prezzo più basso per tutto il periodo analizzato. Le fluttuazioni nei prezzi possono essere dovute a cambiamenti nella domanda e offerta di immobili, condizioni economiche locali e variazioni nei tassi di interesse.

  1. Il grafico di dispersione mostra la relazione tra l’efficacia degli annunci (numero di vendite rispetto agli annunci attivi) e il prezzo medio per città.

Esiste una relazione positiva tra le due variabili: maggiore è l’efficacia degli annunci, più alto tende ad essere il prezzo medio. La tendenza suggerisce che città con mercati più dinamici (ad esempio Bryan-College Station e Tyler) hanno annunci più efficaci e prezzi medi più elevati. Wichita Falls ha l’efficacia più bassa e prezzi medi più bassi, confermando un mercato meno attivo rispetto alle altre città. Questa correlazione potrebbe indicare che nelle città con maggiore domanda immobiliare, gli annunci sono più efficaci nel generare vendite, contribuendo a sostenere prezzi più alti.

Modello di Regressione Lineare per il Prezzo Medio degli Immobili

Ho stimato un modello di regressione lineare per spiegare il prezzo medio degli immobili (prezzo_medio) utilizzando diverse variabili esplicative:

sales: numero di vendite listings: numero di annunci attivi months_inventory: mesi necessari per esaurire l’inventario delle case in vendita efficacia_annunci: rapporto tra vendite e annunci city: variabile categorica che indica la città (convertita in variabili dummy) Le città sono state codificate come variabili dummy per poter essere incluse nel modello: Beaumont è stata presa come riferimento (baseline). Bryan-College Station, Tyler e Wichita Falls sono rappresentate da coefficienti separati.

Interpretazione dei Risultati

Coefficiente di Intercetta (Intercept)

Il valore dell’intercetta è 160,700, che rappresenta il prezzo medio atteso in Beaumont quando tutte le altre variabili sono zero. È altamente significativo (p-value < 2e-16), indicando che ha un impatto forte nel modello.

Variabili Esplicative

Conclusioni sul modello OLS

8️⃣ Conclusioni e riflessioni finali sul mercato immobiliare in Texas (2010-2014)

L’analisi dei dati sulle vendite immobiliari in quattro città del Texas nel periodo 2010-2014 ha permesso di evidenziare alcune dinamiche chiave del mercato e di comprendere meglio i fattori che influenzano il prezzo medio delle abitazioni.

1️⃣ Differenze strutturali tra le città

I dati mostrano differenze significative nei livelli di prezzo tra le città considerate.

Bryan-College Station è la città con i prezzi medi più alti, caratterizzata da una crescita costante e da un mercato più competitivo. Tyler segue con prezzi mediamente elevati, pur con una maggiore variabilità nel tempo. Beaumont presenta un mercato più stabile, con prezzi intermedi rispetto alle altre città. Wichita Falls ha invece registrato i prezzi più bassi, suggerendo una domanda inferiore o una minore competitività del mercato immobiliare locale. Queste differenze possono riflettere fattori economici locali, come la crescita demografica, il livello di sviluppo urbano e la domanda di abitazioni.

2️⃣ Dinamiche di vendita e stagionalità

Dall’analisi delle vendite per mese, si osserva una chiara stagionalità del mercato immobiliare, con un aumento significativo delle transazioni nei mesi estivi (maggio-luglio) e una flessione nei mesi invernali. Questo comportamento è coerente con le tendenze tipiche del settore immobiliare, in cui la primavera e l’estate rappresentano i periodi più attivi per l’acquisto di case.

3️⃣ Impatto dell’offerta e della liquidità del mercato

L’analisi dei mesi di inventario mostra come un’elevata disponibilità di case sul mercato sia associata a una diminuzione dei prezzi medi. Questo suggerisce che, nei periodi in cui l’offerta supera la domanda, i venditori sono costretti a ridurre i prezzi per attirare acquirenti. Questo fenomeno è particolarmente evidente nelle città con prezzi più bassi, come Wichita Falls, dove un’elevata disponibilità di immobili potrebbe aver contribuito a mantenere i prezzi contenuti.

4️⃣ Indice di Gini e distribuzione delle vendite

L’indice di Gini sulla distribuzione delle vendite ha evidenziato una moderata concentrazione del mercato, con Bryan-College Station che mostra il valore di Gini più elevato (indicando una distribuzione delle vendite meno uniforme). Questo suggerisce che il mercato in questa città potrebbe essere dominato da poche transazioni di valore elevato, mentre in altre città la distribuzione delle vendite è più equilibrata.

5️⃣ Relazione tra Prezzo Medio ed Efficacia degli Annunc i L’analisi della variabile efficacia degli annunci (rapporto tra vendite e annunci attivi) ha mostrato una correlazione positiva con il prezzo medio: città con un mercato immobiliare più dinamico e con una maggiore efficacia degli annunci tendono ad avere prezzi più alti. Tuttavia, nel modello di regressione questa variabile non è risultata statisticamente significativa, suggerendo che il prezzo è influenzato più da fattori strutturali e geografici che dalla mera efficienza del mercato degli annunci.

6️⃣ Regressione Lineare: determinanti del prezzo medio Il modello di regressione lineare ha confermato alcuni dei risultati emersi dalle analisi descrittive:

I mesi di inventario hanno un impatto negativo e significativo sul prezzo medio: un’elevata disponibilità di case tende a ridurre i prezzi. La città di appartenenza è un fattore determinante: Bryan-College Station e Tyler hanno prezzi significativamente più alti rispetto a Beaumont (baseline), mentre Wichita Falls registra prezzi più bassi. Numero di vendite e numero di annunci non risultano essere statisticamente significativi nel determinare il prezzo medio, suggerendo che il mercato immobiliare è guidato più da fattori di offerta/demanda strutturali che da dinamiche transazionali di breve termine.

Il mercato immobiliare in Texas tra il 2010 e il 2014 mostra un’importante segmentazione geografica, con città che si differenziano in termini di prezzo, dinamiche di vendita e concentrazione delle transazioni.

L’offerta di immobili e la liquidità del mercato (mesi di inventario) giocano un ruolo chiave nella determinazione dei prezzi. La stagionalità influisce sulle vendite, con picchi estivi e cali invernali. La distribuzione delle vendite non è uniforme tra le città, con alcuni mercati più polarizzati rispetto ad altri. Le variabili transazionali, come numero di vendite e numero di annunci, non sembrano determinare direttamente il prezzo medio, mentre i fattori strutturali legati alla città e all’inventario risultano più rilevanti.