Dataset (prime 5 righe):

city year month sales volume median_price listings months_inventory
Beaumont 2010 1 83 16.42 163800 1533 9.5
Beaumont 2010 2 108 18.09 138200 1586 10.0
Beaumont 2010 3 182 39.41.00 122400 1689 10.6
Beaumont 2010 4 200 39.39.00 123200 1708 10.6
Beaumont 2010 5 202 41.53.00 123100 1771 10.9
Beaumont 2010 6 189 30.39.00 122800 1803 11.1

1. Analisi delle variabili

“Identifica e descrivi il tipo di variabili statistiche presenti nel dataset. Valuta come gestire le variabili che sottintendono una dimensione tempo e commenta sul tipo di analisi che può essere condotta su ciascuna variabile.”

Il dataset dati di dimesione 240 presenta le seguenti variabili:

city:

Variabile qualitativa nominale che indica una città di riferimento (stringa), può essere utilizzata per svolgere varie analisi sulle differenze delle altre variabili sulle diverse ciità.

year:

Variabile qualitativa ordinale (anche se al’apparenza è quantitativa ordinale) che indica un anno specifico, nel dataset è inserito come valore numerico intero, lo trasformo come gruppo. Può essere utilizzata per svolgere analisi sull’andamento del mercato nei vari anni.

month:

Variabile qualitativa nominale (ciclica) che indica un mese specifico, nel dataset è inserito come valore numerico intero (da 1 a 12). Può essere utilizzata per svolgere analisi sull’andamento del mercato nei diversi mesi.

Grazie a queste 3 prime variabili riusciamo ad individuare per ogni riga una citta, un anno e un mese. Le prossime variabili descriveranno le informaioni sul mercato immobiliare in un certo luogo e in un certo momento.

sales:

Variabile quantitativa discreta che indica il numero di vendite con valore numerico intero. Utile per confrontare in che periodo/luogo ci sono state tante o poche vendite.

volume:

Variabile quantitativa continua che indica il guadagno delle vendite (espresso in milioni di dollari attraverso una stringa), utile per fare analisi sul fatturato

median_price:

Variabile quantitativa continua che descrive il prezzo mediano tra le case vendute (espresso in dollari con una stringa).

listings:

Variabile quantitativa discreta che indica il numero di listini utilizzati per publicizzare le case da vendere attraverso un valore intero. Utile per valutare sales e la campagna publicitaria.

month_inventory:

Variabile quantitativa continua che esprime la quantità di tempo necessaria per vendere tutte le inserzioni correnti, espresso in mesi con un numero intero. Utile per valutare l’andamento del mercato.

Tutte le variabili quantitative continue sono su scala di rapporti.
Con tutte queste variabili quantitative è utile individuare gli indici di variabilità, posizione e forma.

2. Indici di posizione, variabilità e forma

“Calcola Indici di posizione, variabilità e forma per tutte le variabili per le quali ha senso farlo, per le altre crea una distribuzione di frequenza. Infine, commenta tutto brevemente.”

city:

Distribuzione di frequenza

year:

Distribuzione di frequenza

month:

Distribuzione di frequenza

sales:

nomi_indici Minino 1° quartile Mediana Media 3° quartile Massimo Deviazione standard Varianza Coefficiente di varabilità Range
indici 79 127 175.5 192.29 246 423 79.65 6344.3 41.42 344

volume:

nomi_indici Minino 1° quartile Mediana Media 3° quartile Massimo Deviazione standard Varianza Coefficiente di varabilità Range
indici 9.4 23.55 35.18 37.95 49.27 93.34 17.73 314.24 46.71 83.94

median_price:

nomi_indici Minino 1° quartile Mediana Media 3° quartile Massimo Deviazione standard Varianza Coefficiente di varabilità Range
indici 73800 116700 134500 132665.42 150000 180000 22662.15 513572983.09 17.08 106200

listings

nomi_indici Minino 1° quartile Mediana Media 3° quartile Massimo Deviazione standard Varianza Coefficiente di varabilità Range
indici 743 1022 1618.5 1738.02 1984 3296 752.71 566568.97 43.31 2553

months_inventory

nomi_indici Minino 1° quartile Mediana Media 3° quartile Massimo Deviazione standard Varianza Coefficiente di varabilità Range
indici 3.4 7.8 8.95 9.19 10.9 14.9 2.3 5.31 25.06 11.5

3. Identificazione delle variabili con maggiore variabilità e asimmetria

“Qual è la variabile con la più alta variabilità?”

La variabile con il coefficiente di variabilità maggiore è volume (anche se month avrebbe il coeffiente ancora più grande ma non lo prendiamo in considerazione)

Coefficiente di variabilità maggiore:

round(max(cv(sales), cv(volume), cv(median_price), cv(listings), cv(months_inventory)), digits = 2)
## [1] 46.71

Coefficiente di variabilità di volume:

## [1] 46.71

“Qual è la variabile con la distribuzione più asimmetrica?”

La variabile con la distribuzione più asimmetrica è volume (non abbiamo inserito le variabili city, year e month perchè possiamo osservare dalle distribuzioni di frequenze precedenti che hanno una distribuzione uniforme e quindi indice di asimettria nullo).

Indice di simmetria maggiore:

## [1] 0.74

Indice di simmetria di volume:

## [1] 0.74

4. Creazione di classi per una variabile quantitativa (sales)

“Seleziona una variabile quantitativa (es. sales o median_price) e suddividila in classi.”

x
(0,100)
(101,200)
(201,300)
(301,400)
(401,500)

“Crea una distribuzione di frequenze e rappresenta i dati con un grafico a barre.”

“Calcola l’indice di eterogeneità Gini e discuti i risultati.”

Indice di Gini di sales:

## [1] 0.998

L’indice di eterogeneità di Gini della variabile sales è molto alto (quasi 1), perciò la variabile è ban distribuita (prevedibile data la variabile sales molto eterogenea)

5. Calcolo della probabilità

“Qual è la probabilità che, presa una riga a caso di questo dataset, essa riporti la città “Beaumont”?”

P(city = Beaumont):

## [1] 0.25

“E la probabilità che riporti il mese di Luglio?”

P(month = 7):

## [1] 0.083

“E la probabilità che riporti il mese di dicembre 2012?”

P(year = 2012 V month = 12):

## [1] 0.017

6. Creazione di nuove variabili

“Crea una nuova colonna che calcoli il prezzo medio degli immobili utilizzando le variabili disponibili (prezzo medio in dollari).”

city year month sales volume median_price listings months_inventory mean_price
Beaumont 2010 1 83 16.42 163800 1533 9.5 197831.3
Beaumont 2010 2 108 18.09 138200 1586 10.0 167500.0
Beaumont 2010 3 182 39.41.00 122400 1689 10.6 216538.5
Beaumont 2010 4 200 39.39.00 123200 1708 10.6 196950.0
Beaumont 2010 5 202 41.53.00 123100 1771 10.9 205594.1
Beaumont 2010 6 189 30.39.00 122800 1803 11.1 160793.7

“Prova a creare una colonna che misuri l’efficacia degli annunci di vendita. Commenta e discuti i risultati.”

city year month sales volume median_price listings months_inventory mean_price efficacia_annunci
Beaumont 2010 1 83 16.42 163800 1533 9.5 197831.3 0.0541422
Beaumont 2010 2 108 18.09 138200 1586 10.0 167500.0 0.0680958
Beaumont 2010 3 182 39.41.00 122400 1689 10.6 216538.5 0.1077561
Beaumont 2010 4 200 39.39.00 123200 1708 10.6 196950.0 0.1170960
Beaumont 2010 5 202 41.53.00 123100 1771 10.9 205594.1 0.1140599
Beaumont 2010 6 189 30.39.00 122800 1803 11.1 160793.7 0.1048253

Numero di efficacia_annunci > 10%:

## [1] 61.25

Numero di efficacia_annunci < 20%:

## [1] 95

Minimo efficacia_annunci:

## [1] 0.05

Osservando i risutati, nella maggioranza dei casi (61.25% dei casi), gli annunci hanno havuto un efficienza maggiore del 10%. Nel 95% dei casi risulta un’efficienza minore del 20%, come si può osservare anche dalla distribuzione di densità. Perciò, senza considerare i casi eccezionali (efficienza maggiore del 20%) il numero minimo di annunci per vendere una casa è 5 (20% = 1/5). Mentre il massimo è 20 annunci (5% = 1/20). In conclusione ci vogliono dai 5 ai 20 annunci per vendere una casa.

7. Analisi condizionata

“Usa il pacchetto dplyr o il linguaggio base di R per effettuare analisi statistiche condizionate per città, anno e mese. Genera dei summary (media, deviazione standard) e rappresenta graficamente i risultati.”

city media_sales sd_sales media_volume sd_volume media_median_price sd_median_prices media_listings sd_listings
Beaumont 177.3833 41.48395 32.34667 8.907882 129988.3 10104.993 1679.3167 91.13382
Bryan-College Station 205.9667 84.98374 46.21817 17.718148 157488.3 8852.235 1458.1333 252.52753
Tyler 269.7500 61.96380 52.91200 14.136646 141441.7 9336.538 2905.0500 226.75458
Wichita Falls 116.0667 22.15192 20.31350 5.865079 101743.3 11320.034 909.5833 73.75504
city media_sales sd_sales media_volume sd_volume media_median_price sd_median_prices media_listings sd_listings
Length:4 Min. :116.1 Min. :22.15 Min. :20.31 Min. : 5.865 Min. :101743 Min. : 8852 Min. : 909.6 Min. : 73.76
Class :character 1st Qu.:162.1 1st Qu.:36.65 1st Qu.:29.34 1st Qu.: 8.147 1st Qu.:122927 1st Qu.: 9215 1st Qu.:1321.0 1st Qu.: 86.79
Mode :character Median :191.7 Median :51.72 Median :39.28 Median :11.522 Median :135715 Median : 9721 Median :1568.7 Median :158.94
NA Mean :192.3 Mean :52.65 Mean :37.95 Mean :11.657 Mean :132665 Mean : 9903 Mean :1738.0 Mean :161.04
NA 3rd Qu.:221.9 3rd Qu.:67.72 3rd Qu.:47.89 3rd Qu.:15.032 3rd Qu.:145453 3rd Qu.:10409 3rd Qu.:1985.8 3rd Qu.:233.20
NA Max. :269.8 Max. :84.98 Max. :52.91 Max. :17.718 Max. :157488 Max. :11320 Max. :2905.1 Max. :252.53
year media_sales sd_sales media_volume sd_volume media_median_price sd_median_prices media_listings sd_listings
2010 168.6667 60.53708 32.55146 11.88992 130191.7 21821.76 1826.000 785.0201
2011 164.1250 63.87042 31.22583 14.06251 127854.2 21317.80 1849.646 780.3777
2012 186.1458 70.90509 37.08125 15.87823 130077.1 21431.52 1776.812 738.4492
2013 211.9167 83.99641 41.54708 18.15129 135722.9 21708.08 1677.604 743.5239
2014 230.6042 95.51490 47.33229 22.30297 139481.2 25625.41 1560.042 706.7086
year media_sales sd_sales media_volume sd_volume media_median_price sd_median_prices media_listings sd_listings
2010:1 Min. :164.1 Min. :60.54 Min. :31.23 Min. :11.89 Min. :127854 Min. :21318 Min. :1560 Min. :706.7
2011:1 1st Qu.:168.7 1st Qu.:63.87 1st Qu.:32.55 1st Qu.:14.06 1st Qu.:130077 1st Qu.:21432 1st Qu.:1678 1st Qu.:738.4
2012:1 Median :186.1 Median :70.91 Median :37.08 Median :15.88 Median :130192 Median :21708 Median :1777 Median :743.5
2013:1 Mean :192.3 Mean :74.96 Mean :37.95 Mean :16.46 Mean :132665 Mean :22381 Mean :1738 Mean :750.8
2014:1 3rd Qu.:211.9 3rd Qu.:84.00 3rd Qu.:41.55 3rd Qu.:18.15 3rd Qu.:135723 3rd Qu.:21822 3rd Qu.:1826 3rd Qu.:780.4
NA Max. :230.6 Max. :95.51 Max. :47.33 Max. :22.30 Max. :139481 Max. :25625 Max. :1850 Max. :785.0
month media_sales sd_sales media_volume sd_volume media_median_price sd_median_prices media_listings sd_listings
1 127.40 43.38372 24.9350 10.26332 124250 25151.28 1647.05 704.6140
2 140.85 51.06783 27.8965 11.63180 130075 22822.59 1692.50 711.2004
3 189.45 59.17812 36.7470 13.00221 127415 23442.03 1756.70 727.3546
4 211.70 65.40489 41.2190 15.73021 131490 21458.40 1825.70 770.4287
5 238.85 83.11582 46.5665 19.04088 134485 18796.26 1823.85 790.2234
6 243.55 94.99832 47.5295 24.06977 137620 19231.02 1833.25 811.6288
7 235.75 96.27421 46.9465 21.27454 134750 21944.78 1821.20 826.7196
8 231.45 79.22883 44.3215 18.85972 136675 22488.38 1786.30 815.8664
9 182.35 72.51807 35.9535 16.11681 134040 24344.10 1748.90 802.6563
10 179.90 74.95395 37.3570 15.64743 133480 26358.07 1710.35 779.1649
11 156.85 55.46670 32.5915 12.73695 134305 24691.47 1652.70 741.2533
12 169.40 60.74658 33.3075 14.86824 133400 22809.76 1557.75 692.5678
month media_sales sd_sales media_volume sd_volume media_median_price sd_median_prices media_listings sd_listings
Min. : 1.00 Min. :127.4 Min. :43.38 Min. :24.93 Min. :10.26 Min. :124250 Min. :18796 Min. :1558 Min. :692.6
1st Qu.: 3.75 1st Qu.:166.3 1st Qu.:58.25 1st Qu.:33.13 1st Qu.:12.94 1st Qu.:131136 1st Qu.:21823 1st Qu.:1683 1st Qu.:723.3
Median : 6.50 Median :185.9 Median :68.96 Median :37.05 Median :15.69 Median :133760 Median :22816 Median :1753 Median :774.8
Mean : 6.50 Mean :192.3 Mean :69.69 Mean :37.95 Mean :16.10 Mean :132665 Mean :22795 Mean :1738 Mean :764.5
3rd Qu.: 9.25 3rd Qu.:232.5 3rd Qu.:80.20 3rd Qu.:44.88 3rd Qu.:18.91 3rd Qu.:134551 3rd Qu.:24431 3rd Qu.:1822 3rd Qu.:804.9
Max. :12.00 Max. :243.6 Max. :96.27 Max. :47.53 Max. :24.07 Max. :137620 Max. :26358 Max. :1833 Max. :826.7

8. Creazione di visualizzazioni con ggplot2

“Utilizza ggplot2 per creare grafici personalizzati. Assicurati di esplorare:”

  • “Boxplot per confrontare la distribuzione del prezzo mediano tra le città.”

Le varie città sono distribuite in mariera simile, infatti le deviazioni standard dei prezzi mediani delle diverse città sono simili. Si noti che la differenza sostanziale sta nella media dei prezzi mediani, infatti nelle diverse città ci sono prezzi differenti. Nelle città di Bryan-College Station e di Tyler c’è stato un aumento sostanziale dei prezzi medi nel corso degli anni 2010-2014 mentre nelle altre due città l’aumento è stato molto meno marcato.

  • “Grafici a barre per confrontare il totale delle vendite per mese e città.”

  • “Line charts per confrontare l’andamento delle vendite in periodi storici differenti.”

9. Conclusioni

“Fornisci una sintesi dei risultati ottenuti, facendo riferimento alle principali tendenze emerse e fornendo raccomandazioni basate sull’analisi. Questo non è un progetto di programmazione, ma di statistica, e ci si aspetta di leggere commenti e considerazioni statistiche per i vari passaggi e risultati.”

Si osserva che negli anni c’è stato un aumento progressivo del numero di vendite, visibile anche dal fatto che, dal 2010 al 2014, volume e median_price aumentano (osservare groupby_year). La notevole differenza delle vendite si verifica nei diversi mesi, nei mesi estivi c’è una tendenza a vendere molto più alta rispetto gli altri periodi dell’anno, soprattutto nei primi mesi dell’anno dove è quasi la metà. Per quanto riguarda le diverse città, a Tyler si verificano numerose vendite, più del doppio rispetto a Wichita Falls dove se ne verificano molto poche. Ma le case più costose sono a Bryan-college Station, dove sono state vendute meno case rispetto a Tyler.

Osservazioni operative

Il valore totale delle vedite è più equilibrato rispetto all prezzo mediano perchè conta sia il prezzo che il numero di vendite, ma comunque la città di Tyler rispecchia un valore delle vendite maggiore, dovuto al maggiore numero di vendite.

Si nota nuovamente l’aumento progressivo dei guadagno come lo era anche per le vendite. C’è anche un aumento, quasi del doppio, nella deviazione standard del valore delle vendite, dal 2010 al 2014, quindi negli ultimi anni il valore delle vendite si spazia in un range maggiore rispetto ai primi anni.

Anche da qui si nota il maggior valore nelle vendite di Tyler e Bryan-College Station e l’andamento delle maggiori vendite nei mesi estivi. Quest’ltima caratteristica è più marcata per le città di di Tyler e Bryan-College Station e poco marcata per quelle di Beaumont e Wichita Falls.

Grafico normalizzato