Dataset (prime 5 righe):
| city | year | month | sales | volume | median_price | listings | months_inventory |
|---|---|---|---|---|---|---|---|
| Beaumont | 2010 | 1 | 83 | 16.42 | 163800 | 1533 | 9.5 |
| Beaumont | 2010 | 2 | 108 | 18.09 | 138200 | 1586 | 10.0 |
| Beaumont | 2010 | 3 | 182 | 39.41.00 | 122400 | 1689 | 10.6 |
| Beaumont | 2010 | 4 | 200 | 39.39.00 | 123200 | 1708 | 10.6 |
| Beaumont | 2010 | 5 | 202 | 41.53.00 | 123100 | 1771 | 10.9 |
| Beaumont | 2010 | 6 | 189 | 30.39.00 | 122800 | 1803 | 11.1 |
“Identifica e descrivi il tipo di variabili statistiche presenti nel dataset. Valuta come gestire le variabili che sottintendono una dimensione tempo e commenta sul tipo di analisi che può essere condotta su ciascuna variabile.”
Il dataset dati di dimesione 240 presenta le seguenti variabili:
Variabile qualitativa nominale che indica una città di riferimento (stringa), può essere utilizzata per svolgere varie analisi sulle differenze delle altre variabili sulle diverse ciità.
Variabile qualitativa ordinale (anche se al’apparenza è quantitativa ordinale) che indica un anno specifico, nel dataset è inserito come valore numerico intero, lo trasformo come gruppo. Può essere utilizzata per svolgere analisi sull’andamento del mercato nei vari anni.
Variabile qualitativa nominale (ciclica) che indica un mese specifico, nel dataset è inserito come valore numerico intero (da 1 a 12). Può essere utilizzata per svolgere analisi sull’andamento del mercato nei diversi mesi.
Grazie a queste 3 prime variabili riusciamo ad individuare per ogni riga una citta, un anno e un mese. Le prossime variabili descriveranno le informaioni sul mercato immobiliare in un certo luogo e in un certo momento.
Variabile quantitativa discreta che indica il numero di vendite con valore numerico intero. Utile per confrontare in che periodo/luogo ci sono state tante o poche vendite.
Variabile quantitativa continua che indica il guadagno delle vendite (espresso in milioni di dollari attraverso una stringa), utile per fare analisi sul fatturato
Variabile quantitativa continua che descrive il prezzo mediano tra le case vendute (espresso in dollari con una stringa).
Variabile quantitativa discreta che indica il numero di listini utilizzati per publicizzare le case da vendere attraverso un valore intero. Utile per valutare sales e la campagna publicitaria.
Variabile quantitativa continua che esprime la quantità di tempo necessaria per vendere tutte le inserzioni correnti, espresso in mesi con un numero intero. Utile per valutare l’andamento del mercato.
Tutte le variabili quantitative continue sono su scala di
rapporti.
Con tutte queste variabili quantitative è utile individuare gli indici
di variabilità, posizione e forma.
“Calcola Indici di posizione, variabilità e forma per tutte le variabili per le quali ha senso farlo, per le altre crea una distribuzione di frequenza. Infine, commenta tutto brevemente.”
Distribuzione di frequenza
Distribuzione di frequenza
Distribuzione di frequenza
| nomi_indici | Minino | 1° quartile | Mediana | Media | 3° quartile | Massimo | Deviazione standard | Varianza | Coefficiente di varabilità | Range |
| indici | 79 | 127 | 175.5 | 192.29 | 246 | 423 | 79.65 | 6344.3 | 41.42 | 344 |
| nomi_indici | Minino | 1° quartile | Mediana | Media | 3° quartile | Massimo | Deviazione standard | Varianza | Coefficiente di varabilità | Range |
| indici | 9.4 | 23.55 | 35.18 | 37.95 | 49.27 | 93.34 | 17.73 | 314.24 | 46.71 | 83.94 |
| nomi_indici | Minino | 1° quartile | Mediana | Media | 3° quartile | Massimo | Deviazione standard | Varianza | Coefficiente di varabilità | Range |
| indici | 73800 | 116700 | 134500 | 132665.42 | 150000 | 180000 | 22662.15 | 513572983.09 | 17.08 | 106200 |
| nomi_indici | Minino | 1° quartile | Mediana | Media | 3° quartile | Massimo | Deviazione standard | Varianza | Coefficiente di varabilità | Range |
| indici | 743 | 1022 | 1618.5 | 1738.02 | 1984 | 3296 | 752.71 | 566568.97 | 43.31 | 2553 |
| nomi_indici | Minino | 1° quartile | Mediana | Media | 3° quartile | Massimo | Deviazione standard | Varianza | Coefficiente di varabilità | Range |
| indici | 3.4 | 7.8 | 8.95 | 9.19 | 10.9 | 14.9 | 2.3 | 5.31 | 25.06 | 11.5 |
“Qual è la variabile con la più alta variabilità?”
La variabile con il coefficiente di variabilità maggiore è volume (anche se month avrebbe il coeffiente ancora più grande ma non lo prendiamo in considerazione)
Coefficiente di variabilità maggiore:
round(max(cv(sales), cv(volume), cv(median_price), cv(listings), cv(months_inventory)), digits = 2)
## [1] 46.71
Coefficiente di variabilità di volume:
## [1] 46.71
“Qual è la variabile con la distribuzione più asimmetrica?”
La variabile con la distribuzione più asimmetrica è volume (non abbiamo inserito le variabili city, year e month perchè possiamo osservare dalle distribuzioni di frequenze precedenti che hanno una distribuzione uniforme e quindi indice di asimettria nullo).
Indice di simmetria maggiore:
## [1] 0.74
Indice di simmetria di volume:
## [1] 0.74
“Seleziona una variabile quantitativa (es. sales o median_price) e suddividila in classi.”
| x |
|---|
| (0,100) |
| (101,200) |
| (201,300) |
| (301,400) |
| (401,500) |
“Crea una distribuzione di frequenze e rappresenta i dati con un grafico a barre.”
“Calcola l’indice di eterogeneità Gini e discuti i risultati.”
Indice di Gini di sales:
## [1] 0.998
L’indice di eterogeneità di Gini della variabile sales è molto alto (quasi 1), perciò la variabile è ban distribuita (prevedibile data la variabile sales molto eterogenea)
“Qual è la probabilità che, presa una riga a caso di questo dataset, essa riporti la città “Beaumont”?”
P(city = Beaumont):
## [1] 0.25
“E la probabilità che riporti il mese di Luglio?”
P(month = 7):
## [1] 0.083
“E la probabilità che riporti il mese di dicembre 2012?”
P(year = 2012 V month = 12):
## [1] 0.017
“Crea una nuova colonna che calcoli il prezzo medio degli immobili utilizzando le variabili disponibili (prezzo medio in dollari).”
| city | year | month | sales | volume | median_price | listings | months_inventory | mean_price |
|---|---|---|---|---|---|---|---|---|
| Beaumont | 2010 | 1 | 83 | 16.42 | 163800 | 1533 | 9.5 | 197831.3 |
| Beaumont | 2010 | 2 | 108 | 18.09 | 138200 | 1586 | 10.0 | 167500.0 |
| Beaumont | 2010 | 3 | 182 | 39.41.00 | 122400 | 1689 | 10.6 | 216538.5 |
| Beaumont | 2010 | 4 | 200 | 39.39.00 | 123200 | 1708 | 10.6 | 196950.0 |
| Beaumont | 2010 | 5 | 202 | 41.53.00 | 123100 | 1771 | 10.9 | 205594.1 |
| Beaumont | 2010 | 6 | 189 | 30.39.00 | 122800 | 1803 | 11.1 | 160793.7 |
“Prova a creare una colonna che misuri l’efficacia degli annunci di vendita. Commenta e discuti i risultati.”
| city | year | month | sales | volume | median_price | listings | months_inventory | mean_price | efficacia_annunci |
|---|---|---|---|---|---|---|---|---|---|
| Beaumont | 2010 | 1 | 83 | 16.42 | 163800 | 1533 | 9.5 | 197831.3 | 0.0541422 |
| Beaumont | 2010 | 2 | 108 | 18.09 | 138200 | 1586 | 10.0 | 167500.0 | 0.0680958 |
| Beaumont | 2010 | 3 | 182 | 39.41.00 | 122400 | 1689 | 10.6 | 216538.5 | 0.1077561 |
| Beaumont | 2010 | 4 | 200 | 39.39.00 | 123200 | 1708 | 10.6 | 196950.0 | 0.1170960 |
| Beaumont | 2010 | 5 | 202 | 41.53.00 | 123100 | 1771 | 10.9 | 205594.1 | 0.1140599 |
| Beaumont | 2010 | 6 | 189 | 30.39.00 | 122800 | 1803 | 11.1 | 160793.7 | 0.1048253 |
Numero di efficacia_annunci > 10%:
## [1] 61.25
Numero di efficacia_annunci < 20%:
## [1] 95
Minimo efficacia_annunci:
## [1] 0.05
Osservando i risutati, nella maggioranza dei casi (61.25% dei casi), gli annunci hanno havuto un efficienza maggiore del 10%. Nel 95% dei casi risulta un’efficienza minore del 20%, come si può osservare anche dalla distribuzione di densità. Perciò, senza considerare i casi eccezionali (efficienza maggiore del 20%) il numero minimo di annunci per vendere una casa è 5 (20% = 1/5). Mentre il massimo è 20 annunci (5% = 1/20). In conclusione ci vogliono dai 5 ai 20 annunci per vendere una casa.
“Usa il pacchetto dplyr o il linguaggio base di R per effettuare analisi statistiche condizionate per città, anno e mese. Genera dei summary (media, deviazione standard) e rappresenta graficamente i risultati.”
| city | media_sales | sd_sales | media_volume | sd_volume | media_median_price | sd_median_prices | media_listings | sd_listings |
|---|---|---|---|---|---|---|---|---|
| Beaumont | 177.3833 | 41.48395 | 32.34667 | 8.907882 | 129988.3 | 10104.993 | 1679.3167 | 91.13382 |
| Bryan-College Station | 205.9667 | 84.98374 | 46.21817 | 17.718148 | 157488.3 | 8852.235 | 1458.1333 | 252.52753 |
| Tyler | 269.7500 | 61.96380 | 52.91200 | 14.136646 | 141441.7 | 9336.538 | 2905.0500 | 226.75458 |
| Wichita Falls | 116.0667 | 22.15192 | 20.31350 | 5.865079 | 101743.3 | 11320.034 | 909.5833 | 73.75504 |
| city | media_sales | sd_sales | media_volume | sd_volume | media_median_price | sd_median_prices | media_listings | sd_listings | |
|---|---|---|---|---|---|---|---|---|---|
| Length:4 | Min. :116.1 | Min. :22.15 | Min. :20.31 | Min. : 5.865 | Min. :101743 | Min. : 8852 | Min. : 909.6 | Min. : 73.76 | |
| Class :character | 1st Qu.:162.1 | 1st Qu.:36.65 | 1st Qu.:29.34 | 1st Qu.: 8.147 | 1st Qu.:122927 | 1st Qu.: 9215 | 1st Qu.:1321.0 | 1st Qu.: 86.79 | |
| Mode :character | Median :191.7 | Median :51.72 | Median :39.28 | Median :11.522 | Median :135715 | Median : 9721 | Median :1568.7 | Median :158.94 | |
| NA | Mean :192.3 | Mean :52.65 | Mean :37.95 | Mean :11.657 | Mean :132665 | Mean : 9903 | Mean :1738.0 | Mean :161.04 | |
| NA | 3rd Qu.:221.9 | 3rd Qu.:67.72 | 3rd Qu.:47.89 | 3rd Qu.:15.032 | 3rd Qu.:145453 | 3rd Qu.:10409 | 3rd Qu.:1985.8 | 3rd Qu.:233.20 | |
| NA | Max. :269.8 | Max. :84.98 | Max. :52.91 | Max. :17.718 | Max. :157488 | Max. :11320 | Max. :2905.1 | Max. :252.53 |
| year | media_sales | sd_sales | media_volume | sd_volume | media_median_price | sd_median_prices | media_listings | sd_listings |
|---|---|---|---|---|---|---|---|---|
| 2010 | 168.6667 | 60.53708 | 32.55146 | 11.88992 | 130191.7 | 21821.76 | 1826.000 | 785.0201 |
| 2011 | 164.1250 | 63.87042 | 31.22583 | 14.06251 | 127854.2 | 21317.80 | 1849.646 | 780.3777 |
| 2012 | 186.1458 | 70.90509 | 37.08125 | 15.87823 | 130077.1 | 21431.52 | 1776.812 | 738.4492 |
| 2013 | 211.9167 | 83.99641 | 41.54708 | 18.15129 | 135722.9 | 21708.08 | 1677.604 | 743.5239 |
| 2014 | 230.6042 | 95.51490 | 47.33229 | 22.30297 | 139481.2 | 25625.41 | 1560.042 | 706.7086 |
| year | media_sales | sd_sales | media_volume | sd_volume | media_median_price | sd_median_prices | media_listings | sd_listings | |
|---|---|---|---|---|---|---|---|---|---|
| 2010:1 | Min. :164.1 | Min. :60.54 | Min. :31.23 | Min. :11.89 | Min. :127854 | Min. :21318 | Min. :1560 | Min. :706.7 | |
| 2011:1 | 1st Qu.:168.7 | 1st Qu.:63.87 | 1st Qu.:32.55 | 1st Qu.:14.06 | 1st Qu.:130077 | 1st Qu.:21432 | 1st Qu.:1678 | 1st Qu.:738.4 | |
| 2012:1 | Median :186.1 | Median :70.91 | Median :37.08 | Median :15.88 | Median :130192 | Median :21708 | Median :1777 | Median :743.5 | |
| 2013:1 | Mean :192.3 | Mean :74.96 | Mean :37.95 | Mean :16.46 | Mean :132665 | Mean :22381 | Mean :1738 | Mean :750.8 | |
| 2014:1 | 3rd Qu.:211.9 | 3rd Qu.:84.00 | 3rd Qu.:41.55 | 3rd Qu.:18.15 | 3rd Qu.:135723 | 3rd Qu.:21822 | 3rd Qu.:1826 | 3rd Qu.:780.4 | |
| NA | Max. :230.6 | Max. :95.51 | Max. :47.33 | Max. :22.30 | Max. :139481 | Max. :25625 | Max. :1850 | Max. :785.0 |
| month | media_sales | sd_sales | media_volume | sd_volume | media_median_price | sd_median_prices | media_listings | sd_listings |
|---|---|---|---|---|---|---|---|---|
| 1 | 127.40 | 43.38372 | 24.9350 | 10.26332 | 124250 | 25151.28 | 1647.05 | 704.6140 |
| 2 | 140.85 | 51.06783 | 27.8965 | 11.63180 | 130075 | 22822.59 | 1692.50 | 711.2004 |
| 3 | 189.45 | 59.17812 | 36.7470 | 13.00221 | 127415 | 23442.03 | 1756.70 | 727.3546 |
| 4 | 211.70 | 65.40489 | 41.2190 | 15.73021 | 131490 | 21458.40 | 1825.70 | 770.4287 |
| 5 | 238.85 | 83.11582 | 46.5665 | 19.04088 | 134485 | 18796.26 | 1823.85 | 790.2234 |
| 6 | 243.55 | 94.99832 | 47.5295 | 24.06977 | 137620 | 19231.02 | 1833.25 | 811.6288 |
| 7 | 235.75 | 96.27421 | 46.9465 | 21.27454 | 134750 | 21944.78 | 1821.20 | 826.7196 |
| 8 | 231.45 | 79.22883 | 44.3215 | 18.85972 | 136675 | 22488.38 | 1786.30 | 815.8664 |
| 9 | 182.35 | 72.51807 | 35.9535 | 16.11681 | 134040 | 24344.10 | 1748.90 | 802.6563 |
| 10 | 179.90 | 74.95395 | 37.3570 | 15.64743 | 133480 | 26358.07 | 1710.35 | 779.1649 |
| 11 | 156.85 | 55.46670 | 32.5915 | 12.73695 | 134305 | 24691.47 | 1652.70 | 741.2533 |
| 12 | 169.40 | 60.74658 | 33.3075 | 14.86824 | 133400 | 22809.76 | 1557.75 | 692.5678 |
| month | media_sales | sd_sales | media_volume | sd_volume | media_median_price | sd_median_prices | media_listings | sd_listings | |
|---|---|---|---|---|---|---|---|---|---|
| Min. : 1.00 | Min. :127.4 | Min. :43.38 | Min. :24.93 | Min. :10.26 | Min. :124250 | Min. :18796 | Min. :1558 | Min. :692.6 | |
| 1st Qu.: 3.75 | 1st Qu.:166.3 | 1st Qu.:58.25 | 1st Qu.:33.13 | 1st Qu.:12.94 | 1st Qu.:131136 | 1st Qu.:21823 | 1st Qu.:1683 | 1st Qu.:723.3 | |
| Median : 6.50 | Median :185.9 | Median :68.96 | Median :37.05 | Median :15.69 | Median :133760 | Median :22816 | Median :1753 | Median :774.8 | |
| Mean : 6.50 | Mean :192.3 | Mean :69.69 | Mean :37.95 | Mean :16.10 | Mean :132665 | Mean :22795 | Mean :1738 | Mean :764.5 | |
| 3rd Qu.: 9.25 | 3rd Qu.:232.5 | 3rd Qu.:80.20 | 3rd Qu.:44.88 | 3rd Qu.:18.91 | 3rd Qu.:134551 | 3rd Qu.:24431 | 3rd Qu.:1822 | 3rd Qu.:804.9 | |
| Max. :12.00 | Max. :243.6 | Max. :96.27 | Max. :47.53 | Max. :24.07 | Max. :137620 | Max. :26358 | Max. :1833 | Max. :826.7 |
“Utilizza ggplot2 per creare grafici personalizzati. Assicurati di esplorare:”
Le varie città sono distribuite in mariera simile, infatti le deviazioni standard dei prezzi mediani delle diverse città sono simili. Si noti che la differenza sostanziale sta nella media dei prezzi mediani, infatti nelle diverse città ci sono prezzi differenti. Nelle città di Bryan-College Station e di Tyler c’è stato un aumento sostanziale dei prezzi medi nel corso degli anni 2010-2014 mentre nelle altre due città l’aumento è stato molto meno marcato.
“Fornisci una sintesi dei risultati ottenuti, facendo riferimento alle principali tendenze emerse e fornendo raccomandazioni basate sull’analisi. Questo non è un progetto di programmazione, ma di statistica, e ci si aspetta di leggere commenti e considerazioni statistiche per i vari passaggi e risultati.”
Si osserva che negli anni c’è stato un aumento progressivo del numero di vendite, visibile anche dal fatto che, dal 2010 al 2014, volume e median_price aumentano (osservare groupby_year). La notevole differenza delle vendite si verifica nei diversi mesi, nei mesi estivi c’è una tendenza a vendere molto più alta rispetto gli altri periodi dell’anno, soprattutto nei primi mesi dell’anno dove è quasi la metà. Per quanto riguarda le diverse città, a Tyler si verificano numerose vendite, più del doppio rispetto a Wichita Falls dove se ne verificano molto poche. Ma le case più costose sono a Bryan-college Station, dove sono state vendute meno case rispetto a Tyler.
Il valore totale delle vedite è più equilibrato rispetto all prezzo mediano perchè conta sia il prezzo che il numero di vendite, ma comunque la città di Tyler rispecchia un valore delle vendite maggiore, dovuto al maggiore numero di vendite.
Si nota nuovamente l’aumento progressivo dei guadagno come lo era anche per le vendite. C’è anche un aumento, quasi del doppio, nella deviazione standard del valore delle vendite, dal 2010 al 2014, quindi negli ultimi anni il valore delle vendite si spazia in un range maggiore rispetto ai primi anni.
Anche da qui si nota il maggior valore nelle vendite di Tyler e Bryan-College Station e l’andamento delle maggiori vendite nei mesi estivi. Quest’ltima caratteristica è più marcata per le città di di Tyler e Bryan-College Station e poco marcata per quelle di Beaumont e Wichita Falls.
Grafico normalizzato