1. Analisi delle variabili Identifica e descrivi il tipo di variabili statistiche presenti nel dataset. Valuta come gestire le variabili che sottintendono una dimensione tempo e commenta sul tipo di analisi che può essere condotta su ciascuna variabile.

Variabile CITY: qualitativa su scala nominale La variabile presenta quattro modalità: “Beaumont”, “ Bryan-College Station”, “Tyler”, “Wichita Falls”. - Tipo di analisi: è possibile usare questa variabile per delle analisi statistiche condizionate per le variabili quantitative (es. paragonare le vendite, nello stesso periodo, in città diverse, per osservare in quale città sono state vendute più case per unità di tempo)

Variabile YEAR: quantitativa discreta su scala di intervalli - Tipo di analisi:Sebbene sia una variabile quantitativa, la userei alla stregua di una variabile qualitativa per effettuare analisi condizionate mostrando come vari il valore di altre variabili (ad esempio sales )al variare di year ,e avere quindi un andamento delle vendite in una località nei vari anni. -È possibile utilizzarla per paragonare le vendite in una stessa città ma in anni diversi, valutando quindi l’andamento del mercato immobiliare nel tempo in una stessa località; o in città diverse nello stesso anno, valutando dunque in quale delle quattro località il mercato immobiliare è più florido

Variabile MONTH: qualitativa codificata in numerico in una quantitativa su scala di intervalli - Tipo di analisi: userei questa variabile per effettuare analisi condizionate mostrando come vari il valore di altre variabili (ad esempio sales)al variare di month ,e avere quindi un andamento delle vendite in una località nei vari mesi o nello stesso mese in anni diversi.

Variabile SALES: quantitativa discreta. -Tipo di analisi: Calcolo di indici di posizione, variabilità e forma. -È possibile utilizzarla in un’analisi condizionata per comparare il diverso numero di vendite nei vari mesi o nei vari anni per una stessa città o nello stesso periodo di tempo per diverse città in un’analisi condizionata. Usando sales in un analisi condizionata rapportata a median_price si può dedurre se il prezzo dell’immobile abbia un effetto (positivo o negativo) sul numero di vendite.

Variabile VOLUME: quantitativa continua. - Tipo di analisi: Calcolo di indici di posizione, variabilità e forma. - È possibile utilizzarla per avere una stima dell’andamento del mercato immobiliare in diversi periodi di tempo nella stessa città e/o in città diverse.

Variabile MEDIAN_PRICE: quantitativa continua. -Tipo di analisi:Calcolo di indici di posizione, variabilità e forma -È possibile utilizzarla per individuare le località o i periodi dell’anno o gli anni in cui il prezzo mediano degli immobili è minore/maggiore e di conseguenza valutare l’andamento del mercato immobiliare.

Variabile LISTINGS: quantitativa discreta. -Tipo di analisi: Calcolo di indici di posizione, variabilità e forma -È possibile utilizzarla per avere una panoramica di quali siano le zone con più immobili a disposizione per la compravendita e per calcolare, insieme alla variabile sales, che percentuale di questi annunci si traduca poi in effettiva vendita

Variabile MONTHS_INVENTORY: quantitativa continua. -Tipo di analisi:Calcolo di indici di posizione, variabilità e forma -È possibile utilizzarla per dedurre in quali zone il mercato immobiliare sia più vivace e in quale sia meno attivo e avere una stima dell’attesa da quando si pubblica l’annuncio immobiliare a quando viene effettuata la vendita.

2. Indici di posizione, variabilità e forma Calcola Indici di posizione, variabilità e forma per tutte le variabili per le quali ha senso farlo, per le altre crea una distribuzione di frequenza. Infine, commenta tutto brevemente.

Variabile CITY-città di riferimento:

getwd()
## [1] "/Users/francescacastaldo/Desktop/DATA SCIENCE - professionAI/2.STATISTICA DESCRITTIVA"
df <-read.csv("realestate_texas.csv", sep=",")
print(df)
##                      city year month sales volume median_price listings
## 1                Beaumont 2010     1    83 14.162       163800     1533
## 2                Beaumont 2010     2   108 17.690       138200     1586
## 3                Beaumont 2010     3   182 28.701       122400     1689
## 4                Beaumont 2010     4   200 26.819       123200     1708
## 5                Beaumont 2010     5   202 28.833       123100     1771
## 6                Beaumont 2010     6   189 27.219       122800     1803
## 7                Beaumont 2010     7   164 22.706       124300     1857
## 8                Beaumont 2010     8   174 25.237       136800     1830
## 9                Beaumont 2010     9   124 17.233       121100     1829
## 10               Beaumont 2010    10   150 23.904       138500     1779
## 11               Beaumont 2010    11   150 18.107       150700     1742
## 12               Beaumont 2010    12   148 21.235       132500     1646
## 13               Beaumont 2011     1   108 16.200       130700     1677
## 14               Beaumont 2011     2   108 16.187       116700     1691
## 15               Beaumont 2011     3   146 22.183       120000     1762
## 16               Beaumont 2011     4   166 24.087       130000     1767
## 17               Beaumont 2011     5   143 19.684       120700     1832
## 18               Beaumont 2011     6   177 25.860       131200     1845
## 19               Beaumont 2011     7   163 28.480       132800     1822
## 20               Beaumont 2011     8   160 24.921       144600     1789
## 21               Beaumont 2011     9   127 16.908       123800     1785
## 22               Beaumont 2011    10   155 22.564       132100     1722
## 23               Beaumont 2011    11   124 15.489       111100     1687
## 24               Beaumont 2011    12   151 20.580       114000     1596
## 25               Beaumont 2012     1   110 13.496       110000     1647
## 26               Beaumont 2012     2   135 17.212       117500     1666
## 27               Beaumont 2012     3   175 25.359       129600     1730
## 28               Beaumont 2012     4   176 24.956       126200     1735
## 29               Beaumont 2012     5   197 30.159       134100     1765
## 30               Beaumont 2012     6   173 25.281       130800     1724
## 31               Beaumont 2012     7   182 25.981       127000     1749
## 32               Beaumont 2012     8   218 31.146       133600     1683
## 33               Beaumont 2012     9   182 24.052       118800     1704
## 34               Beaumont 2012    10   193 27.350       121800     1671
## 35               Beaumont 2012    11   162 22.906       134300     1652
## 36               Beaumont 2012    12   160 25.714       134700     1570
## 37               Beaumont 2013     1   159 23.029       126100     1581
## 38               Beaumont 2013     2   140 20.342       130000     1620
## 39               Beaumont 2013     3   170 25.551       121200     1567
## 40               Beaumont 2013     4   198 29.433       131400     1696
## 41               Beaumont 2013     5   246 37.280       134200     1659
## 42               Beaumont 2013     6   232 36.275       134100     1675
## 43               Beaumont 2013     7   206 30.818       128200     1708
## 44               Beaumont 2013     8   273 42.028       135000     1675
## 45               Beaumont 2013     9   213 34.359       147000     1681
## 46               Beaumont 2013    10   188 25.686       121100     1655
## 47               Beaumont 2013    11   177 26.371       140500     1624
## 48               Beaumont 2013    12   212 32.538       140000     1534
## 49               Beaumont 2014     1   148 18.077       106700     1575
## 50               Beaumont 2014     2   186 27.164       132500     1636
## 51               Beaumont 2014     3   182 26.344       129100     1539
## 52               Beaumont 2014     4   208 30.181       138300     1604
## 53               Beaumont 2014     5   246 36.739       134500     1620
## 54               Beaumont 2014     6   254 38.189       134500     1672
## 55               Beaumont 2014     7   212 34.861       142200     1657
## 56               Beaumont 2014     8   262 41.191       142400     1617
## 57               Beaumont 2014     9   224 35.335       128100     1501
## 58               Beaumont 2014    10   260 40.923       140600     1575
## 59               Beaumont 2014    11   180 24.925       124300     1544
## 60               Beaumont 2014    12   202 31.656       133800     1500
## 61  Bryan-College Station 2010     1    89 15.151       151900     1298
## 62  Bryan-College Station 2010     2   107 19.686       165300     1439
## 63  Bryan-College Station 2010     3   176 29.117       148300     1577
## 64  Bryan-College Station 2010     4   233 38.691       151000     1984
## 65  Bryan-College Station 2010     5   282 45.530       150200     1613
## 66  Bryan-College Station 2010     6   286 47.453       151700     1588
## 67  Bryan-College Station 2010     7   189 30.773       152200     1646
## 68  Bryan-College Station 2010     8   196 34.057       148500     1599
## 69  Bryan-College Station 2010     9   122 22.983       149300     1549
## 70  Bryan-College Station 2010    10   100 17.568       161400     1530
## 71  Bryan-College Station 2010    11   101 20.301       159300     1510
## 72  Bryan-College Station 2010    12   130 23.464       153300     1416
## 73  Bryan-College Station 2011     1    94 15.242       147700     1480
## 74  Bryan-College Station 2011     2   101 16.125       148500     1562
## 75  Bryan-College Station 2011     3   162 26.891       152100     1723
## 76  Bryan-College Station 2011     4   186 31.684       151200     1833
## 77  Bryan-College Station 2011     5   238 40.306       148900     1840
## 78  Bryan-College Station 2011     6   284 47.776       149400     1758
## 79  Bryan-College Station 2011     7   244 42.941       148700     1662
## 80  Bryan-College Station 2011     8   196 31.667       146700     1581
## 81  Bryan-College Station 2011     9   131 23.916       156400     1536
## 82  Bryan-College Station 2011    10   114 21.534       157300     1492
## 83  Bryan-College Station 2011    11   124 24.228       156200     1445
## 84  Bryan-College Station 2011    12   135 24.860       153900     1362
## 85  Bryan-College Station 2012     1   115 20.635       140700     1486
## 86  Bryan-College Station 2012     2   124 19.789       152000     1634
## 87  Bryan-College Station 2012     3   149 26.644       154300     1806
## 88  Bryan-College Station 2012     4   193 35.335       156600     1834
## 89  Bryan-College Station 2012     5   294 51.716       153100     1793
## 90  Bryan-College Station 2012     6   293 50.348       149300     1734
## 91  Bryan-College Station 2012     7   292 52.928       154400     1669
## 92  Bryan-College Station 2012     8   296 55.448       159700     1518
## 93  Bryan-College Station 2012     9   149 28.434       170000     1498
## 94  Bryan-College Station 2012    10   163 31.263       155200     1458
## 95  Bryan-College Station 2012    11   159 28.882       149100     1442
## 96  Bryan-College Station 2012    12   134 22.887       148400     1442
## 97  Bryan-College Station 2013     1   141 26.961       155500     1486
## 98  Bryan-College Station 2013     2   125 18.977       146900     1599
## 99  Bryan-College Station 2013     3   187 33.859       161000     1750
## 100 Bryan-College Station 2013     4   267 51.056       158200     1680
## 101 Bryan-College Station 2013     5   341 68.161       161200     1581
## 102 Bryan-College Station 2013     6   357 69.643       163700     1462
## 103 Bryan-College Station 2013     7   402 76.116       161000     1385
## 104 Bryan-College Station 2013     8   328 63.759       166100     1385
## 105 Bryan-College Station 2013     9   186 35.220       156500     1201
## 106 Bryan-College Station 2013    10   164 32.814       167300     1155
## 107 Bryan-College Station 2013    11   166 29.754       156500     1132
## 108 Bryan-College Station 2013    12   190 35.169       158800     1057
## 109 Bryan-College Station 2014     1   152 29.457       155300     1199
## 110 Bryan-College Station 2014     2   171 33.326       168500     1218
## 111 Bryan-College Station 2014     3   275 50.404       155300     1261
## 112 Bryan-College Station 2014     4   303 60.581       169500     1271
## 113 Bryan-College Station 2014     5   353 71.456       165200     1212
## 114 Bryan-College Station 2014     6   377 77.983       169600     1152
## 115 Bryan-College Station 2014     7   403 83.547       172600     1041
## 116 Bryan-College Station 2014     8   298 60.639       172200     1016
## 117 Bryan-College Station 2014     9   204 42.420       180000     1022
## 118 Bryan-College Station 2014    10   218 46.485       176100     1031
## 119 Bryan-College Station 2014    11   169 34.903       172800      973
## 120 Bryan-College Station 2014    12   200 42.553       177300      882
## 121                 Tyler 2010     1   160 25.487       138900     2727
## 122                 Tyler 2010     2   181 30.139       131500     2763
## 123                 Tyler 2010     3   250 35.866       130000     2729
## 124                 Tyler 2010     4   316 49.914       133200     3014
## 125                 Tyler 2010     5   282 48.445       142000     3175
## 126                 Tyler 2010     6   262 44.327       139400     3294
## 127                 Tyler 2010     7   255 40.930       135700     3272
## 128                 Tyler 2010     8   238 39.737       143100     3267
## 129                 Tyler 2010     9   220 32.135       132900     3296
## 130                 Tyler 2010    10   202 32.087       136000     3156
## 131                 Tyler 2010    11   155 24.411       130000     3042
## 132                 Tyler 2010    12   209 32.681       129400     2878
## 133                 Tyler 2011     1   143 21.050       120600     2852
## 134                 Tyler 2011     2   181 28.320       128800     2938
## 135                 Tyler 2011     3   241 39.049       134200     3101
## 136                 Tyler 2011     4   253 40.493       135100     3196
## 137                 Tyler 2011     5   271 46.763       136100     3266
## 138                 Tyler 2011     6   313 52.319       145800     3256
## 139                 Tyler 2011     7   278 45.840       139200     3263
## 140                 Tyler 2011     8   295 49.352       144900     3218
## 141                 Tyler 2011     9   258 40.883       133300     3094
## 142                 Tyler 2011    10   227 34.669       133200     3056
## 143                 Tyler 2011    11   208 35.395       152600     2876
## 144                 Tyler 2011    12   198 28.507       130800     2720
## 145                 Tyler 2012     1   169 25.386       124200     2811
## 146                 Tyler 2012     2   225 34.806       134400     2857
## 147                 Tyler 2012     3   271 44.022       135700     2868
## 148                 Tyler 2012     4   253 37.961       129200     2940
## 149                 Tyler 2012     5   289 53.200       137600     2981
## 150                 Tyler 2012     6   302 55.913       148100     3041
## 151                 Tyler 2012     7   322 57.388       152100     3072
## 152                 Tyler 2012     8   317 53.674       144600     3042
## 153                 Tyler 2012     9   281 48.481       144000     2953
## 154                 Tyler 2012    10   289 46.696       136300     2897
## 155                 Tyler 2012    11   210 33.633       144800     2830
## 156                 Tyler 2012    12   234 36.965       140000     2633
## 157                 Tyler 2013     1   197 32.083       132400     2658
## 158                 Tyler 2013     2   227 38.707       144100     2666
## 159                 Tyler 2013     3   298 49.377       144800     2788
## 160                 Tyler 2013     4   289 51.608       142400     2920
## 161                 Tyler 2013     5   326 59.974       147400     2946
## 162                 Tyler 2013     6   335 62.850       155600     2986
## 163                 Tyler 2013     7   369 63.046       153100     2998
## 164                 Tyler 2013     8   357 61.164       147900     2953
## 165                 Tyler 2013     9   287 51.099       147600     2917
## 166                 Tyler 2013    10   272 51.619       155600     2852
## 167                 Tyler 2013    11   253 42.584       139600     2701
## 168                 Tyler 2013    12   239 39.788       142700     2500
## 169                 Tyler 2014     1   238 36.916       130700     2609
## 170                 Tyler 2014     2   244 42.553       150000     2625
## 171                 Tyler 2014     3   282 48.948       143600     2737
## 172                 Tyler 2014     4   323 54.325       145000     2778
## 173                 Tyler 2014     5   388 70.289       152300     2744
## 174                 Tyler 2014     6   423 80.814       155700     2855
## 175                 Tyler 2014     7   371 66.725       151500     2875
## 176                 Tyler 2014     8   347 67.244       155200     2791
## 177                 Tyler 2014     9   361 68.744       156500     2696
## 178                 Tyler 2014    10   369 65.316       144100     2602
## 179                 Tyler 2014    11   300 52.314       159400     2460
## 180                 Tyler 2014    12   332 61.032       161600     2272
## 181         Wichita Falls 2010     1    89  8.951        87200      908
## 182         Wichita Falls 2010     2    91  9.382        89400      915
## 183         Wichita Falls 2010     3   147 18.192        88600      946
## 184         Wichita Falls 2010     4   167 19.772       105800      904
## 185         Wichita Falls 2010     5   165 20.881       105200      914
## 186         Wichita Falls 2010     6   129 19.192       119200      972
## 187         Wichita Falls 2010     7   104 12.355        96700      993
## 188         Wichita Falls 2010     8   130 15.325        96000     1022
## 189         Wichita Falls 2010     9   132 16.475       100000     1028
## 190         Wichita Falls 2010    10   113 13.605       100700     1005
## 191         Wichita Falls 2010    11    97 10.844        86400      968
## 192         Wichita Falls 2010    12   117 14.690       112100      938
## 193         Wichita Falls 2011     1    80  8.166        90000      955
## 194         Wichita Falls 2011     2    79  8.747        90800      950
## 195         Wichita Falls 2011     3   119 13.443       100700      968
## 196         Wichita Falls 2011     4   111 14.003       113600      996
## 197         Wichita Falls 2011     5   128 15.283       109400     1052
## 198         Wichita Falls 2011     6   111 13.031        95000     1030
## 199         Wichita Falls 2011     7   127 13.594       102300     1029
## 200         Wichita Falls 2011     8   135 14.876       105200     1004
## 201         Wichita Falls 2011     9   113 13.396       102900     1005
## 202         Wichita Falls 2011    10    98  9.507        73800      963
## 203         Wichita Falls 2011    11    93 11.176        91700      902
## 204         Wichita Falls 2011    12    81  9.400       102300      844
## 205         Wichita Falls 2012     1   105 10.274        82100      859
## 206         Wichita Falls 2012     2    90 10.697       105000      861
## 207         Wichita Falls 2012     3   116 13.104        97500      887
## 208         Wichita Falls 2012     4   125 13.876        93000      907
## 209         Wichita Falls 2012     5   102 12.451        97500      914
## 210         Wichita Falls 2012     6   130 17.793       116500      934
## 211         Wichita Falls 2012     7   132 16.166       116000      941
## 212         Wichita Falls 2012     8   123 14.003       102300      933
## 213         Wichita Falls 2012     9    95 11.792       108300      931
## 214         Wichita Falls 2012    10    97  9.695        87000      907
## 215         Wichita Falls 2012    11   119 17.126       118800      877
## 216         Wichita Falls 2012    12   115 11.820        87500      801
## 217         Wichita Falls 2013     1    79  9.666        99300      854
## 218         Wichita Falls 2013     2   101 11.920       101400      850
## 219         Wichita Falls 2013     3   159 16.715        85900      868
## 220         Wichita Falls 2013     4   124 13.524        92200      895
## 221         Wichita Falls 2013     5   144 19.059       121300      900
## 222         Wichita Falls 2013     6   121 15.547       104700      923
## 223         Wichita Falls 2013     7   150 18.571       102500      844
## 224         Wichita Falls 2013     8   149 18.686       109100      830
## 225         Wichita Falls 2013     9   128 16.103       114300      812
## 226         Wichita Falls 2013    10   114 14.470       118200      796
## 227         Wichita Falls 2013    11    94 11.486       100000      777
## 228         Wichita Falls 2013    12    92 12.470       111100      743
## 229         Wichita Falls 2014     1    89  9.626        91200      746
## 230         Wichita Falls 2014     2    93 11.261       110000      774
## 231         Wichita Falls 2014     3   102 13.925        94000      838
## 232         Wichita Falls 2014     4   143 17.790       104700      852
## 233         Wichita Falls 2014     5   140 17.833       115700      899
## 234         Wichita Falls 2014     6   123 18.250       135300      961
## 235         Wichita Falls 2014     7   150 18.672       102500      941
## 236         Wichita Falls 2014     8   137 16.129        99600      973
## 237         Wichita Falls 2014     9   110 12.015        90000      940
## 238         Wichita Falls 2014    10   112 13.817       113300      905
## 239         Wichita Falls 2014    11    96 11.308       108000      870
## 240         Wichita Falls 2014    12   109 13.884       103800      821
##     months_inventory
## 1                9.5
## 2               10.0
## 3               10.6
## 4               10.6
## 5               10.9
## 6               11.1
## 7               11.7
## 8               11.6
## 9               11.7
## 10              11.5
## 11              11.2
## 12              10.5
## 13              10.6
## 14              10.7
## 15              11.3
## 16              11.6
## 17              12.4
## 18              12.6
## 19              12.4
## 20              12.3
## 21              12.3
## 22              11.8
## 23              11.7
## 24              11.1
## 25              11.4
## 26              11.4
## 27              11.6
## 28              11.6
## 29              11.4
## 30              11.2
## 31              11.3
## 32              10.5
## 33              10.3
## 34               9.9
## 35               9.7
## 36               9.1
## 37               9.0
## 38               9.2
## 39               8.9
## 40               9.5
## 41               9.1
## 42               9.0
## 43               9.0
## 44               8.7
## 45               8.6
## 46               8.5
## 47               8.3
## 48               7.6
## 49               7.9
## 50               8.0
## 51               7.5
## 52               7.8
## 53               7.9
## 54               8.0
## 55               8.0
## 56               7.8
## 57               7.2
## 58               7.4
## 59               7.2
## 60               7.0
## 61               7.1
## 62               7.8
## 63               8.5
## 64              10.5
## 65               8.4
## 66               8.4
## 67               9.1
## 68               9.1
## 69               8.8
## 70               8.9
## 71               9.0
## 72               8.4
## 73               8.8
## 74               9.3
## 75              10.4
## 76              11.3
## 77              11.6
## 78              11.1
## 79              10.2
## 80               9.7
## 81               9.4
## 82               9.0
## 83               8.7
## 84               8.1
## 85               8.8
## 86               9.6
## 87              10.6
## 88              10.8
## 89              10.2
## 90               9.9
## 91               9.3
## 92               8.1
## 93               7.9
## 94               7.5
## 95               7.3
## 96               7.3
## 97               7.5
## 98               8.0
## 99               8.7
## 100              8.1
## 101              7.4
## 102              6.7
## 103              6.1
## 104              6.0
## 105              5.2
## 106              5.0
## 107              4.9
## 108              4.4
## 109              5.0
## 110              5.0
## 111              5.0
## 112              5.0
## 113              4.8
## 114              4.5
## 115              4.1
## 116              4.0
## 117              4.0
## 118              4.0
## 119              3.8
## 120              3.4
## 121             11.3
## 122             11.5
## 123             11.3
## 124             12.0
## 125             12.4
## 126             13.0
## 127             13.3
## 128             13.4
## 129             13.8
## 130             13.5
## 131             13.4
## 132             12.7
## 133             12.6
## 134             13.0
## 135             13.8
## 136             14.5
## 137             14.9
## 138             14.6
## 139             14.5
## 140             14.0
## 141             13.3
## 142             13.0
## 143             12.0
## 144             11.4
## 145             11.7
## 146             11.7
## 147             11.6
## 148             11.9
## 149             12.0
## 150             12.3
## 151             12.2
## 152             12.0
## 153             11.6
## 154             11.1
## 155             10.9
## 156             10.0
## 157             10.0
## 158             10.0
## 159             10.4
## 160             10.8
## 161             10.7
## 162             10.8
## 163             10.7
## 164             10.4
## 165             10.2
## 166             10.1
## 167              9.4
## 168              8.7
## 169              9.0
## 170              9.0
## 171              9.4
## 172              9.5
## 173              9.2
## 174              9.3
## 175              9.4
## 176              9.1
## 177              8.6
## 178              8.1
## 179              7.6
## 180              6.9
## 181              7.1
## 182              7.3
## 183              7.5
## 184              7.0
## 185              7.1
## 186              7.7
## 187              8.1
## 188              8.4
## 189              8.3
## 190              8.1
## 191              8.0
## 192              7.6
## 193              7.8
## 194              7.8
## 195              8.1
## 196              8.7
## 197              9.4
## 198              9.4
## 199              9.2
## 200              8.9
## 201              9.1
## 202              8.8
## 203              8.3
## 204              7.9
## 205              7.9
## 206              7.9
## 207              8.1
## 208              8.2
## 209              8.5
## 210              8.5
## 211              8.6
## 212              8.6
## 213              8.7
## 214              8.4
## 215              8.0
## 216              7.1
## 217              7.7
## 218              7.6
## 219              7.6
## 220              7.8
## 221              7.6
## 222              7.9
## 223              7.1
## 224              6.9
## 225              6.6
## 226              6.4
## 227              6.3
## 228              6.1
## 229              6.1
## 230              6.4
## 231              7.2
## 232              7.2
## 233              7.6
## 234              8.1
## 235              8.0
## 236              8.3
## 237              8.1
## 238              7.8
## 239              7.5
## 240              7.0
attach(df)
table(city)
## city
##              Beaumont Bryan-College Station                 Tyler 
##                    60                    60                    60 
##         Wichita Falls 
##                    60

Variabile SALES- numero totale di vendite:

summary(sales)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    79.0   127.0   175.5   192.3   247.0   423.0
IQR(sales)
## [1] 120
range(sales)
## [1]  79 423
var(sales)
## [1] 6344.3
sd(sales)
## [1] 79.65111
# install.packages("moments")
library(moments)
skewness(sales)
## [1] 0.718104
kurtosis(sales)-3
## [1] -0.3131764

Variabile VOLUME -valore totale delle vendite (in milioni di dollari):

summary(volume)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   8.166  17.660  27.062  31.005  40.893  83.547
IQR(volume)
## [1] 23.2335
range(volume)
## [1]  8.166 83.547
var(volume)
## [1] 277.2707
sd(volume)
## [1] 16.65145
skewness(volume)
## [1] 0.884742
kurtosis(volume)-3
## [1] 0.176987

-Nel corso dei cinque anni oggetto di osservazione,in quell’area, sono stati venduti immobili per un valore medio di 31 milioni di $ -Il valore mediano del totale delle vendite è di 27 milioni di dollari -Il valore totale di vendite più basso registrato (min) è di 8.166 milioni $ a gennaio 2011 nella località di Wichita Falls, il valore totale di vendite più alto (max) è stato di 83.547 milioni $ a luglio 2014 nella località di Bryan-College Station, con un range di 75381, un IQR di 23.2335 e varianza e deviazione standard rispettivamente di 277.2707 e 16.65145. -L’indice di asimmetria è di 0.884742(distribuzione asimmetrica positiva), per cui sono più frequenti modalità con valori bassi -L’indice di Curtosi è di 0.1770 (distribuzione leptocurtica) con una distribuzione dei valori intorno alla media più allungata rispetto a una distribuzione normale. -Osservazioni: Vi è una maggiore frequenza di mesi con valore totale delle vendite inferiore alla media (distribuzione asimmetrica positiva) ma vi sono anche alcuni mesi in cui il valore totale delle vendite è così elevato tale da creare una coda verso i valori più alti, come si evince dal valore della media superiore al valore della mediana.

Variabile MEDIAN_PRICE- prezzo mediano di vendita (in dollari):

summary(median_price)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   73800  117300  134500  132665  150050  180000
IQR(median_price)
## [1] 32750
range(median_price)
## [1]  73800 180000
var(median_price)
## [1] 513572983
sd(median_price)
## [1] 22662.15
skewness(median_price)
## [1] -0.3645529
kurtosis(median_price)-3
## [1] -0.6229618

-Il valore medio per questa variabile è di 132665 $ -Il valore mediano per questa variabile è di 134500 $ -Il prezzo mediano più alto registrato (max) corrisponde a 180000 $, valore registrato a settembre 2014 nella località di Bryan-College Station. -Il prezzo mediano più basso registrato (min) è di 73800 $ a ottobre 2011 nella località di Wichita Falls. Il range è 106200, un IQR di 32750 e varianza e deviazione standard rispettivamente di 513572983 e 22662.15 -L’indice di asimmetria è di -0.3645529 (distribuzione asimmetrica negativa) , con modalità con valori alti più frequenti -L’indice di Curtosi è di -0.622962 (distribuzione platicurtica), con una distribuzione di valori intorno alla media più appiattita rispetto alla distribuzione normale. -Osservazioni: sono presenti più casi di prezzi mediani elevati per le case vendute o rispetto alle case vendute ad un prezzo mediano più basso (abbiamo infatti una distribuzione asimmetrica negativa con una coda verso i valori più bassi), e questo lo deduciamo anche dal valore mediano della variabile più alto rispetto alla media.

Variabile LISTINGS - numero totale di annunci attivi

summary(listings)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     743    1026    1618    1738    2056    3296
IQR(listings)
## [1] 1029.5
range(listings)
## [1]  743 3296
var(listings)
## [1] 566569
sd(listings)
## [1] 752.7078
skewness(listings)
## [1] 0.6494982
kurtosis(listings)-3
## [1] -0.79179

-Nel corso dei cinque anni oggetto di osservazione, sono stati pubblicati una media di 1738 annunci immobiliari al mese -Il numero più alto di annunci in un mese (max) è stato di 3296 annunci a settembre 2010 nella località Tyler, mentre il numero più basso (min) è stato di 743 annunci a dicembre 2013 nella località Wichita Falls, con un range di 2553, un IQR di 1029.5 e varianza e deviazione standard rispettivamente di 566569 e 752.7078 -L’indice di asimmetria è di 0.6494982 (distribuzione asimmetrica positiva), con una frequenza maggiore di valori bassi -L’indice di Curtosi è di -0.79179 (distribuzione platicurtica) con una distribuzione di valori intorno alla media più appiattita rispetto alla distribuzione normale -Osservazioni: come suggerito dalla distribuzione asimmetrica positiva, sono più frequenti i casi in cui, ogni mese, gli annunci attivi siano in numero inferiore alla media.

Variabile MONTHS_INVENTORY- quantità di tempo necessaria per vendere tutte le inserzioni correnti, espresso in mesi

summary(months_inventory)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.400   7.800   8.950   9.193  10.950  14.900
IQR(months_inventory)
## [1] 3.15
range(months_inventory)
## [1]  3.4 14.9
var(months_inventory)
## [1] 5.306889
sd(months_inventory)
## [1] 2.303669
skewness(months_inventory)
## [1] 0.04097527
kurtosis(months_inventory)-3
## [1] -0.1744475

-In media, è stato necessario che trascorressero 9.193 mesi per poter vendere le inserzioni correnti. -Il valore che divide esattamente a metà la serie di dati è di 8.950 mesi(mediana) -Il numero più basso di mesi richiesto per vendere tutte le inserzioni correnti è di 3.4 mesi(min), il numero più alto è di 14.9 mesi (max) con un range di 11.5, un IQR di 3.15 e varianza e deviazione standard rispettivamente di 5.306889 e 2.303669 -L’indice di asimmetria è di 0.04097527 (distribuzione asimmetrica positiva). -L’indice di Curtosi è di -0.1744475 (distribuzione platicurtica), valori più appiattiti intorno alla media rispetto alla distribuzione normale. -Osservazioni: è molto più frequente che venga impiegato un quantitativo di mesi minore per vendere le inserzioni correnti, tuttavia ci sono alcuni casi in cui il numero di mesi richiesto per poter vendere le inserzioni è stato molto elevato.

3.Identificazione delle variabili con maggiore variabilità e asimmetria Determina: a)Qual è la variabile con la più alta variabilità b)Qual è la variabile con la distribuzione più asimmetrica c)Spiega come sei giunto a queste conclusioni e fornisci considerazioni statistiche

a)calcoliamo il coefficiente di variazione per le variabili

mean(sales)
## [1] 192.2917
sd(sales)
## [1] 79.65111
mean(volume)
## [1] 31.00519
sd(volume)
## [1] 16.65145
mean(median_price)
## [1] 132665.4
sd(median_price)
## [1] 22662.15
mean(listings)
## [1] 1738.021
sd(listings)
## [1] 752.7078
mean(months_inventory)
## [1] 9.1925
sd(months_inventory)
## [1] 2.303669
cv <- function(x){
  return(sd(x)/mean(x)*100)
}

cv_sales <-cv(sales)
cv_volume <-cv(volume)
cv_median_prince <-cv(median_price)
cv_listings <-cv(listings)
cv_months_inventory<-cv(months_inventory)

cv_sales
## [1] 41.42203
cv_volume
## [1] 53.70536
cv_median_prince
## [1] 17.08218
cv_listings
## [1] 43.30833
cv_months_inventory
## [1] 25.06031

b)Calcoliamo l’indice di asimmetria di Fisher per le variabili

sk_sales <-skewness(sales)
sk_volume <-skewness(volume)
sk_median_price <-skewness(median_price)
sk_listings <-skewness(listings)
sk_months_inventory <-skewness(months_inventory)

sk_sales
## [1] 0.718104
sk_volume
## [1] 0.884742
sk_median_price
## [1] -0.3645529
sk_listings
## [1] 0.6494982
sk_months_inventory
## [1] 0.04097527

c)Spiega come sei giunto a queste conclusioni e fornisci considerazioni statistiche - Nel punto a usando i coefficienti di variazione (in modo da poter confrontare le variabilità del campione relativamente a variabili diverse ) otteniamo che la variabile con più alta variabilità sia la variabile VOLUME: dunque il valore totale delle vendite (in milioni di dollari) è la variabile i cui dati presentano maggiore dispersione rispetto al valore medio; - Nel punto b usando la funzione “skewness” del pacchetto “moments” calcolo l’indice di asimmetria di Fisher che ha il valore più alto per la variabile VOLUME, che presenta un’asimmetria positiva, con la maggior parte dei valori concentrati al di sotto della media e pochi valorii che creano una coda verso i valori più elevati, al di sopra della media.

4. Creazione di classi per una variabile quantitativa Seleziona una variabile quantitativa (es. sales o median_price) e suddividila in classi. Crea una distribuzione di frequenze e rappresenta i dati con un grafico a barre. Calcola l’indice di eterogeneità Gini e discuti i risultati.

Ho scelto come variabile quantitativa la variabile median_price e l’ho suddivisa in 10 classi con una differenza di prezzo tra una e l’altra di 10620 dollari.

df$median_price_CL <- cut(df$median_price,breaks=c(73800,84420,95040,105660,116280,126900,137520,148140,158760,169380,180000))

median_price_CL_FREQ <- table(df$median_price_CL)
median_price_CL_FREQ
## 
## (7.38e+04,8.44e+04]  (8.44e+04,9.5e+04]  (9.5e+04,1.06e+05] (1.06e+05,1.16e+05] 
##                   1                  16                  23                  17 
## (1.16e+05,1.27e+05] (1.27e+05,1.38e+05] (1.38e+05,1.48e+05] (1.48e+05,1.59e+05] 
##                  25                  48                  38                  46 
## (1.59e+05,1.69e+05]  (1.69e+05,1.8e+05] 
##                  16                   9

Rappresento graficamente i dati con un grafico a barre

dati <- data.frame(
  Classe= factor(c("73800-84420","84420-95040","95040-105660","105660-116280",
                   "116280-126900","126900-137520","137520-148140","148140-158760",
                   "158760-169380","169380-180000"),
                 levels=c("73800-84420","84420-95040","95040-105660","105660-116280",
                          "116280-126900","126900-137520","137520-148140","148140-158760",
                          "158760-169380","169380-180000")),
  Frequenza= c(1,16,23,17,25,48,38,46,16,9)
)

# install.packages("ggplot2")
library(ggplot2)

ggplot(dati, aes(x= Classe, y=Frequenza))+
  geom_bar(stat="identity", fill="steelblue")+
  labs(title="Distribuzione di frequenze",
       x="Fasce di prezzo(in dollari)",
       y="Numero di case vendute")+
  theme_minimal()

Calcolo poi l’indice di eterogeneità di Gini

gini.index <-function(x){
  ni=table(x)
  fi=ni/length(x)
  fi2=fi^2
  J=length(table(x))
  
  gini = 1-sum(fi2)
  gini.normalizzato = gini/((J-1)/J)
  
  return(gini.normalizzato)
}
gini.index(df$median_price_CL)
## [1] 0.9586998

Con il calcolo dell’indice di eterogeneità di Gini otteniamo un valore di 0.9586998, molto vicino a 1, che sta ad indicare come una eterogeneità quasi massima della distribuzione, con vendita di case di tutte le fasce di prezzo presenti.

Il range di questa variabile è di 106200, con il prezzo più basso di una casa venduta di 73800 $, e il prezzo più alto di 180000 $. Ho suddiviso questi prezzi in 10 fasce omogenee, ciascuna con 10620 dollari di differenza tra il prezzo della casa più economica per quella fascia e il prezzo della casa più costosa.

5. Calcolo della probabilità Qual è la probabilità che, presa una riga a caso di questo dataset, essa riporti la città “Beaumont”? E la probabilità che riporti il mese di Luglio? E la probabilità che riporti il mese di dicembre 2012?

1.La probabilità che, presa una riga a caso del dataset, questa riporti la città di “Beaumont” è del 25% (¼), in quanto la città in esame compare 60 volte (casi favorevoli) su 240 osservazioni (casi totali), per cui dal rapporto casi favorevoli/casi totali otteniamo la probabilità di 60/240, ovvero ¼. 2.La probabilità che, presa una riga a caso del dataset, questa riporti il mese di luglio è del 8.3% (1/12), in quanto il mese di luglio compare 20 volte (vengono analizzati infatti 5 anni diversi per 4 città diverse) su 240 osservazioni (mesi totali), per cui dal rapporto casi favorevoli/casi totali otteniamo la probabilità di 20/240, ovvero 1/12. 3.La probabilità che, presa una riga a caso del dataset, questa riporti il mese di dicembre 2012 è del 1.6% (1/60), in quanto il mese di dicembre 2012 compare 4 volte (una per ognuna delle 4 città analizzate) su 240 osservazioni (mesi totali), per cui dal rapporto casi favorevoli/casi totali otteniamo la probabilità di 4/240, ovvero 1/60.

6. Creazione di nuove variabili Crea una nuova colonna che calcoli il prezzo medio degli immobili utilizzando le variabili disponibili. Prova a creare una colonna che misuri l’efficacia degli annunci di vendita. Commenta e discuti i risultati.

Ho creato una nuova colonna che calcolasse il prezzo medio degli immobili creando questa funzione:

mean_price <-function(x,y){
  price = 1000000*x
  meanpr = price/y
  return(meanpr)
}
prezzo_medio <-mean_price(df$volume,df$sales)

df$mean_price <- prezzo_medio

Per quanto riguarda l’efficacia degli annunci di vendita ho preso in considerazione la variabile sales, che indica il numero totale di vendite e l’ho rapportata alla variabile listings , che indica il numero totale di annunci attivi, per capire in che percentuale quegli annunci si siano poi conclusi con una vendita effettiva. Ho creato poi una colonna con il valore in percentuale di case vendute rispetto al totale degli annunci attivi.

sales.suc <- function(x,y){
  sales_suc= (x/y)*100
  return(sales_suc)
}
successo_vendite <-sales.suc(df$sales,df$listings)
successo_vendite
##   [1]  5.414220  6.809584 10.775607 11.709602 11.405985 10.482529  8.831449
##   [8]  9.508197  6.779661  8.431703  8.610792  8.991495  6.440072  6.386753
##  [15]  8.286039  9.394454  7.805677  9.593496  8.946213  8.943544  7.114846
##  [22]  9.001161  7.350326  9.461153  6.678810  8.103241 10.115607 10.144092
##  [29] 11.161473 10.034803 10.405946 12.953060 10.680751 11.549970  9.806295
##  [36] 10.191083 10.056926  8.641975 10.848756 11.674528 14.828210 13.850746
##  [43] 12.060890 16.298507 12.671029 11.359517 10.899015 13.820078  9.396825
##  [50] 11.369193 11.825861 12.967581 15.185185 15.191388 12.794206 16.202845
##  [57] 14.923384 16.507937 11.658031 13.466667  6.856703  7.435719 11.160431
##  [64] 11.743952 17.482951 18.010076 11.482382 12.257661  7.876049  6.535948
##  [71]  6.688742  9.180791  6.351351  6.466069  9.402205 10.147300 12.934783
##  [78] 16.154721 14.681107 12.397217  8.528646  7.640751  8.581315  9.911894
##  [85]  7.738896  7.588739  8.250277 10.523446 16.397100 16.897347 17.495506
##  [92] 19.499341  9.946595 11.179698 11.026352  9.292649  9.488560  7.817386
##  [99] 10.685714 15.892857 21.568627 24.418605 29.025271 23.682310 15.487094
## [106] 14.199134 14.664311 17.975402 12.677231 14.039409 21.808089 23.839496
## [113] 29.125413 32.725694 38.712776 29.330709 19.960861 21.144520 17.368962
## [120] 22.675737  5.867253  6.550851  9.160865 10.484406  8.881890  7.953855
## [127]  7.793399  7.284971  6.674757  6.400507  5.095332  7.261987  5.014025
## [134]  6.160654  7.771687  7.916145  8.297612  9.613022  8.519767  9.167185
## [141]  8.338720  7.428010  7.232267  7.279412  6.012095  7.875394  9.449093
## [148]  8.605442  9.694733  9.930944 10.481771 10.420776  9.515747  9.975837
## [155]  7.420495  8.887201  7.411588  8.514629 10.688666  9.897260 11.065852
## [162] 11.219022 12.308205 12.089401  9.838876  9.537167  9.366901  9.560000
## [169]  9.122269  9.295238 10.303252 11.627070 14.139942 14.816112 12.904348
## [176] 12.432820 13.390208 14.181399 12.195122 14.612676  9.801762  9.945355
## [183] 15.539112 18.473451 18.052516 13.271605 10.473313 12.720157 12.840467
## [190] 11.243781 10.020661 12.473348  8.376963  8.315789 12.293388 11.144578
## [197] 12.167300 10.776699 12.342080 13.446215 11.243781 10.176532 10.310421
## [204]  9.597156 12.223516 10.452962 13.077790 13.781698 11.159737 13.918630
## [211] 14.027630 13.183280 10.204082 10.694598 13.568985 14.357054  9.250585
## [218] 11.882353 18.317972 13.854749 16.000000 13.109426 17.772512 17.951807
## [225] 15.763547 14.321608 12.097812 12.382234 11.930295 12.015504 12.171838
## [232] 16.784038 15.572859 12.799168 15.940489 14.080164 11.702128 12.375691
## [239] 11.034483 13.276492
df$sales_success <-successo_vendite

Risulta che gli annunci che hanno portato a un maggior numero di case vendute siano gli annunci pubblicati nella località di Bryan College Station nel mese di Luglio 2014, dove la percentuale di annunci che si è conclusa in una vendita è del 38,7%, mentre gli annunci che hanno portato a un minor numero di vendite sono stati pubblicati nella località di Tyler nel mese di Gennaio 2011, con una percentuale di annunci conclusi in vendita del 5%.

7. Analisi condizionata Usa il pacchetto dplyr o il linguaggio base di R per effettuare analisi statistiche condizionate per città, anno e mese. Genera dei summary (media, deviazione standard) e rappresenta graficamente i risultati

Calcolo di indici di posizione (media) e variabilità (deviazione standard) condizionate di una variabile quantitativa (“sales”) rispetto a tre variabili qualitative ordinali, in successione (“city”- “year”- “month”)

# install.packages("dplyr")
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
riassunto_city<- df %>%
  group_by(city) %>%
  summarise(media=mean(sales),
            dev.st=sd(sales))
riassunto_city
## # A tibble: 4 × 3
##   city                  media dev.st
##   <chr>                 <dbl>  <dbl>
## 1 Beaumont               177.   41.5
## 2 Bryan-College Station  206.   85.0
## 3 Tyler                  270.   62.0
## 4 Wichita Falls          116.   22.2
# install.packages("ggplot2")
library(ggplot2)
ggplot(data = riassunto_city, aes(x = city, y = media)) +
  geom_bar(stat = "identity", fill = "skyblue") +
  geom_errorbar(aes(ymin = media - dev.st, ymax = media + dev.st),
                width = 0.2) +
  labs(title = "Vendite medie per città con deviazione standard",
       x = "Città", y = "Vendite medie") +
  theme_minimal()

# install.packages("dplyr")
library(dplyr)
riassunto_year <-df %>%
  group_by(year) %>%
  summarise(media=mean(sales),
            dev.st=sd(sales))
riassunto_year
## # A tibble: 5 × 3
##    year media dev.st
##   <int> <dbl>  <dbl>
## 1  2010  169.   60.5
## 2  2011  164.   63.9
## 3  2012  186.   70.9
## 4  2013  212.   84.0
## 5  2014  231.   95.5
# install.packages("ggplot2")
library(ggplot2)
ggplot(data=riassunto_year,aes(x=year,y=media))+
  geom_bar(stat="identity", fill="purple")+
  geom_errorbar(aes(ymin=media-dev.st,ymax=media+dev.st),
                width =0.2)+
  labs(title="Vendite medie per anno con deviazione standard",
       x="Anno",y="Vendite medie")+
  theme_minimal()

# install.packages("dplyr")
library(dplyr)

riassunto_month <-df %>%
  group_by(month) %>%
  summarise(media=mean(sales),
            dev.st=sd(sales))
riassunto_month
## # A tibble: 12 × 3
##    month media dev.st
##    <int> <dbl>  <dbl>
##  1     1  127.   43.4
##  2     2  141.   51.1
##  3     3  189.   59.2
##  4     4  212.   65.4
##  5     5  239.   83.1
##  6     6  244.   95.0
##  7     7  236.   96.3
##  8     8  231.   79.2
##  9     9  182.   72.5
## 10    10  180.   75.0
## 11    11  157.   55.5
## 12    12  169.   60.7
# install.packages("ggplot2")
library(ggplot2)
ggplot(data=riassunto_month,aes(x=factor(month),y=media))+
  geom_bar(stat="identity", fill="blue")+
  geom_errorbar(aes(ymin=media-dev.st,ymax=media+dev.st),
                width =0.2)+
  labs(title="Vendite medie per mese con deviazione standard",
       x="Mese",y="Vendite medie")+
  theme_minimal()

8.Utilizza ggplot2 per creare grafici personalizzati Assicurati di esplorare: a)Boxplot per confrontare la distribuzione del prezzo mediano tra le città. b)Grafici a barre per confrontare il totale delle vendite per mese e città. c)Line charts per confrontare l’andamento delle vendite in periodi storici differenti

a)Confronto distribuzione prezzo mediano tra le città

 ggplot(data=df)+
  geom_boxplot(aes(x=city,y=sales),
               fill= "lightblue")

b)Confronto totale delle vendite per mese e città

vendite_mese<-df%>%
  group_by(month)%>%
  summarise(Totale.vendite=sum(volume))
print(vendite_mese, digits=6)
## # A tibble: 12 × 2
##    month Totale.vendite
##    <int>          <dbl>
##  1     1           380.
##  2     2           433.
##  3     3           588.
##  4     4           666.
##  5     5           794.
##  6     6           826.
##  7     7           782.
##  8     8           760.
##  9     9           592.
## 10    10           582.
## 11    11           496.
## 12    12           542.
print(vendite_mese$Totale.vendite[1], digits = 10)
## [1] 380.015
ggplot(data=vendite_mese)+
  geom_bar(aes(x=factor(month),y=Totale.vendite),
           stat="identity",
           fill="steelblue",
           col="black")+
  labs(title="Totale delle vendite (milioni $)",
       x="Mese",
       y="Vendite (milioni $)")+
  theme_minimal()

vendite_città <- df%>%
  group_by(city)%>%
  summarise(Totale_vend=sum(volume))
vendite_città
## # A tibble: 4 × 2
##   city                  Totale_vend
##   <chr>                       <dbl>
## 1 Beaumont                    1568.
## 2 Bryan-College Station       2291.
## 3 Tyler                       2746.
## 4 Wichita Falls                836.
ggplot(data=vendite_città)+
  geom_bar(aes(x=city,y=Totale_vend),
           stat="identity",
           fill="steelblue",
           col="black")+
  labs(title="Totale delle vendite (milioni $)",
       x="Città",
       y="Vendite (milioni $)")+
  theme_minimal()

 mese_citta <- df %>%
  group_by(month, city) %>%
  summarise(Vendite_mensili = sum(volume), .groups = "drop")

ggplot(data = mese_citta, aes(x = factor(month), y = Vendite_mensili, fill = city)) +
  geom_bar(stat = "identity", position = "dodge", col = "black") +
  labs(title = "Totale vendite mensili per città",
       x = "Mese",
       y = "Vendite (milioni $)",
       fill = "Città") +
  theme_minimal()

c)Line charts per confrontare l’andamento delle vendite in periodi storici differenti

riassunto_anno <- df %>%
  group_by(year,city)%>%
  summarise(vendite=sum(volume))
## `summarise()` has grouped output by 'year'. You can override using the
## `.groups` argument.
riassunto_anno
## # A tibble: 20 × 3
## # Groups:   year [5]
##     year city                  vendite
##    <int> <chr>                   <dbl>
##  1  2010 Beaumont                 272.
##  2  2010 Bryan-College Station    345.
##  3  2010 Tyler                    436.
##  4  2010 Wichita Falls            180.
##  5  2011 Beaumont                 253.
##  6  2011 Bryan-College Station    347.
##  7  2011 Tyler                    463.
##  8  2011 Wichita Falls            145.
##  9  2012 Beaumont                 294.
## 10  2012 Bryan-College Station    424.
## 11  2012 Tyler                    528.
## 12  2012 Wichita Falls            159.
## 13  2013 Beaumont                 364.
## 14  2013 Bryan-College Station    541.
## 15  2013 Tyler                    604.
## 16  2013 Wichita Falls            178.
## 17  2014 Beaumont                 386.
## 18  2014 Bryan-College Station    634.
## 19  2014 Tyler                    715.
## 20  2014 Wichita Falls            175.
line_chart <-df%>%
  group_by(year,city)%>%
  summarise(Vendite=sum(volume))
## `summarise()` has grouped output by 'year'. You can override using the
## `.groups` argument.
line_chart
## # A tibble: 20 × 3
## # Groups:   year [5]
##     year city                  Vendite
##    <int> <chr>                   <dbl>
##  1  2010 Beaumont                 272.
##  2  2010 Bryan-College Station    345.
##  3  2010 Tyler                    436.
##  4  2010 Wichita Falls            180.
##  5  2011 Beaumont                 253.
##  6  2011 Bryan-College Station    347.
##  7  2011 Tyler                    463.
##  8  2011 Wichita Falls            145.
##  9  2012 Beaumont                 294.
## 10  2012 Bryan-College Station    424.
## 11  2012 Tyler                    528.
## 12  2012 Wichita Falls            159.
## 13  2013 Beaumont                 364.
## 14  2013 Bryan-College Station    541.
## 15  2013 Tyler                    604.
## 16  2013 Wichita Falls            178.
## 17  2014 Beaumont                 386.
## 18  2014 Bryan-College Station    634.
## 19  2014 Tyler                    715.
## 20  2014 Wichita Falls            175.
ggplot(data=line_chart)+
  geom_line(aes(x=year, y=Vendite, color=city),lwd=1)

9.Conclusioni Osservazioni operative 1.Utilizza i boxplot per confrontare la distribuzione del prezzo mediano delle case tra le varie città. Commenta il risultato. Analizzando i boxplot del punto 8, che confrontano la distribuzione del prezzo mediano delle case tra le diverse città, si osserva che nella località di Tyler sono state vendute le case con i prezzi mediani più alti. Al contrario, a Wichita Falls si registrano i valori più bassi. Le città di Beaumont e Bryan-College Station mostrano invece prezzi simili tra loro, collocandosi in una fascia intermedia.

2.Utilizza i boxplot o qualche variante per confrontare la distribuzione del valore totale delle vendite tra le varie città ma anche tra i vari anni. Qualche considerazione da fare? Le line chart realizzate al punto 8 permettono di confrontare l’andamento del valore totale delle vendite tra le varie città e tra i diversi anni. SI osserva che, ad eccezione della località di Wichita Falls, l’anno 2014 ha registrato il valore di vendite più elevato. In particolare, l’andamento delle vendite è risultato costantemente crescente a partire dal 2011 per Bryan-College Station e Beaumont, e dal 2010 per la località di Tyler.

3.Usa un grafico a barre sovrapposte per confrontare il totale delle vendite nei vari mesi, sempre considerando le città. Prova a commentare ciò che viene fuori. Già che ci sei prova anche il grafico a barre normalizzato.

# install.packages("dplyr")
library(dplyr)
riassunto_mese_città <- df%>%
  group_by(month,city)%>%
  summarise(Totale_vendite=sum(sales))
## `summarise()` has grouped output by 'month'. You can override using the
## `.groups` argument.
riassunto_mese_città
## # A tibble: 48 × 3
## # Groups:   month [12]
##    month city                  Totale_vendite
##    <int> <chr>                          <int>
##  1     1 Beaumont                         608
##  2     1 Bryan-College Station            591
##  3     1 Tyler                            907
##  4     1 Wichita Falls                    442
##  5     2 Beaumont                         677
##  6     2 Bryan-College Station            628
##  7     2 Tyler                           1058
##  8     2 Wichita Falls                    454
##  9     3 Beaumont                         855
## 10     3 Bryan-College Station            949
## # ℹ 38 more rows
ggplot(data=riassunto_mese_città)+
  geom_bar(aes(x=factor(month), y=Totale_vendite,
               fill=city),
           stat="identity",
           col="black")+
  labs(title="Vendite totali mensili per città",
       x="Mese",
       y="Percentuale")+
  scale_y_continuous(labels=scales::percent)+
  theme_minimal()

Dal grafico notiamo come il mese con il numero totale di vendite più alto sia giugno, e in generale come nei mesi estivi, da maggio ad agosto, si abbia un numero di vendite più alto rispetto al resto dell’anno.

# install.packages("ggplot2")
library(ggplot2)

ggplot(data=riassunto_mese_città)+
  geom_bar(aes(x=factor(month), y=Totale_vendite,
               fill=city),
           position="fill",
           stat="identity",
           col="black")+
  labs(title="Vendite totali mensili normalizzate per città",
       x="Mese",
       y="Percentuale")+
  scale_y_continuous(labels=scales::percent)+
  theme_minimal()

4. Prova a creare un line chart di una variabile a tua scelta per fare confronti commentati fra città e periodi storici.

# install.packages("dplyr")
library(dplyr)

line_chart_sales <-df%>%
  group_by(year,city)%>%
  summarise(Numero_vendite=sum(sales))
## `summarise()` has grouped output by 'year'. You can override using the
## `.groups` argument.
line_chart_sales
## # A tibble: 20 × 3
## # Groups:   year [5]
##     year city                  Numero_vendite
##    <int> <chr>                          <int>
##  1  2010 Beaumont                        1874
##  2  2010 Bryan-College Station           2011
##  3  2010 Tyler                           2730
##  4  2010 Wichita Falls                   1481
##  5  2011 Beaumont                        1728
##  6  2011 Bryan-College Station           2009
##  7  2011 Tyler                           2866
##  8  2011 Wichita Falls                   1275
##  9  2012 Beaumont                        2063
## 10  2012 Bryan-College Station           2361
## 11  2012 Tyler                           3162
## 12  2012 Wichita Falls                   1349
## 13  2013 Beaumont                        2414
## 14  2013 Bryan-College Station           2854
## 15  2013 Tyler                           3449
## 16  2013 Wichita Falls                   1455
## 17  2014 Beaumont                        2564
## 18  2014 Bryan-College Station           3123
## 19  2014 Tyler                           3978
## 20  2014 Wichita Falls                   1404
# install.packages("ggplot2")
library(ggplot2)
ggplot(data=line_chart_sales)+
  geom_line(aes(x=year, y=Numero_vendite, color=city),lwd=1)+
  labs(title="Andamento delle vendite per città (2010-2014)",
       x="Anno",
       y="Numero di vendite",
       color="Città")+
  theme_minimal()

Conclusioni Con l’analisi statistica effettuata sulle quattro città sono emerse alcune tendenze ricorrenti: - Le vendite totali (variabile sales) e il valore totale delle vendite (volume) mostrano forti variazioni nel tempo e tra le città, con una crescita evidente nel 2014 per quasi tutte le località ad eccezione di Wichita Falls, forse a causa di un mercato meno vivace in quest’ultima località- - Il prezzo mediano degli immobili ha una distribuzione asimmetrica positiva, con una concentrazione maggiore nei valori più alti. Le città con i prezzi più elevati risultano essere Tyler e Bryan-College Station, mentre a Wichita Falls i prezzi sono ridotti. - Dal punto di vista della variabilità la variabile volume ha mostrato la dispersione maggiore, come indicato dal coefficiente di variazione, suggerendo una forte oscillazione mensile nel valore delle vendite. - Attraverso barplot normalizzati e line chart è stato possibile osservare le differenze tra le città in periodi di tempo diversi: Beaumont e Bryan-College Station hanno un andamento positivo crescente dal 2011, mentre Tyler già dal 2010. - Infine, l’efficacia degli annunci, misurata come rapporto tra vendite e annunci attivi, varia molto tra città e mesi : il valore più alto è stato registrato a Bryan-College Station nel 2014, mentre quello più basso a Tyler nel gennaio 2011.

In conclusione: - per alcune città il mercato immobiliare è in espansione e le vendite seguono una dinamica stagionale e storica ben definita; - Le variazioni nei mesi suggeriscono che la stagionalità influisce sulle vendite, rendendo utile pianificare strategie di vendita in base al periodo dell’anno; - La distribuzione dei prezzi suggerisce una segmentazione del mercato, che può offrire opportunità sia per acquirenti con budget elevati che per fasce più basse.