1. Analisi delle variabili Identifica e descrivi il tipo di variabili statistiche presenti nel dataset. Valuta come gestire le variabili che sottintendono una dimensione tempo e commenta sul tipo di analisi che può essere condotta su ciascuna variabile.
Variabile CITY: qualitativa su scala nominale La variabile presenta quattro modalità: “Beaumont”, “ Bryan-College Station”, “Tyler”, “Wichita Falls”. - Tipo di analisi: è possibile usare questa variabile per delle analisi statistiche condizionate per le variabili quantitative (es. paragonare le vendite, nello stesso periodo, in città diverse, per osservare in quale città sono state vendute più case per unità di tempo)
Variabile YEAR: quantitativa discreta su scala di intervalli - Tipo di analisi:Sebbene sia una variabile quantitativa, la userei alla stregua di una variabile qualitativa per effettuare analisi condizionate mostrando come vari il valore di altre variabili (ad esempio sales )al variare di year ,e avere quindi un andamento delle vendite in una località nei vari anni. -È possibile utilizzarla per paragonare le vendite in una stessa città ma in anni diversi, valutando quindi l’andamento del mercato immobiliare nel tempo in una stessa località; o in città diverse nello stesso anno, valutando dunque in quale delle quattro località il mercato immobiliare è più florido
Variabile MONTH: qualitativa codificata in numerico in una quantitativa su scala di intervalli - Tipo di analisi: userei questa variabile per effettuare analisi condizionate mostrando come vari il valore di altre variabili (ad esempio sales)al variare di month ,e avere quindi un andamento delle vendite in una località nei vari mesi o nello stesso mese in anni diversi.
Variabile SALES: quantitativa discreta. -Tipo di analisi: Calcolo di indici di posizione, variabilità e forma. -È possibile utilizzarla in un’analisi condizionata per comparare il diverso numero di vendite nei vari mesi o nei vari anni per una stessa città o nello stesso periodo di tempo per diverse città in un’analisi condizionata. Usando sales in un analisi condizionata rapportata a median_price si può dedurre se il prezzo dell’immobile abbia un effetto (positivo o negativo) sul numero di vendite.
Variabile VOLUME: quantitativa continua. - Tipo di analisi: Calcolo di indici di posizione, variabilità e forma. - È possibile utilizzarla per avere una stima dell’andamento del mercato immobiliare in diversi periodi di tempo nella stessa città e/o in città diverse.
Variabile MEDIAN_PRICE: quantitativa continua. -Tipo di analisi:Calcolo di indici di posizione, variabilità e forma -È possibile utilizzarla per individuare le località o i periodi dell’anno o gli anni in cui il prezzo mediano degli immobili è minore/maggiore e di conseguenza valutare l’andamento del mercato immobiliare.
Variabile LISTINGS: quantitativa discreta. -Tipo di analisi: Calcolo di indici di posizione, variabilità e forma -È possibile utilizzarla per avere una panoramica di quali siano le zone con più immobili a disposizione per la compravendita e per calcolare, insieme alla variabile sales, che percentuale di questi annunci si traduca poi in effettiva vendita
Variabile MONTHS_INVENTORY: quantitativa continua. -Tipo di analisi:Calcolo di indici di posizione, variabilità e forma -È possibile utilizzarla per dedurre in quali zone il mercato immobiliare sia più vivace e in quale sia meno attivo e avere una stima dell’attesa da quando si pubblica l’annuncio immobiliare a quando viene effettuata la vendita.
2. Indici di posizione, variabilità e forma Calcola Indici di posizione, variabilità e forma per tutte le variabili per le quali ha senso farlo, per le altre crea una distribuzione di frequenza. Infine, commenta tutto brevemente.
Variabile CITY-città di riferimento:
getwd()
## [1] "/Users/francescacastaldo/Desktop/DATA SCIENCE - professionAI/2.STATISTICA DESCRITTIVA"
df <-read.csv("realestate_texas.csv", sep=",")
print(df)
## city year month sales volume median_price listings
## 1 Beaumont 2010 1 83 14.162 163800 1533
## 2 Beaumont 2010 2 108 17.690 138200 1586
## 3 Beaumont 2010 3 182 28.701 122400 1689
## 4 Beaumont 2010 4 200 26.819 123200 1708
## 5 Beaumont 2010 5 202 28.833 123100 1771
## 6 Beaumont 2010 6 189 27.219 122800 1803
## 7 Beaumont 2010 7 164 22.706 124300 1857
## 8 Beaumont 2010 8 174 25.237 136800 1830
## 9 Beaumont 2010 9 124 17.233 121100 1829
## 10 Beaumont 2010 10 150 23.904 138500 1779
## 11 Beaumont 2010 11 150 18.107 150700 1742
## 12 Beaumont 2010 12 148 21.235 132500 1646
## 13 Beaumont 2011 1 108 16.200 130700 1677
## 14 Beaumont 2011 2 108 16.187 116700 1691
## 15 Beaumont 2011 3 146 22.183 120000 1762
## 16 Beaumont 2011 4 166 24.087 130000 1767
## 17 Beaumont 2011 5 143 19.684 120700 1832
## 18 Beaumont 2011 6 177 25.860 131200 1845
## 19 Beaumont 2011 7 163 28.480 132800 1822
## 20 Beaumont 2011 8 160 24.921 144600 1789
## 21 Beaumont 2011 9 127 16.908 123800 1785
## 22 Beaumont 2011 10 155 22.564 132100 1722
## 23 Beaumont 2011 11 124 15.489 111100 1687
## 24 Beaumont 2011 12 151 20.580 114000 1596
## 25 Beaumont 2012 1 110 13.496 110000 1647
## 26 Beaumont 2012 2 135 17.212 117500 1666
## 27 Beaumont 2012 3 175 25.359 129600 1730
## 28 Beaumont 2012 4 176 24.956 126200 1735
## 29 Beaumont 2012 5 197 30.159 134100 1765
## 30 Beaumont 2012 6 173 25.281 130800 1724
## 31 Beaumont 2012 7 182 25.981 127000 1749
## 32 Beaumont 2012 8 218 31.146 133600 1683
## 33 Beaumont 2012 9 182 24.052 118800 1704
## 34 Beaumont 2012 10 193 27.350 121800 1671
## 35 Beaumont 2012 11 162 22.906 134300 1652
## 36 Beaumont 2012 12 160 25.714 134700 1570
## 37 Beaumont 2013 1 159 23.029 126100 1581
## 38 Beaumont 2013 2 140 20.342 130000 1620
## 39 Beaumont 2013 3 170 25.551 121200 1567
## 40 Beaumont 2013 4 198 29.433 131400 1696
## 41 Beaumont 2013 5 246 37.280 134200 1659
## 42 Beaumont 2013 6 232 36.275 134100 1675
## 43 Beaumont 2013 7 206 30.818 128200 1708
## 44 Beaumont 2013 8 273 42.028 135000 1675
## 45 Beaumont 2013 9 213 34.359 147000 1681
## 46 Beaumont 2013 10 188 25.686 121100 1655
## 47 Beaumont 2013 11 177 26.371 140500 1624
## 48 Beaumont 2013 12 212 32.538 140000 1534
## 49 Beaumont 2014 1 148 18.077 106700 1575
## 50 Beaumont 2014 2 186 27.164 132500 1636
## 51 Beaumont 2014 3 182 26.344 129100 1539
## 52 Beaumont 2014 4 208 30.181 138300 1604
## 53 Beaumont 2014 5 246 36.739 134500 1620
## 54 Beaumont 2014 6 254 38.189 134500 1672
## 55 Beaumont 2014 7 212 34.861 142200 1657
## 56 Beaumont 2014 8 262 41.191 142400 1617
## 57 Beaumont 2014 9 224 35.335 128100 1501
## 58 Beaumont 2014 10 260 40.923 140600 1575
## 59 Beaumont 2014 11 180 24.925 124300 1544
## 60 Beaumont 2014 12 202 31.656 133800 1500
## 61 Bryan-College Station 2010 1 89 15.151 151900 1298
## 62 Bryan-College Station 2010 2 107 19.686 165300 1439
## 63 Bryan-College Station 2010 3 176 29.117 148300 1577
## 64 Bryan-College Station 2010 4 233 38.691 151000 1984
## 65 Bryan-College Station 2010 5 282 45.530 150200 1613
## 66 Bryan-College Station 2010 6 286 47.453 151700 1588
## 67 Bryan-College Station 2010 7 189 30.773 152200 1646
## 68 Bryan-College Station 2010 8 196 34.057 148500 1599
## 69 Bryan-College Station 2010 9 122 22.983 149300 1549
## 70 Bryan-College Station 2010 10 100 17.568 161400 1530
## 71 Bryan-College Station 2010 11 101 20.301 159300 1510
## 72 Bryan-College Station 2010 12 130 23.464 153300 1416
## 73 Bryan-College Station 2011 1 94 15.242 147700 1480
## 74 Bryan-College Station 2011 2 101 16.125 148500 1562
## 75 Bryan-College Station 2011 3 162 26.891 152100 1723
## 76 Bryan-College Station 2011 4 186 31.684 151200 1833
## 77 Bryan-College Station 2011 5 238 40.306 148900 1840
## 78 Bryan-College Station 2011 6 284 47.776 149400 1758
## 79 Bryan-College Station 2011 7 244 42.941 148700 1662
## 80 Bryan-College Station 2011 8 196 31.667 146700 1581
## 81 Bryan-College Station 2011 9 131 23.916 156400 1536
## 82 Bryan-College Station 2011 10 114 21.534 157300 1492
## 83 Bryan-College Station 2011 11 124 24.228 156200 1445
## 84 Bryan-College Station 2011 12 135 24.860 153900 1362
## 85 Bryan-College Station 2012 1 115 20.635 140700 1486
## 86 Bryan-College Station 2012 2 124 19.789 152000 1634
## 87 Bryan-College Station 2012 3 149 26.644 154300 1806
## 88 Bryan-College Station 2012 4 193 35.335 156600 1834
## 89 Bryan-College Station 2012 5 294 51.716 153100 1793
## 90 Bryan-College Station 2012 6 293 50.348 149300 1734
## 91 Bryan-College Station 2012 7 292 52.928 154400 1669
## 92 Bryan-College Station 2012 8 296 55.448 159700 1518
## 93 Bryan-College Station 2012 9 149 28.434 170000 1498
## 94 Bryan-College Station 2012 10 163 31.263 155200 1458
## 95 Bryan-College Station 2012 11 159 28.882 149100 1442
## 96 Bryan-College Station 2012 12 134 22.887 148400 1442
## 97 Bryan-College Station 2013 1 141 26.961 155500 1486
## 98 Bryan-College Station 2013 2 125 18.977 146900 1599
## 99 Bryan-College Station 2013 3 187 33.859 161000 1750
## 100 Bryan-College Station 2013 4 267 51.056 158200 1680
## 101 Bryan-College Station 2013 5 341 68.161 161200 1581
## 102 Bryan-College Station 2013 6 357 69.643 163700 1462
## 103 Bryan-College Station 2013 7 402 76.116 161000 1385
## 104 Bryan-College Station 2013 8 328 63.759 166100 1385
## 105 Bryan-College Station 2013 9 186 35.220 156500 1201
## 106 Bryan-College Station 2013 10 164 32.814 167300 1155
## 107 Bryan-College Station 2013 11 166 29.754 156500 1132
## 108 Bryan-College Station 2013 12 190 35.169 158800 1057
## 109 Bryan-College Station 2014 1 152 29.457 155300 1199
## 110 Bryan-College Station 2014 2 171 33.326 168500 1218
## 111 Bryan-College Station 2014 3 275 50.404 155300 1261
## 112 Bryan-College Station 2014 4 303 60.581 169500 1271
## 113 Bryan-College Station 2014 5 353 71.456 165200 1212
## 114 Bryan-College Station 2014 6 377 77.983 169600 1152
## 115 Bryan-College Station 2014 7 403 83.547 172600 1041
## 116 Bryan-College Station 2014 8 298 60.639 172200 1016
## 117 Bryan-College Station 2014 9 204 42.420 180000 1022
## 118 Bryan-College Station 2014 10 218 46.485 176100 1031
## 119 Bryan-College Station 2014 11 169 34.903 172800 973
## 120 Bryan-College Station 2014 12 200 42.553 177300 882
## 121 Tyler 2010 1 160 25.487 138900 2727
## 122 Tyler 2010 2 181 30.139 131500 2763
## 123 Tyler 2010 3 250 35.866 130000 2729
## 124 Tyler 2010 4 316 49.914 133200 3014
## 125 Tyler 2010 5 282 48.445 142000 3175
## 126 Tyler 2010 6 262 44.327 139400 3294
## 127 Tyler 2010 7 255 40.930 135700 3272
## 128 Tyler 2010 8 238 39.737 143100 3267
## 129 Tyler 2010 9 220 32.135 132900 3296
## 130 Tyler 2010 10 202 32.087 136000 3156
## 131 Tyler 2010 11 155 24.411 130000 3042
## 132 Tyler 2010 12 209 32.681 129400 2878
## 133 Tyler 2011 1 143 21.050 120600 2852
## 134 Tyler 2011 2 181 28.320 128800 2938
## 135 Tyler 2011 3 241 39.049 134200 3101
## 136 Tyler 2011 4 253 40.493 135100 3196
## 137 Tyler 2011 5 271 46.763 136100 3266
## 138 Tyler 2011 6 313 52.319 145800 3256
## 139 Tyler 2011 7 278 45.840 139200 3263
## 140 Tyler 2011 8 295 49.352 144900 3218
## 141 Tyler 2011 9 258 40.883 133300 3094
## 142 Tyler 2011 10 227 34.669 133200 3056
## 143 Tyler 2011 11 208 35.395 152600 2876
## 144 Tyler 2011 12 198 28.507 130800 2720
## 145 Tyler 2012 1 169 25.386 124200 2811
## 146 Tyler 2012 2 225 34.806 134400 2857
## 147 Tyler 2012 3 271 44.022 135700 2868
## 148 Tyler 2012 4 253 37.961 129200 2940
## 149 Tyler 2012 5 289 53.200 137600 2981
## 150 Tyler 2012 6 302 55.913 148100 3041
## 151 Tyler 2012 7 322 57.388 152100 3072
## 152 Tyler 2012 8 317 53.674 144600 3042
## 153 Tyler 2012 9 281 48.481 144000 2953
## 154 Tyler 2012 10 289 46.696 136300 2897
## 155 Tyler 2012 11 210 33.633 144800 2830
## 156 Tyler 2012 12 234 36.965 140000 2633
## 157 Tyler 2013 1 197 32.083 132400 2658
## 158 Tyler 2013 2 227 38.707 144100 2666
## 159 Tyler 2013 3 298 49.377 144800 2788
## 160 Tyler 2013 4 289 51.608 142400 2920
## 161 Tyler 2013 5 326 59.974 147400 2946
## 162 Tyler 2013 6 335 62.850 155600 2986
## 163 Tyler 2013 7 369 63.046 153100 2998
## 164 Tyler 2013 8 357 61.164 147900 2953
## 165 Tyler 2013 9 287 51.099 147600 2917
## 166 Tyler 2013 10 272 51.619 155600 2852
## 167 Tyler 2013 11 253 42.584 139600 2701
## 168 Tyler 2013 12 239 39.788 142700 2500
## 169 Tyler 2014 1 238 36.916 130700 2609
## 170 Tyler 2014 2 244 42.553 150000 2625
## 171 Tyler 2014 3 282 48.948 143600 2737
## 172 Tyler 2014 4 323 54.325 145000 2778
## 173 Tyler 2014 5 388 70.289 152300 2744
## 174 Tyler 2014 6 423 80.814 155700 2855
## 175 Tyler 2014 7 371 66.725 151500 2875
## 176 Tyler 2014 8 347 67.244 155200 2791
## 177 Tyler 2014 9 361 68.744 156500 2696
## 178 Tyler 2014 10 369 65.316 144100 2602
## 179 Tyler 2014 11 300 52.314 159400 2460
## 180 Tyler 2014 12 332 61.032 161600 2272
## 181 Wichita Falls 2010 1 89 8.951 87200 908
## 182 Wichita Falls 2010 2 91 9.382 89400 915
## 183 Wichita Falls 2010 3 147 18.192 88600 946
## 184 Wichita Falls 2010 4 167 19.772 105800 904
## 185 Wichita Falls 2010 5 165 20.881 105200 914
## 186 Wichita Falls 2010 6 129 19.192 119200 972
## 187 Wichita Falls 2010 7 104 12.355 96700 993
## 188 Wichita Falls 2010 8 130 15.325 96000 1022
## 189 Wichita Falls 2010 9 132 16.475 100000 1028
## 190 Wichita Falls 2010 10 113 13.605 100700 1005
## 191 Wichita Falls 2010 11 97 10.844 86400 968
## 192 Wichita Falls 2010 12 117 14.690 112100 938
## 193 Wichita Falls 2011 1 80 8.166 90000 955
## 194 Wichita Falls 2011 2 79 8.747 90800 950
## 195 Wichita Falls 2011 3 119 13.443 100700 968
## 196 Wichita Falls 2011 4 111 14.003 113600 996
## 197 Wichita Falls 2011 5 128 15.283 109400 1052
## 198 Wichita Falls 2011 6 111 13.031 95000 1030
## 199 Wichita Falls 2011 7 127 13.594 102300 1029
## 200 Wichita Falls 2011 8 135 14.876 105200 1004
## 201 Wichita Falls 2011 9 113 13.396 102900 1005
## 202 Wichita Falls 2011 10 98 9.507 73800 963
## 203 Wichita Falls 2011 11 93 11.176 91700 902
## 204 Wichita Falls 2011 12 81 9.400 102300 844
## 205 Wichita Falls 2012 1 105 10.274 82100 859
## 206 Wichita Falls 2012 2 90 10.697 105000 861
## 207 Wichita Falls 2012 3 116 13.104 97500 887
## 208 Wichita Falls 2012 4 125 13.876 93000 907
## 209 Wichita Falls 2012 5 102 12.451 97500 914
## 210 Wichita Falls 2012 6 130 17.793 116500 934
## 211 Wichita Falls 2012 7 132 16.166 116000 941
## 212 Wichita Falls 2012 8 123 14.003 102300 933
## 213 Wichita Falls 2012 9 95 11.792 108300 931
## 214 Wichita Falls 2012 10 97 9.695 87000 907
## 215 Wichita Falls 2012 11 119 17.126 118800 877
## 216 Wichita Falls 2012 12 115 11.820 87500 801
## 217 Wichita Falls 2013 1 79 9.666 99300 854
## 218 Wichita Falls 2013 2 101 11.920 101400 850
## 219 Wichita Falls 2013 3 159 16.715 85900 868
## 220 Wichita Falls 2013 4 124 13.524 92200 895
## 221 Wichita Falls 2013 5 144 19.059 121300 900
## 222 Wichita Falls 2013 6 121 15.547 104700 923
## 223 Wichita Falls 2013 7 150 18.571 102500 844
## 224 Wichita Falls 2013 8 149 18.686 109100 830
## 225 Wichita Falls 2013 9 128 16.103 114300 812
## 226 Wichita Falls 2013 10 114 14.470 118200 796
## 227 Wichita Falls 2013 11 94 11.486 100000 777
## 228 Wichita Falls 2013 12 92 12.470 111100 743
## 229 Wichita Falls 2014 1 89 9.626 91200 746
## 230 Wichita Falls 2014 2 93 11.261 110000 774
## 231 Wichita Falls 2014 3 102 13.925 94000 838
## 232 Wichita Falls 2014 4 143 17.790 104700 852
## 233 Wichita Falls 2014 5 140 17.833 115700 899
## 234 Wichita Falls 2014 6 123 18.250 135300 961
## 235 Wichita Falls 2014 7 150 18.672 102500 941
## 236 Wichita Falls 2014 8 137 16.129 99600 973
## 237 Wichita Falls 2014 9 110 12.015 90000 940
## 238 Wichita Falls 2014 10 112 13.817 113300 905
## 239 Wichita Falls 2014 11 96 11.308 108000 870
## 240 Wichita Falls 2014 12 109 13.884 103800 821
## months_inventory
## 1 9.5
## 2 10.0
## 3 10.6
## 4 10.6
## 5 10.9
## 6 11.1
## 7 11.7
## 8 11.6
## 9 11.7
## 10 11.5
## 11 11.2
## 12 10.5
## 13 10.6
## 14 10.7
## 15 11.3
## 16 11.6
## 17 12.4
## 18 12.6
## 19 12.4
## 20 12.3
## 21 12.3
## 22 11.8
## 23 11.7
## 24 11.1
## 25 11.4
## 26 11.4
## 27 11.6
## 28 11.6
## 29 11.4
## 30 11.2
## 31 11.3
## 32 10.5
## 33 10.3
## 34 9.9
## 35 9.7
## 36 9.1
## 37 9.0
## 38 9.2
## 39 8.9
## 40 9.5
## 41 9.1
## 42 9.0
## 43 9.0
## 44 8.7
## 45 8.6
## 46 8.5
## 47 8.3
## 48 7.6
## 49 7.9
## 50 8.0
## 51 7.5
## 52 7.8
## 53 7.9
## 54 8.0
## 55 8.0
## 56 7.8
## 57 7.2
## 58 7.4
## 59 7.2
## 60 7.0
## 61 7.1
## 62 7.8
## 63 8.5
## 64 10.5
## 65 8.4
## 66 8.4
## 67 9.1
## 68 9.1
## 69 8.8
## 70 8.9
## 71 9.0
## 72 8.4
## 73 8.8
## 74 9.3
## 75 10.4
## 76 11.3
## 77 11.6
## 78 11.1
## 79 10.2
## 80 9.7
## 81 9.4
## 82 9.0
## 83 8.7
## 84 8.1
## 85 8.8
## 86 9.6
## 87 10.6
## 88 10.8
## 89 10.2
## 90 9.9
## 91 9.3
## 92 8.1
## 93 7.9
## 94 7.5
## 95 7.3
## 96 7.3
## 97 7.5
## 98 8.0
## 99 8.7
## 100 8.1
## 101 7.4
## 102 6.7
## 103 6.1
## 104 6.0
## 105 5.2
## 106 5.0
## 107 4.9
## 108 4.4
## 109 5.0
## 110 5.0
## 111 5.0
## 112 5.0
## 113 4.8
## 114 4.5
## 115 4.1
## 116 4.0
## 117 4.0
## 118 4.0
## 119 3.8
## 120 3.4
## 121 11.3
## 122 11.5
## 123 11.3
## 124 12.0
## 125 12.4
## 126 13.0
## 127 13.3
## 128 13.4
## 129 13.8
## 130 13.5
## 131 13.4
## 132 12.7
## 133 12.6
## 134 13.0
## 135 13.8
## 136 14.5
## 137 14.9
## 138 14.6
## 139 14.5
## 140 14.0
## 141 13.3
## 142 13.0
## 143 12.0
## 144 11.4
## 145 11.7
## 146 11.7
## 147 11.6
## 148 11.9
## 149 12.0
## 150 12.3
## 151 12.2
## 152 12.0
## 153 11.6
## 154 11.1
## 155 10.9
## 156 10.0
## 157 10.0
## 158 10.0
## 159 10.4
## 160 10.8
## 161 10.7
## 162 10.8
## 163 10.7
## 164 10.4
## 165 10.2
## 166 10.1
## 167 9.4
## 168 8.7
## 169 9.0
## 170 9.0
## 171 9.4
## 172 9.5
## 173 9.2
## 174 9.3
## 175 9.4
## 176 9.1
## 177 8.6
## 178 8.1
## 179 7.6
## 180 6.9
## 181 7.1
## 182 7.3
## 183 7.5
## 184 7.0
## 185 7.1
## 186 7.7
## 187 8.1
## 188 8.4
## 189 8.3
## 190 8.1
## 191 8.0
## 192 7.6
## 193 7.8
## 194 7.8
## 195 8.1
## 196 8.7
## 197 9.4
## 198 9.4
## 199 9.2
## 200 8.9
## 201 9.1
## 202 8.8
## 203 8.3
## 204 7.9
## 205 7.9
## 206 7.9
## 207 8.1
## 208 8.2
## 209 8.5
## 210 8.5
## 211 8.6
## 212 8.6
## 213 8.7
## 214 8.4
## 215 8.0
## 216 7.1
## 217 7.7
## 218 7.6
## 219 7.6
## 220 7.8
## 221 7.6
## 222 7.9
## 223 7.1
## 224 6.9
## 225 6.6
## 226 6.4
## 227 6.3
## 228 6.1
## 229 6.1
## 230 6.4
## 231 7.2
## 232 7.2
## 233 7.6
## 234 8.1
## 235 8.0
## 236 8.3
## 237 8.1
## 238 7.8
## 239 7.5
## 240 7.0
attach(df)
table(city)
## city
## Beaumont Bryan-College Station Tyler
## 60 60 60
## Wichita Falls
## 60
Variabile SALES- numero totale di vendite:
summary(sales)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 79.0 127.0 175.5 192.3 247.0 423.0
IQR(sales)
## [1] 120
range(sales)
## [1] 79 423
var(sales)
## [1] 6344.3
sd(sales)
## [1] 79.65111
# install.packages("moments")
library(moments)
skewness(sales)
## [1] 0.718104
kurtosis(sales)-3
## [1] -0.3131764
Variabile VOLUME -valore totale delle vendite (in milioni di dollari):
summary(volume)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.166 17.660 27.062 31.005 40.893 83.547
IQR(volume)
## [1] 23.2335
range(volume)
## [1] 8.166 83.547
var(volume)
## [1] 277.2707
sd(volume)
## [1] 16.65145
skewness(volume)
## [1] 0.884742
kurtosis(volume)-3
## [1] 0.176987
-Nel corso dei cinque anni oggetto di osservazione,in quell’area, sono stati venduti immobili per un valore medio di 31 milioni di $ -Il valore mediano del totale delle vendite è di 27 milioni di dollari -Il valore totale di vendite più basso registrato (min) è di 8.166 milioni $ a gennaio 2011 nella località di Wichita Falls, il valore totale di vendite più alto (max) è stato di 83.547 milioni $ a luglio 2014 nella località di Bryan-College Station, con un range di 75381, un IQR di 23.2335 e varianza e deviazione standard rispettivamente di 277.2707 e 16.65145. -L’indice di asimmetria è di 0.884742(distribuzione asimmetrica positiva), per cui sono più frequenti modalità con valori bassi -L’indice di Curtosi è di 0.1770 (distribuzione leptocurtica) con una distribuzione dei valori intorno alla media più allungata rispetto a una distribuzione normale. -Osservazioni: Vi è una maggiore frequenza di mesi con valore totale delle vendite inferiore alla media (distribuzione asimmetrica positiva) ma vi sono anche alcuni mesi in cui il valore totale delle vendite è così elevato tale da creare una coda verso i valori più alti, come si evince dal valore della media superiore al valore della mediana.
Variabile MEDIAN_PRICE- prezzo mediano di vendita (in dollari):
summary(median_price)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 73800 117300 134500 132665 150050 180000
IQR(median_price)
## [1] 32750
range(median_price)
## [1] 73800 180000
var(median_price)
## [1] 513572983
sd(median_price)
## [1] 22662.15
skewness(median_price)
## [1] -0.3645529
kurtosis(median_price)-3
## [1] -0.6229618
-Il valore medio per questa variabile è di 132665 $ -Il valore mediano per questa variabile è di 134500 $ -Il prezzo mediano più alto registrato (max) corrisponde a 180000 $, valore registrato a settembre 2014 nella località di Bryan-College Station. -Il prezzo mediano più basso registrato (min) è di 73800 $ a ottobre 2011 nella località di Wichita Falls. Il range è 106200, un IQR di 32750 e varianza e deviazione standard rispettivamente di 513572983 e 22662.15 -L’indice di asimmetria è di -0.3645529 (distribuzione asimmetrica negativa) , con modalità con valori alti più frequenti -L’indice di Curtosi è di -0.622962 (distribuzione platicurtica), con una distribuzione di valori intorno alla media più appiattita rispetto alla distribuzione normale. -Osservazioni: sono presenti più casi di prezzi mediani elevati per le case vendute o rispetto alle case vendute ad un prezzo mediano più basso (abbiamo infatti una distribuzione asimmetrica negativa con una coda verso i valori più bassi), e questo lo deduciamo anche dal valore mediano della variabile più alto rispetto alla media.
Variabile LISTINGS - numero totale di annunci attivi
summary(listings)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 743 1026 1618 1738 2056 3296
IQR(listings)
## [1] 1029.5
range(listings)
## [1] 743 3296
var(listings)
## [1] 566569
sd(listings)
## [1] 752.7078
skewness(listings)
## [1] 0.6494982
kurtosis(listings)-3
## [1] -0.79179
-Nel corso dei cinque anni oggetto di osservazione, sono stati pubblicati una media di 1738 annunci immobiliari al mese -Il numero più alto di annunci in un mese (max) è stato di 3296 annunci a settembre 2010 nella località Tyler, mentre il numero più basso (min) è stato di 743 annunci a dicembre 2013 nella località Wichita Falls, con un range di 2553, un IQR di 1029.5 e varianza e deviazione standard rispettivamente di 566569 e 752.7078 -L’indice di asimmetria è di 0.6494982 (distribuzione asimmetrica positiva), con una frequenza maggiore di valori bassi -L’indice di Curtosi è di -0.79179 (distribuzione platicurtica) con una distribuzione di valori intorno alla media più appiattita rispetto alla distribuzione normale -Osservazioni: come suggerito dalla distribuzione asimmetrica positiva, sono più frequenti i casi in cui, ogni mese, gli annunci attivi siano in numero inferiore alla media.
Variabile MONTHS_INVENTORY- quantità di tempo necessaria per vendere tutte le inserzioni correnti, espresso in mesi
summary(months_inventory)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.400 7.800 8.950 9.193 10.950 14.900
IQR(months_inventory)
## [1] 3.15
range(months_inventory)
## [1] 3.4 14.9
var(months_inventory)
## [1] 5.306889
sd(months_inventory)
## [1] 2.303669
skewness(months_inventory)
## [1] 0.04097527
kurtosis(months_inventory)-3
## [1] -0.1744475
-In media, è stato necessario che trascorressero 9.193 mesi per poter vendere le inserzioni correnti. -Il valore che divide esattamente a metà la serie di dati è di 8.950 mesi(mediana) -Il numero più basso di mesi richiesto per vendere tutte le inserzioni correnti è di 3.4 mesi(min), il numero più alto è di 14.9 mesi (max) con un range di 11.5, un IQR di 3.15 e varianza e deviazione standard rispettivamente di 5.306889 e 2.303669 -L’indice di asimmetria è di 0.04097527 (distribuzione asimmetrica positiva). -L’indice di Curtosi è di -0.1744475 (distribuzione platicurtica), valori più appiattiti intorno alla media rispetto alla distribuzione normale. -Osservazioni: è molto più frequente che venga impiegato un quantitativo di mesi minore per vendere le inserzioni correnti, tuttavia ci sono alcuni casi in cui il numero di mesi richiesto per poter vendere le inserzioni è stato molto elevato.
3.Identificazione delle variabili con maggiore variabilità e asimmetria Determina: a)Qual è la variabile con la più alta variabilità b)Qual è la variabile con la distribuzione più asimmetrica c)Spiega come sei giunto a queste conclusioni e fornisci considerazioni statistiche
a)calcoliamo il coefficiente di variazione per le variabili
mean(sales)
## [1] 192.2917
sd(sales)
## [1] 79.65111
mean(volume)
## [1] 31.00519
sd(volume)
## [1] 16.65145
mean(median_price)
## [1] 132665.4
sd(median_price)
## [1] 22662.15
mean(listings)
## [1] 1738.021
sd(listings)
## [1] 752.7078
mean(months_inventory)
## [1] 9.1925
sd(months_inventory)
## [1] 2.303669
cv <- function(x){
return(sd(x)/mean(x)*100)
}
cv_sales <-cv(sales)
cv_volume <-cv(volume)
cv_median_prince <-cv(median_price)
cv_listings <-cv(listings)
cv_months_inventory<-cv(months_inventory)
cv_sales
## [1] 41.42203
cv_volume
## [1] 53.70536
cv_median_prince
## [1] 17.08218
cv_listings
## [1] 43.30833
cv_months_inventory
## [1] 25.06031
b)Calcoliamo l’indice di asimmetria di Fisher per le variabili
sk_sales <-skewness(sales)
sk_volume <-skewness(volume)
sk_median_price <-skewness(median_price)
sk_listings <-skewness(listings)
sk_months_inventory <-skewness(months_inventory)
sk_sales
## [1] 0.718104
sk_volume
## [1] 0.884742
sk_median_price
## [1] -0.3645529
sk_listings
## [1] 0.6494982
sk_months_inventory
## [1] 0.04097527
c)Spiega come sei giunto a queste conclusioni e fornisci considerazioni statistiche - Nel punto a usando i coefficienti di variazione (in modo da poter confrontare le variabilità del campione relativamente a variabili diverse ) otteniamo che la variabile con più alta variabilità sia la variabile VOLUME: dunque il valore totale delle vendite (in milioni di dollari) è la variabile i cui dati presentano maggiore dispersione rispetto al valore medio; - Nel punto b usando la funzione “skewness” del pacchetto “moments” calcolo l’indice di asimmetria di Fisher che ha il valore più alto per la variabile VOLUME, che presenta un’asimmetria positiva, con la maggior parte dei valori concentrati al di sotto della media e pochi valorii che creano una coda verso i valori più elevati, al di sopra della media.
4. Creazione di classi per una variabile quantitativa Seleziona una variabile quantitativa (es. sales o median_price) e suddividila in classi. Crea una distribuzione di frequenze e rappresenta i dati con un grafico a barre. Calcola l’indice di eterogeneità Gini e discuti i risultati.
Ho scelto come variabile quantitativa la variabile median_price e l’ho suddivisa in 10 classi con una differenza di prezzo tra una e l’altra di 10620 dollari.
df$median_price_CL <- cut(df$median_price,breaks=c(73800,84420,95040,105660,116280,126900,137520,148140,158760,169380,180000))
median_price_CL_FREQ <- table(df$median_price_CL)
median_price_CL_FREQ
##
## (7.38e+04,8.44e+04] (8.44e+04,9.5e+04] (9.5e+04,1.06e+05] (1.06e+05,1.16e+05]
## 1 16 23 17
## (1.16e+05,1.27e+05] (1.27e+05,1.38e+05] (1.38e+05,1.48e+05] (1.48e+05,1.59e+05]
## 25 48 38 46
## (1.59e+05,1.69e+05] (1.69e+05,1.8e+05]
## 16 9
Rappresento graficamente i dati con un grafico a barre
dati <- data.frame(
Classe= factor(c("73800-84420","84420-95040","95040-105660","105660-116280",
"116280-126900","126900-137520","137520-148140","148140-158760",
"158760-169380","169380-180000"),
levels=c("73800-84420","84420-95040","95040-105660","105660-116280",
"116280-126900","126900-137520","137520-148140","148140-158760",
"158760-169380","169380-180000")),
Frequenza= c(1,16,23,17,25,48,38,46,16,9)
)
# install.packages("ggplot2")
library(ggplot2)
ggplot(dati, aes(x= Classe, y=Frequenza))+
geom_bar(stat="identity", fill="steelblue")+
labs(title="Distribuzione di frequenze",
x="Fasce di prezzo(in dollari)",
y="Numero di case vendute")+
theme_minimal()
Calcolo poi l’indice di eterogeneità di Gini
gini.index <-function(x){
ni=table(x)
fi=ni/length(x)
fi2=fi^2
J=length(table(x))
gini = 1-sum(fi2)
gini.normalizzato = gini/((J-1)/J)
return(gini.normalizzato)
}
gini.index(df$median_price_CL)
## [1] 0.9586998
Con il calcolo dell’indice di eterogeneità di Gini otteniamo un valore di 0.9586998, molto vicino a 1, che sta ad indicare come una eterogeneità quasi massima della distribuzione, con vendita di case di tutte le fasce di prezzo presenti.
Il range di questa variabile è di 106200, con il prezzo più basso di una casa venduta di 73800 $, e il prezzo più alto di 180000 $. Ho suddiviso questi prezzi in 10 fasce omogenee, ciascuna con 10620 dollari di differenza tra il prezzo della casa più economica per quella fascia e il prezzo della casa più costosa.
5. Calcolo della probabilità Qual è la probabilità che, presa una riga a caso di questo dataset, essa riporti la città “Beaumont”? E la probabilità che riporti il mese di Luglio? E la probabilità che riporti il mese di dicembre 2012?
1.La probabilità che, presa una riga a caso del dataset, questa riporti la città di “Beaumont” è del 25% (¼), in quanto la città in esame compare 60 volte (casi favorevoli) su 240 osservazioni (casi totali), per cui dal rapporto casi favorevoli/casi totali otteniamo la probabilità di 60/240, ovvero ¼. 2.La probabilità che, presa una riga a caso del dataset, questa riporti il mese di luglio è del 8.3% (1/12), in quanto il mese di luglio compare 20 volte (vengono analizzati infatti 5 anni diversi per 4 città diverse) su 240 osservazioni (mesi totali), per cui dal rapporto casi favorevoli/casi totali otteniamo la probabilità di 20/240, ovvero 1/12. 3.La probabilità che, presa una riga a caso del dataset, questa riporti il mese di dicembre 2012 è del 1.6% (1/60), in quanto il mese di dicembre 2012 compare 4 volte (una per ognuna delle 4 città analizzate) su 240 osservazioni (mesi totali), per cui dal rapporto casi favorevoli/casi totali otteniamo la probabilità di 4/240, ovvero 1/60.
6. Creazione di nuove variabili Crea una nuova colonna che calcoli il prezzo medio degli immobili utilizzando le variabili disponibili. Prova a creare una colonna che misuri l’efficacia degli annunci di vendita. Commenta e discuti i risultati.
Ho creato una nuova colonna che calcolasse il prezzo medio degli immobili creando questa funzione:
mean_price <-function(x,y){
price = 1000000*x
meanpr = price/y
return(meanpr)
}
prezzo_medio <-mean_price(df$volume,df$sales)
df$mean_price <- prezzo_medio
Per quanto riguarda l’efficacia degli annunci di vendita ho preso in considerazione la variabile sales, che indica il numero totale di vendite e l’ho rapportata alla variabile listings , che indica il numero totale di annunci attivi, per capire in che percentuale quegli annunci si siano poi conclusi con una vendita effettiva. Ho creato poi una colonna con il valore in percentuale di case vendute rispetto al totale degli annunci attivi.
sales.suc <- function(x,y){
sales_suc= (x/y)*100
return(sales_suc)
}
successo_vendite <-sales.suc(df$sales,df$listings)
successo_vendite
## [1] 5.414220 6.809584 10.775607 11.709602 11.405985 10.482529 8.831449
## [8] 9.508197 6.779661 8.431703 8.610792 8.991495 6.440072 6.386753
## [15] 8.286039 9.394454 7.805677 9.593496 8.946213 8.943544 7.114846
## [22] 9.001161 7.350326 9.461153 6.678810 8.103241 10.115607 10.144092
## [29] 11.161473 10.034803 10.405946 12.953060 10.680751 11.549970 9.806295
## [36] 10.191083 10.056926 8.641975 10.848756 11.674528 14.828210 13.850746
## [43] 12.060890 16.298507 12.671029 11.359517 10.899015 13.820078 9.396825
## [50] 11.369193 11.825861 12.967581 15.185185 15.191388 12.794206 16.202845
## [57] 14.923384 16.507937 11.658031 13.466667 6.856703 7.435719 11.160431
## [64] 11.743952 17.482951 18.010076 11.482382 12.257661 7.876049 6.535948
## [71] 6.688742 9.180791 6.351351 6.466069 9.402205 10.147300 12.934783
## [78] 16.154721 14.681107 12.397217 8.528646 7.640751 8.581315 9.911894
## [85] 7.738896 7.588739 8.250277 10.523446 16.397100 16.897347 17.495506
## [92] 19.499341 9.946595 11.179698 11.026352 9.292649 9.488560 7.817386
## [99] 10.685714 15.892857 21.568627 24.418605 29.025271 23.682310 15.487094
## [106] 14.199134 14.664311 17.975402 12.677231 14.039409 21.808089 23.839496
## [113] 29.125413 32.725694 38.712776 29.330709 19.960861 21.144520 17.368962
## [120] 22.675737 5.867253 6.550851 9.160865 10.484406 8.881890 7.953855
## [127] 7.793399 7.284971 6.674757 6.400507 5.095332 7.261987 5.014025
## [134] 6.160654 7.771687 7.916145 8.297612 9.613022 8.519767 9.167185
## [141] 8.338720 7.428010 7.232267 7.279412 6.012095 7.875394 9.449093
## [148] 8.605442 9.694733 9.930944 10.481771 10.420776 9.515747 9.975837
## [155] 7.420495 8.887201 7.411588 8.514629 10.688666 9.897260 11.065852
## [162] 11.219022 12.308205 12.089401 9.838876 9.537167 9.366901 9.560000
## [169] 9.122269 9.295238 10.303252 11.627070 14.139942 14.816112 12.904348
## [176] 12.432820 13.390208 14.181399 12.195122 14.612676 9.801762 9.945355
## [183] 15.539112 18.473451 18.052516 13.271605 10.473313 12.720157 12.840467
## [190] 11.243781 10.020661 12.473348 8.376963 8.315789 12.293388 11.144578
## [197] 12.167300 10.776699 12.342080 13.446215 11.243781 10.176532 10.310421
## [204] 9.597156 12.223516 10.452962 13.077790 13.781698 11.159737 13.918630
## [211] 14.027630 13.183280 10.204082 10.694598 13.568985 14.357054 9.250585
## [218] 11.882353 18.317972 13.854749 16.000000 13.109426 17.772512 17.951807
## [225] 15.763547 14.321608 12.097812 12.382234 11.930295 12.015504 12.171838
## [232] 16.784038 15.572859 12.799168 15.940489 14.080164 11.702128 12.375691
## [239] 11.034483 13.276492
df$sales_success <-successo_vendite
Risulta che gli annunci che hanno portato a un maggior numero di case vendute siano gli annunci pubblicati nella località di Bryan College Station nel mese di Luglio 2014, dove la percentuale di annunci che si è conclusa in una vendita è del 38,7%, mentre gli annunci che hanno portato a un minor numero di vendite sono stati pubblicati nella località di Tyler nel mese di Gennaio 2011, con una percentuale di annunci conclusi in vendita del 5%.
7. Analisi condizionata Usa il pacchetto dplyr o il linguaggio base di R per effettuare analisi statistiche condizionate per città, anno e mese. Genera dei summary (media, deviazione standard) e rappresenta graficamente i risultati
Calcolo di indici di posizione (media) e variabilità (deviazione standard) condizionate di una variabile quantitativa (“sales”) rispetto a tre variabili qualitative ordinali, in successione (“city”- “year”- “month”)
# install.packages("dplyr")
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
riassunto_city<- df %>%
group_by(city) %>%
summarise(media=mean(sales),
dev.st=sd(sales))
riassunto_city
## # A tibble: 4 × 3
## city media dev.st
## <chr> <dbl> <dbl>
## 1 Beaumont 177. 41.5
## 2 Bryan-College Station 206. 85.0
## 3 Tyler 270. 62.0
## 4 Wichita Falls 116. 22.2
# install.packages("ggplot2")
library(ggplot2)
ggplot(data = riassunto_city, aes(x = city, y = media)) +
geom_bar(stat = "identity", fill = "skyblue") +
geom_errorbar(aes(ymin = media - dev.st, ymax = media + dev.st),
width = 0.2) +
labs(title = "Vendite medie per città con deviazione standard",
x = "Città", y = "Vendite medie") +
theme_minimal()
# install.packages("dplyr")
library(dplyr)
riassunto_year <-df %>%
group_by(year) %>%
summarise(media=mean(sales),
dev.st=sd(sales))
riassunto_year
## # A tibble: 5 × 3
## year media dev.st
## <int> <dbl> <dbl>
## 1 2010 169. 60.5
## 2 2011 164. 63.9
## 3 2012 186. 70.9
## 4 2013 212. 84.0
## 5 2014 231. 95.5
# install.packages("ggplot2")
library(ggplot2)
ggplot(data=riassunto_year,aes(x=year,y=media))+
geom_bar(stat="identity", fill="purple")+
geom_errorbar(aes(ymin=media-dev.st,ymax=media+dev.st),
width =0.2)+
labs(title="Vendite medie per anno con deviazione standard",
x="Anno",y="Vendite medie")+
theme_minimal()
# install.packages("dplyr")
library(dplyr)
riassunto_month <-df %>%
group_by(month) %>%
summarise(media=mean(sales),
dev.st=sd(sales))
riassunto_month
## # A tibble: 12 × 3
## month media dev.st
## <int> <dbl> <dbl>
## 1 1 127. 43.4
## 2 2 141. 51.1
## 3 3 189. 59.2
## 4 4 212. 65.4
## 5 5 239. 83.1
## 6 6 244. 95.0
## 7 7 236. 96.3
## 8 8 231. 79.2
## 9 9 182. 72.5
## 10 10 180. 75.0
## 11 11 157. 55.5
## 12 12 169. 60.7
# install.packages("ggplot2")
library(ggplot2)
ggplot(data=riassunto_month,aes(x=factor(month),y=media))+
geom_bar(stat="identity", fill="blue")+
geom_errorbar(aes(ymin=media-dev.st,ymax=media+dev.st),
width =0.2)+
labs(title="Vendite medie per mese con deviazione standard",
x="Mese",y="Vendite medie")+
theme_minimal()
8.Utilizza ggplot2 per creare grafici personalizzati
Assicurati di esplorare: a)Boxplot per confrontare la
distribuzione del prezzo mediano tra le città. b)Grafici a
barre per confrontare il totale delle vendite per mese e città.
c)Line charts per confrontare l’andamento delle vendite in periodi
storici differenti
a)Confronto distribuzione prezzo mediano tra le città
ggplot(data=df)+
geom_boxplot(aes(x=city,y=sales),
fill= "lightblue")
b)Confronto totale delle vendite per mese e città
vendite_mese<-df%>%
group_by(month)%>%
summarise(Totale.vendite=sum(volume))
print(vendite_mese, digits=6)
## # A tibble: 12 × 2
## month Totale.vendite
## <int> <dbl>
## 1 1 380.
## 2 2 433.
## 3 3 588.
## 4 4 666.
## 5 5 794.
## 6 6 826.
## 7 7 782.
## 8 8 760.
## 9 9 592.
## 10 10 582.
## 11 11 496.
## 12 12 542.
print(vendite_mese$Totale.vendite[1], digits = 10)
## [1] 380.015
ggplot(data=vendite_mese)+
geom_bar(aes(x=factor(month),y=Totale.vendite),
stat="identity",
fill="steelblue",
col="black")+
labs(title="Totale delle vendite (milioni $)",
x="Mese",
y="Vendite (milioni $)")+
theme_minimal()
vendite_città <- df%>%
group_by(city)%>%
summarise(Totale_vend=sum(volume))
vendite_città
## # A tibble: 4 × 2
## city Totale_vend
## <chr> <dbl>
## 1 Beaumont 1568.
## 2 Bryan-College Station 2291.
## 3 Tyler 2746.
## 4 Wichita Falls 836.
ggplot(data=vendite_città)+
geom_bar(aes(x=city,y=Totale_vend),
stat="identity",
fill="steelblue",
col="black")+
labs(title="Totale delle vendite (milioni $)",
x="Città",
y="Vendite (milioni $)")+
theme_minimal()
mese_citta <- df %>%
group_by(month, city) %>%
summarise(Vendite_mensili = sum(volume), .groups = "drop")
ggplot(data = mese_citta, aes(x = factor(month), y = Vendite_mensili, fill = city)) +
geom_bar(stat = "identity", position = "dodge", col = "black") +
labs(title = "Totale vendite mensili per città",
x = "Mese",
y = "Vendite (milioni $)",
fill = "Città") +
theme_minimal()
c)Line charts per confrontare l’andamento delle vendite in periodi storici differenti
riassunto_anno <- df %>%
group_by(year,city)%>%
summarise(vendite=sum(volume))
## `summarise()` has grouped output by 'year'. You can override using the
## `.groups` argument.
riassunto_anno
## # A tibble: 20 × 3
## # Groups: year [5]
## year city vendite
## <int> <chr> <dbl>
## 1 2010 Beaumont 272.
## 2 2010 Bryan-College Station 345.
## 3 2010 Tyler 436.
## 4 2010 Wichita Falls 180.
## 5 2011 Beaumont 253.
## 6 2011 Bryan-College Station 347.
## 7 2011 Tyler 463.
## 8 2011 Wichita Falls 145.
## 9 2012 Beaumont 294.
## 10 2012 Bryan-College Station 424.
## 11 2012 Tyler 528.
## 12 2012 Wichita Falls 159.
## 13 2013 Beaumont 364.
## 14 2013 Bryan-College Station 541.
## 15 2013 Tyler 604.
## 16 2013 Wichita Falls 178.
## 17 2014 Beaumont 386.
## 18 2014 Bryan-College Station 634.
## 19 2014 Tyler 715.
## 20 2014 Wichita Falls 175.
line_chart <-df%>%
group_by(year,city)%>%
summarise(Vendite=sum(volume))
## `summarise()` has grouped output by 'year'. You can override using the
## `.groups` argument.
line_chart
## # A tibble: 20 × 3
## # Groups: year [5]
## year city Vendite
## <int> <chr> <dbl>
## 1 2010 Beaumont 272.
## 2 2010 Bryan-College Station 345.
## 3 2010 Tyler 436.
## 4 2010 Wichita Falls 180.
## 5 2011 Beaumont 253.
## 6 2011 Bryan-College Station 347.
## 7 2011 Tyler 463.
## 8 2011 Wichita Falls 145.
## 9 2012 Beaumont 294.
## 10 2012 Bryan-College Station 424.
## 11 2012 Tyler 528.
## 12 2012 Wichita Falls 159.
## 13 2013 Beaumont 364.
## 14 2013 Bryan-College Station 541.
## 15 2013 Tyler 604.
## 16 2013 Wichita Falls 178.
## 17 2014 Beaumont 386.
## 18 2014 Bryan-College Station 634.
## 19 2014 Tyler 715.
## 20 2014 Wichita Falls 175.
ggplot(data=line_chart)+
geom_line(aes(x=year, y=Vendite, color=city),lwd=1)
9.Conclusioni Osservazioni operative
1.Utilizza i boxplot per confrontare la distribuzione del prezzo
mediano delle case tra le varie città. Commenta il risultato.
Analizzando i boxplot del punto 8, che confrontano la distribuzione del
prezzo mediano delle case tra le diverse città, si osserva che nella
località di Tyler sono state vendute le case con i prezzi mediani più
alti. Al contrario, a Wichita Falls si registrano i valori più bassi. Le
città di Beaumont e Bryan-College Station mostrano invece prezzi simili
tra loro, collocandosi in una fascia intermedia.
2.Utilizza i boxplot o qualche variante per confrontare la distribuzione del valore totale delle vendite tra le varie città ma anche tra i vari anni. Qualche considerazione da fare? Le line chart realizzate al punto 8 permettono di confrontare l’andamento del valore totale delle vendite tra le varie città e tra i diversi anni. SI osserva che, ad eccezione della località di Wichita Falls, l’anno 2014 ha registrato il valore di vendite più elevato. In particolare, l’andamento delle vendite è risultato costantemente crescente a partire dal 2011 per Bryan-College Station e Beaumont, e dal 2010 per la località di Tyler.
3.Usa un grafico a barre sovrapposte per confrontare il totale delle vendite nei vari mesi, sempre considerando le città. Prova a commentare ciò che viene fuori. Già che ci sei prova anche il grafico a barre normalizzato.
# install.packages("dplyr")
library(dplyr)
riassunto_mese_città <- df%>%
group_by(month,city)%>%
summarise(Totale_vendite=sum(sales))
## `summarise()` has grouped output by 'month'. You can override using the
## `.groups` argument.
riassunto_mese_città
## # A tibble: 48 × 3
## # Groups: month [12]
## month city Totale_vendite
## <int> <chr> <int>
## 1 1 Beaumont 608
## 2 1 Bryan-College Station 591
## 3 1 Tyler 907
## 4 1 Wichita Falls 442
## 5 2 Beaumont 677
## 6 2 Bryan-College Station 628
## 7 2 Tyler 1058
## 8 2 Wichita Falls 454
## 9 3 Beaumont 855
## 10 3 Bryan-College Station 949
## # ℹ 38 more rows
ggplot(data=riassunto_mese_città)+
geom_bar(aes(x=factor(month), y=Totale_vendite,
fill=city),
stat="identity",
col="black")+
labs(title="Vendite totali mensili per città",
x="Mese",
y="Percentuale")+
scale_y_continuous(labels=scales::percent)+
theme_minimal()
Dal grafico notiamo come il mese con il numero totale di vendite più
alto sia giugno, e in generale come nei mesi estivi, da maggio ad
agosto, si abbia un numero di vendite più alto rispetto al resto
dell’anno.
# install.packages("ggplot2")
library(ggplot2)
ggplot(data=riassunto_mese_città)+
geom_bar(aes(x=factor(month), y=Totale_vendite,
fill=city),
position="fill",
stat="identity",
col="black")+
labs(title="Vendite totali mensili normalizzate per città",
x="Mese",
y="Percentuale")+
scale_y_continuous(labels=scales::percent)+
theme_minimal()
4. Prova a creare un line chart di una variabile a tua scelta per fare confronti commentati fra città e periodi storici.
# install.packages("dplyr")
library(dplyr)
line_chart_sales <-df%>%
group_by(year,city)%>%
summarise(Numero_vendite=sum(sales))
## `summarise()` has grouped output by 'year'. You can override using the
## `.groups` argument.
line_chart_sales
## # A tibble: 20 × 3
## # Groups: year [5]
## year city Numero_vendite
## <int> <chr> <int>
## 1 2010 Beaumont 1874
## 2 2010 Bryan-College Station 2011
## 3 2010 Tyler 2730
## 4 2010 Wichita Falls 1481
## 5 2011 Beaumont 1728
## 6 2011 Bryan-College Station 2009
## 7 2011 Tyler 2866
## 8 2011 Wichita Falls 1275
## 9 2012 Beaumont 2063
## 10 2012 Bryan-College Station 2361
## 11 2012 Tyler 3162
## 12 2012 Wichita Falls 1349
## 13 2013 Beaumont 2414
## 14 2013 Bryan-College Station 2854
## 15 2013 Tyler 3449
## 16 2013 Wichita Falls 1455
## 17 2014 Beaumont 2564
## 18 2014 Bryan-College Station 3123
## 19 2014 Tyler 3978
## 20 2014 Wichita Falls 1404
# install.packages("ggplot2")
library(ggplot2)
ggplot(data=line_chart_sales)+
geom_line(aes(x=year, y=Numero_vendite, color=city),lwd=1)+
labs(title="Andamento delle vendite per città (2010-2014)",
x="Anno",
y="Numero di vendite",
color="Città")+
theme_minimal()
Conclusioni Con l’analisi statistica effettuata sulle quattro città sono emerse alcune tendenze ricorrenti: - Le vendite totali (variabile sales) e il valore totale delle vendite (volume) mostrano forti variazioni nel tempo e tra le città, con una crescita evidente nel 2014 per quasi tutte le località ad eccezione di Wichita Falls, forse a causa di un mercato meno vivace in quest’ultima località- - Il prezzo mediano degli immobili ha una distribuzione asimmetrica positiva, con una concentrazione maggiore nei valori più alti. Le città con i prezzi più elevati risultano essere Tyler e Bryan-College Station, mentre a Wichita Falls i prezzi sono ridotti. - Dal punto di vista della variabilità la variabile volume ha mostrato la dispersione maggiore, come indicato dal coefficiente di variazione, suggerendo una forte oscillazione mensile nel valore delle vendite. - Attraverso barplot normalizzati e line chart è stato possibile osservare le differenze tra le città in periodi di tempo diversi: Beaumont e Bryan-College Station hanno un andamento positivo crescente dal 2011, mentre Tyler già dal 2010. - Infine, l’efficacia degli annunci, misurata come rapporto tra vendite e annunci attivi, varia molto tra città e mesi : il valore più alto è stato registrato a Bryan-College Station nel 2014, mentre quello più basso a Tyler nel gennaio 2011.
In conclusione: - per alcune città il mercato immobiliare è in espansione e le vendite seguono una dinamica stagionale e storica ben definita; - Le variazioni nei mesi suggeriscono che la stagionalità influisce sulle vendite, rendendo utile pianificare strategie di vendita in base al periodo dell’anno; - La distribuzione dei prezzi suggerisce una segmentazione del mercato, che può offrire opportunità sia per acquirenti con budget elevati che per fasce più basse.