“Scarica il dataset realestate_textas.csv da qui e importalo con R, questo contiene dei dati riguardanti le vendite di immobili in Texas.”
data = read.csv("realestate_texas.csv", sep=",")
# Visualizzo le prime righe del dataset
head(data)
# Panoramica satistica
summary(data)
## city year month sales
## Length:240 Min. :2010 Min. : 1.00 Min. : 79.0
## Class :character 1st Qu.:2011 1st Qu.: 3.75 1st Qu.:127.0
## Mode :character Median :2012 Median : 6.50 Median :175.5
## Mean :2012 Mean : 6.50 Mean :192.3
## 3rd Qu.:2013 3rd Qu.: 9.25 3rd Qu.:247.0
## Max. :2014 Max. :12.00 Max. :423.0
## volume median_price listings months_inventory
## Min. : 8.166 Min. : 73800 Min. : 743 Min. : 3.400
## 1st Qu.:17.660 1st Qu.:117300 1st Qu.:1026 1st Qu.: 7.800
## Median :27.062 Median :134500 Median :1618 Median : 8.950
## Mean :31.005 Mean :132665 Mean :1738 Mean : 9.193
## 3rd Qu.:40.893 3rd Qu.:150050 3rd Qu.:2056 3rd Qu.:10.950
## Max. :83.547 Max. :180000 Max. :3296 Max. :14.900
# Visualizzo le dimensioni di data
dim(data)
## [1] 240 8
# Assegno a N il totale dei campioni registrati/osservati
N = dim(data)[1]
“Indica il tipo di variabili contenute nel dataset.”
str(data)
## 'data.frame': 240 obs. of 8 variables:
## $ city : chr "Beaumont" "Beaumont" "Beaumont" "Beaumont" ...
## $ year : int 2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
## $ month : int 1 2 3 4 5 6 7 8 9 10 ...
## $ sales : int 83 108 182 200 202 189 164 174 124 150 ...
## $ volume : num 14.2 17.7 28.7 26.8 28.8 ...
## $ median_price : num 163800 138200 122400 123200 123100 ...
## $ listings : int 1533 1586 1689 1708 1771 1803 1857 1830 1829 1779 ...
## $ months_inventory: num 9.5 10 10.6 10.6 10.9 11.1 11.7 11.6 11.7 11.5 ...
city = Qualitativa Nominale
year = Numerica Continua Ordinale
month = Qualitativa Ordinale Codificata
sales = Numerica Discreta
volume = Numerica Continua (in milioni dollari)
median_price = Numerica Continua (in dollari)
listings = Numerica Discreta
months_inventory = Numerica Continua
“Calcola gli indici di posizione, variabilità e forma per tutte le variabili per le quali ha senso farlo, per le altre crea una distribuzione di frequenza. Commenta tutto brevemente.”
#Moda
table(data$city)
##
## Beaumont Bryan-College Station Tyler
## 60 60 60
## Wichita Falls
## 60
📍“City possiede una distribuzione uguale e quadrimodale sulle 4 città del Texas del dataset.”
# Trovo Min e Max
print(paste("Min", min(data$year)))
## [1] "Min 2010"
print(paste("Max", max(data$year)))
## [1] "Max 2014"
# Creo classi
data$year_cl = cut(data$year,
c(2009,2010,2011,2012,2013,2014))
# Calcolo le frequenze assolute dei mesi considerati ogni anno, per ogni città.
table(data$year_cl, data$city)
##
## Beaumont Bryan-College Station Tyler Wichita Falls
## (2009,2010] 12 12 12 12
## (2010,2011] 12 12 12 12
## (2011,2012] 12 12 12 12
## (2012,2013] 12 12 12 12
## (2013,2014] 12 12 12 12
📍“Per ogni città sono stati osservati 12 mesi, tra il 2010 e il 2014”
# Trovo Min e Max
print(paste("Min", min(data$month)))
## [1] "Min 1"
print(paste("Max", max(data$month)))
## [1] "Max 12"
📍“Le osservazioni sono riportate e ordinate su dodici mesi codificati da 1 a 12”
POSIZIONE:
Massimo/Minimo, Mediana, Quantili e Media
#min e max
print(paste("Min", min(data$sales), " Max", max(data$sales)))
## [1] "Min 79 Max 423"
#mediana
print(median(data$sales))
## [1] 175.5
#quantili
print(quantile(data$sales))
## 0% 25% 50% 75% 100%
## 79.0 127.0 175.5 247.0 423.0
#media
print(mean(data$sales))
## [1] 192.2917
FORMA:
Suddivido in classi una variabile quantitativa (months_inventory):
DISTRIBUZIONE DI FREQUENZA Distribuzione di una variabile per volta: 1)classi vendite sales_cl
attach(data)
plot(sales, volume)
detach(data)