TASK 01

“Scarica il dataset realestate_textas.csv da qui e importalo con R, questo contiene dei dati riguardanti le vendite di immobili in Texas.”

data = read.csv("realestate_texas.csv", sep=",")

# Visualizzo le prime righe del dataset
head(data)
# Panoramica satistica
summary(data)
##      city                year          month           sales      
##  Length:240         Min.   :2010   Min.   : 1.00   Min.   : 79.0  
##  Class :character   1st Qu.:2011   1st Qu.: 3.75   1st Qu.:127.0  
##  Mode  :character   Median :2012   Median : 6.50   Median :175.5  
##                     Mean   :2012   Mean   : 6.50   Mean   :192.3  
##                     3rd Qu.:2013   3rd Qu.: 9.25   3rd Qu.:247.0  
##                     Max.   :2014   Max.   :12.00   Max.   :423.0  
##      volume        median_price       listings    months_inventory
##  Min.   : 8.166   Min.   : 73800   Min.   : 743   Min.   : 3.400  
##  1st Qu.:17.660   1st Qu.:117300   1st Qu.:1026   1st Qu.: 7.800  
##  Median :27.062   Median :134500   Median :1618   Median : 8.950  
##  Mean   :31.005   Mean   :132665   Mean   :1738   Mean   : 9.193  
##  3rd Qu.:40.893   3rd Qu.:150050   3rd Qu.:2056   3rd Qu.:10.950  
##  Max.   :83.547   Max.   :180000   Max.   :3296   Max.   :14.900
# Visualizzo le dimensioni di data
dim(data)
## [1] 240   8
# Assegno a N il totale dei campioni registrati/osservati
N = dim(data)[1]

TASK 02

“Indica il tipo di variabili contenute nel dataset.”

str(data)
## 'data.frame':    240 obs. of  8 variables:
##  $ city            : chr  "Beaumont" "Beaumont" "Beaumont" "Beaumont" ...
##  $ year            : int  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
##  $ month           : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ sales           : int  83 108 182 200 202 189 164 174 124 150 ...
##  $ volume          : num  14.2 17.7 28.7 26.8 28.8 ...
##  $ median_price    : num  163800 138200 122400 123200 123100 ...
##  $ listings        : int  1533 1586 1689 1708 1771 1803 1857 1830 1829 1779 ...
##  $ months_inventory: num  9.5 10 10.6 10.6 10.9 11.1 11.7 11.6 11.7 11.5 ...
  1. city = Qualitativa Nominale

  2. year = Numerica Continua Ordinale

  3. month = Qualitativa Ordinale Codificata

  4. sales = Numerica Discreta

  5. volume = Numerica Continua (in milioni dollari)

  6. median_price = Numerica Continua (in dollari)

  7. listings = Numerica Discreta

  8. months_inventory = Numerica Continua

TASK 03

“Calcola gli indici di posizione, variabilità e forma per tutte le variabili per le quali ha senso farlo, per le altre crea una distribuzione di frequenza. Commenta tutto brevemente.”

CITY 🏙️🇺🇸

#Moda
table(data$city)
## 
##              Beaumont Bryan-College Station                 Tyler 
##                    60                    60                    60 
##         Wichita Falls 
##                    60

📍“City possiede una distribuzione uguale e quadrimodale sulle 4 città del Texas del dataset.”

YEAR 📆

# Trovo Min e Max
print(paste("Min", min(data$year)))
## [1] "Min 2010"
print(paste("Max", max(data$year)))
## [1] "Max 2014"
# Creo classi
data$year_cl = cut(data$year,
                   c(2009,2010,2011,2012,2013,2014))

# Calcolo le frequenze assolute dei mesi considerati ogni anno, per ogni città.
table(data$year_cl, data$city)
##              
##               Beaumont Bryan-College Station Tyler Wichita Falls
##   (2009,2010]       12                    12    12            12
##   (2010,2011]       12                    12    12            12
##   (2011,2012]       12                    12    12            12
##   (2012,2013]       12                    12    12            12
##   (2013,2014]       12                    12    12            12

📍“Per ogni città sono stati osservati 12 mesi, tra il 2010 e il 2014”

MONTH 1️⃣ 2️⃣

# Trovo Min e Max
print(paste("Min", min(data$month)))
## [1] "Min 1"
print(paste("Max", max(data$month)))
## [1] "Max 12"

📍“Le osservazioni sono riportate e ordinate su dodici mesi codificati da 1 a 12”

SALES 🏘️

POSIZIONE:

Massimo/Minimo, Mediana, Quantili e Media

#min e max
print(paste("Min", min(data$sales), " Max", max(data$sales)))
## [1] "Min 79  Max 423"
#mediana
print(median(data$sales))
## [1] 175.5
#quantili
print(quantile(data$sales))
##    0%   25%   50%   75%  100% 
##  79.0 127.0 175.5 247.0 423.0
#media
print(mean(data$sales))
## [1] 192.2917

FORMA:

Suddivido in classi una variabile quantitativa (months_inventory):

DISTRIBUZIONE DI FREQUENZA Distribuzione di una variabile per volta: 1)classi vendite sales_cl

attach(data)
plot(sales, volume)

detach(data)

TASK 04