1. Introducció

Expliqueu breument: - D’on prové el conjunt de dades. - Quin és l’objectiu del projecte. - Quina pregunta voleu respondre. - Per què aquestes dades són adequades per aquesta pregunta.

2. Importació de les dades

load("state_x77_dataset.RData")
dades = state_complete

3. Dimensions del dataset

dim(dades)
## [1] 50 12
glimpse(dades)
## Rows: 50
## Columns: 12
## $ state         <chr> "Alabama", "Alaska", "Arizona", "Arkansas", "California"…
## $ abbreviation  <chr> "AL", "AK", "AZ", "AR", "CA", "CO", "CT", "DE", "FL", "G…
## $ region        <fct> South, West, West, South, West, West, Northeast, South, …
## $ area_sq_miles <dbl> 51609, 589757, 113909, 53104, 158693, 104247, 5009, 2057…
## $ Population    <dbl> 3615, 365, 2212, 2110, 21198, 2541, 3100, 579, 8277, 493…
## $ Income        <dbl> 3624, 6315, 4530, 3378, 5114, 4884, 5348, 4809, 4815, 40…
## $ Illiteracy    <dbl> 2.1, 1.5, 1.8, 1.9, 1.1, 0.7, 1.1, 0.9, 1.3, 2.0, 1.9, 0…
## $ Life.Exp      <dbl> 69.05, 69.31, 70.55, 70.66, 71.71, 72.06, 72.48, 70.06, …
## $ Murder        <dbl> 15.1, 11.3, 7.8, 10.1, 10.3, 6.8, 3.1, 6.2, 10.7, 13.9, …
## $ HS.Grad       <dbl> 41.3, 66.7, 58.1, 39.9, 62.6, 63.9, 56.0, 54.6, 52.6, 40…
## $ Frost         <dbl> 20, 152, 15, 65, 20, 166, 139, 103, 11, 60, 0, 126, 127,…
## $ Area          <dbl> 50708, 566432, 113417, 51945, 156361, 103766, 4862, 1982…

Incloeu: - Nombre de files. - Nombre de columnes. - Quina és la unitat d’anàlisi (persona, empresa, producte, mesura…)

4. Diccionari de variables

Descriviu cada variable del dataset.

Variable Tipus Descripció Valors possibles / rang
exemple_var numèrica Significat de la variable 0–100
tibble(
  variable = names(dades),
  tipus = sapply(dades, class)
  
)
## # A tibble: 12 × 2
##    variable      tipus    
##    <chr>         <chr>    
##  1 state         character
##  2 abbreviation  character
##  3 region        factor   
##  4 area_sq_miles numeric  
##  5 Population    numeric  
##  6 Income        numeric  
##  7 Illiteracy    numeric  
##  8 Life.Exp      numeric  
##  9 Murder        numeric  
## 10 HS.Grad       numeric  
## 11 Frost         numeric  
## 12 Area          numeric

5. Estadístiques descriptives

summary(dades$state)
##    Length     Class      Mode 
##        50 character character
summary(dades$abbreviation)
##    Length     Class      Mode 
##        50 character character
summary(dades$region)
##     Northeast         South North Central          West 
##             9            16            12            13
summary(dades$area_sq_miles)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1214   37317   56222   72368   83234  589757
summary(dades$Population)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     365    1080    2838    4246    4968   21198
summary(dades$Income)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3098    3993    4519    4436    4814    6315
summary(dades$Illiteracy)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.500   0.625   0.950   1.170   1.575   2.800
summary(dades$Life.Exp)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   67.96   70.12   70.67   70.88   71.89   73.60
summary(dades$Murder)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.400   4.350   6.850   7.378  10.675  15.100
summary(dades$HS.Grad)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   37.80   48.05   53.25   53.11   59.15   67.30
summary(dades$Frost)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   66.25  114.50  104.46  139.75  188.00
summary(dades$Area)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1049   36985   54277   70736   81163  566432

Comenteu: - Si hi ha valors perduts. - Si alguna variable s’hauria de transformar. - Outliers o valors estranys.

6. Visualització inicial

Incloeu una o dues gràfiques exploratòries.

# Exemple:
# ggplot(dades, aes(x = variable)) + geom_histogram()

7. Variables externes i dades addicionals

Expliqueu: - Si necessitareu dades externes per completar l’anàlisi. - On les podríeu trobar. - Si falten variables per respondre la pregunta inicial.

8. Altres comentaris

Incloeu qualsevol altre detall rellevant del procés de preparació de dades.