1. Introducció

Expliqueu breument: - D’on prové el conjunt de dades. - Quin és l’objectiu del projecte. - Quina pregunta voleu respondre. - Per què aquestes dades són adequades per aquesta pregunta.

2. Importació de les dades

load("state_x77_dataset.RData")
dades = state_complete

El format original era .RData
No hem fet cap modificació previa

3. Dimensions del dataset

dim(dades)

## [1] 50 12

glimpse(dades)

## Rows: 50
## Columns: 12
## $ state         <chr> "Alabama", "Alaska", "Arizona", "Arkansas", "California"…
## $ abbreviation  <chr> "AL", "AK", "AZ", "AR", "CA", "CO", "CT", "DE", "FL", "G…
## $ region        <fct> South, West, West, South, West, West, Northeast, South, …
## $ area_sq_miles <dbl> 51609, 589757, 113909, 53104, 158693, 104247, 5009, 2057…
## $ Population    <dbl> 3615, 365, 2212, 2110, 21198, 2541, 3100, 579, 8277, 493…
## $ Income        <dbl> 3624, 6315, 4530, 3378, 5114, 4884, 5348, 4809, 4815, 40…
## $ Illiteracy    <dbl> 2.1, 1.5, 1.8, 1.9, 1.1, 0.7, 1.1, 0.9, 1.3, 2.0, 1.9, 0…
## $ Life.Exp      <dbl> 69.05, 69.31, 70.55, 70.66, 71.71, 72.06, 72.48, 70.06, …
## $ Murder        <dbl> 15.1, 11.3, 7.8, 10.1, 10.3, 6.8, 3.1, 6.2, 10.7, 13.9, …
## $ HS.Grad       <dbl> 41.3, 66.7, 58.1, 39.9, 62.6, 63.9, 56.0, 54.6, 52.6, 40…
## $ Frost         <dbl> 20, 152, 15, 65, 20, 166, 139, 103, 11, 60, 0, 126, 127,…
## $ Area          <dbl> 50708, 566432, 113417, 51945, 156361, 103766, 4862, 1982…

Incloeu: - Nombre de files. - Nombre de columnes. - Quina és la unitat d’anàlisi (persona, empresa, producte, mesura…)

4. Diccionari de variables

Descriviu cada variable del dataset.

Variable	Tipus	Descripció	Valors possibles / rang
exemple_var	numèrica	Significat de la variable	0–100

tibble(
  variable = names(dades),
  tipus = sapply(dades, class)
  
)

## # A tibble: 12 × 2
##    variable      tipus    
##    <chr>         <chr>    
##  1 state         character
##  2 abbreviation  character
##  3 region        factor   
##  4 area_sq_miles numeric  
##  5 Population    numeric  
##  6 Income        numeric  
##  7 Illiteracy    numeric  
##  8 Life.Exp      numeric  
##  9 Murder        numeric  
## 10 HS.Grad       numeric  
## 11 Frost         numeric  
## 12 Area          numeric

5. Estadístiques descriptives

summary(dades$state)

##    Length     Class      Mode 
##        50 character character

summary(dades$abbreviation)

##    Length     Class      Mode 
##        50 character character

summary(dades$region)

##     Northeast         South North Central          West 
##             9            16            12            13

summary(dades$area_sq_miles)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1214   37317   56222   72368   83234  589757

summary(dades$Population)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     365    1080    2838    4246    4968   21198

summary(dades$Income)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3098    3993    4519    4436    4814    6315

summary(dades$Illiteracy)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.500   0.625   0.950   1.170   1.575   2.800

summary(dades$Life.Exp)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   67.96   70.12   70.67   70.88   71.89   73.60

summary(dades$Murder)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.400   4.350   6.850   7.378  10.675  15.100

summary(dades$HS.Grad)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   37.80   48.05   53.25   53.11   59.15   67.30

summary(dades$Frost)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   66.25  114.50  104.46  139.75  188.00

summary(dades$Area)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1049   36985   54277   70736   81163  566432

Comenteu: - Si hi ha valors perduts. - Si alguna variable s’hauria de transformar. - Outliers o valors estranys.

6. Visualització inicial

Incloeu una o dues gràfiques exploratòries.

# Exemple:
# ggplot(dades, aes(x = variable)) + geom_histogram()

7. Variables externes i dades addicionals

Expliqueu: - Si necessitareu dades externes per completar l’anàlisi. - On les podríeu trobar. - Si falten variables per respondre la pregunta inicial.

8. Altres comentaris

Incloeu qualsevol altre detall rellevant del procés de preparació de dades.

Dades sobre cada estat dels Estats Units al segle 20

state_x77_dataset.RData

Marc A., Iker L., Enric C., Arnau S.

2025-11-14