Expliqueu breument: - D’on prové el conjunt de dades. - Quin és l’objectiu del projecte. - Quina pregunta voleu respondre. - Per què aquestes dades són adequades per aquesta pregunta.
load("state_x77_dataset.RData")
dades = state_complete
dim(dades)
## [1] 50 12
glimpse(dades)
## Rows: 50
## Columns: 12
## $ state <chr> "Alabama", "Alaska", "Arizona", "Arkansas", "California"…
## $ abbreviation <chr> "AL", "AK", "AZ", "AR", "CA", "CO", "CT", "DE", "FL", "G…
## $ region <fct> South, West, West, South, West, West, Northeast, South, …
## $ area_sq_miles <dbl> 51609, 589757, 113909, 53104, 158693, 104247, 5009, 2057…
## $ Population <dbl> 3615, 365, 2212, 2110, 21198, 2541, 3100, 579, 8277, 493…
## $ Income <dbl> 3624, 6315, 4530, 3378, 5114, 4884, 5348, 4809, 4815, 40…
## $ Illiteracy <dbl> 2.1, 1.5, 1.8, 1.9, 1.1, 0.7, 1.1, 0.9, 1.3, 2.0, 1.9, 0…
## $ Life.Exp <dbl> 69.05, 69.31, 70.55, 70.66, 71.71, 72.06, 72.48, 70.06, …
## $ Murder <dbl> 15.1, 11.3, 7.8, 10.1, 10.3, 6.8, 3.1, 6.2, 10.7, 13.9, …
## $ HS.Grad <dbl> 41.3, 66.7, 58.1, 39.9, 62.6, 63.9, 56.0, 54.6, 52.6, 40…
## $ Frost <dbl> 20, 152, 15, 65, 20, 166, 139, 103, 11, 60, 0, 126, 127,…
## $ Area <dbl> 50708, 566432, 113417, 51945, 156361, 103766, 4862, 1982…
Incloeu: - Nombre de files. - Nombre de columnes. - Quina és la unitat d’anàlisi (persona, empresa, producte, mesura…)
Descriviu cada variable del dataset.
| Variable | Tipus | Descripció | Valors possibles / rang |
|---|---|---|---|
| exemple_var | numèrica | Significat de la variable | 0–100 |
tibble(
variable = names(dades),
tipus = sapply(dades, class)
)
## # A tibble: 12 × 2
## variable tipus
## <chr> <chr>
## 1 state character
## 2 abbreviation character
## 3 region factor
## 4 area_sq_miles numeric
## 5 Population numeric
## 6 Income numeric
## 7 Illiteracy numeric
## 8 Life.Exp numeric
## 9 Murder numeric
## 10 HS.Grad numeric
## 11 Frost numeric
## 12 Area numeric
summary(dades$state)
## Length Class Mode
## 50 character character
summary(dades$abbreviation)
## Length Class Mode
## 50 character character
summary(dades$region)
## Northeast South North Central West
## 9 16 12 13
summary(dades$area_sq_miles)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1214 37317 56222 72368 83234 589757
summary(dades$Population)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 365 1080 2838 4246 4968 21198
summary(dades$Income)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3098 3993 4519 4436 4814 6315
summary(dades$Illiteracy)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.500 0.625 0.950 1.170 1.575 2.800
summary(dades$Life.Exp)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 67.96 70.12 70.67 70.88 71.89 73.60
summary(dades$Murder)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.400 4.350 6.850 7.378 10.675 15.100
summary(dades$HS.Grad)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 37.80 48.05 53.25 53.11 59.15 67.30
summary(dades$Frost)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 66.25 114.50 104.46 139.75 188.00
summary(dades$Area)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1049 36985 54277 70736 81163 566432
Comenteu: - Si hi ha valors perduts. - Si alguna variable s’hauria de transformar. - Outliers o valors estranys.
Incloeu una o dues gràfiques exploratòries.
# Exemple:
# ggplot(dades, aes(x = variable)) + geom_histogram()
Expliqueu: - Si necessitareu dades externes per completar l’anàlisi. - On les podríeu trobar. - Si falten variables per respondre la pregunta inicial.
Incloeu qualsevol altre detall rellevant del procés de preparació de dades.