1. Introducció

Expliqueu breument: - D’on prové el conjunt de dades. - Quin és l’objectiu del projecte. - Quina pregunta voleu respondre. - Per què aquestes dades són adequades per aquesta pregunta.

2. Importació de les dades

Mostreu com heu importat el fitxer i quin nom té l’objecte carregat.

library(tidyverse)
load("~/Teaching/2025/GEINF-ESTADISTICA/GROUP-WORK/01-dades/Alaminos Oller, Marc_6118499_assignsubmission_file/state_x77_dataset.RData")

Expliqueu: - Quin era el format original (CSV, XLSX, txt…) - Si heu fet cap modificació prèvia (neteja, reanomenar columnes, selecció de variables…)

3. Dimensions del dataset actualitzat

glimpse(state_complete)
## Rows: 50
## Columns: 12
## $ state         <chr> "Alabama", "Alaska", "Arizona", "Arkansas", "California"…
## $ abbreviation  <chr> "AL", "AK", "AZ", "AR", "CA", "CO", "CT", "DE", "FL", "G…
## $ region        <fct> South, West, West, South, West, West, Northeast, South, …
## $ area_sq_miles <dbl> 51609, 589757, 113909, 53104, 158693, 104247, 5009, 2057…
## $ Population    <dbl> 3615, 365, 2212, 2110, 21198, 2541, 3100, 579, 8277, 493…
## $ Income        <dbl> 3624, 6315, 4530, 3378, 5114, 4884, 5348, 4809, 4815, 40…
## $ Illiteracy    <dbl> 2.1, 1.5, 1.8, 1.9, 1.1, 0.7, 1.1, 0.9, 1.3, 2.0, 1.9, 0…
## $ Life.Exp      <dbl> 69.05, 69.31, 70.55, 70.66, 71.71, 72.06, 72.48, 70.06, …
## $ Murder        <dbl> 15.1, 11.3, 7.8, 10.1, 10.3, 6.8, 3.1, 6.2, 10.7, 13.9, …
## $ HS.Grad       <dbl> 41.3, 66.7, 58.1, 39.9, 62.6, 63.9, 56.0, 54.6, 52.6, 40…
## $ Frost         <dbl> 20, 152, 15, 65, 20, 166, 139, 103, 11, 60, 0, 126, 127,…
## $ Area          <dbl> 50708, 566432, 113417, 51945, 156361, 103766, 4862, 1982…

Incloeu: - Nombre de files. - Nombre de columnes. - Quina és la unitat d’anàlisi (persona, empresa, producte, mesura…)

4. Diccionari de variables

Descriviu cada variable del dataset.

Variable Tipus Descripció Valors possibles / rang
exemple_var numèrica Significat de la variable 0–100
# tibble(
#   variable = names(dades),
#   tipus = sapply(dades, class)
# )

5. Estadístiques descriptives

# summary(dades)

Comenteu: - Si hi ha valors perduts. - Si alguna variable s’hauria de transformar. - Outliers o valors estranys.

6. Visualització inicial

Incloeu una o dues gràfiques exploratòries.

# Exemple:
# ggplot(dades, aes(x = variable)) + geom_histogram()

7. Variables externes i dades addicionals

Expliqueu: - Si necessitareu dades externes per completar l’anàlisi. - On les podríeu trobar. - Si falten variables per respondre la pregunta inicial.

8. Altres comentaris

Incloeu qualsevol altre detall rellevant del procés de preparació de dades.