Expliqueu breument: - D’on prové el conjunt de dades. - Quin és l’objectiu del projecte. - Quina pregunta voleu respondre. - Per què aquestes dades són adequades per aquesta pregunta.
Mostreu com heu importat el fitxer i quin nom té l’objecte carregat.
# Carreguem l'arxiu .RData
mydata <- read_csv("houseplants.csv")
## Rows: 2000 Columns: 20
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (5): nom_planta, especie, necessitats_llum, taxa_creixement, nivell_dif...
## dbl (15): id_planta, freq_reg_dies, alcada_cm, floreix, nivell_toxicitat, ap...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
save(mydata, file = "houseplants.RData")
# Mostrem quins objectes s'han carregat
ls()
## [1] "mydata"
Expliqueu: - Quin era el format original (CSV, XLSX, txt…) - Si heu fet cap modificació prèvia (neteja, reanomenar columnes, selecció de variables…)
# Comproveu el nom de l'objecte carregat.
# Suposarem que es diu 'dades'. Si no, canvieu-ho.
# head(dades)
dim(mydata)
## [1] 2000 20
nrow(mydata)
## [1] 2000
ncol(mydata)
## [1] 20
glimpse(mydata)
## Rows: 2,000
## Columns: 20
## $ id_planta <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, …
## $ nom_planta <chr> "orquidia", "dracena", "barreja suculentes", "figue…
## $ especie <chr> "Phalaenopsis amabilis", "Dracaena marginata", "Suc…
## $ necessitats_llum <chr> "Mitjana", "Baixa", "Mitjana", "Mitjana", "Mitjana"…
## $ freq_reg_dies <dbl> 3, 10, 4, 2, 5, 4, 8, 6, 10, 7, 2, 3, 2, 2, 3, 5, 1…
## $ taxa_creixement <chr> "Rapida", "Mitjana", "Mitjana", "Rapida", "Lenta", …
## $ alcada_cm <dbl> 62, 35, 173, 89, 181, 160, 149, 200, 78, 90, 105, 1…
## $ floreix <dbl> 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, …
## $ nivell_toxicitat <dbl> 2, 3, 0, 3, 1, 3, 0, 0, 0, 1, 0, 3, 0, 0, 2, 3, 2, …
## $ apte_interior <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, …
## $ nivell_dificultat <chr> "Mitjana", "Dificil", "Facil", "Facil", "Facil", "D…
## $ valoracio <dbl> 4.6, 3.3, 3.5, 3.9, 3.3, 4.7, 3.1, 4.0, 3.2, 3.0, 2…
## $ segur_animals <dbl> 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, …
## $ temp_mitjana_c <dbl> 20.6, 29.3, 26.0, 24.0, 17.3, 17.3, 15.9, 28.0, 24.…
## $ percent_humitat <dbl> 57, 36, 64, 84, 57, 43, 85, 39, 45, 45, 83, 60, 71,…
## $ ph_sol <dbl> 5.23, 6.38, 6.60, 6.76, 5.93, 6.41, 6.13, 6.68, 6.4…
## $ anys_vida <dbl> 15.0, 17.1, 17.5, 7.7, 17.3, 2.7, 2.9, 13.2, 3.1, 7…
## $ preu_eur <dbl> 51.80, 37.65, 29.01, 32.88, 21.66, 74.19, 43.17, 4.…
## $ absorcio_co2_g_dia <dbl> 3.71, 0.97, 4.14, 1.45, 4.66, 1.89, 4.30, 1.40, 2.6…
## $ fulles_per_planta <dbl> 275, 19, 246, 157, 57, 153, 223, 117, 292, 281, 87,…
Incloeu: - Nombre de files. - Nombre de columnes. - Quina és la unitat d’anàlisi.
Descriviu cada variable del dataset.
| Variable | Tipus | Descripció | Valors possibles / rang |
|---|---|---|---|
| exemple_var | numèrica | Significat de la variable | 0–100 |
tibble(
variable = names(mydata),
tipus = sapply(mydata, class)
)
## # A tibble: 20 × 2
## variable tipus
## <chr> <chr>
## 1 id_planta numeric
## 2 nom_planta character
## 3 especie character
## 4 necessitats_llum character
## 5 freq_reg_dies numeric
## 6 taxa_creixement character
## 7 alcada_cm numeric
## 8 floreix numeric
## 9 nivell_toxicitat numeric
## 10 apte_interior numeric
## 11 nivell_dificultat character
## 12 valoracio numeric
## 13 segur_animals numeric
## 14 temp_mitjana_c numeric
## 15 percent_humitat numeric
## 16 ph_sol numeric
## 17 anys_vida numeric
## 18 preu_eur numeric
## 19 absorcio_co2_g_dia numeric
## 20 fulles_per_planta numeric
summary(mydata)
## id_planta nom_planta especie necessitats_llum
## Min. : 1.0 Length:2000 Length:2000 Length:2000
## 1st Qu.: 500.8 Class :character Class :character Class :character
## Median :1000.5 Mode :character Mode :character Mode :character
## Mean :1000.5
## 3rd Qu.:1500.2
## Max. :2000.0
## freq_reg_dies taxa_creixement alcada_cm floreix
## Min. : 2.000 Length:2000 Min. : 15.00 Min. :0.0000
## 1st Qu.: 4.000 Class :character 1st Qu.: 61.75 1st Qu.:0.0000
## Median : 6.000 Mode :character Median :107.00 Median :1.0000
## Mean : 5.978 Mean :108.02 Mean :0.5075
## 3rd Qu.: 8.000 3rd Qu.:153.00 3rd Qu.:1.0000
## Max. :10.000 Max. :200.00 Max. :1.0000
## nivell_toxicitat apte_interior nivell_dificultat valoracio
## Min. :0.000 Min. :0.000 Length:2000 Min. :2.500
## 1st Qu.:1.000 1st Qu.:0.000 Class :character 1st Qu.:3.200
## Median :2.000 Median :0.000 Mode :character Median :3.750
## Mean :1.548 Mean :0.487 Mean :3.762
## 3rd Qu.:3.000 3rd Qu.:1.000 3rd Qu.:4.400
## Max. :3.000 Max. :1.000 Max. :5.000
## segur_animals temp_mitjana_c percent_humitat ph_sol
## Min. :0.0000 Min. :15.00 Min. :30.00 Min. :5.000
## 1st Qu.:0.0000 1st Qu.:18.60 1st Qu.:45.00 1st Qu.:5.630
## Median :1.0000 Median :22.60 Median :59.50 Median :6.260
## Mean :0.5025 Mean :22.48 Mean :59.81 Mean :6.246
## 3rd Qu.:1.0000 3rd Qu.:26.30 3rd Qu.:75.00 3rd Qu.:6.870
## Max. :1.0000 Max. :30.00 Max. :89.00 Max. :7.490
## anys_vida preu_eur absorcio_co2_g_dia fulles_per_planta
## Min. : 2.00 Min. : 3.10 Min. :0.100 Min. : 5.0
## 1st Qu.: 6.50 1st Qu.:23.21 1st Qu.:1.360 1st Qu.: 78.0
## Median :10.90 Median :42.44 Median :2.530 Median :155.0
## Mean :10.89 Mean :42.03 Mean :2.539 Mean :153.4
## 3rd Qu.:15.22 3rd Qu.:61.64 3rd Qu.:3.720 3rd Qu.:227.2
## Max. :20.00 Max. :79.98 Max. :5.000 Max. :299.0
Comenteu: - Si hi ha valors perduts. - Si alguna variable s’hauria de transformar. - Outliers o valors estranys.
Incloeu una o dues gràfiques exploratòries.
# Exemple d'histograma (substituïu 'variable' pel nom correcte)
# ggplot(dades, aes(x = variable)) + geom_histogram()
# Exemple de boxplot
# ggplot(dades, aes(y = variable)) + geom_boxplot()
ggplot(mydata, aes(x = alcada_cm)) +
geom_histogram(binwidth = 10, color = "black")
ggplot(mydata, aes(y = taxa_creixement)) +
geom_boxplot()
Expliqueu: - Si necessitareu dades externes per completar l’anàlisi. - On les podríeu trobar. - Si falten variables per respondre la pregunta inicial.
Incloeu qualsevol altre detall rellevant del procés de preparació de dades.