1. Introducció

Expliqueu breument: - D’on prové el conjunt de dades. - Quin és l’objectiu del projecte. - Quina pregunta voleu respondre. - Per què aquestes dades són adequades per aquesta pregunta.

2. Importació de les dades

Mostreu com heu importat el fitxer i quin nom té l’objecte carregat.

# Carreguem l'arxiu .RData
mydata <- read_csv("houseplants.csv")
## Rows: 2000 Columns: 20
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (5): nom_planta, especie, necessitats_llum, taxa_creixement, nivell_dif...
## dbl (15): id_planta, freq_reg_dies, alcada_cm, floreix, nivell_toxicitat, ap...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
save(mydata, file = "houseplants.RData")

# Mostrem quins objectes s'han carregat
ls()
## [1] "mydata"

Expliqueu: - Quin era el format original (CSV, XLSX, txt…) - Si heu fet cap modificació prèvia (neteja, reanomenar columnes, selecció de variables…)

3. Dimensions del dataset

# Comproveu el nom de l'objecte carregat.
# Suposarem que es diu 'dades'. Si no, canvieu-ho.
# head(dades)

dim(mydata)
## [1] 2000   20
nrow(mydata)
## [1] 2000
ncol(mydata)
## [1] 20
glimpse(mydata)
## Rows: 2,000
## Columns: 20
## $ id_planta          <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, …
## $ nom_planta         <chr> "orquidia", "dracena", "barreja suculentes", "figue…
## $ especie            <chr> "Phalaenopsis amabilis", "Dracaena marginata", "Suc…
## $ necessitats_llum   <chr> "Mitjana", "Baixa", "Mitjana", "Mitjana", "Mitjana"…
## $ freq_reg_dies      <dbl> 3, 10, 4, 2, 5, 4, 8, 6, 10, 7, 2, 3, 2, 2, 3, 5, 1…
## $ taxa_creixement    <chr> "Rapida", "Mitjana", "Mitjana", "Rapida", "Lenta", …
## $ alcada_cm          <dbl> 62, 35, 173, 89, 181, 160, 149, 200, 78, 90, 105, 1…
## $ floreix            <dbl> 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, …
## $ nivell_toxicitat   <dbl> 2, 3, 0, 3, 1, 3, 0, 0, 0, 1, 0, 3, 0, 0, 2, 3, 2, …
## $ apte_interior      <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, …
## $ nivell_dificultat  <chr> "Mitjana", "Dificil", "Facil", "Facil", "Facil", "D…
## $ valoracio          <dbl> 4.6, 3.3, 3.5, 3.9, 3.3, 4.7, 3.1, 4.0, 3.2, 3.0, 2…
## $ segur_animals      <dbl> 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, …
## $ temp_mitjana_c     <dbl> 20.6, 29.3, 26.0, 24.0, 17.3, 17.3, 15.9, 28.0, 24.…
## $ percent_humitat    <dbl> 57, 36, 64, 84, 57, 43, 85, 39, 45, 45, 83, 60, 71,…
## $ ph_sol             <dbl> 5.23, 6.38, 6.60, 6.76, 5.93, 6.41, 6.13, 6.68, 6.4…
## $ anys_vida          <dbl> 15.0, 17.1, 17.5, 7.7, 17.3, 2.7, 2.9, 13.2, 3.1, 7…
## $ preu_eur           <dbl> 51.80, 37.65, 29.01, 32.88, 21.66, 74.19, 43.17, 4.…
## $ absorcio_co2_g_dia <dbl> 3.71, 0.97, 4.14, 1.45, 4.66, 1.89, 4.30, 1.40, 2.6…
## $ fulles_per_planta  <dbl> 275, 19, 246, 157, 57, 153, 223, 117, 292, 281, 87,…

Incloeu: - Nombre de files. - Nombre de columnes. - Quina és la unitat d’anàlisi.

4. Diccionari de variables

Descriviu cada variable del dataset.

Variable Tipus Descripció Valors possibles / rang
exemple_var numèrica Significat de la variable 0–100
tibble(
  variable = names(mydata),
  tipus = sapply(mydata, class)
)
## # A tibble: 20 × 2
##    variable           tipus    
##    <chr>              <chr>    
##  1 id_planta          numeric  
##  2 nom_planta         character
##  3 especie            character
##  4 necessitats_llum   character
##  5 freq_reg_dies      numeric  
##  6 taxa_creixement    character
##  7 alcada_cm          numeric  
##  8 floreix            numeric  
##  9 nivell_toxicitat   numeric  
## 10 apte_interior      numeric  
## 11 nivell_dificultat  character
## 12 valoracio          numeric  
## 13 segur_animals      numeric  
## 14 temp_mitjana_c     numeric  
## 15 percent_humitat    numeric  
## 16 ph_sol             numeric  
## 17 anys_vida          numeric  
## 18 preu_eur           numeric  
## 19 absorcio_co2_g_dia numeric  
## 20 fulles_per_planta  numeric

5. Estadístiques descriptives

summary(mydata)
##    id_planta       nom_planta          especie          necessitats_llum  
##  Min.   :   1.0   Length:2000        Length:2000        Length:2000       
##  1st Qu.: 500.8   Class :character   Class :character   Class :character  
##  Median :1000.5   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :1000.5                                                           
##  3rd Qu.:1500.2                                                           
##  Max.   :2000.0                                                           
##  freq_reg_dies    taxa_creixement      alcada_cm         floreix      
##  Min.   : 2.000   Length:2000        Min.   : 15.00   Min.   :0.0000  
##  1st Qu.: 4.000   Class :character   1st Qu.: 61.75   1st Qu.:0.0000  
##  Median : 6.000   Mode  :character   Median :107.00   Median :1.0000  
##  Mean   : 5.978                      Mean   :108.02   Mean   :0.5075  
##  3rd Qu.: 8.000                      3rd Qu.:153.00   3rd Qu.:1.0000  
##  Max.   :10.000                      Max.   :200.00   Max.   :1.0000  
##  nivell_toxicitat apte_interior   nivell_dificultat    valoracio    
##  Min.   :0.000    Min.   :0.000   Length:2000        Min.   :2.500  
##  1st Qu.:1.000    1st Qu.:0.000   Class :character   1st Qu.:3.200  
##  Median :2.000    Median :0.000   Mode  :character   Median :3.750  
##  Mean   :1.548    Mean   :0.487                      Mean   :3.762  
##  3rd Qu.:3.000    3rd Qu.:1.000                      3rd Qu.:4.400  
##  Max.   :3.000    Max.   :1.000                      Max.   :5.000  
##  segur_animals    temp_mitjana_c  percent_humitat     ph_sol     
##  Min.   :0.0000   Min.   :15.00   Min.   :30.00   Min.   :5.000  
##  1st Qu.:0.0000   1st Qu.:18.60   1st Qu.:45.00   1st Qu.:5.630  
##  Median :1.0000   Median :22.60   Median :59.50   Median :6.260  
##  Mean   :0.5025   Mean   :22.48   Mean   :59.81   Mean   :6.246  
##  3rd Qu.:1.0000   3rd Qu.:26.30   3rd Qu.:75.00   3rd Qu.:6.870  
##  Max.   :1.0000   Max.   :30.00   Max.   :89.00   Max.   :7.490  
##    anys_vida        preu_eur     absorcio_co2_g_dia fulles_per_planta
##  Min.   : 2.00   Min.   : 3.10   Min.   :0.100      Min.   :  5.0    
##  1st Qu.: 6.50   1st Qu.:23.21   1st Qu.:1.360      1st Qu.: 78.0    
##  Median :10.90   Median :42.44   Median :2.530      Median :155.0    
##  Mean   :10.89   Mean   :42.03   Mean   :2.539      Mean   :153.4    
##  3rd Qu.:15.22   3rd Qu.:61.64   3rd Qu.:3.720      3rd Qu.:227.2    
##  Max.   :20.00   Max.   :79.98   Max.   :5.000      Max.   :299.0

Comenteu: - Si hi ha valors perduts. - Si alguna variable s’hauria de transformar. - Outliers o valors estranys.

6. Visualització inicial

Incloeu una o dues gràfiques exploratòries.

# Exemple d'histograma (substituïu 'variable' pel nom correcte)
# ggplot(dades, aes(x = variable)) + geom_histogram()

# Exemple de boxplot
# ggplot(dades, aes(y = variable)) + geom_boxplot()

HISTOGRAMA de alçada de les plantes

ggplot(mydata, aes(x = alcada_cm)) +
  geom_histogram(binwidth = 10, color = "black")

taxa de creixement

ggplot(mydata, aes(y = taxa_creixement)) +
  geom_boxplot()

7. Variables externes i dades addicionals

Expliqueu: - Si necessitareu dades externes per completar l’anàlisi. - On les podríeu trobar. - Si falten variables per respondre la pregunta inicial.

8. Altres comentaris

Incloeu qualsevol altre detall rellevant del procés de preparació de dades.