1. Pregunta d’estudi

La pregunta que ens plantegem en aquest projecte és:

La temperatura mitjana (temp_mitjana_c) i el nivell d’humitat (percent_humitat) tenen relació amb la quantitat de co2 absorbit per la planta (co2)?

Per respondre aquesta pregunta, utilitzarem un anàlisi descriptiu, amb gràfics, taules, etc.


2. Descripció del conjunt de dades

Font i context del conjunt de dades

El nostre conjunt de dades l’hem obtingut del lloc web Kaggle, una plataforma on es poden trobar tot tipus de conjunts de dades: cotxes, estadístiques de futbol, entre altres. Cada registre representa una planta concreta, i cada planta té un identificador únic (id), el nom de l’espècie i informació sobre les seves necessitats de llum, freqüència de reg, taxa de creixement, alçada, etc.

Dimensions i estructura

Podem veure que el nostre conjunt de dades té nrow(myData) registres i que cada registre té ncol(myData) columnes.

nrow(myData)
## [1] 2000
ncol(myData)
## [1] 20
glimpse(myData)
## Rows: 2,000
## Columns: 20
## $ id_planta          <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, …
## $ nom_planta         <chr> "orquidia", "dracena", "barreja suculentes", "figue…
## $ especie            <chr> "Phalaenopsis amabilis", "Dracaena marginata", "Suc…
## $ necessitats_llum   <chr> "Mitjana", "Baixa", "Mitjana", "Mitjana", "Mitjana"…
## $ freq_reg_dies      <int> 3, 10, 4, 2, 5, 4, 8, 6, 10, 7, 2, 3, 2, 2, 3, 5, 1…
## $ taxa_creixement    <chr> "Rapida", "Mitjana", "Mitjana", "Rapida", "Lenta", …
## $ alcada_cm          <int> 62, 35, 173, 89, 181, 160, 149, 200, 78, 90, 105, 1…
## $ floreix            <int> 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, …
## $ nivell_toxicitat   <int> 2, 3, 0, 3, 1, 3, 0, 0, 0, 1, 0, 3, 0, 0, 2, 3, 2, …
## $ apte_interior      <int> 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, …
## $ nivell_dificultat  <chr> "Mitjana", "Dificil", "Facil", "Facil", "Facil", "D…
## $ valoracio          <dbl> 4.6, 3.3, 3.5, 3.9, 3.3, 4.7, 3.1, 4.0, 3.2, 3.0, 2…
## $ segur_animals      <int> 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, …
## $ temp_mitjana_c     <dbl> 20.6, 29.3, 26.0, 24.0, 17.3, 17.3, 15.9, 28.0, 24.…
## $ percent_humitat    <int> 57, 36, 64, 84, 57, 43, 85, 39, 45, 45, 83, 60, 71,…
## $ ph_sol             <dbl> 5.23, 6.38, 6.60, 6.76, 5.93, 6.41, 6.13, 6.68, 6.4…
## $ anys_vida          <dbl> 15.0, 17.1, 17.5, 7.7, 17.3, 2.7, 2.9, 13.2, 3.1, 7…
## $ preu_eur           <dbl> 51.80, 37.65, 29.01, 32.88, 21.66, 74.19, 43.17, 4.…
## $ absorcio_co2_g_dia <dbl> 3.71, 0.97, 4.14, 1.45, 4.66, 1.89, 4.30, 1.40, 2.6…
## $ fulles_per_planta  <int> 275, 19, 246, 157, 57, 153, 223, 117, 292, 281, 87,…

Variables d’interès

Dintre de les variables que té el conjunt de dades, en farem servir tres en concret:

  • temp_mitjana_c (Numèrica): temperatura mitjana diària, mesurada en graus Celsius.
  • percent_humitat (Numèrica): nivell mitjà d’humitat relativa durant el dia (%).
  • co2 (Numèrica): quantitat de diòxid de carboni absorbit per la planta en grams per dia.

3. Exploració inicial de les dades

Primeres observacions

Amb la comanda head() obtenim els 6 primers registres del conjunt de dades. això ens donara els 6 primers registres del conjunt.

head(myData)
##   id_planta               nom_planta               especie necessitats_llum
## 1         1                 orquidia Phalaenopsis amabilis          Mitjana
## 2         2                  dracena    Dracaena marginata            Baixa
## 3         3       barreja suculentes     Succulentus mixus          Mitjana
## 4         4 figuera de fulla de voli          Ficus lyrata          Mitjana
## 5         5           planta de jade        Crassula ovata          Mitjana
## 6         6                    cinta  Chlorophytum comosum          Mitjana
##   freq_reg_dies taxa_creixement alcada_cm floreix nivell_toxicitat
## 1             3          Rapida        62       1                2
## 2            10         Mitjana        35       1                3
## 3             4         Mitjana       173       1                0
## 4             2          Rapida        89       1                3
## 5             5           Lenta       181       1                1
## 6             4          Rapida       160       0                3
##   apte_interior nivell_dificultat valoracio segur_animals temp_mitjana_c
## 1             1           Mitjana       4.6             0           20.6
## 2             1           Dificil       3.3             1           29.3
## 3             1             Facil       3.5             0           26.0
## 4             1             Facil       3.9             0           24.0
## 5             1             Facil       3.3             0           17.3
## 6             1           Dificil       4.7             1           17.3
##   percent_humitat ph_sol anys_vida preu_eur absorcio_co2_g_dia
## 1              57   5.23      15.0    51.80               3.71
## 2              36   6.38      17.1    37.65               0.97
## 3              64   6.60      17.5    29.01               4.14
## 4              84   6.76       7.7    32.88               1.45
## 5              57   5.93      17.3    21.66               4.66
## 6              43   6.41       2.7    74.19               1.89
##   fulles_per_planta
## 1               275
## 2                19
## 3               246
## 4               157
## 5                57
## 6               153

Gràfics de distribució inicial

Distribució de temperatura

Podem observar que la freqüència és gairebé uniforme entre els 15 i 28 °C, però a partir dels 30 °C cau bruscament. Aquesta distribució es deu al tipus de plantes que hi ha en conjunt de dades dagut aque hi ha molt poques plantes tropicals.

ggplot(myData, aes(x = temp_mitjana_c)) +
  geom_histogram(binwidth = 2, color="black", fill="lightblue")

Distribució de CO2 absorbit

En aquest gràfic podem veure que la majoria d’observacions es concentren al voltant de l’eix central, en els rangs de 2 a 6 g/dia. Això indica que les plantes del nostre conjunt absorbeixen una quantitat mitjana o alta de co2.

ggplot(myData, aes(x = absorcio_co2_g_dia)) +
  geom_histogram(binwidth = 2, color="black", fill="lightblue")

Distribució d’humitat

Podem observar que la distribució del percentatge d’humitat en el conjunt de dades és força uniforme.

ggplot(myData, aes(x = percent_humitat)) +
  geom_histogram(binwidth = 2, color="black", fill="lightblue")

Resum de les distribucions inicials

Un cop hem vist els tres gràfics, podem tenir una idea clara de la distribució inicial del conjunt de dades:

  • Temperatura: distribució concentrada principalment entre 15 i 28 °C.
  • CO2: valors molt concentrats en pocs intervals.
  • Humitat: distribució força uniforme, sense pics marcats.

4. Anàlisi descriptiva

Per entendre el comportament de co2 i veure si pot estar relacionat amb la temperatura mitjana i el percentatge d’humitat, utilitzarem estadístiques bàsiques, un boxplot de la variable resposta, les correlacions amb les variables predictives i diversos gràfics de dispersió per identificar possibles tendències.

Anàlisi de la variable dependent (CO2)

Començarem calculant la mitjana (2,54) i la desviació estàndard (1,40) de la variable dependent (co2). En el diagrama podem veure que la mediana se situa a 2,53, la qual cosa indica una distribució molt simètrica, ja que els bigotis inferior i superior tenen la mateixa longitud. A més, el conjunt de dades no presenta valors atípics.

Això indica que el nostre conjunt de dades té una distribució molt equilibrada. La variació és regular, ja que la mitjana i la mediana són gairebé idèntiques, cosa que suggereix una baixa asimetria en el conjunt.

mean(myData$absorcio_co2_g_dia)
## [1] 2.538535
sd(myData$absorcio_co2_g_dia)
## [1] 1.40307
median(myData$absorcio_co2_g_dia)
## [1] 2.53
ggplot(myData, aes(y = absorcio_co2_g_dia)) +
  geom_boxplot(fill = "lightblue", color = "black", width = 0.5)

Anàlisi de la variable independent: Temperatura mitjana

Aplicarem el mateix procés que vam fer amb la variable dependent (co2). Podem veure que la seva mitjana és de 22,47 °C, la desviació estàndard és de 4,38 °C, i la mediana es situa a 22,6 °C. Això indica que continuem tenint una distribució simètrica, ja que la mediana i la mitjana són gairebé idèntiques.

Aquesta simetria suggereix que no es tracta d’un fet casual i ens permet plantejar la nostra primera hipòtesi: el conjunt de dades té una estructura molt simètrica, amb valors estables i poca asimetria.

mean(myData$temp_mitjana_c)
## [1] 22.47975
sd(myData$temp_mitjana_c)
## [1] 4.381781
median(myData$temp_mitjana_c)
## [1] 22.6
ggplot(myData, aes(y = temp_mitjana_c)) +
  geom_boxplot(fill = "lightblue", color = "black", width = 0.5)

Anàlisi de la variable independent: Percentatge d’humitat

Per últim, analitzarem la segona variable independent, el percentatge d’humitat. Podem veure que la seva mitjana és de 59,80 %, la desviació estàndard és de 17,31 %, i la mediana es situa a 59,5%. En el diagrama observem que aquesta variable també presenta una distribució molt simètrica: la mediana es troba gairebé al centre i la mitjana és gairebé idèntica. Els valors s’extenen aproximadament des del 30 % fins al 90 % d’humitat i no hi ha valors atípics.

Això reforça la nostra hipòtesi inicial, ja que es confirma la simetria en les tres variables principals.

mean(myData$percent_humitat)
## [1] 59.8085
sd(myData$percent_humitat)
## [1] 17.31473
median(myData$percent_humitat)
## [1] 59.5
ggplot(myData, aes(y = percent_humitat)) +
  geom_boxplot(fill = "lightblue", color = "black", width = 0.5)

Relació entre variables: Gràfics de dispersió i correlació

Per acabar de confirmar la nostra hipòtesi, mirarem si realment la temperatura i la humitat estan relacionades amb co2.

Per fer això, el primer que farem serà elaborar els diagrames de dispersió de co2 respecte a la humitat i de co2 respecte a la temperatura mitjana (temp_mitjana_c). Tot seguit, calcularem la correlació entre la variable dependent (co2) i les variables independents.

Gràfics de dispersió

Relació entre humitat i CO2

En el diagrama de dispersió podem veure que no hi ha cap tendència clara, ni positiva ni negativa. Per tant, podem concloure que no hi ha cap tipus de relació lineal entre la humitat i l’absorció de CO2.

ggplot(myData, aes(x = percent_humitat, y = absorcio_co2_g_dia)) +
  geom_point(alpha = 0.6, color = "coral")

Relació entre temperatura i CO2

Podem observar que, igual que en el cas de la humitat, els punts de dades es troben totalment dispersos per tot el gràfic i no presenten cap tendència clara, ni positiva ni negativa. Això indica que no hi ha cap tipus de relació lineal entre la temperatura mitjana i l’absorció de CO2. Per tant, la nostra hipòtesi sembla vàlida, però no la podem confirmar fins a calcular la correlació, ja que aquesta ens indicarà realment si existeix alguna relació.

ggplot(myData, aes(x = temp_mitjana_c, y = absorcio_co2_g_dia)) +
  geom_point(alpha = 0.6, color = "coral")

Coeficients de correlació

Podem veure que les dues correlacions són negatives i molt properes a 0, i per tant podem confirmar que la nostra hipòtesi era completament vàlida i correcta: en aquest conjunt de dades no hi ha cap relació lineal significativa entre les variables.

cor(myData$temp_mitjana_c, myData$absorcio_co2_g_dia)
## [1] -0.01320779
cor(myData$percent_humitat, myData$absorcio_co2_g_dia)
## [1] -0.007363205

5. Conclusió preliminar i pròximes passes

Resum de l’anàlisi descriptiva

En l’anàlisi descriptiva, hem pogut veure que les tres variables clau utilitzades per respondre la pregunta formulada han revelat una característica idèntica: totes presentaven una distribució gairebé perfectament simètrica, uniforme i sense valors atípics.

Resposta a la pregunta d’estudi

Pel que fa a la pregunta d’estudi (“La temperatura i la humitat tenen relació amb l’absorció de CO2?”), si ens basem en els gràfics de dispersió i la correlació, podem concloure que no hi ha cap tipus de relació lineal significativa entre l’absorció de Co2 i les variables independents. Els coeficients de correlació, extremadament propers a zero, confirmen l’absència de qualsevol patró de predicció en el conjunt.

Limitacions del conjunt de dades actual

Per tant, no podem donar una resposta útil a la pregunta. Aquesta manca de correlació i la simetria ens indiquen que el conjunt de dades té una estructura massa regular i, per tant, no és adequat per respondre la nostra pregunta.

Pròximes passes

Els passos futurs que farem seran canviar el conjunt de dades: buscarem un nou dataset que tingui més variabilitat, més asimetria i una millor correlació entre variables. Això ens permetrà aplicar tècniques d’inferència com regressió lineal, intervals de confiança, etc.

El nou dataset estarà centrat en estudiants i inclourà variables relacionades amb el seu rendiment acadèmic, com ara les hores d’estudi, l’assistència, els hàbits de treball i les seves notes finals. La nostra pregunta serà:

Com afecten les hores d’estudi i el nombre d’absències al rendiment acadèmic dels estudiants?