Expliqueu breument: - D’on prové el conjunt de dades. Prové de la pagina web: https://analisi.transparenciacatalunya.cat/Medi-Ambient/Consum-d-aigua-a-Catalunya-per-comarques/2gws-ubmt/about_data - Quin és l’objectiu del projecte. Repondre a la seguent preunta Anàlisi Estructural : Quin pes té el consum domèstic (llars) enfront del c o nsum econòmic (indústria) en el total de cada comarca? - Quina pregunta voleu respondre. Anàlisi Estructural : Quin pes té el consum domèstic (llars) enfront del c o nsum econòmic (indústria) en el total de cada comarca? - Per què aquestes dades són adequades per aquesta pregunta. Amb les seguents dades puc respondre a la pregunta El consum de les llars (dom_stic_xarxa).
El consum de les indústries (activitats_econ_miques_i…).
El total. # 2. Importació de les dades
Mostreu com heu importat el fitxer i quin nom té l’objecte carregat.
# Exemple d'importació (modifiqueu segons calgui)
# dades <- read_csv("nom_fitxer.csv")
Expliqueu: - Quin era el format original (CSV, XLSX, txt…) El fitxer original era CSV - Si heu fet cap modificació prèvia (neteja, reanomenar columnes, selecció de variables…) No em fet cap modificacio previa # 3. Dimensions del dataset
# dim(dades)
# glimpse(dades)
Incloeu: - Nombre de files. - Nombre de columnes. - Quina és la unitat d’anàlisi (persona, empresa, producte, mesura…)
Descriviu cada variable del dataset.
| Variable | Tipus | Descripció | Valors possibles / rang |
|---|---|---|---|
| Any | numèrica | Any de facturació dels consums al qual fan referència les dades | 0–100 |
| Codi comarca | text | Codi de la comarca | 0–100 |
| Comarca | numèrica | Comarca a la qual fan referència les dades | 0–100 |
| Població | numèrica | Nombre d’habitants de la comarca a partir de dades del Padró municipal d’habitants a 1 de gener | 0–100 |
| Domèstic xarxa | numèrica | Volum consumit facturat a les llars connectades a la xarxa de subministrament d’aigua. Mesurat en metres cúbic | 0–100 |
| Activitats econòmiques i fonts pròpies | numèrica | Volum consumit facturat a les llars connectades a la xarxa de subministrament d’aigua. Mesurat en metres cúbics | 0–100 |
| Total | numèrica | Volum consumit facturat a les llars connectades a la xarxa de subministrament d’aigua. Mesurat en metres cúbic | 0–100 |
| Consum domèstic per càpita | Consum domèstic de la xarxa per persona i dia. Es calcula de la següent forma: (Domèstic xarxa1000)/(Població365). Mesurat en litres/persona/dia | 0–100 |
# tibble(
# variable = names(dades),
# tipus = sapply(dades, class)
# )
# summary(dades)
Comenteu: - Si hi ha valors perduts. No hi ha valors perduts - Si alguna variable s’hauria de transformar. - Outliers o valors estranys.
Incloeu una o dues gràfiques exploratòries.
# Exemple:
# ggplot(dades, aes(x = variable)) + geom_histogram()
Expliqueu: . Si falten variables per respondre la pregunta inicial: Per a la pregunta central (“Com varia el consum per càpita i quina relació té amb l’activitat econòmica?”), les dades que tenim són suficients per a una primera resposta. Podem calcular perfectament la variació, veure quines comarques consumeixen més/menys i mirar si hi ha una correlació amb les activitats econòmiques.
Si necessitarem dades externes: Ara bé, si volem anar més enllà i entendre el “perquè” d’aquestes variacions (Per què una comarca consumeix molt? Per què el consum va pujar un any concret?), llavors sí, les dades externes serien gairebé imprescindibles per enriquir l’anàlisi.
On les podríem trobar: Les dades addicionals més útils i on trobar-les serien:
Dades Climàtiques: El consum d’aigua depèn molt de si és un any sec o plujós. Dades de precipitació o temperatura per any i comarca serien clau. Les podríem trobar al Servei Meteorològic de Catalunya (Meteocat).
Dades Econòmiques (detallades): La nostra columna activitats_econ_miques_i és molt general. Per entendre-la bé, ens aniria genial saber el pes del turisme (p. ex., places hoteleres), el tipus d’indústria (si fan servir molta aigua o no) o el percentatge de superfície de regadiu. Aquestes dades es podrien buscar a l’IDESCAT o al Departament d’Acció Climàtica.
Dades Demogràfiques: Un factor clau, com el percentatge de segones residències, pot distorsionar el càlcul del consum per càpita. Aquestes dades també es podrien trobar a l’IDESCAT. # 8. Altres comentaris
Incloeu qualsevol altre detall rellevant del procés de preparació de dades.