Exercici final d’estadística aplicada



🏥 Escenari

Disposem d’un conjunt de dades simulades que reflecteix activitat hospitalària amb pacients atesos durant un període determinat. S’hi recullen variables com edat, sexe, nivell de prioritat, recurs utilitzat i evolució.

Farem servir Quarto per construir la resposta al exercisi.


🧼 1. Importació i neteja bàsica de les dades

🧩 Exercici 1.1
Importa les dades de l’arxiu dataset_hospital_sintetic.xlsx. Assegura’t de tenir els paquets readxl, janitor, dplyr i ggplot2 carregats.

library(readxl)
library(janitor)
library(dplyr)
library(ggplot2)

dades <- read_excel("dataset_hospital_sintetic.xlsx") %>%
  clean_names()

🧩 Exercici 1.2
Mostra les primeres files del dataset i consulta la seva dimensió. Inspecciona amb glimpse()

head(dades)
dim(dades)

🧩 Exercici 1.3
Explora la variable sexe. Comprova com està codificada. Si trobes inconsistències, corregeix-les de forma clara (ex: “Home”, “home”, “H” → “Home”).

table(dades$sexe)

   D Dona    H Home 
   5  145    4  146 
# Aquí pots fer servir mutate, recode o  case_when o ifelse per normalitzar

🧩 Exercici 1.4
Comprova les variables complexitat i prioritat. Estan ben codificades? Hi ha errors tipogràfics o valors buits?

table(dades$complexitat, useNA = "always")

   Alta   Baixa Mitjana    <NA> 
     51      93     148       8 
table(dades$prioritat, useNA = "always")

  Alta  Baixa Normal   <NA> 
    54     90    156      0 

Recodeja si cal per assegurar que els nivells són consistents.


🧩 Exercici 1.5
Comprova si hi ha valors perduts (NA) en alguna de les variables principals. Quants casos tenen algun valor buit?

colSums(is.na(dades))
              nhc              sexe              edat       complexitat 
                0                 0                10                 8 
visites_ultim_any         ingressat       dies_estada         prioritat 
                0                 0                 0                 0 
temps_espera_dies 
                0 

🧩 Exercici 1.6
Elimina les observacions amb valors crítics perduts si és necessari, o pren una decisió justificada per gestionar els NA. Pots eliminar-los?


📊 2. Estadística descriptiva

🧩 Exercici 2.1
Calcula el nombre total de pacients i distribueix-los per sexe i nivell de complexitat.

# Pista: pots fer servir group_by() i summarise()

🧩 Exercici 2.2
Calcula l’edat mitjana i desviació estàndard dels pacients. Mostra també la mediana i els quartils.

# Pista: utilitza summarise() i functions com mean(), sd(), median(), quantile()

🧩 Exercici 2.3
Representa un boxplot de l’edat per grup de prioritat.

# Pista: aes(x = prioritat, y = edat)

🧩 Exercici 2.4
Fes un gràfic de barres de la variable recurs_utilitzat. Ordena les categories de més a menys freqüents.

# Pista: count() + fct_reorder() + geom_bar() o geom_col()

🧩 Exercici 2.5
Quin percentatge de pacients acaben ingressats? Fes-ho amb un càlcul directe i representa-ho gràficament.


📈 3. Inferència bàsica

🧩 Exercici 3.1
Compara l’edat mitjana entre homes i dones. Quin test utilitzaries? Fes-lo i interpreta el p-valor.

# Pista: t.test(edat ~ sexe)

🧩 Exercici 3.2
Compara la proporció d’ingressos entre els diferents nivells de prioritat. Utilitza un test adequat.

# Pista: chisq.test() o prop.test()

🧩 Exercici 3.3
Compara l’edat mitjana entre nivells de complexitat. Fes servir un ANOVA si s’escau, o un test no paramètric si cal.

# Pista: aov(), kruskal.test(), boxplot per veure la forma

🧩 Exercici 3.4
Hi ha associació entre el sexe i el recurs utilitzat? Fes una taula creuada i aplica el test adequat.

# Pista: table() + chisq.test()

🧾 4. Conclusions generals i informe

Ara que has fet un recorregut complet des de la neteja fins a la inferència estadística, pots sintetitzar el que has trobat.


🧩 Exercici 4.1
Resumeix en 3 o 4 frases els patrons principals que has observat a les dades. Pensa en edat, sexe, ús de recursos i resultats clínics (ingrés, alta…).


🧩 Exercici 4.2
Hi ha alguna diferència rellevant entre grups (per exemple, segons prioritat o complexitat) que pugui tenir implicacions operatives o d’organització?


🧩 Exercici 4.3
Proposa una variable addicional que hauria estat útil tenir en aquest estudi per comprendre millor els resultats. Justifica per què.


🧩 Exercici 4.4
Redacta un breu informe (5–7 línies) com si haguessis de presentar-ho a la direcció mèdica o a l’equip gestor. Explica què s’ha analitzat, què s’ha observat i què recomanaries revisar.

Pots redactar-ho en format lliure, o bé escriure-ho en una cel·la de codi com a comentari, per exemple:

# Informe:
# S’han analitzat 800 episodis hospitalaris...
# La mitjana d’edat dels pacients és de...
# Els homes tendeixen a utilitzar més el recurs X...
# Recomanem revisar el circuit de priorització en els casos Y...

Amb això completes l’exercici final.
guardal amb el teu nom per revisar-lo despres.