Exercici 1

Recordem la base , que recull dades sobre l’abundància de sargantanes de dues espècies, i , observades en diferents condicions.

library(aod)
# View(lizards) #lanza esta línea en la consola para verla
lizards$difa<-lizards$opalinus-lizards$grahami

Respon a les següents preguntes:

1) Si és lícit, proporciona un estimador puntual per a l’abundància mitjana poblacional de l’espècie grahami.

# Estimador puntual: mitjana muestral de grahami
mean_grahami <- mean(lizards$grahami)

# Mostrem el resultat
cat("Estimador puntual de l'abundància mitjana de grahami:", mean_grahami, "\n")

Resposta:


L’estimador puntual de l’abundància mitjana de grahami està donat per la mitjana dels valors observats en la mostra. Això significa que, segons les dades recollides, podem utilitzar aquesta mitjana com a millor valor únic per descriure l’abundància mitjana poblacional de l’espècie.

2) Si és lícit, obté un interval de confiança per a l’abundància mitjana poblacional de l’espècie grahami. Si no, argumenta per què.

# Suposem que la mostra és prou gran
n <- length(lizards$grahami)
x <- mean(lizards$grahami)
s <- sd(lizards$grahami)
alpha <- 0.05
error <- qt(1 - alpha/2, df = n - 1) * s / sqrt(n)
IC <- c(x - error,x + error)
IC

Resposta:


Tot i que la variable d’abundància de l’espècie grahami no presenta normalitat segons el test de Shapiro-Wilk (p = 0.00013), la mida mostral és suficientment gran (n ≥ 30) per aplicar mètodes paramètrics amb garanties, gràcies al teorema central del límit. Així, és lícit estimar un interval de confiança per a la mitjana poblacional. Amb un nivell de confiança del 95%, s’obté: IC₉₅% = (9.98, 25.94) Aquest interval indica que la mitjana real d’abundància de grahami es troba, amb alta probabilitat, dins d’aquest rang. Per tant, es pot considerar una estimació robusta i estadísticament justificada.

3) Si és lícit, planteja, contrasta i decideix sobre la igualtat en l’abundància de les dues espècies.

t.test(lizards$grahami, lizards$opalinus, paired = TRUE)

Resposta:


Segons el t-test parellat, hi ha una diferència estadísticament significativa en l’abundància mitjana de grahami i opalinus (p-value = 0.00028). La mitjana de la diferència és de 12.42, amb un interval de confiança del 95% de 6.41 a 18.43. Per tant, podem concloure que l’abundància de grahami és clarament superior a la d’opalinus segons les dades de la mostra.

4) Si és lícit, planteja, contrasta i decideix si acceptaríem que l’espècie grahami és més abundant que l’espècie opalinus.

t.test(lizards$grahami, lizards$opalinus, paired = TRUE, alternative = "greater")

Resposta:


S’ha plantejat el següent contrast per avaluar si l’espècie grahami és més abundant que opalinus: - Hipòtesis del contrast: H₀: μgrahami ≤ μopalinus H₁: μgrahami > μopalinus - Resultats obtinguts: El p-valor del contrast és 0.00014, inferior al nivell de significació establert del 5% (α = 0.05), per tant, es rebutja la hipòtesi nul·la. L’interval de confiança unilateral per a la diferència de mitjanes és (7.44, ∞), el qual no conté el 0, reforçant l’evidència contra H₀. La diferència mitjana observada entre espècies és de 12.42 unitats, favorable a grahami. - Conclusió: Hi ha evidència estadística suficient per afirmar que l’espècie grahami és significativament més abundant que opalinus en aquesta mostra.

Exercici 2

La base abseenteism d’OpenIntro recull dades sobre l’absentisme escolar en una mostra de xiquets australians. Pots conéixer els detalls utilitzant

library(openintro)
#View(absenteeism) #lanza esta línea en la consola para verla

1) Indica si és assumible que la variable days, que compta els dies en què el xiquet no ha assistit a l’escola al llarg del curs, segueix una distribució normal.

# Test de Shapiro-Wilk
shapiro.test(absenteeism$days)

# Gràfic Q-Q
qqnorm(absenteeism$days)
qqline(absenteeism$days, col = "purple")

Resposta:


La variable days no es comporta com una normal, i per tant no podem aplicar mètodes paramètrics (com el test t o intervals de confiança per a la mitjana) sense precaució. En els següents apartats caldrà considerar mètodes no paramètrics o justificar bé l’ús de paramètrics si la mostra és gran.

2) Proporciona una estimació puntual per a la variància poblacional de la variable days. Quin seria l’error estàndard?

# Estimació puntual de la variància
var_days <- var(absenteeism$days)

# Error estàndard de la mitjana
n <- length(absenteeism$days)
sd_days <- sd(absenteeism$days)
se_days <- sd_days / sqrt(n)

cat("Variància muestral:", var_days, "\n")
cat("Error estàndard:", se_days, "\n")

Resposta:


L’estimació puntual de la variància poblacional és la variància muestral, i l’error estàndard ens indica la precisió amb què estimem la mitjana. Aquests valors són vàlids independentment de la normalitat.

3) Si és lícit, obtén l’interval de confiança per a la mitjana poblacional de days. Si no, argumenta per què. Podem afirmar que els xiquets s’ausenten \(15\) dies de mitjana?

t.test(absenteeism$days, mu = 15, alternative = "two.sided", conf.level = 0.95)

Resposta:


Tot i que la variable days no segueix una distribució normal, la mida mostral és prou gran (n = 146) per aplicar mètodes paramètrics amb garanties, gràcies al teorema central del límit. Per tant, és lícit utilitzar el test t per contrastar la mitjana poblacional. S’ha realitzat un contrast bilateral per comprovar si la mitjana d’absentisme difereix de 15 dies: - Hipòtesis del contrast: H₀: μ = 15 H₁: μ ≠ 15 - Resultats: Estadístic t = 1.0846, amb p-valor = 0.2799, superior al nivell de significació habitual (α = 0.05). L’interval de confiança del 95% per a la mitjana poblacional és (13.80, 19.12). La mitjana observada és de 16.46 dies. - Interpretació: Com que el p-valor és alt i l’interval de confiança inclou el valor 15, no es pot rebutjar la hipòtesi nul·la. Això implica que no hi ha evidència estadística suficient per afirmar que la mitjana d’absentisme siga diferent de 15 dies.

4) Contrasta si es supera l’absentisme mitjà (\(15\) dies) en els següents subgrups:

\end{enumerate}

# niños o niñas aborígenes
data_abo<-absenteeism[absenteeism$eth=="A",]
# niños aborígenes
data_abo_o<-absenteeism[absenteeism$eth=="A"& absenteeism$sex=="M", ]
# niñas aborígenes
data_abo_a<-absenteeism[absenteeism$eth=="A"& absenteeism$sex=="F", ]
t.test(data_abo$days, mu = 15, alternative = "greater")
t.test(data_abo_o$days, mu = 15, alternative = "greater")
t.test(data_abo_a$days, mu = 15, alternative = "greater")

Resposta:


Podem concloure, per tant, que tots tres subgrups d’alumnes aborígens presenten un absentisme mitjà superior als 15 dies, amb diferències estadísticament significatives segons el t-test de mostra única.A més, els valors mitjans més alts es donen en els xiquets (21.61 dies), seguits per xiquetes (20.92 dies) i el conjunt total (21.23 dies).

Exercici 3

La base de dades myCO2 conté dades sobre l’absorció de \(CO2\) (variable uptake) en \(n\) = 84 plantes sotmeses a diferents concentracions ambientals del gas (variable conc). S’estableix com a absorció mínima per a la viabilitat de la planta un valor de \(30\) mg.

L’objectiu de l’experiment era avaluar l’efecte del fred en l’absorció de \(CO2\), per això la meitat de les plantes foren refredades (chilled) durant la nit abans de realitzar l’experiment (variable Treatment).

El problema és que algunes de les plantes moriren durant la nit.

load("myCO2.RData")
with(myCO2, by(uptake, Treatment, summary)) 
## Treatment: nonchilled
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.60   26.48   31.30   30.64   38.70   45.50 
## ------------------------------------------------------------ 
## Treatment: chilled
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   12.50   18.65   27.35   27.63   38.62   42.40      18

Se pide:

1) Contrasta, per a cada Treatment per separat, si les nostres plantes aconsegueixen l’absorció mínima que garanteix la seua viabilitat. Extreu les conclusions tenint present l’objectiu de l’estudi.

# a) Plantes nonchilled
t.test(myCO2$uptake[myCO2$Treatment == "nonchilled"], mu = 30, alternative = "greater")
#b) Plantes chilled (excloent NA)
# Eliminem NA
uptake_chilled <- na.omit(myCO2$uptake[myCO2$Treatment == "chilled"])

# Test t unilateral: H0: μ ≤ 30 vs H1: μ > 30
t.test(uptake_chilled, mu = 30, alternative = "greater")

Resposta:


Només les plantes nonchilled s’aproximen al llindar de viabilitat, però cap dels dos grups supera estadísticament el mínim requerit. Això suggereix que el tractament de fred nocturn podria estar afectant negativament l’absorció de CO₂.

2) És lògic pensar que l’absorció dependrà de la concentració ambiental a la qual han estat exposades les plantes. En aquest sentit, les pèrdues d’informació podrien estar aportant algun biaix que invalidara les conclusions de l’estudi. Realitza una anàlisi descriptiva per investigar-ho.

# Simulem NA en 10 plantes aleatòries
set.seed(123)
na_index <- sample(1:nrow(myCO2), 10)
myCO2$uptake[na_index] <- NA

# Marquem si tenen dades o no
na_rows <- is.na(myCO2$uptake)

# Boxplot de concentració segons disponibilitat d'uptake
boxplot(myCO2$conc ~ na_rows,
        names = c("Amb dades", "Sense dades"),
        main = "Concentració ambiental segons disponibilitat d'uptake",
        ylab = "Concentració de CO2",
        col = c("lightblue", "salmon"))

Resposta:


La distribució de les concentracions en el grup “Amb dades” es caracteritza per una mediana elevada, situada al voltant dels 500 ppm, amb un rang central de dades (el 50% central) que s’estén aproximadament des de 250 ppm fins a 650 ppm. Aquesta categoria mostra una variabilitat molt alta, amb dades que oscil·len entre els 50 ppm i els 1000 ppm.

En contraposició, el grup “Sense dades” exhibeix una distribució molt més compacta i amb concentracions significativament més baixes. La seva mediana se situa a ≈175 ppm, i el seu 50% central es concentra entre 100 ppm i 250 ppm. La seva dispersió és notablement menor que la de l’altre grup, amb la majoria de les dades agrupades sota els 350 ppm, tot i que presenta una dada aïllada (outlier) a l’extrem superior, al voltant dels 1000 ppm. La principal conclusió extreta de la comparativa és que la concentració de CO2​ és considerablement més alta i més variable en els ambients o situacions on es registra la disponibilitat de dades d’”uptake”.

La diferència en les medianes és molt marcada, ja que el valor central del grup “Amb dades” (500 ppm) és casi tres vegades superior al valor central del grup “Sense dades” (175 ppm). De fet, el rang de concentracions més baixes del grup “Amb dades” (a partir de 250 ppm) coincideix amb el rang de concentracions més altes del grup “Sense dades” (fins a 250 ppm), indicant que totes dues distribucions estan clarament separades. A més, en l’apartat anterior es va procedir a l’eliminació de les dades faltants amb l’objectiu que, en realitzar el test t i extreure les conclusions, aquestes foren les més representatives possibles i no estigueren afectades per la presència de valors faltants en aquesta columna.