knitr::opts_chunk$set(results="hold",fig.show="hold",message = FALSE, warming=FALSE)
Carrega de les dades:
dades<-read.csv("lung.csv",sep=" ")
library(EnvStats);library(ggplot2)
Amb una confiança del 90%, hi ha evidència que la mitjana d’edat dels individus amb càncer és superior? Fes un contrast d’hipòtesi que permeti respondre aquesta qüestió. Quina mida mostral seria necessària per trobar diferències significatives amb aquest nivell de confiança? \(H_1: \mu_{sans}>=\mu_{malalts}\) \(H_1: \mu_{sans}<\mu_{malalts}\)
sans<-subset.data.frame(dades,dades$cancer==0)
mal<-subset.data.frame(dades,dades$cancer==1)
t.test(sans$ed,mu=mean(mal$ed),conf.level=0.9,alternative="less")
##
## One Sample t-test
##
## data: sans$ed
## t = -0.66718, df = 111, p-value = 0.253
## alternative hypothesis: true mean is less than 71.13158
## 90 percent confidence interval:
## -Inf 71.72876
## sample estimates:
## mean of x
## 70.49107
Veiem que el p-valor és més gran que \(\alpha\) per tant, no tenim prous motius per rebutjar \(H_0\). Així, diem que la mitjana d’edat no és significativament diferents pels grups.
Classifiqueu els individus en menors de 65 (inclòs 65) / majors de 65. Amb una confiança del 95%, hi ha diferències significatives entre la proporció de persones amb càncer en ambdós grups d’edat? Feu el contrast d’hipòtesi que permeti respondre aquesta pregunta.
\(H_1: \pi_{menors}=\pi_{majors}\) \(H_1: \pi_{menors}\neq \pi_{majors}\)
menors<-subset.data.frame(dades,dades$ed<=65)
majors<-subset.data.frame(dades,dades$ed>65)
p<-sum(majors$cancer==1)/length(majors$cancer)
prop.test(x=sum(menors$cancer==1),n=length(menors$cancer),p=p,conf.level = 0.95,alternative = "two.sided")
##
## 1-sample proportions test with continuity correction
##
## data: sum(menors$cancer == 1) out of length(menors$cancer), null probability p
## X-squared = 0.2519, df = 1, p-value = 0.6157
## alternative hypothesis: true p is not equal to 0.2391304
## 95 percent confidence interval:
## 0.1704651 0.4111109
## sample estimates:
## p
## 0.2758621
Veiem que el p-valor és més gran que \(\alpha\) per tant, no tenim prous motius per rebutjar \(H_0\). Així, diem que la proporció de cancer no és significativament diferents pels grups d’edat.
Si en el contrast anterior, amb una confiança del 95% no detectem diferències en la proporció de càncer entre els dos grups d’edat, és possible que amb una confiança del 90% ho detectem? Perquè?
Si, perquè tenim més error en equivocar-nos, per tant la regió crítica serà més gran.
prop.test(x=sum(menors$cancer==1),n=length(menors$cancer),p=p,conf.level = 0.9,alternative = "two.sided")
##
## 1-sample proportions test with continuity correction
##
## data: sum(menors$cancer == 1) out of length(menors$cancer), null probability p
## X-squared = 0.2519, df = 1, p-value = 0.6157
## alternative hypothesis: true p is not equal to 0.2391304
## 90 percent confidence interval:
## 0.1836197 0.3898181
## sample estimates:
## p
## 0.2758621
Amb una confiança del 95%, hi ha diferències significatives entre el consum mitjà de tabac entre els individus amb i sense càncer de pulmó? I amb una confiança del 99%? Feu el(s) contrast(os) d’hipòtesi(s) que permeti(n) respondre aquesta pregunta.
\(H_0:\mu_{sans}=\mu_{malalts}\) \(H_1:\mu:{sans}\neq \mu_{malalts}\)
t.test(sans$tabac,mu=mean(mal$tabac),conf.level=0.95,alternative="two.sided")
t.test(sans$tabac,mu=mean(mal$tabac),conf.level=0.99,alternative="two.sided")
##
## One Sample t-test
##
## data: sans$tabac
## t = -8.8323, df = 111, p-value = 1.72e-14
## alternative hypothesis: true mean is not equal to 18.71053
## 95 percent confidence interval:
## 7.685017 11.725697
## sample estimates:
## mean of x
## 9.705357
##
##
## One Sample t-test
##
## data: sans$tabac
## t = -8.8323, df = 111, p-value = 1.72e-14
## alternative hypothesis: true mean is not equal to 18.71053
## 99 percent confidence interval:
## 7.033226 12.377488
## sample estimates:
## mean of x
## 9.705357
En ambos casos tenim prou evidències per rebutjar \(H_0\), per tant, si hi ha diferències significatives entre el consum de tabac i les persones que pateixen o no la malaltia.
L’expressió mitjana del gen GSE10072 és significativament diferent entre els individus amb i sense càncer? (amb un nivell de confiança del 99%)? Feu el contrast d’hipòtesi que permeti respondre aquesta pregunta.
\(H_0:\mu_{sans}=\mu_{malalts}\) \(H_1:\mu:{sans}\neq \mu_{malalts}\)
t.test(sans$gse10072,mu=mean(mal$gse10072),conf.level=0.95,alternative="two.sided")
##
## One Sample t-test
##
## data: sans$gse10072
## t = -35.609, df = 111, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 3.647865
## 95 percent confidence interval:
## -0.2987409 0.1173409
## sample estimates:
## mean of x
## -0.09070004
Com que el p-valor és menor que \(\alpha\), tenim prou evidències per rebutjar \(H_0\), per tant, hi ha diferències entre la gent que pateix o no malaltia sobrel’expressió mitjana del gen.
És la variància de l’expressió del gen GSE10072 significativament més gran entre els individus que tenen càncer de pulmó? Feu el contrast d’hipòtesi que permeti respondre aquesta pregunta amb α = 0.05.
\(H_1: \sigma_{malalts}>\sigma_{sans}\)
var.test(mal$gse10072,sans$gse10072,alternative = "greater")
##
## F test to compare two variances
##
## data: mal$gse10072 and sans$gse10072
## F = 20.546, num df = 37, denom df = 111, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is greater than 1
## 95 percent confidence interval:
## 13.5338 Inf
## sample estimates:
## ratio of variances
## 20.54588
Com que el p-valor és menor que \(\alpha\), tenim prou evidències per rebutjar \(H_0\), per tant, la fluctuació del gen entre la gent que té càncer és major que entre la gent que no en té.
Classifiqueu els individus en no fumadors (tabac=0), poc fumadors (tabac>0 i tabac < 20), bastant fumadors (tabac>=20 i tabac < 30) i molt fumadors (tabac>=30). Feu l’anàlisi adequada per determinar si, amb una confiança del 95%, hi ha diferències en l’expressió mitjana del gen GSE10072 en funció del grau de tabaquisme. Assumim que les variàncies entre els grups són iguals. Si hi ha diferències, entre quins graus de tabaquisme n’hi ha?
dades$consum[dades$tabac==0]<-"no fumadors"
dades$consum[dades$tabac>0&dades$tabac<20]<-"poc fumadors"
dades$consum[dades$tabac>=20&dades$tabac<30]<-"bastant fumadors"
dades$consum[dades$tabac>=30]<-"molt fumadors"
ggplot(dades,aes(dades$consum,dades$gse10072,fill=dades$consum)) + geom_boxplot()
summary(aov(dades$gse10072~dades$consum))
oneway.test(dades$gse10072~dades$consum, var.equal = T)
pairwise.t.test(dades$gse10072, dades$consum, p.adjust.method = "bonferroni")
## Df Sum Sq Mean Sq F value Pr(>F)
## dades$consum 3 88.1 29.36 3.097 0.0288 *
## Residuals 146 1384.0 9.48
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## One-way analysis of means
##
## data: dades$gse10072 and dades$consum
## F = 3.0969, num df = 3, denom df = 146, p-value = 0.02879
##
##
## Pairwise comparisons using t tests with pooled SD
##
## data: dades$gse10072 and dades$consum
##
## bastant fumadors molt fumadors no fumadors
## molt fumadors 1.000 - -
## no fumadors 0.815 1.000 -
## poc fumadors 0.723 1.000 0.017
##
## P value adjustment method: bonferroni