knitr::opts_chunk$set(results="hold",fig.show="hold",message = FALSE, warming=FALSE)

Estimació per interval

Al Campus Virtual hi trobareu el fitxer “lung.csv”, amb informació sobre la presència o absència de càncer de pulmó i determinades característiques individuals d’una mostra formada per 150 persones. Es disposen la següents variables nid (identificador de l’individu), cancer (presència o abs+encia de cancer), ed (edat), tabac (consum diari de tabac) i gse10072 (expressió del gen GES10072).

Primer carreguem el paquet que anem a utilizar (previament descarregat) i descarregam les dades.

library(EnvStats)
dades<-read.csv("lung.csv",sep=" ")

Exercici 1

Troba un inteval de confiança del 90% per la mitjana d’edat.

t.test(dades$ed,conf.level = 0.9)
## 
##  One Sample t-test
## 
## data:  dades$ed
## t = 83.809, df = 149, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 90 percent confidence interval:
##  69.25800 72.04866
## sample estimates:
## mean of x 
##  70.65333

L’interval obtingut és (69.258,72.04866).

• Classifiqueu els individus en menors de 65 (inclòs 65) / majors de 65. Amb una confiança del 95%, hi ha diferències significatives entre la proporció de persones amb càncer en ambdós grups?

majors<-subset.data.frame(dades,dades$ed>65)
menors<-subset.data.frame(dades,dades$ed<=65)
binom.test(sum(majors$cancer==1),length(majors$cancer),conf.level = 0.95)
binom.test(sum(menors$cancer==1),length(menors$cancer),conf.level = 0.95)
## 
##  Exact binomial test
## 
## data:  sum(majors$cancer == 1) and length(majors$cancer)
## number of successes = 22, number of trials = 92, p-value = 5.348e-07
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.1563323 0.3393632
## sample estimates:
## probability of success 
##              0.2391304 
## 
## 
##  Exact binomial test
## 
## data:  sum(menors$cancer == 1) and length(menors$cancer)
## number of successes = 16, number of trials = 58, p-value = 0.0008618
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.1666250 0.4089636
## sample estimates:
## probability of success 
##              0.2758621

L’inteval pels majors de 65 anys és (0.1563323,0.3393632) i pels menors de 65 anys: (0.1666250,0.4089636). No hi ha diferències significatives, ja que el primer interval està inclós al segon i per tant no podem dir que un sigui superior o inferior a l’altre, és a dir, no hi ha diferències significarives. Podrien arribar a ser iguals.

• Si amb una confiança del 95% no podem detectar diferències significatives entre els dos grups, és possible que amb una confiança del 99% ho detectem? Perquè?

No, perquè els intervals es faràn majors, i com no hi ha diferències significatives al fer-los més grans tampoc (es seguiràn solapant).

Exercici 2

Amb una confiança del 95%, hi ha diferències significatives entre el consum mitjà de tabac entre els individus amb i sense càncer de pulmó? I amb una confiança del 99%?

sans<-subset.data.frame(dades,dades$cancer==0)
mal<-subset.data.frame(dades,dades$cancer==1)
t.test(sans$tabac,conf.level = 0.95)
t.test(mal$tabac,conf.level = 0.95)
t.test(sans$tabac,conf.level = 0.99)
t.test(mal$tabac,conf.level = 0.99)
## 
##  One Sample t-test
## 
## data:  sans$tabac
## t = 9.5191, df = 111, p-value = 4.592e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##   7.685017 11.725697
## sample estimates:
## mean of x 
##  9.705357 
## 
## 
##  One Sample t-test
## 
## data:  mal$tabac
## t = 16.997, df = 37, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  16.48004 20.94101
## sample estimates:
## mean of x 
##  18.71053 
## 
## 
##  One Sample t-test
## 
## data:  sans$tabac
## t = 9.5191, df = 111, p-value = 4.592e-16
## alternative hypothesis: true mean is not equal to 0
## 99 percent confidence interval:
##   7.033226 12.377488
## sample estimates:
## mean of x 
##  9.705357 
## 
## 
##  One Sample t-test
## 
## data:  mal$tabac
## t = 16.997, df = 37, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 99 percent confidence interval:
##  15.72133 21.69972
## sample estimates:
## mean of x 
##  18.71053

Amb un 95% de confiança, si hi ha diferències significatives,la gent que té càncer de pulmó té una mitjana de consum de tabac significativament més gran que la gent que no té càncer.

Amb un 99% de confiança, si hi ha diferències significatives més notables que en l’interval anterior,la gent que té càncer de pulmó té una mitjana de consum de tabac significativament més gran.

Exercici 3

Construïu un interval de confiança del 90% per a l’expressió mitjana del gen GSE10072 en les persones amb i sense càncer de pulmó. Diríeu que l’expressió d’aquest gen és significativament diferent entre els dos grups (amb aquest nivell de confiança)? Perquè?

t.test(sans$gse10072,conf.level = 0.9)
t.test(mal$gse10072,conf.level = 0.9)
## 
##  One Sample t-test
## 
## data:  sans$gse10072
## t = -0.86391, df = 111, p-value = 0.3895
## alternative hypothesis: true mean is not equal to 0
## 90 percent confidence interval:
##  -0.26484350  0.08344341
## sample estimates:
##   mean of x 
## -0.09070004 
## 
## 
##  One Sample t-test
## 
## data:  mal$gse10072
## t = 4.465, df = 37, p-value = 7.263e-05
## alternative hypothesis: true mean is not equal to 0
## 90 percent confidence interval:
##  2.269518 5.026213
## sample estimates:
## mean of x 
##  3.647865

De mitjana, el gen GSE10072 és menys present significativament a les persones sanes que a les persones malaltes de càncer de pulmó.

Exercici 4

És la variància de l’expressió del gen GSE10072 significativament més gran entre els individus que tenen càncer de pulmó? (α = 0.05).

varTest(mal$gse10072,conf.level = 0.95)$conf.int
varTest(sans$gse10072,conf.level = 0.95)$conf.int
var.test(mal$gse10072,sans$gse10072,conf.level = 0.95,alternative = "greater")
##      LCL      UCL 
## 16.85851 42.45430 
## attr(,"conf.level")
## [1] 0.95
##       LCL       UCL 
## 0.9646815 1.6364920 
## attr(,"conf.level")
## [1] 0.95
## 
##  F test to compare two variances
## 
## data:  mal$gse10072 and sans$gse10072
## F = 20.546, num df = 37, denom df = 111, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is greater than 1
## 95 percent confidence interval:
##  13.5338     Inf
## sample estimates:
## ratio of variances 
##           20.54588

Veiem que a l’interval de la variància del gen en la gent sana és menor significativament que la de la gent malalta. També ho veiem al test de contastos, acceptem la nostra hipòtesis alternativa. \(\dfrac{\sigma_{malalts}}{\sigma_{sans}}>1\) Com veiem a l’interval que comença en 13.5338 i va fins l’infinit, per tant la variancia dels malalts és major que la variancia del gen dintre de la gent sana.