Nota: Aquest document inclou els codis, però no els comentaris que hi hauria d’haver a la solució per lliurar, a la vegada que inclou codis que no calen a la solució.
Llegim les dades del fitxer (per importar-les heu d’anar a Import Dataset -> From Text (base) i canviar la separació per defecte de tab a whitespace) i anem contestant aquestes preguntes amb els contrastos que siguin necessaris. Recordeu sempre de plantejar les hipòtesis, realitzar el contrast i sobretot donar resposta a la pregunta plantejada justificant-la a partir dels resultats obtinguts.
dades <-
read.table("~/DADES\\pere\\upf\\estadística polítiques\\seminari 3/bank.txt",
header =TRUE)
table(dades$SEX, dades$JOBCAT)
##
## 1 2 3 4 5
## 0 10 6 8 15 12
## 1 25 24 0 0 0
# Gràficament
mosaicplot(table(dades$JOBCAT,dades$SEX), color = rainbow(2))
# Per comparar: si no hi hagués relació:
mosaicplot(outer(table(dades$JOBCAT), table(dades$SEX)), color = rainbow(2))
# Amb un contrast
chisq.test(table(dades$SEX, dades$JOBCAT))
## Warning in chisq.test(table(dades$SEX, dades$JOBCAT)): Chi-squared
## approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: table(dades$SEX, dades$JOBCAT)
## X-squared = 52.209, df = 4, p-value = 1.247e-10
# Mirem la distribució
table(dades$JOBCAT)
##
## 1 2 3 4 5
## 35 30 8 15 12
barplot(table(dades$JOBCAT))
# Totes igual
# És comparar amb:
barplot(rep(1,5))
# Amb contrast:
chisq.test(table(dades$JOBCAT))
##
## Chi-squared test for given probabilities
##
## data: table(dades$JOBCAT)
## X-squared = 27.9, df = 4, p-value = 1.307e-05
# És comparar amb:
barplot(c(6, 6, 2, 3, 3))
# Amb contrast:
chisq.test(table(dades$JOBCAT),
p=c(6, 6, 2, 3, 3)/sum(c(6, 6, 2, 3, 3)))
##
## Chi-squared test for given probabilities
##
## data: table(dades$JOBCAT)
## X-squared = 1.8333, df = 4, p-value = 0.7664
# estimant la dispersió de la població a partir de la proporció mostral
mean(dades$SEX)+
c(-1,1)*qnorm(.975)*
sqrt(mean(dades$SEX)*(1-mean(dades$SEX))/length(dades$SEX))
## [1] 0.3920214 0.5879786
# màxima indeterminació
mean(dades$SEX)+
c(-1,1)*qnorm(.975)*
sqrt(.5^2/length(dades$SEX))
## [1] 0.3920018 0.5879982
# mètode alternatiu que fa R
prop.test(table(dades$SEX))
##
## 1-sample proportions test with continuity correction
##
## data: table(dades$SEX), null probability 0.5
## X-squared = 0.01, df = 1, p-value = 0.9203
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4086512 0.6105719
## sample estimates:
## p
## 0.51
t.test(dades$AGE, conf.level = .95)$conf.int
## [1] 35.97369 40.81551
## attr(,"conf.level")
## [1] 0.95
t.test(dades$AGE, conf.level = .87)$conf.int
## [1] 36.53178 40.25742
## attr(,"conf.level")
## [1] 0.87
t.test(dades$AGE, conf.level = .98)$conf.int
## [1] 35.50958 41.27962
## attr(,"conf.level")
## [1] 0.98
Utilitzeu les dades del fitxer BANK.txt per contestar aquestes preguntes en forma d’informe amb els resultats que cregueu necessaris. L’informe no pot ocupar més de 2 pàgines.
chisq.test(dades$SEX, dades$JOBCAT)
## Warning in chisq.test(dades$SEX, dades$JOBCAT): Chi-squared approximation
## may be incorrect
##
## Pearson's Chi-squared test
##
## data: dades$SEX and dades$JOBCAT
## X-squared = 52.209, df = 4, p-value = 1.247e-10
chisq.test(dades$SEX, dades$JOBCAT)$observed
## Warning in chisq.test(dades$SEX, dades$JOBCAT): Chi-squared approximation
## may be incorrect
## dades$JOBCAT
## dades$SEX 1 2 3 4 5
## 0 10 6 8 15 12
## 1 25 24 0 0 0
chisq.test(dades$SEX, dades$JOBCAT)$expected
## Warning in chisq.test(dades$SEX, dades$JOBCAT): Chi-squared approximation
## may be incorrect
## dades$JOBCAT
## dades$SEX 1 2 3 4 5
## 0 17.85 15.3 4.08 7.65 6.12
## 1 17.15 14.7 3.92 7.35 5.88
chisq.test(dades$SEX, dades$JOBCAT)$residuals
## Warning in chisq.test(dades$SEX, dades$JOBCAT): Chi-squared approximation
## may be incorrect
## dades$JOBCAT
## dades$SEX 1 2 3 4 5
## 0 -1.858021 -2.377591 1.940689 2.657398 2.376849
## 1 1.895560 2.425628 -1.979899 -2.711088 -2.424871
t.test(dades$LSALNOW)
##
## One Sample t-test
##
## data: dades$LSALNOW
## t = 212.15, df = 99, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 9.393957 9.571339
## sample estimates:
## mean of x
## 9.482648
t.test(dades$LSALNOW,conf.level=0.98)
##
## One Sample t-test
##
## data: dades$LSALNOW
## t = 212.15, df = 99, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 98 percent confidence interval:
## 9.376955 9.588341
## sample estimates:
## mean of x
## 9.482648
n <- length(dades$RACE)
p <- sum(dades$RACE)/n
p+c(qnorm(0.025),qnorm(0.975))*sqrt(p*(1-p)/n)
## [1] 0.1740293 0.3459707
(z <- (p-.5)/sqrt(p*(1-p)/n))
## [1] -5.471529
(pvalor <- 2*pnorm(abs(z), lower.tail = FALSE))
## [1] 4.461692e-08