Nota: Aquest document inclou els codis, però no els comentaris que hi hauria d’haver a la solució per lliurar, a la vegada que inclou codis que no calen a la solució.

Classe

Llegim les dades del fitxer (per importar-les heu d’anar a Import Dataset -> From Text (base) i canviar la separació per defecte de tab a whitespace) i anem contestant aquestes preguntes amb els contrastos que siguin necessaris. Recordeu sempre de plantejar les hipòtesis, realitzar el contrast i sobretot donar resposta a la pregunta plantejada justificant-la a partir dels resultats obtinguts.

dades <- 
  read.table("~/DADES\\pere\\upf\\estadística polítiques\\seminari 3/bank.txt",   
             header =TRUE)
  1. Podem dir que hi ha relació entre el Sexe i la Categoria laboral?
table(dades$SEX, dades$JOBCAT)
##    
##      1  2  3  4  5
##   0 10  6  8 15 12
##   1 25 24  0  0  0
# Gràficament
mosaicplot(table(dades$JOBCAT,dades$SEX), color = rainbow(2))

# Per comparar: si no hi hagués relació:
mosaicplot(outer(table(dades$JOBCAT), table(dades$SEX)), color = rainbow(2))

# Amb un contrast
chisq.test(table(dades$SEX, dades$JOBCAT))
## Warning in chisq.test(table(dades$SEX, dades$JOBCAT)): Chi-squared
## approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  table(dades$SEX, dades$JOBCAT)
## X-squared = 52.209, df = 4, p-value = 1.247e-10
  1. Podem dir que la variable JOBCAT té la mateixa distribució en totes les categories? Seria més adequat dir que la proporció és de 6:6:2:3:3?
# Mirem la distribució
table(dades$JOBCAT)
## 
##  1  2  3  4  5 
## 35 30  8 15 12
barplot(table(dades$JOBCAT))

# Totes igual
# És comparar amb:
barplot(rep(1,5))

# Amb contrast:
chisq.test(table(dades$JOBCAT))
## 
##  Chi-squared test for given probabilities
## 
## data:  table(dades$JOBCAT)
## X-squared = 27.9, df = 4, p-value = 1.307e-05
# És comparar amb:
barplot(c(6, 6, 2, 3, 3))

# Amb contrast:
chisq.test(table(dades$JOBCAT), 
           p=c(6, 6, 2, 3, 3)/sum(c(6, 6, 2, 3, 3)))
## 
##  Chi-squared test for given probabilities
## 
## data:  table(dades$JOBCAT)
## X-squared = 1.8333, df = 4, p-value = 0.7664
  1. Calcula un interval de confiança per la proporció de dones? Podem dir que hi ha igualtat entre els dos sexes?
# estimant la dispersió de la població a partir de la proporció mostral
mean(dades$SEX)+
  c(-1,1)*qnorm(.975)*
  sqrt(mean(dades$SEX)*(1-mean(dades$SEX))/length(dades$SEX))
## [1] 0.3920214 0.5879786
# màxima indeterminació
mean(dades$SEX)+
  c(-1,1)*qnorm(.975)*
  sqrt(.5^2/length(dades$SEX))
## [1] 0.3920018 0.5879982
# mètode alternatiu que fa R
prop.test(table(dades$SEX))
## 
##  1-sample proportions test with continuity correction
## 
## data:  table(dades$SEX), null probability 0.5
## X-squared = 0.01, df = 1, p-value = 0.9203
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4086512 0.6105719
## sample estimates:
##    p 
## 0.51
  1. Amb una confiança del 95% calcular un interval de confiança de la mitjana de la variable AGE. Si ara la confiança és del 87% quin interval obtens? És més gran o més petit? És el que t’esperaves? I si la confiança és del 98%?
t.test(dades$AGE, conf.level = .95)$conf.int
## [1] 35.97369 40.81551
## attr(,"conf.level")
## [1] 0.95
t.test(dades$AGE, conf.level = .87)$conf.int
## [1] 36.53178 40.25742
## attr(,"conf.level")
## [1] 0.87
t.test(dades$AGE, conf.level = .98)$conf.int
## [1] 35.50958 41.27962
## attr(,"conf.level")
## [1] 0.98

Lliurament

Utilitzeu les dades del fitxer BANK.txt per contestar aquestes preguntes en forma d’informe amb els resultats que cregueu necessaris. L’informe no pot ocupar més de 2 pàgines.

  1. Podem dir que hi ha relació entre la variable Race i la Categoria laboral?
chisq.test(dades$SEX, dades$JOBCAT)
## Warning in chisq.test(dades$SEX, dades$JOBCAT): Chi-squared approximation
## may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  dades$SEX and dades$JOBCAT
## X-squared = 52.209, df = 4, p-value = 1.247e-10
chisq.test(dades$SEX, dades$JOBCAT)$observed
## Warning in chisq.test(dades$SEX, dades$JOBCAT): Chi-squared approximation
## may be incorrect
##          dades$JOBCAT
## dades$SEX  1  2  3  4  5
##         0 10  6  8 15 12
##         1 25 24  0  0  0
chisq.test(dades$SEX, dades$JOBCAT)$expected
## Warning in chisq.test(dades$SEX, dades$JOBCAT): Chi-squared approximation
## may be incorrect
##          dades$JOBCAT
## dades$SEX     1    2    3    4    5
##         0 17.85 15.3 4.08 7.65 6.12
##         1 17.15 14.7 3.92 7.35 5.88
chisq.test(dades$SEX, dades$JOBCAT)$residuals
## Warning in chisq.test(dades$SEX, dades$JOBCAT): Chi-squared approximation
## may be incorrect
##          dades$JOBCAT
## dades$SEX         1         2         3         4         5
##         0 -1.858021 -2.377591  1.940689  2.657398  2.376849
##         1  1.895560  2.425628 -1.979899 -2.711088 -2.424871
  1. Amb una confiança del 95% calcular un interval de confiança de la mitjana de la variable LOGSALNOW. Tria la confiança necessària (la que creguis convenient) per obtenir un interval de confiança més gran?
t.test(dades$LSALNOW)
## 
##  One Sample t-test
## 
## data:  dades$LSALNOW
## t = 212.15, df = 99, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  9.393957 9.571339
## sample estimates:
## mean of x 
##  9.482648
t.test(dades$LSALNOW,conf.level=0.98)
## 
##  One Sample t-test
## 
## data:  dades$LSALNOW
## t = 212.15, df = 99, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 98 percent confidence interval:
##  9.376955 9.588341
## sample estimates:
## mean of x 
##  9.482648
  1. Calcula un interval de confiança per la proporció de no-blancs? Podem dir que hi ha igualtat entre les dos categories?
n <- length(dades$RACE)
p <- sum(dades$RACE)/n
p+c(qnorm(0.025),qnorm(0.975))*sqrt(p*(1-p)/n)
## [1] 0.1740293 0.3459707
(z <- (p-.5)/sqrt(p*(1-p)/n))
## [1] -5.471529
(pvalor <- 2*pnorm(abs(z), lower.tail = FALSE))
## [1] 4.461692e-08