Nom del(s) alumne(s)
La taula de dades diabetes del paquet faraway ens dóna un conjunt de variables de \( 403 \) americans d'origen africà.
library(faraway)
Considerem la variable weight (pes d'un individu en onzes). A partir dels tests de Kolmogorov-Smirnov-Lilliefors, Anderson-Darling, Shapiro-Francia i D'Agostino-Pearson mireu si el logaritme d'aquesta variable és normal. Per acabar feu el QQ-plot que porta el paquet car. Queden confirmades les conclusions anteriors pel QQ-plot?
Agafem-ne les dades
logweig = log(diabetes$weight)
library(nortest)
lillie.test(logweig)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: logweig
## D = 0.0396, p-value = 0.1308
Com el p-valor és gran, sembla que sí és normal segons aquest test.
ad.test(logweig)
##
## Anderson-Darling normality test
##
## data: logweig
## A = 0.5993, p-value = 0.1192
Com el p-valor és gran, sembla que sí és normal segons aquest test.
sf.test(logweig)
##
## Shapiro-Francia normality test
##
## data: logweig
## W = 0.9956, p-value = 0.2755
Com el p-valor és gran, sembla que sí és normal segons aquest test.
library(fBasics)
## Loading required package: MASS
## Loading required package: timeDate
## Loading required package: timeSeries
##
## Attaching package: 'fBasics'
##
## The following object is masked from 'package:base':
##
## norm
dagoTest(logweig)
##
## Title:
## D'Agostino Normality Test
##
## Test Results:
## STATISTIC:
## Chi2 | Omnibus: 0.3657
## Z3 | Skewness: 0.5547
## Z4 | Kurtosis: -0.2407
## P VALUE:
## Omnibus Test: 0.8329
## Skewness Test: 0.5791
## Kurtosis Test: 0.8098
##
## Description:
## Fri May 23 09:42:45 2014 by user: ricardo
Com el p-valor és gran, sembla que sí és normal segons aquest test.
A continuació, fem el QQ-plot:
library(car)
##
## Attaching package: 'car'
##
## The following object is masked from 'package:fBasics':
##
## densityPlot
##
## The following objects are masked from 'package:faraway':
##
## logit, vif
qqPlot(logweig)
Veim que tots els punts estan dins o molt propers a la regió donada per l'interval de confiança del \( 95\% \). Per tant, no ens sorprèn que tots els tests anteriors donin la mateixa conclusió.
Considerem ara les variables frame (complexitat de l'individu) i chol (nivell de colesterol). Agrupant la variable chol en tres classes, estudieu si són independents. Alerta! Si R es queixa, perquè les aproximacions siguin incorrectes, s'hi ha de posar remei tal com teniu indicat a la lliçó, sense reduir el número de classes.
Aplicam el test de la \( \chi^2 \) d'independència:
chisq.test(table(diabetes$frame, cut(diabetes$chol, 3)))
## Warning: Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: table(diabetes$frame, cut(diabetes$chol, 3))
## X-squared = 4.616, df = 4, p-value = 0.329
Observam que hi ha classes amb freqüències teòriques menors que \( 5 \). Direm que faci el contrast anterior simulant el càlcul del p-valor:
chisq.test(table(diabetes$frame, cut(diabetes$chol, 3)), simulate.p.value = TRUE,
B = 5000)
##
## Pearson's Chi-squared test with simulated p-value (based on 5000
## replicates)
##
## data: table(diabetes$frame, cut(diabetes$chol, 3))
## X-squared = 4.616, df = NA, p-value = 0.3205
Com el p-valor és gran concloem que la complexitat i el nivell de colesterol són independents.