library(psych)
pairs.panels(mtcars)
Quelles variables sont lineairements en relations Celle ui formente une ligne droire type: qsec/hp ou weight/disp
Voyez vous des relations non lineaires? oui Hp mpg semble quadratique type -x^2
si oui quelle type de coef de correlation utiliseriez vous?
Kendal_tau concordant paring ou Sperman based on rank cor
Pouqruoi ne pas utilisé Pearson dans ce cas? Pearson uniquement pour relation linaire c’est la COVXY/VARXVARY
Pourquoi un Kendall Tau prends plus de temps a etre calculer
Car il doit calculer des paires concorantes et discordants pour n=100
100(99)/2 paires de calculs
Peux ton se fier au cor test et les etoiles *** significatives?
Oui si elle sont lineaires / ici l’option de rcorr n’0est pas demandés ds options arguments
Non si elle ne le sont pas :le test est fait sur un PEARSON
Que test -il?
correlation diff de zero c’est tout
Comment voyez vous la nomralite sur ce plot?
les hist en bleu
Variable Gear est elle Normalement distribué ? Si non Why?
Pas du tout comme il y a un bar plot il s’agit d’un facteur / eventuellement mal coder (a verifier avec str data prep)
str(mtcars$gear)
## num [1:32] 4 4 4 3 3 3 3 4 4 4 ...
mtcars$gear=factor(mtcars$gear)
str(mtcars$gear)
## Factor w/ 3 levels "3","4","5": 2 2 2 1 1 1 1 2 2 2 ...
boxplot(mtcars$mpg~mtcars$gear)#comment ploter un facteur et une VD pour sa regression
Ce sont nos YHAT de l’OLS reg des moindres carrés
Y^HAT^= E [Y | Xi]
Estimates / SE / PVal
X1 =beta 2.2 / SE =10.5/ Pval=1
X2= beta 2.6 / SE 12.6 / Pval=1
Il s’agit typiquement d’une situation de COLINEARITE ;LE VIF>5-10 mesure cela un indice de colinearité (deux vecteurs variables contenant la meme info l’une etant une combinaison lineaire de l’autre dans le sous espace engendré:rends l’OLS inneficient (on dit que la model matrix n’est plus inversible et devient singulière)
LES SE du coefficient explosent
Une grande difference entre le Radj et R apparait aussi deux indice de colinarité
Pour verifier faites une **correlation entre X1 et X2 des variables concernés de ce cas ci vous trouverez 0.99 surement.>0.80 Suspect
Mefiez voius donc des grandes correlation dans pairs panel meme si elle sont significatives,…
Note : en cor test correlation significativement diff de… ZERO!!
Bien sur que non nous n’avons qu’une VI explicaticve c’est elle qui contient toute l’information et n’est pas en competition avec d’autre
cor=1 car une relation lineaire fonctionnnelle de convertissement 9/5+32 (changement d’échelle) c’est une relation mathematique parfaite de combinaison linmeairfe de l’autre et donc sans aucune nouvelle information :
Mettre dans une reg lm des F et C rendra votre model colineaire et inefficient!
Plot residu vs cook ditance (valeur critique empirique 4*p/n: Un leverage change la pente de la regression (Slope) si on enleve le sujet (i.i.d)
m1=lm(trees$Girth~trees$Height)
summary(m1)
##
## Call:
## lm(formula = trees$Girth ~ trees$Height)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.2386 -1.9205 -0.0714 2.7450 4.5384
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.18839 5.96020 -1.038 0.30772
## trees$Height 0.25575 0.07816 3.272 0.00276 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.728 on 29 degrees of freedom
## Multiple R-squared: 0.2697, Adjusted R-squared: 0.2445
## F-statistic: 10.71 on 1 and 29 DF, p-value: 0.002758
dfbeta(m1)
## (Intercept) trees$Height
## 1 -1.47970549 1.792531e-02
## 2 -1.51866381 1.908544e-02
## 3 -1.14323941 1.446730e-02
## 4 -0.50942436 5.935785e-03
## 5 1.13021306 -1.658616e-02
## 6 1.84862328 -2.626367e-02
## 7 0.22902176 -2.865314e-03
## 8 -0.19506684 1.691962e-03
## 9 0.72201499 -1.091029e-02
## 10 -0.17548811 1.522141e-03
## 11 0.43811331 -6.964878e-03
## 12 -0.06161290 4.746899e-18
## 13 -0.06161290 4.746899e-18
## 14 0.12229907 -1.498526e-03
## 15 -0.09717317 8.428563e-04
## 16 0.02656045 -2.776978e-04
## 17 1.55647016 -2.172797e-02
## 18 1.67421912 -2.323015e-02
## 19 0.62885699 -7.499064e-03
## 20 3.32868368 -4.198950e-02
## 21 -0.02303862 4.088136e-04
## 22 0.01624981 -2.455492e-04
## 23 0.28710527 -3.001775e-03
## 24 1.11445201 -1.298553e-02
## 25 -0.08714824 2.373986e-03
## 26 -0.81887683 1.201722e-02
## 27 -0.99085047 1.426677e-02
## 28 -0.82611508 1.248334e-02
## 29 -0.84888169 1.282736e-02
## 30 -0.84888169 1.282736e-02
## 31 -3.41850217 4.719853e-02
plot(m1)[4]
## NULL
hist(rstandard(m1))#Normaux??
shapiro.test(m1$residuals)#non ,malgrès le QQ PLOT
##
## Shapiro-Wilk normality test
##
## data: m1$residuals
## W = 0.92418, p-value = 0.03052
###En fait dans le QQPLOT c'est qu'il manque un polymome de fonction des Vexplicatives (QQ En Z)
maxcook=4*2/length(trees$Girth)##a verfifier tricks empirique de tete
maxcook
## [1] 0.2580645
plot(cooks.distance(m1))
abline(h=0.25,col="red",type="l")
## Warning in int_abline(a = a, b = b, h = h, v = v, untf = untf, ...): paramètre
## graphique "type" incorrect
Le terme “interaction” est donc utilisé pour décrire une situation dans laquelle l’influence d’une variable dépend de l’état de la seconde (ce qui est ce cas, lorsque les deux variables ne sont pas additives mais MULTIPLICATIVE *). Le plus souvent, les interactions apparaissent dans le contexte des analyses de régression. ###### Pour voir une intercations dans les niveau des deux facteur la liognes des moyennes doivent etre PARALLLE
interaction.plot(trees$Girth,trees$Height,trees$Volume)
##Dans ce cas pas d'intercations visibles en deux variable nbumeriques si elles existes (c'est possibles parfois entre deux variables num avec i.e taux chol et antibio on doit en faire deux facteur pour comparer la difference de moyennes)
##exemple d'un plan d'ep poulet poids et DIET
data("ChickWeight")
interaction.plot(cut(ChickWeight$Time,2),ChickWeight$Diet,ChickWeight$weight)
##Pour voir une intercations dans les niveau des deux facteur la liognes des moyennes doivent etre PARALLLE
###Ici faible intercations
Il test si le coef Beta est different de Zero ou si c’est un facteur en reference si il est different du niveau de ref
T=Beta-0/SE [HO slope is not diff from zero)
Pour pouvoir comparere sur une meme echelle des variables avec de grandes differences d’amplitude on les centre cad en leur soustrait leur moyenne puis on reduit on dicise par la sd de la varible TOUTES LES VARIABLE NUMERIQUES ONLY sont de moyenne nulle et de sd de 1
sd(scale(mtcars$mpg))
## [1] 1
mean(scale(mtcars$hp))
## [1] 1.040834e-17
sd(scale(mtcars$hp))
## [1] 1
Oui absolument car Beta true n’est jamais connu ou c’est tres rare donc un hat s’impose c’est une beta estime a partir de donnee le beta population n’est jamais connu.
Genre=Femme,Homme,Binaire
Comment se fera votre interpretation des coefficient dès lors?
R code le facteur par ordre alphabetique et en regression il l’inclue ds l’intercept cad Binaire niv de reference [o] puis Femme=1 puis Homme =2
Nos comparaison se font pas rapport a binaire donc les WALD test dans R ne peuvent jamais tester la relation Homme femme.
Que feriez vous alors pour obtenir cette p valeur homme femme?
Je recode le niveau de reference pour homme ou femme avec la fx relevel et aisni j’obtiendra le test homme femme dans une des lignes des coefficients.
No lo say ALLEZ VOIr SINON VOS INTERPRETATION PEUVENT ETRE Eronnee
En General Non comme dans un lm a moins de centrer les données NOTE: Dans un lm le 1 niveau du facteur est inclus dans l’intercept On appel cela un contraste trt.
Non mais ils existent des test (LEMESHOW) visuellement pas possible pas comme un lm
C’est la link fonction ln (po/1-p) elle permet de linearisé de moins inf a plus inf notre variable binairee ou dichotomique et donc d’en faire une combinaison lineaire comme un lm
C’est la fonction inverse de la logit (INV F) definie par 1/[1+e-sum Xbeta] elle est sigmoidal et permet de retourner dans un intervalle de probailite compris entre 0 et 1 https://fr.wikipedia.org/wiki/R%C3%A9gression_logistique
1/1+exp-XB et exp(XB)/(exp…)
c’est la même après une manip mathematique
ln(p/1-p) linearalise les parametres en ßo + ß1X1+ ß2X2 + ß 3 X1*X2
Le model est additif meme avec interaction (partie gauche de VI) et c’est une combinaison lineaire des VI dont les coefficient sont donné par la regresion (OLS en lm link fonction en Logistique)
Meme si vous rajouter un X^3 c’est tjrs lineaire mais dans les parametres Evidemment que dans vos predictions cela aura l’air du courbe:
EX: REG LINEAIRE!!! :
m2=lm(mtcars$mpg~mtcars$hp+I(mtcars$hp^3))
plot(mtcars$mpg~mtcars$hp,col="grey2",cex=0.6,main="scaterplot with prediction in red")
points(m2$fitted.values~mtcars$hp,type="p",col=2,cex=2,pch=20)
Vous vous nos predictions sont non lineaires due au X^2,3,4polynome mais lineaire dans ces parametres!!!! du genie ce Galton et sa regression
Comme mpg est numerique :
x+1 - x = en logit
ln(p1+/1-p+)-ln(p/1-p)=Beta0++Beta1+(X+1) - Beta0+Beta1(X)
avec un peu de maths on trouve
ln(p+/1-p+/ln(p-1-p))=Beta1
donc:
ln(OR)=Beta1
OR=exp(B1)###A RETENIR
OR=1.35
Supposons dans ce cas que Yi=am facteur
-0 est arriere
1 avant ( dans le codage binaire dichotmique de mtcars$am££Attention j’ai pas verifier dans la litterature des descripttions variable)..
Pour une unite de changement en plus de MPG .
l’odds ratio augmente de 1.35 entre arriere et avant et
ou de 35% de avant a arriere
ou passez de avant a arierre augment l’odds de 1.35X d’avant (niveau ref)
Pour un facteur en VI c’est le changement de niveau de facteur qui est interpèreter comme ODDS RATIO
Ici l’intercept en logistique n’a aucune interpretation physique ou causal
summary(mtcars)
## mpg cyl disp hp
## Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
## 1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
## Median :19.20 Median :6.000 Median :196.3 Median :123.0
## Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
## 3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
## Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
## drat wt qsec vs
## Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
## 1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
## Median :3.695 Median :3.325 Median :17.71 Median :0.0000
## Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
## 3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
## Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
## am gear carb
## Min. :0.0000 3:15 Min. :1.000
## 1st Qu.:0.0000 4:12 1st Qu.:2.000
## Median :0.0000 5: 5 Median :2.000
## Mean :0.4062 Mean :2.812
## 3rd Qu.:1.0000 3rd Qu.:4.000
## Max. :1.0000 Max. :8.000
mtcars$am=factor(mtcars$am)##variable dichotmique de deux niveaeu o et 1 traction avant et arriere
str(mtcars$am)###niveau zero est.....ici il faaut allet voir en anglais la signification et de AM bon exemple de factor que code R et on ne sais pas qu'elle niveau est refencé meme moi mais j'ai pas le temps de chercher
## Factor w/ 2 levels "0","1": 2 2 2 1 1 1 1 1 1 1 ...
l1=glm(am~mpg,data=mtcars,family="binomial")
summary(l1)
##
## Call:
## glm(formula = am ~ mpg, family = "binomial", data = mtcars)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.5701 -0.7531 -0.4245 0.5866 2.0617
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -6.6035 2.3514 -2.808 0.00498 **
## mpg 0.3070 0.1148 2.673 0.00751 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 43.230 on 31 degrees of freedom
## Residual deviance: 29.675 on 30 degrees of freedom
## AIC: 33.675
##
## Number of Fisher Scoring iterations: 5
confint(l1)##
## Attente de la réalisation du profilage...
## 2.5 % 97.5 %
## (Intercept) -12.3281402 -2.7717638
## mpg 0.1220088 0.5874914
##ATTENTION NOUS SOMME TJTS EN LM P/1-P
exp(l1$coefficients)
## (Intercept) mpg
## 0.001355579 1.359379288
Non la normalite de Yi n’atants pas necessaire les assumptions sont moins nombreuse On peut utiliser des VI facteur ou numerique non Normale
Non il s’agit d’un algroithmen d’iteration type NEW RAPHSON car l’integrale de la logit n’a pas de solution analytique Nous devons approcher la valeur MAX LIKELYHOOD MLE Par rapprochement
Defaut R 500
Metre dans les arguments glm(max.iter=1000)
.
COMMENT AMELIERRE CE MODEL R2adj
En lui rajouittant des variablés explicatives ou de control ?trees