QUESTION COR/REGRESSION STAT II

library(psych)
pairs.panels(mtcars)

Dans le scattered plot matrix de psch::

  • Quelles variables sont lineairements en relations Celle ui formente une ligne droire type: qsec/hp ou weight/disp

  • Voyez vous des relations non lineaires? oui Hp mpg semble quadratique type -x^2

  • si oui quelle type de coef de correlation utiliseriez vous?

    Kendal_tau concordant paring ou Sperman based on rank cor

  • Pouqruoi ne pas utilisé Pearson dans ce cas? Pearson uniquement pour relation linaire c’est la COVXY/VARXVARY

  • Pourquoi un Kendall Tau prends plus de temps a etre calculer

    Car il doit calculer des paires concorantes et discordants pour n=100

    100(99)/2 paires de calculs

  • Peux ton se fier au cor test et les etoiles *** significatives?

    Oui si elle sont lineaires / ici l’option de rcorr n’0est pas demandés ds options arguments

    Non si elle ne le sont pas :le test est fait sur un PEARSON

  • Que test -il?

    correlation diff de zero c’est tout

  • Comment voyez vous la nomralite sur ce plot?

    les hist en bleu

  • Variable Gear est elle Normalement distribué ? Si non Why?

    Pas du tout comme il y a un bar plot il s’agit d’un facteur / eventuellement mal coder (a verifier avec str data prep)

    str(mtcars$gear)
    ##  num [1:32] 4 4 4 3 3 3 3 4 4 4 ...
    mtcars$gear=factor(mtcars$gear)
    str(mtcars$gear)
    ##  Factor w/ 3 levels "3","4","5": 2 2 2 1 1 1 1 2 2 2 ...
    boxplot(mtcars$mpg~mtcars$gear)#comment ploter un facteur et une VD pour sa regression

REG LINEAIRE

Qu’est que les fitted values?

Ce sont nos YHAT de l’OLS reg des moindres carrés

Y^HAT^= E [Y | Xi]

Dans R je vous donne les coefficent suivant et leur SE commenter?

Estimates / SE / PVal

X1 =beta 2.2 / SE =10.5/ Pval=1

X2= beta 2.6 / SE 12.6 / Pval=1

Il s’agit typiquement d’une situation de COLINEARITE ;LE VIF>5-10 mesure cela un indice de colinearité (deux vecteurs variables contenant la meme info l’une etant une combinaison lineaire de l’autre dans le sous espace engendré:rends l’OLS inneficient (on dit que la model matrix n’est plus inversible et devient singulière)

LES SE du coefficient explosent

Une grande difference entre le Radj et R apparait aussi deux indice de colinarité

Pour verifier faites une **correlation entre X1 et X2 des variables concernés de ce cas ci vous trouverez 0.99 surement.>0.80 Suspect

Mefiez voius donc des grandes correlation dans pairs panel meme si elle sont significatives,…

Note : en cor test correlation significativement diff de… ZERO!!

Peux ton avoir de la colinearite dans une regression UNIVARIEE?

Bien sur que non nous n’avons qu’une VI explicaticve c’est elle qui contient toute l’information et n’est pas en competition avec d’autre

Quelle serait la correlation entre des Degres Farenheit et degré Celsiius?

cor=1 car une relation lineaire fonctionnnelle de convertissement 9/5+32 (changement d’échelle) c’est une relation mathematique parfaite de combinaison linmeairfe de l’autre et donc sans aucune nouvelle information :

Mettre dans une reg lm des F et C rendra votre model colineaire et inefficient!

Dans lm comment voir les leverages:

Plot residu vs cook ditance (valeur critique empirique 4*p/n: Un leverage change la pente de la regression (Slope) si on enleve le sujet (i.i.d)

m1=lm(trees$Girth~trees$Height)
summary(m1)
## 
## Call:
## lm(formula = trees$Girth ~ trees$Height)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.2386 -1.9205 -0.0714  2.7450  4.5384 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)   
## (Intercept)  -6.18839    5.96020  -1.038  0.30772   
## trees$Height  0.25575    0.07816   3.272  0.00276 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.728 on 29 degrees of freedom
## Multiple R-squared:  0.2697, Adjusted R-squared:  0.2445 
## F-statistic: 10.71 on 1 and 29 DF,  p-value: 0.002758
dfbeta(m1)
##    (Intercept)  trees$Height
## 1  -1.47970549  1.792531e-02
## 2  -1.51866381  1.908544e-02
## 3  -1.14323941  1.446730e-02
## 4  -0.50942436  5.935785e-03
## 5   1.13021306 -1.658616e-02
## 6   1.84862328 -2.626367e-02
## 7   0.22902176 -2.865314e-03
## 8  -0.19506684  1.691962e-03
## 9   0.72201499 -1.091029e-02
## 10 -0.17548811  1.522141e-03
## 11  0.43811331 -6.964878e-03
## 12 -0.06161290  4.746899e-18
## 13 -0.06161290  4.746899e-18
## 14  0.12229907 -1.498526e-03
## 15 -0.09717317  8.428563e-04
## 16  0.02656045 -2.776978e-04
## 17  1.55647016 -2.172797e-02
## 18  1.67421912 -2.323015e-02
## 19  0.62885699 -7.499064e-03
## 20  3.32868368 -4.198950e-02
## 21 -0.02303862  4.088136e-04
## 22  0.01624981 -2.455492e-04
## 23  0.28710527 -3.001775e-03
## 24  1.11445201 -1.298553e-02
## 25 -0.08714824  2.373986e-03
## 26 -0.81887683  1.201722e-02
## 27 -0.99085047  1.426677e-02
## 28 -0.82611508  1.248334e-02
## 29 -0.84888169  1.282736e-02
## 30 -0.84888169  1.282736e-02
## 31 -3.41850217  4.719853e-02
plot(m1)[4]

## NULL
hist(rstandard(m1))#Normaux??

shapiro.test(m1$residuals)#non ,malgrès le QQ PLOT
## 
##  Shapiro-Wilk normality test
## 
## data:  m1$residuals
## W = 0.92418, p-value = 0.03052
###En fait dans le QQPLOT c'est qu'il manque un polymome de fonction des Vexplicatives (QQ En Z)
maxcook=4*2/length(trees$Girth)##a verfifier tricks empirique de tete
maxcook
## [1] 0.2580645
plot(cooks.distance(m1))
abline(h=0.25,col="red",type="l")
## Warning in int_abline(a = a, b = b, h = h, v = v, untf = untf, ...): paramètre
## graphique "type" incorrect

COMMENT AMELIERRE CE MODEL R2adj

En lui rajouittant des variablés explicatives ou de control ?trees

m3=lm(trees$Girth~trees$Height+trees$Volume)
summary(m3)
## 
## Call:
## lm(formula = trees$Girth ~ trees$Height + trees$Volume)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.34288 -0.56696 -0.08628  0.80283  1.11642 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  10.81637    1.97320   5.482 7.45e-06 ***
## trees$Height -0.04548    0.02826  -1.609    0.119    
## trees$Volume  0.19518    0.01096  17.816  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7904 on 28 degrees of freedom
## Multiple R-squared:  0.9408, Adjusted R-squared:  0.9366 
## F-statistic: 222.5 on 2 and 28 DF,  p-value: < 2.2e-16
#R2 adj rimpe a 93%

INTERACTIONS:

Le terme “interaction” est donc utilisé pour décrire une situation dans laquelle l’influence d’une variable dépend de l’état de la seconde (ce qui est ce cas, lorsque les deux variables ne sont pas additives mais MULTIPLICATIVE *). Le plus souvent, les interactions apparaissent dans le contexte des analyses de régression. ###### Pour voir une intercations dans les niveau des deux facteur la liognes des moyennes doivent etre PARALLLE

interaction.plot(trees$Girth,trees$Height,trees$Volume)

##Dans ce cas pas d'intercations visibles en deux variable nbumeriques si elles existes (c'est possibles parfois entre deux variables num avec i.e taux chol et antibio on doit en faire deux facteur pour comparer la difference de moyennes)
##exemple d'un plan d'ep poulet poids et DIET
data("ChickWeight")
interaction.plot(cut(ChickWeight$Time,2),ChickWeight$Diet,ChickWeight$weight)

##Pour voir une intercations dans les niveau des deux facteur la liognes des moyennes doivent etre PARALLLE
###Ici faible intercations

Dans le m1 cidessus que fait le WALD Test Z?

Il test si le coef Beta est different de Zero ou si c’est un facteur en reference si il est different du niveau de ref

T=Beta-0/SE [HO slope is not diff from zero)

Pourquuoi centrer et reduire des donnees?

Pour pouvoir comparere sur une meme echelle des variables avec de grandes differences d’amplitude on les centre cad en leur soustrait leur moyenne puis on reduit on dicise par la sd de la varible TOUTES LES VARIABLE NUMERIQUES ONLY sont de moyenne nulle et de sd de 1

sd(scale(mtcars$mpg))
## [1] 1
mean(scale(mtcars$hp))
## [1] 1.040834e-17
sd(scale(mtcars$hp))
## [1] 1

Doit on mettre un chapeu sur beta coefficient?

Oui absolument car Beta true n’est jamais connu ou c’est tres rare donc un hat s’impose c’est une beta estime a partir de donnee le beta population n’est jamais connu.

Dans R un REG Lm OU LOGIT comment est coder le facteur suivant (donner les niveau 0,1,2)

Genre=Femme,Homme,Binaire

Comment se fera votre interpretation des coefficient dès lors?

R code le facteur par ordre alphabetique et en regression il l’inclue ds l’intercept cad Binaire niv de reference [o] puis Femme=1 puis Homme =2

Nos comparaison se font pas rapport a binaire donc les WALD test dans R ne peuvent jamais tester la relation Homme femme.

Que feriez vous alors pour obtenir cette p valeur homme femme?

Je recode le niveau de reference pour homme ou femme avec la fx relevel et aisni j’obtiendra le test homme femme dans une des lignes des coefficients.

Dans JAMOVI est ce que le facteur est coder en contraste treatment?par defaut?

No lo say ALLEZ VOIr SINON VOS INTERPRETATION PEUVENT ETRE Eronnee

LOGISTIQUE

Q:Dans une regression logistique est ce que l’itercept est interprétable?

En General Non comme dans un lm a moins de centrer les données NOTE: Dans un lm le 1 niveau du facteur est inclus dans l’intercept On appel cela un contraste trt.

Q:Peux t on interpreter les residus dans un reg logistique?

Non mais ils existent des test (LEMESHOW) visuellement pas possible pas comme un lm

Qu’est que la logit?

C’est la link fonction ln (po/1-p) elle permet de linearisé de moins inf a plus inf notre variable binairee ou dichotomique et donc d’en faire une combinaison lineaire comme un lm

Ques’t ce que la fx logistique

C’est la fonction inverse de la logit (INV F) definie par 1/[1+e-sum Xbeta] elle est sigmoidal et permet de retourner dans un intervalle de probailite compris entre 0 et 1 https://fr.wikipedia.org/wiki/R%C3%A9gression_logistique

Pourqroui as t on deux formule de maths pour la logistique?

1/1+exp-XB et exp(XB)/(exp…)

c’est la même après une manip mathematique

Une reg logistique est ce un model lineaire? Si oui pourquoi

ln(p/1-p) linearalise les parametres en ßo + ß1X1+ ß2X2 + ß 3 X1*X2

Le model est additif meme avec interaction (partie gauche de VI) et c’est une combinaison lineaire des VI dont les coefficient sont donné par la regresion (OLS en lm link fonction en Logistique)

Meme si vous rajouter un X^3 c’est tjrs lineaire mais dans les parametres Evidemment que dans vos predictions cela aura l’air du courbe:

EX: REG LINEAIRE!!! :

m2=lm(mtcars$mpg~mtcars$hp+I(mtcars$hp^3))
plot(mtcars$mpg~mtcars$hp,col="grey2",cex=0.6,main="scaterplot with prediction in red")
points(m2$fitted.values~mtcars$hp,type="p",col=2,cex=2,pch=20)

Vous vous nos predictions sont non lineaires due au X^2,3,4polynome mais lineaire dans ces parametres!!!! du genie ce Galton et sa regression

iNTERPRETER LES COEFFICIENT EN OR RATIOS du model ci apres

Comme mpg est numerique :

x+1 - x = en logit

ln(p1+/1-p+)-ln(p/1-p)=Beta0++Beta1+(X+1) - Beta0+Beta1(X)

avec un peu de maths on trouve

ln(p+/1-p+/ln(p-1-p))=Beta1

donc:

ln(OR)=Beta1

OR=exp(B1)###A RETENIR

OR=1.35

Supposons dans ce cas que Yi=am facteur

-0 est arriere

1 avant ( dans le codage binaire dichotmique de mtcars$am££Attention j’ai pas verifier dans la litterature des descripttions variable)..

Pour une unite de changement en plus de MPG .

l’odds ratio augmente de 1.35 entre arriere et avant et

ou de 35% de avant a arriere

ou passez de avant a arierre augment l’odds de 1.35X d’avant (niveau ref)

Pour un facteur en VI c’est le changement de niveau de facteur qui est interpèreter comme ODDS RATIO

Ici l’intercept en logistique n’a aucune interpretation physique ou causal

summary(mtcars)
##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am         gear        carb      
##  Min.   :0.0000   3:15   Min.   :1.000  
##  1st Qu.:0.0000   4:12   1st Qu.:2.000  
##  Median :0.0000   5: 5   Median :2.000  
##  Mean   :0.4062          Mean   :2.812  
##  3rd Qu.:1.0000          3rd Qu.:4.000  
##  Max.   :1.0000          Max.   :8.000
mtcars$am=factor(mtcars$am)##variable dichotmique de deux niveaeu o et 1 traction avant et arriere
str(mtcars$am)###niveau zero est.....ici il faaut allet voir en anglais la signification et de AM bon exemple de factor que code R et on ne sais pas qu'elle niveau est refencé meme moi mais j'ai pas le temps de chercher
##  Factor w/ 2 levels "0","1": 2 2 2 1 1 1 1 1 1 1 ...
l1=glm(am~mpg,data=mtcars,family="binomial")
summary(l1)
## 
## Call:
## glm(formula = am ~ mpg, family = "binomial", data = mtcars)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.5701  -0.7531  -0.4245   0.5866   2.0617  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)   
## (Intercept)  -6.6035     2.3514  -2.808  0.00498 **
## mpg           0.3070     0.1148   2.673  0.00751 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 43.230  on 31  degrees of freedom
## Residual deviance: 29.675  on 30  degrees of freedom
## AIC: 33.675
## 
## Number of Fisher Scoring iterations: 5
confint(l1)##
## Attente de la réalisation du profilage...
##                   2.5 %     97.5 %
## (Intercept) -12.3281402 -2.7717638
## mpg           0.1220088  0.5874914
##ATTENTION NOUS SOMME TJTS EN LM P/1-P
exp(l1$coefficients)
## (Intercept)         mpg 
## 0.001355579 1.359379288

Peux t on interpreter une logistique comme un lm?

Non la normalite de Yi n’atants pas necessaire les assumptions sont moins nombreuse On peut utiliser des VI facteur ou numerique non Normale

Dans une reg log existe il un OLS?

Non il s’agit d’un algroithmen d’iteration type NEW RAPHSON car l’integrale de la logit n’a pas de solution analytique Nous devons approcher la valeur MAX LIKELYHOOD MLE Par rapprochement

Defaut R 500

Que faire si l’algorithme ne converge pas?

Metre dans les arguments glm(max.iter=1000)

.