Exploring data with graphs

학생들과 강사들의 평균 친구수를 보여주는 오차 막대 그래프

## # A tibble: 2 x 2
##   job      mean_friend
##   <fct>          <dbl>
## 1 lecturer         2.4
## 2 student         13.2

평균 알코올 소비량의 오차 막대표

평균 수입 오차선 그래프

평균 신경과민 정도

알코올 소비량과 신경과민 정도의 관계

자신과 배우자에 대해 소비한 평균 총알 수의 오차 막대 그림

##    Gender Partner Self id
## 1    Male      69   33  1
## 2    Male      76   26  2
## 3    Male      70   10  3
## 4    Male      76   51  4
## 5    Male      72   34  5
## 6    Male      65   28  6
## 7    Male      82   27  7
## 8    Male      71    9  8
## 9    Male      71   33  9
## 10   Male      75   11 10
## 11   Male      52   14 11
## 12   Male      34   46 12
## 13 Female      70   97 13
## 14 Female      74   80 14
## 15 Female      64   88 15
## 16 Female      43  100 16
## 17 Female      51  100 17
## 18 Female      93   58 18
## 19 Female      48   95 19
## 20 Female      51   83 20
## 21 Female      74   97 21
## 22 Female      73   89 22
## 23 Female      41   69 23
## 24 Female      84   82 24

Exploring Assumptions

  1. 정규성

  2. 분산의 동질성

3.구간 자료

  1. 독립성 : 자료의 독립성

정규성

회귀에서 중요함

일반선형모형은 모형의 오차들이 정규분포를 따른다고 가정한다.

정규성 확인은? - Histogram & Density

분포도 알아보기

skewness 와 kurtosis 가 0 이여야 정규 분포이다. skew 가 + 이면, 왼쪽으로 기울어지고, - 이면 오른쪽으로 기울어진 분포를 가진다.

브릿존슨 : skew 가 0에 가깝고, kurtosis -.73 으로 조금 - 모멘토 : skew 가 0에 가깝고, kurtosis -1.26

## click$film: Bridget Jones' Diary
##    vars  n mean   sd median trimmed  mad min max range  skew kurtosis   se
## X1    1 20 14.8 5.73     15   15.06 5.93   3  24    21 -0.32    -0.73 1.28
## ------------------------------------------------------------ 
## click$film: Memento
##    vars  n  mean   sd median trimmed mad min max range skew kurtosis   se
## X1    1 20 25.25 7.13   24.5   25.25 8.9  14  37    23 0.03    -1.26 1.59

분산 동질성 검토

H0 : 분산이 같다

H1 : 분산이 다르다.

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  1  1.8051 0.1871
##       38

F(1, 38) = 1.81, p > .05 으로, 두 집단의 분산이 다르다.

분산이 동일하지 않다.

정규성 검정을 위해 film 별로 나누어 실행

H0 : 정규 분포와 같다

H1 : 정규 분포와 다르다.

## click$film: Bridget Jones' Diary
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.97157, p-value = 0.7876
## 
## ------------------------------------------------------------ 
## click$film: Memento
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.96039, p-value = 0.5516

시각화로 알아보기 Subset 함수로 해당 부분만 추출한다.

## # A tibble: 40 x 2
## # Groups:   film [2]
##    film                 arousal
##    <fct>                  <int>
##  1 Bridget Jones' Diary      22
##  2 Bridget Jones' Diary      13
##  3 Bridget Jones' Diary      16
##  4 Bridget Jones' Diary      10
##  5 Bridget Jones' Diary      18
##  6 Bridget Jones' Diary      24
##  7 Bridget Jones' Diary      13
##  8 Bridget Jones' Diary      14
##  9 Bridget Jones' Diary      19
## 10 Bridget Jones' Diary      23
## # ... with 30 more rows

이상치 처리하기

  1. 제거

  2. 자료 변환 : log, 제곱근, 역수, 뒤집기

  3. 점수 변경:

*1. 로그 변환

## 
##  Shapiro-Wilk normality test
## 
## data:  rexam$log_numeracy
## W = 0.95911, p-value = 0.003474

*2 제곱근

## 
##  Shapiro-Wilk normality test
## 
## data:  rexam$sqrtnemeracy
## W = 0.96953, p-value = 0.02036

*3 역수 변환

## 
##  Shapiro-Wilk normality test
## 
## data:  rexam$recnumeracy
## W = 0.76329, p-value = 0.00000000002135