통계란?

수량 데이터에서 다양한 방법으로 새로운 사실들을 찾아내는 학문

통계릉 알아야하는 중요한 이유?’

사실을 확인하기 위해서
새로운 내용을 알기위해서
통계를 알고 모르고에 따라서 분석 능력에 큰 차이가 생김

1.분석 방법

통계의 종류들

1).기술통계

기술통계는 측정이나 실험에서 수집한 자료(data)의 정리, 요약, 해석, 표현등을 통해 자료의 특성을 규명하는 통계적 방법이다.
평균,최솟값, 최댓값, 중앙값과 같이 데이터의 특징을 알려주는 값들입니다.
*데이터의 특징을 서술한다는 의미
사실에 대해서 확인을하기위해 해당됩니다.

2).추론통계

모집단에서 추출된 표본으로 부터 모수와 관련된 통계량들의 값을 계산하고, 이것을 이용하여 모집단의 특성을 알아내는 과정을 추론 통계 분석이라고 한다. 추론 통계는 예측은 물론, 머신 러닝 등을 통해서 나온 분석의 결과가 통계적으로 유의한지를 검증하는 역할을 한다.
변수 간의 관계를 파악하여 이를 토대로 새로운 사실들을 밝혀내는것
추론통계에는 (평균 차이 검정), (교차분석) (상관계분석), (회귀분석) 등이 있음

(1). 평균 차이 검정

집단간 평균 차이를 위한 검정방법

(2). 교차분석

교차 분석은 두 집단간의 동질성을 판단하는 분석 방법으로, 기대 했던 값과의 적합도 검정, 변수들간의 적합도 검정, 모집단과 표본간의 동질성 검정에 활용된다.
범주형 변수로 구성된 집단들의 관련성을 검정하는 통계분석
카이제곱검정, 카이스퀘어검정, 독립성 검정이라고도 명시함

(3). 상관관계분석

상관분석(Correlation Analysis)은 확률론과 통계학에서 두 변수간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이다. 두변수는 서로 독립적인 관계로부터 서로 상관된 관계일 수 있으며, 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다. 상관관계의 정도를 파악하는 상관계수(Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다
변수간의 상관 관계를 알아보는것
변수간의 연관성
다른 한 변수가 변화하면 다른 변수도 변화하는 관계
강도와 방향이 중요함 (강도는 다른 변수가 변화시 다른 변수도 변화하는정도), (방향은 한 변수가 변화할 떄 다른 변수가 같은 방향으로 변화하는지 아니면 반대 방향으로 변화하는지를 의미)
상관계수는 -1 부터 1 사이에 있으며, 수치가 클수록 영향을 주는 강도가 크다
‘+’는 ’정의 관계’, ‘-’는 ’부의 관계’ 또는 ’역의 관계’에 있는 것을 의미함
상관관계 : -1 <= r <= 1

(4). 회귀분석

회귀 분석(回歸分析, 영어: regression analysis)은 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한뒤 적합도를 측정해 내는 분석 방법이다.
상관관계로 변수들의 관계는 알수 있음, 하지만 인과 관계는 불가능
인과관계: 원인과 결과의 관계, 한변수가 다른변수에게 영향을 주는것
영향을 주는 변수= 독립변수(independent variable), 영향을 받는 변수= 종속변수(dependent variable)
회귀분석에서 독립변수가 1개이면 “단순회귀분석”, 2개이상이면 “다중회귀분석”

2.통계 검정

1).가설

어떤 현상을 설명하기 위해서 가정하는 명제, 증명되지않는 추정
귀무가설 : 설정한 가설이 진실할 확률이 극히적어 처음부터 벌릴것이 예상되는 가설, 즉 차이가 없거나 의미있는 차이가 없는 경우의 가설
대립가설 : 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내용으로 연구가설이라도 한다, 즉 새로운 사실이나 현상에 대한 주장
(귀무가설)은 지금까지 우리가 알고있던 사실을 의미하면 됨. 반면, (대립가설)은 우리가 새롭게 입증하고자 하는 새로운 사실을 의미한다고 생각하면 됨.
귀무가설은 현재의 상황이나 혹은 통념에 대한 이야기이고, 대립가설은 새로운 현상이나 주장에 대한 이야기라고 생각하면 이해가 편함. 예) 연구자가 만약 [상사와 부하직원의 친밀도와 업무성과가 관련이 있다]라는 주장을 하고자 할떄는 대립가설: 상사와 부하직원의 친밀도와 업무성과는 관련이 있다. , 귀무과설: 성사와 부하직원의 친밀도는 업무성과의 관련이 없다.

2). 유의수준

귀무가설이 맞는데도 대립가설을 채택할 확율, 즉 오류를 범할 확률임
p-value(p값)로 제시
p값이 0.01이면 오류를 범할 확률은 1%라는 의미
오류가없는 것은 불가능, 그러므로 허용할수있는 오류범위를 정함
가설검정에서 인정하는 유의수준에는 5%, 1%, 0.1%등 세 종류가 있음 사회학에서는 5%까지 인정, 정확성이 요구되는 의학쪽은 혀용범위게 더욱 좁아짐

3). 척도

척도(scale)는 측정도구이며, 수치로 표시됨
척도에는 명목척도, 서열척도, 등간척도, 비율척도 등 네 종류있음
척도의 종류에 따라 통계 분석이 가능하거나 불가능하기 때문에 분석하기 전에 척도의 종류를 파악해야함.

척도종류

명목척도

측정대상의 특성이나 범주를 구분하는 수치
산술연산 할수없음
예) 성별, 결혼유무, 종교, 인종등

서열척도

계급, 사회계층, 자격등급 등과 같이 측정대상의 등급순위를 나타내는 척도
척도간의 거리나 간격은 나타내지않음
산술연산을 할 수 없음
예) 계급, 사회계층, 자격등급

등간척도

측정대상을 일정한 간격으로 구분한 척도
서열뿐만 아니라 거리와 간격도 표시함
덧셈과 뺄셈 가능
예시) 온도, 학력, 시험점수

비율척도

측정대상을 비율로 나타낼 수 있는 척도
모든 수로 측정가능사칙연산 가능
예시) 연령, 무게

3. 통계 분석 사례

1). 두 집단의 평균 차이 검정

남녀 등 두 집단의 평균 차이를 분석할 때는 독립표본 검정을 합니다. R에서는 내장된 T.test() ) 함수로 합니다. 독립변수는 명목 척도이며, 종속변수는 등간척도 또는 비율적도이어야 합니다. t.test() 함수를 쓰는 방식은 2가지가 있습니다.

방법 1 t.test(data = 데이터세트, 종속변수(비교값)~독립변수(비교대상))
방법 2 t.test(데이터세트$종속변수(비교값) ~ 데이터세트$독립변수(비교대상))

예제파일인 mpg1.csv의 trans 변수에는 기어변속방법으로 auto(자동식)와 Manual(수동식) 등 두 방식이 있습니다. 두 방식에 따라 city 평균이 통계적으로 유의미한 차이가 있는가를 알아보겠습니다. cty는 도시에서 1갤런당 달리는 거리입니다. 독립변수는 trans 이며, 종속변수는 cty입니다. 가설은 다음과 같이 설정합니다.

귀무가설(H); auto와 manual의 cty 평균은 차이가 없다.
대립가설(H); auto와 manual의 cty 평균은 차이가 있다.

library(readr)
mpg1 = read.csv("public_dataset/mpg1.csv", stringsAsFactors = F)
t.test(data = mpg1, cty ~ trans)   # t.test(mpg1$cty~mpg1$trans)도 같음

## 
##  Welch Two Sample t-test
## 
## data:  cty by trans
## t = -4.5375, df = 132.32, p-value = 1.263e-05
## alternative hypothesis: true difference in means between group auto and group manual is not equal to 0
## 95 percent confidence interval:
##  -3.887311 -1.527033
## sample estimates:
##   mean in group auto mean in group manual 
##             15.96815             18.67532

p-value = 1.263e-05

atuo의 평균 15.96815 , Manual의 평균 18.67532

2). 교차분석

교차분석은 범주형 변수들이 관계가 있다는 것을 입중하는 것입니다. 평균의 차이가 아니라, 비율에 차이가 있는지를 검정합니다. 교차분석 검정은 R의 chisq.test() 함수로 합니다. 예제파일에 있는 mpgl.csv를 mpg1로 불러옵니다. mpg1에 있는 trans(기어 변속방식) 변수의 범주에 따라 dry(구동방식) 범주의 비율에 차이가 있는가를 알아봅니다. 연구가설은 다음과 같이 설정합니다.

귀무가설(H): trans에 따라 dry의 차이가 없다.
대립가설(H): trans에 따라 dry의 차이가 있다.

우선 table( ) 함수와 prop.table( ) 함수로 교차분석을 해서 trans에 따른 dry의 빈도와 비율을 알아보겠습니다. 5장에서 다루었던 예제문제입니다.

mpg1 = read.csv("public_dataset/mpg1.csv", stringsAsFactors = F)

table(mpg1$trans, mpg1$drv)   # trans와 drv의 교차분석

##         
##           4  f  r
##   auto   75 65 17
##   manual 28 41  8

prop.table(table(mpg1$trans, mpg1$drv), 1)   #auto와 manual의 drv 비율 분석

##         
##                  4         f         r
##   auto   0.4777070 0.4140127 0.1082803
##   manual 0.3636364 0.5324675 0.1038961

auto에서는 4륜구동(4)인 47.8%로 가장 많고, manual에서는 전륜구동(f)이 53.2%로 가장 많아서 trans에 따라 drv에 차이가 있는 것 같습니다. 그런데 정말 그런지, 통계적으로 분석하는 것이 교차분석입니다. 방법은 3가지가 있습니다. chisq.test() 함수 이외에도 summary() 함수와 table() 함수를 조합해서 구할 수도 있습니다. 결과는 모두 같습니다.

# 방법1
chisq.test(mpg1$trans, mpg1$drv)

## 
##  Pearson's Chi-squared test
## 
## data:  mpg1$trans and mpg1$drv
## X-squared = 3.1368, df = 2, p-value = 0.2084

# 방법2
chisq.test(table(mpg1$trans, mpg1$drv))

## 
##  Pearson's Chi-squared test
## 
## data:  table(mpg1$trans, mpg1$drv)
## X-squared = 3.1368, df = 2, p-value = 0.2084

# 방법3
summary(table(mpg1$trans, mpg1$drv))

## Number of cases in table: 234 
## Number of factors: 2 
## Test for independence of all factors:
##  Chisq = 3.1368, df = 2, p-value = 0.2084

유의수준p-value가 0.2084로 p > 0.05 대립가설을 기각하지못하므로trans에따라 drv에 차이가 있다고할수없음 X-squared = 3.1368 : 통계 검정값

3). 상관관계분석

상관관계분석은 R에 내장되어 있는 cor.test() 함수 사용함
cor.test(데이터세트비교변수1,데이터세트비교변수2)

mpg1에는 cty와 hwy가 있습니다. cty는 도시에서 1갤런당 달리는 거리입니다. hwy는 고속도로에서 1갤런당 달리는 거리입니다. cty가 길면 hwy도 길 것이라고 생각할 수 있습니다. 이 가설을 검정해보겠습니다. 검정하려는 가설은 cty와 hwy는 서로 상관관계가 있다는 것이기 때문에 이것이 대립가설입니다. 귀무가설은 상관관계가 없다는 것입니다.

귀무가설(H): cty와 hwy는 상관관계가 없다.
대립가설(H): cty와 hwy는 상관관계가 있다.

mpg1 = read.csv("public_dataset/mpg1.csv", stringsAsFactors = F)

cor.test(mpg1$cty, mpg1$hwy)   # 상관관계분석

## 
##  Pearson's product-moment correlation
## 
## data:  mpg1$cty and mpg1$hwy
## t = 49.585, df = 232, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9433129 0.9657663
## sample estimates:
##       cor 
## 0.9559159

p < 0.05 귀무가설 기각하고 대립가설을 채택 상관관계는 0.9559159 1에 가까워서 매우 높다.

4). 회귀분석

(1)단순회귀분석

단순회귀분석은 독립변수가 1개, 종속변수가 1개일 때 합니다. 회귀분석의 변수는 독립변수와 종속변수가 모두 등간척도 또는 비율척도이어야 합니다. 회귀분석은 R의 Im () 함수로 합니다. 세 방법 중 어느 것을 써도 됩니다.

방법1 1m(data=데이터세트, 증속변수 ~ 독립변수)
방법2 1m(종속변수 ~ 독립변수, data=데이터세트)
방법3 1m(데이터세트 종속변수 ~ 데이터세트 독립변수)

moter trend라는 잡지에 실린 데이터중 11개의 변수에서 32개의 자동차 정보를 가지고있음 11개의 변수 가운데disp(배기량)가 mpg(1갤런당 주행 마일)에 미치는 영향을 분석 str(mtcars)로 mtcars에 있는 변수들을 보면, disp와 mpg모두 실수형(num) 변수이어서 회귀분석이 가능

귀무가설 : disp는 mpg에 영향을 주지 않는다
대립가설 : disp는 mpg에 영향을 준다

lm(data = mtcars, mpg ~ disp)

## 
## Call:
## lm(formula = mpg ~ disp, data = mtcars)
## 
## Coefficients:
## (Intercept)         disp  
##    29.59985     -0.04122

# lm(mpg ~ disp, data = mtcars), lm(mtcars$mpg ~ mtcars$disp) 의 결과도 같음

disp의 계수(Coefficients)는 -0.04122이며,disp의 절편은 29.59985입니다. mpg = 29.59985 - 0.04122 * disp 입니다. 배기량이 1단위 올라갈 때마다 mpg는 0.04122씩 감소합니다. lm()의 결과를 summary() 함수에 넣으면 유의수준을 비롯한 상세한 회귀분석의 결과를 알수있음

RA = lm(data = mtcars, mpg ~ disp)   # 회귀분석 결과를 RA에 넣기기
summary(RA)

## 
## Call:
## lm(formula = mpg ~ disp, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.8922 -2.2022 -0.9631  1.6272  7.2305 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 29.599855   1.229720  24.070  < 2e-16 ***
## disp        -0.041215   0.004712  -8.747 9.38e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.251 on 30 degrees of freedom
## Multiple R-squared:  0.7183, Adjusted R-squared:  0.709 
## F-statistic: 76.51 on 1 and 30 DF,  p-value: 9.38e-10

p < 0.05 , mpg = -0.041215 * disp + 29.599855 대립가설을 채택할 수 있음 분석 결과는 (회귀모형은 유의수준 p < 0.001에서 적합하며, 회귀식의 수정된 결정계수는 0.709이다. 배기량이 연비에 미치는 회귀계수는 유의수준 p < 0.001에서 -0.04이다.

(2)다중회귀분석

다중회귀분석은 종속변수에 영향을 주는 독립변수가 복수일 때 분석하는 방식입니다. 여러 독립변수들은 서로 영향을 주면서 종속변수에 영향을 주기 때문에 한 독립변수가 종속변수에 미치는 영향력은 단순회귀분석을 했을 때와 다중회귀분석을 했을 때에 달라집니다. 다중회귀분석에서는 단순회귀분석의 독립변수들을 “+” 기호로 연결합니다.

방법1 1m(data=데이터세트, 종속변수~ 독립변수1 + 독립변수2+…)
방법2 lm(종속변수 ~ 독립변수1 + 독립변수2 + …, data = 데이터세트)
방법3 lm(데이터세트종속변수 데이터세트독립변수1 + 데이터세트$독립변수2 + …)

mtcars 데이터로 실습하겠습니다. mpg에는 disp(배기량) 이외에도 hp(마력)와 wt(중량)가 영향을 미칠 수 있습니다. 세 독립변수가 mpg에 어떤 영향을 주는지 알아보겠습니다.

 lm(data = mtcars, mpg ~ disp + hp + wt)

## 
## Call:
## lm(formula = mpg ~ disp + hp + wt, data = mtcars)
## 
## Coefficients:
## (Intercept)         disp           hp           wt  
##   37.105505    -0.000937    -0.031157    -3.800891

# lm(data = mtcars, mpg ~ disp + hp + wt,data = mtcars) 와,
# lm (mtcars$mpg ~ mtcars$disp + mtcars$hp + mtcars#wt) 의 결과도 같음

다중 회귀식은 mpg = 37.105505 - 0.000937 * disp - 0.031157 * hp - 3.800891 * wt lm()의 결과를 summary() 함수에 넣으면 유의수준과 상세한 회귀분석의 결과보기가능

RA = lm(data = mtcars, mpg ~ disp + hp + wt)   # 회귀분석 결과를 RA에 넣기

summary(RA)

## 
## Call:
## lm(formula = mpg ~ disp + hp + wt, data = mtcars)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -3.891 -1.640 -0.172  1.061  5.861 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 37.105505   2.110815  17.579  < 2e-16 ***
## disp        -0.000937   0.010350  -0.091  0.92851    
## hp          -0.031157   0.011436  -2.724  0.01097 *  
## wt          -3.800891   1.066191  -3.565  0.00133 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.639 on 28 degrees of freedom
## Multiple R-squared:  0.8268, Adjusted R-squared:  0.8083 
## F-statistic: 44.57 on 3 and 28 DF,  p-value: 8.65e-11

disp는 mpg에 영향을 주지 않고, hp와 wt만 영향을 줍니다. 회귀모형은 유의수준 p < 0.001에서 적합하며, 회귀식의 수정된 결정계수는 0.81이다. 3개 독립변수가 연비에 미치는 회귀계수는 hp가 -0.03(p < 0.05), wt가 -3.80(p < 0.01)이었고, disp는 없었다. wt의 영향력이 가장 컸다.

통계분석

JAEWOOKNAM

2022-03-15