1.1. 분석의 목적
1.2. 요구 조건 정의
1.3. 신호와 소음
1.4. 데이터 예측, 맛보기
2.1. 평균과 표준편차
2.1.1. 대표값
2.1.2. 모집단과 표본
2.1.3. Random Sampling
2.2. 기술통계 추론통계
2.2.1. 기술통계
2.2.2. 추론통계
2.3. EDA
2.3.1. Visualization
2.3.2. 중심극한정리
2.4. 점추정과 구간추정
2.4.1. 점추정
2.4.2. 구간추정
2.5. Outlier (이상치)
2.6. Missing Valiue (결측치)
3.1. '차이'를 보는 분석
3.1.1. T-test
3.1.2. Anova
3.2. '관계'를 보는 분석
3.2.1. Regression
3.3. '연관'을 보는 분석
3.3.1. 독립성 검정
3.3.2. 연관성 분석
4.1. Hyprothesis
4.2. 1종 오류와 2종 오류
4.3. 유의수준/유의확률
4.4. 가설검정 (0가설검정)
4.5. 우리가 이렇게 삽질하는 이유
4.6. 정리
4.7. 퀴즈
5.1. 표준화와 Z분포
5.1. 표준화 (Standardization)
5.2. Z분포
5.3. 신뢰구간
5.2. T분포
5.3. F검정
6.1. 데이터의 유사성은 어떻게 따지는가?
6.2. 예측은 어떻게 하는가?
7.1. Discrete
7.1.1. 명목형 변수
7.1.2. 순서형 변수
7.2. Continuous
7.2.1. 연속형 변수
7.3. 요리와 데이터
7.4. Trade-Off
7.5. Random Variable (확률변수)
8.1. 목적
8.2. 세 가지의 기본 원칙
8.1.1 정규성
8.1.2. 등분산성
8.1.3. 독립성
9.1. Z분포
9.2. T분포
9.3. F검증
9.4. 이산형 확률분포
9.5. 연속형 확률분포
9.6. 지수분포
12.1. 모수적 방법론(Parametric Method)
12.2. 비모수적 방법론 (Non-Parametric Method)
15.1. 머신러닝 정의
15.2. 머신러닝 분류
15.2.1 Label 유무에 따른 분류
- 지도학습
- 비지도학습
15.2.2 강화학습
15.3. 머신러닝 알고리즘
15.3.1 Regression(회귀)
15.3.1.1 Linear Regression (선형 회귀)
15.3.1.1.1 단순 선형 회귀 (Simple Linear Regression)
15.3.1.1.2. 다중 선형 회귀 (Multiple Linear Regression)
15.3.1.1.2.1. 다중공선성(Multicollinearity)
15.3.1.1.2.2. 회귀 모형의 타당성
15.3.1.1.2.3. Subset Selection (변수 선택법)
15.3.1.1.2.4. 변수 중요도
15.3.1.2 Shrinkage Method
15.3.1.2.1. Ridge Regression
15.3.1.2.2. Lasso Regression
15.3.1.3. k-NN (k-Nearest Neighbors)
15.3.1.4. Regression Tree
15.3.1.5. ANN (Artificial Neural Network)
15.3.1.6. SVM (Support Vector Machine)
15.3.2. Classification (분류)
15.3.2.1. k-NN (k-Nearest Neighbors)
15.3.2.2. Decision Tree
15.3.2.3. ANN (Artificial Neural Network)
15.3.2.4. SVM (Support Vector Machine)
15.3.2.5. Losistic Regerssion
15.3.3. Ensemble
비즈니스적인 관점에서 보면 조직의 목표를 효율적(최소비용 최대효과, 선택과 집중)으로 달성하기 위해 데이터 분석을 한다.
즉, '이익(Profit)'을 위해서 분석을 한다. 조금 더 상세한 내용은 아래와 같다.
- 1) 매출 증대
- 규모의 경제 (시장의 파이는 한정되어 있고, 경쟁자는 많기)때문에 매출 증대에는 한계가 있다.
- 2) 비용 감소
- 인건비, 재료비, 마케팅 비용 등 회사에서 나가는 모든 비용을 효율적으로 관리할 수 있다
- 1) 분석의 목적
- 2) 요구 조건 정의
- 통계와 분석에 대한 이해가 낮은 상사는 목표를 추상적으로 던져주는 경우가 많다(난감 그 자체).
- 이해관계자와 커뮤니케이션을 통해 구체적으로 쪼개고 쪼개서 요구 조건(KPI)을 상세하게 정의한다(눈물이...).
- Garbage in garbage out.
- 품질이 좋지 않은 (input)데이터로 분석을 하면, 분석 결과(output)의 질이 좋지 않다.
- '노이즈'를 제거해야 한다(데이터 정합성).
- Noise : Outlier(이상치), Missing value(결측치), Dupliceted values(중복값)
- 가정
- 1. 개와 고양이 사진이 500장씩 있다.
- 2. 어린 아이는 틀렸다와 맞았는 걸 알고 있다.
- 3. 틀린 횟수를 줄이려고 끊잆없이 노력한다.
- 이러한 문제는 이진 분류(남/녀, 개/고양이)의 대표적인 케이스이다.
- 기존에는 규칙을 기반으로 feature를 넣었다. 허나 이러한 접근 방법은 문제가 많다(경우의 수가 무한대이기 때문에, 인간의 손으로 발전 시키기엔 한계가 존재).
- 해결 방안
- 1. 활용하는 알고리즘에 따라 data를 2~3등분(train/test or train/validation/test) 한다.
- 3등분할 경우의 비율 : 60:20:20, 50:25:25
- 2등분할 경우의 비율 : 70:30, 80:20, 90:10
- 2. Training
- 피드백을 준다.
- 3. Validation
- 피드백을 준다.
- 4. Test
- 피드백을 주지 않는다.
- 주의할 점
- 분류하려는 label 데이터의 비율을 맞춰야 한다.
- 1,000장의 사진으로 학습한다면 고양이 500장, 개 500장으로 맞춰줘야 한다.
- 학습하는 데이터의 양이 드라마틱하게 차이난다면, 알고리즘에서 내리는 정답은 극단 값으로 갈 수밖에 없다.
- ex) 구글의 이미지 인식 프로그램이 '흑인' 사진을 보고, '고릴라'로 분류한 게 대표적인 케이스
- 가정
- 1. 영상 URL, 각 사용자들이 특정 영상을 조회한 횟수, 조회를 한 시점(시각), 사용자 기본 정보(id, 성별, 나이)
- 2. 성능: 속도, 비용 무제한 -> 오로지 '정확도 높은 추천'에 관심
- 추천 알고리즘
- 1. CF
- Item-based
- User-based
- 사용자 기반 Matrix
- 패턴 : 영상을 본 순서 (본 순서대로 사용자의 패턴을 정의하고 추천)
- 장점 : 아이템 속성의 한계를 뛰어 넘었다.
- 예) 철수가 0 -> 3 -> 4를 보았는데, 영희가 0 -> 3을 보았다면, 그 다음의 영상으로 4번을 추천함
- 단점 : Cost가 많이 든다.
- 2. Contents-based
- 단점
- Item(Contents) 속성의 한계에서 벗어날 수 없다.
- 즉, 소비한 콘텐츠의 한계에서 벗언라 수 없다.
- Cold start
- 선호에 대한 정보가 없는 경우
- 방법이 없다. 그렇기 때문에 Facebook에서 개인 정보 수집에 열을 올리는 것이다.
- Watcha나 Netflix도 처음 가입한 사람에게 선호도를 물어본다.
- 순서대로 한 사람씩 매치한다.
- 우리 주변에서 볼 수 있는 인공지능
- 페이스북의 친구 추천
- 월마트 맥주와 기저귀 사례(장바구니 분석)
- 금요일 저녁, 부인이 남편한테 기저귀 부탁 + 남편이 맥주를 사지 않았을까 하는 추측
- 넷플릭스 영화 추천
- 유투브 영상 추천
- 평균값(Mean), 중앙값(Median), 최빈값(Mode)
- 최소값, 최대값
- 모집단(Population)
- 우리가 알고 싶은 것
\[\begin{equation} 모평균 : \mu \end{equation}\] \[\begin{equation} 모표준편차 : \sigma^2 \end{equation}\] \[\begin{equation} 표준편차 : \sigma, \sqrt{\sigma^2} \end{equation}\] - 허나, 모집단은 (현실적으로)측정할 수 없다.
- 표본 (Sample)
- 그래서 Samplig(표본 추출)하는 것이다.
- 고려할 수 있는 부분(성별, 지역, 연령 등)을 다 고려해서 Random Sampling(무작위 추출)을 해야한다.
- Bias(편향)를 고려하고 Sampling해야 한다. Bias된 데이터는 오염되었다.
- 허나, 100% 완벽한 통계는 없다.
\[\begin{equation} 표본 평균 : \overline{x} \end{equation}\] \[\begin{equation} 표본 분산 : s^2 \end{equation}\] \[\begin{equation} 표본 표준 편차 : s, \sqrt{s^2} \end{equation}\]
- 공식으로 나올 수 있는 통계
- 모집단을 알고 있을 경우
- 표본으로 모집단을 추론
- 목적
- 현황 파악(분석)을 하기 위해 진행한다.
- 기술 통계
- 평균, 중앙값, 최빈값, 최소값, 최대값, 편차, 분산, 표준편차가 있다.
- 데이터가 분포된 모양을 파악하고 결정
- Boxplot, Scatter Plot, Histogram, Barplot
- 표본의 수가 충분히 많으면 모든 확률 분포는 정규분포에 수렴하며, 평균은 실제 평균에 점점 가까워진다.
- 그래서 (질 좋은)'Big' data가 중요하다.
- 통계에서는 정규분포를 따른다고 가정하고 문제를 푼다.
- 추정에는 두 가지 방법이 있다.
- point to point(표본 <-> 모집단)
- 표본에서 얻은 값을 모집단 값이라고 추정한다.
- Boxplot을 통해 살펴본다.
- 이상치를 포함하여 분석할 경우 결과를 왜곡하기 때문에 처리 후에 분석한다.
- 이상치 처리 방법
- A. 정상 범위를 넘어가는 이상치를 결측 처리 후 제거 후 분석
- B. 정상 범위를 넘어가는 이상치를 최소/최대값으로 변환 후 분석
- 처리 기준
| 종류 | 예시 | 해결 방법 |
|---|---|---|
| 존재할 수 없는 값 | 성별 변수에 3 | 결측처리 |
| 극단적인 값 | 몸무게 변수에 200 | 정상 범위 기준 정해서 결측 처리 |
- 정상범위 기준
- 1Q - (1.5 * IQR) ~ 3Q + (1.5 * IQR)
- 고민
- (실수로 입력된 이상치는 제거하는 게 맞지만 그게 아닌) 이상치는 이상치가 아닐 수 있다.
- 현실은 이상치에 주목하는데 그걸 날려버릴 필요가 있을까?
- 통계분석을 하지 않는 이상 굳이 할 필요가 있을까?
- Logistic Regression을 시행할 때는 필요
- 언어별 분석 방법
- Python
- missing no : 결측치를 시각화해서 보여주는 라이브러리
- data.isnull().sum() : 결측치를 계산해서 보여주는 함수
- R
- VIM : 결측치를 시각화해서 보여주는 라이브러리
- colSums(is.na(data)) : 결측치를 계산해서 보여주는 함수
- 해결 방안
- 1) Deletion (삭제)
- 결측치가 들어간 Row(데이터) 제거
- 60% 이상의 결측치가 존재한다면 해당 Column(변수) 제거
- 2) Imputation (대체)
- a) knnout
- b) 대표값
- 최빈값
- 평균값
- 두 집단의 (평균) 차이 비교
- 두 집단 이상의 그룹에 대한 (분산)차이 비교
- 예측
- ex) 지방선거 : 명목형 변수(지역, 성별)끼리 연관이 있는지 확인
- Correlation Analysis
- 변수들끼리의 상관관계가 있는지 분석
- ex) Correlation Matrix, Association Analysis(연관성 분석, 장바구니 분석)
- 귀무가설 (Null Hypothesis, H0)
- 기존에 연구나 조사가 되어진 사실, 알려진 사실
- key point : 같은가?(의미x)
- 대립가설 (Alternative Hypothesis, H1)
- 연구자가 새롭게 주장하고 싶은 가설, 알고 싶은 것
- key point : 다른가?(의미0)
| 차이 | 영향력 | ||
|---|---|---|---|
| \({H_0}\) | X | X | |
| \({H_1}\) | O | O |
| 사실 / 결정 | H0 채택 | H0 기각 | |
|---|---|---|---|
| \({H_0}\) True | 옳은 결정 | 1종오류 | |
| \({H_1}\) False | 2종 오류(β) | 옳은 결정 |
- 1종 오류(Type1 error): 귀무가설이 참일 때, 귀무가설을 기각하게 되는 오류
- 2종 오류(Type2 error): 대립가설이 참일 때, 대립가설을 기각하게 되는 오류
- 1종 오류는 사실인 귀무가설을 기각하는 오류를 말하며
- 2종 오류는 허위인 귀무가설을 채택하는 오류를 말한다.
- 1종 오류는 귀무가설이 참인데 이를 기각 하는 것이며, 2종 오류는 귀무가설이 거짓인데, 기각에 실패하는 것이다.
- 예를 들어, 1종 오류는 불이 안 났는데 경보 알람이 울리는 것이며, 2종 오류는 불이 났는데 경보 알람을 울리는데 실패하는 것이다.
- 위 두 가지 오류 중에 어떤 오류가 더 심각한 영향을 미칠까?
- (어떤 지표가 더 중요한지는 분야에 따라 다르기 때문이다) 정답은 없지만 보통은 1종 오류라고 이야기한다.
- 예를 들어, 법정에서 피고인을 대상으로 판결을 한다면, 무죄인 사람을 유죄로 판결하면 안 되기 때문에 귀무가설로써 피고인은
무죄라고 가정한다. 하지만 이 참인 귀무가설을 기각하게 되는 오류를 1종 오류라고 부른다. 즉, 무죄를 유죄하라고 오판하는 것이다.
- 알파(alpha), 신뢰수준(significance level) 그리고 검정력(power)은 1종 오류, 2종 오류와 관련하여 설정하는 것들이다.
- 이 설정에 대한 절대적 기준이 없으며 분석자의 주관에 따라 결정하는 내용이다.
- 1종 오류가 올라가면 2종 오류는 내려가고, 1종 오류가 내려가면 2종 오류가 올라간다.
- 보통 1종 오류를 고정시키고, 2종 오류를 줄이는 방법을 생각한다.
- 2종 오류를 줄이고 싶으면 표본수를 늘리면 된다.
- 유의확률(significance probability, p-value) : 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률, 검정통계량을 통해 얻어지는 확률 - 자유도를 고려했을 때 검정통계량에 대한 확률을 말한다. (귀무가설의 신뢰구간을 벗어나는 확률) - 기각역보다 유의확률이 작아야 귀무가설을 기각할 수 있다. - 검정에서 쓰이는 분포에서 기각역 이상의 영역이 유의확률
- 자유도 - x값이 가질 수 있는 값의 범위를 말한다. - 자유도가 주어지지 않는 경우, 자유도= 표본수(n) - 1
- 모든 분석은 '가설검정'을 거친다.
- H0 : H1 = H2
- H1 : H1 != H2
- 달라야지 의미가 있다. 같은 건 의미가 없다.
- 유의수준과 유의확률(p-value)를 이용하여 가설검정을 한다.
- 설명할 때, "유의수준(알파값)을 0.05로 설정했더니 결과가 이렇게 나왔다."
- 유의수준 > 유의확률
- 귀무가설 채택, 대립가설 기각
- 통계적으로 유의하지 않다.
- 유의수준 < 유의확률
- 대립가설 채택, 귀무가설 기각
- 통계적으로 유의하다. 유의한 차이가 있다.
- 귀무가설: 기존에 알고 있던 사실 (통계적으로 균질한 것)
- 대립가설: 내가 주장하고 싶은 것 (통계적으로 균질하지 않은 것)
- 유의하다 = 의미가 있다.
- 내가 주장하는 게 맞으려면 대립가설이 맞아야 함.
- 예시) 올리브영에서 남자 고객을 늘리기 위해 특정 프로모션(마케팅)을 실시했는데 효과를 어떻게 측정할 수 있을까?
- 연령대로 나누고(20/30대), 성별(남/녀)로 나눠서 T-test로 검정한다(비교 집단이 2개 이상일 경우, Anova 검정)
- 남 > 여 : O
- 남 = 여 : X
- 남 < 여 : XX
- Random Sampling을 하면 Error는 필연적으로 생길 수밖에 없다.
- Random에 의한 우연인지, 실제 효과인지 알 방법이 없다.
- 그렇기 때문에 검정을 해야 한다.
| 차이 | 영향력 | ||
|---|---|---|---|
| \({H_0}\) | X | X | |
| \({H_1}\) | O | O |
- 대립가설과 귀무가설은 목적성과는 별개로 설정되어야 한다.
- 내가 원하는 주장이라고 해도 (대립가설이 아니라) 귀무가설이 될 수 있다.
- 쉽게 말하면, 귀무가설은 세상이 생각하는 상식과도 같다.
- 검정통계량
- 실제로 관측된 값
- 기준
- 유의수준(α) : 일반적으로 0.05(5%)
- 95%의 신뢰구간
- 내가 맞다는 걸 주장하고 싶으면, 바로 검증하기 전에 내 반대 주장의 확률을 살펴본다,
- 새로 개발한 두통약의 효과 통계적으로 검증하기
- 두통 완화 효과는 뇌파의 강도로 측정 가능하다고 가정
- 예산 편성, 평소 두통이 심하다고 검증된 100명, 나이와 성별, 생활 환경 등이 비슷한 환자
- 1) 구체적으로 어떻게 해야 원하는 결과를 검증할 수 있을까?
- 우선 효과를 정의해야 한다. 무엇을 효과라고 할 것인가?
- 뇌파의 측정값이 줄어드는지 검증
- 100명의 data (sampling)
- 1) Between(집단 간)
- 랜덤하게 2 집단으로 나눈다.
- 처치한 집단, 처치하지 않은 집단의 뇌파 평균
- 평균이 차이가 있는지 0가설 검정 (통계적으로 확인)
- 0가설(귀무가설) : 두 집단 간의 차이가 없다.
- 대립가설 : 두 집단 간의 차이가 있다.
- 2) Within(집단 내)
- 1차 투입
- 2차 투입
- 3차 투입
- 평균, 투약했을 때와 투약하지 않았을 때의 차이를 검증
- 0가설은 똑같지만, 같은 집단 내에 반복되게 노출시킨다.
- 2) 이때의 0가설은 무엇인가?
- 두 집단 간의 차이가 없다.
obj : 집단간 차이는 통계적으로 어떻게 검증하는가?
- 집단끼리 비교하고 싶은데, 절대적인 수치로는 비교할 수 없다.
- 왜냐하면 집단에서 의미하는 단위의 의미가 다르기 때문이다. 단위 통일이 필요하다.
- 그래서 단위를 σ로 맞추는 것이다.
- 평균으로부터 떨어진 거리
- 위치에 대한 비교가 가능해진다.
- 상대적인 비교를(확률적으로 이야기하기) 위해서, Z를 쓴다.
- 모든 수치를 z로 바꾸면, z분포이다.
- 표준정규분포
- 확률적으로 평균을 기준으로 분산에 따라 분포
- 평균(기대값)은 항상 0이고, 분포는 1, 넓이는 1을 갖는다.
- ex) 우리나라 20대 성인의 평균키는 173cm 이며, 표준편차는 5일 경우. 내 키는 상위 몇%에 속하는지 직접 계산하기.
- Z = x - μ / σ
- μ = 173, σ = 5
- (174-173) / 5 = 0.2
- 토익 문제집 효과 검증하기
- 토익 문제지를 새로 만들었는데, 이 문제집이 토익 점수를 올리는데 효과가 있는지 알아보고 싶다.
- 평가기준
1. 0가설과 효과에 대한 논의
2. 샘플링을 어떻게 할 것인가?
3. 각 방법의 장단점을 어떻게 정의할 것인가?
- 실험설계
- 1. 0가설과 효과값 정의
- 경향성을 논의하기 위해 평균값을 이야기 해야 한다.
- 귀무가설
- H0 = H1
- 처치 전후의 평균 차이가 없다.
- 새로 만든 토익 문제지는 점수를 올리는데 효과가 없다.
- 대립가설
- H0 != H1
- 처치 전후의 평균 차이가 있다.
- 새로 만든 토익 문제지는 점수를 올리는데 효과가 있다.
- 효과값 : 주관적인 부분
- 2. Sampling
- 100명 모은다 치자.
- 정의하기 쉽게 비슷한 성질로 sampling 한다.
- 비슷한 점수, 연령대
- 3. 분석 방법 정의
- 집단 내 ... 제약회사, IT회사(A/B Test)
- 장점 : 추이(trend)를 볼 수 있다.
- 단점 : 학습(learning)효과를 배제할 수 없음(Overfitting)
- 천장효과의 문제
- n번 마다 결과값이 들쑥날쑥할 수 있음
- 같은 집단 내에 반복 노출 시킨다.
- 모의고사 평균 점수를 확인한다.
- 집단 간 ... 실험실
- 장점 : 대조군을 쉽게 비교할 수 있다.
- 단점 : 통제(Control)가 어렵고, 샘플링의 편향성(bias)이 존재할 수 있다.
- 랜덤하게 2집단으로 나눈다.
- 새로운 문제지를 푼 집단과 풀지 않은 집단
- 모의고사 평균 점수 확인한다.
- 같은 데이터를 갖고도 분석 방법에 따라 결과가 다르니까 방법을 잘 정의해야한다.
- (가설 검정할 때 하는) 우리의 가정
- (5%는 현실에서 잘 안 일어나니까) 구간을 95%로 정해놓고 5% 이하일 때만 귀무가설을 기각한다.
- (실제 우리의 생활에서 5%라는 것은 드물지만) 반드시 일어나는 확률 중 하나이다.
- 즉, 우리는 5%를 우연이라고 치고 귀무가설을 기각 해버렸지만, 실제로는 우연이 아니라 실제로 그럴 수도 있을 가능성이 항상 존재한다.
- 귀무가설을 기각하면 안 되는 경우인데 기각한 오류(또는 확률), 통계학에서는 이것을 1종 오류라고 부른다.
- 우리가 어떠한 통계적 가설검정을 하면, 우리가 정한 구간에 따라 1종 오류가 자동으로 결정되며, 검증을 반복하면 에러가 누적된다.
- 방금 살펴본 1종 오류 외에도 모집단을 모르는 이유 때문에 z분석은 실생활에서 크게 사용되지 않는다.
- Sample을 가지고 모집단의 차이를 유추하는, 자유도에 따라 분포 모양이 변화하는 t 분포를 이용하는 분석을 쓴다.
- T-test는 두 집단의 차이가 있는지 검증할 때 사용한다.
- T-test가 가장 많이 쓰이는 곳은 '집단 간'차이 분석할 때이다.
- ex 1) 새로 개발한 약 테스트
- 집단 내 설계
- 병원에서 개발한 시약이 효과가 있는지 확인하기 위해서, 총 10명의 환자에게 3회에 걸쳐 약을 먹이고, 먹고 난 다음에 병세를 체크했다.
- 약을 복용함에 따라 병세가 호전되었다면, 이것은 효과가 있는 약이라고 얘기할 수 있다.
- 이러한 실험 방법을 '집단 내 설계'라고 부르며, 1개의 동일한 집단에 반복해서 측정한다고 해서, '반복 측정 설계'라고도 부른다.
- 이때는 반복 측정 T검정이라는 분석 방법을 쓰면 된다.
- ex 2) 새로 만든 토익 문제지 테스트
- 집단 간 설계
- 토익 점수가 비슷한 사람 100명을 모집해서, 2개의 그룹으로 나눈다.
- 첫번째 집단에는 새로 만든 토익문제지를 풀게하고, 두번째 집단은 그냥 원래 하던대로 하게 둔다.
- 특정 기간이 지난 후에, 각 집단의 평균을 비교했을 때 새로운 문제지로 푼 집단의 토익점수가 더 높으면 이 문제지가 토익 점수를 높이는 효과가 있다고 말할 수 있다.
- 2번의 접근 방법은 우리가 상식적으로 생각하는 '실험'에 가장 가깝다.
- 즉, 뭔가 처치를 하는 <실험군>과 아무 것도 하지 않고 두는 <대조군>을 두고, '처치 전후의 평균값 차이를 비교'하는 것이다.
- 이러한 설계를 '집단 간 설계'라고 부르며, 이때는 '독립 집단 T검정'을 써야 한다.
- (분산) 동질성 검정
- 같은 결과라도 분산이 다르면 분포가 달라진다.
- 두 집단의 분산이 같은 경우
- 두 집단의 분산이 다른 경우
- 똑같은 평균값이라고 해도 T-test 값은 다르다.
- 집단 간 비교는 분산(분포가 벌어진 정도)을 생각해야 한다.
- 두 집단의 분산이 어느 정도 동일해야 한다.
- α(유의수준) < p-value(유의확률)
- 두 집단간 통계적으로 차이가 없다.
- 대립가설 기각
- α > p-value
- 두 집단간 통계저긍로 차이가 있다.
- 귀무가설 기각
| 사실 / 결정 | H0 채택 | H0 기각 |
|---|---|---|
| H0 True | 옳은 결정 | 1종 오류(α) |
| H0 False | 2종 오류(β) | 옳은결정 |
- 1종 오류(Type1 error): 귀무가설이 참일 때, 귀무가설을 기각하게 되는 오류
- 2종 오류(Type2 error): 대립가설이 참일 때, 대립가설을 기각하게 되는 오류
- 1종 오류는 사실인 귀무가설을 기각하는 오류를 말하며
- 2종 오류는 허위인 귀무가설을 채택하는 오류를 말한다.
- 표본의 수(n)가 30을 넘으면, 표준정규분포와 동일하다고 본다.
- 정규화가 되었다고 본다.
- 편포여도, 샘플 수가 많아지면 정규화가 됨
- 데이터의 속성부터 파악해야 한다. 알고리즘은 제일 나중이다.
- 접근 방법이 z분석과 동일하기 때문에 1종 오류를 극복하지 못했다.
- "두 집단간의 차이가 있는지 통계적으로 검증하시오"
- 두 집단 간 차이가 있는지 검증하기 위해 귀무가설을 '두 집단 간 차이가 없다'로 가정한 분폴르 본다.
- 집단간 차이가 있는 관측치가 나올 확률을 계산한다.
- 해당 확률이 너무 낮으면(통상 5% 이하) 차이가 없다는 귀무가설을 기각하고 대립 가설을 채택한다.
- 여태까지 집단간 차이를 '평균값'의 차이로 정의하였다.
- 평균 말고 분포의 특성을 나타내는 수치가 하나 더 있는데 그게 바로 '분산'(분포가 벌어진 정도)이다.
- 집단 간 비교의 끝판왕이라고 생각하면 된다.
- 세 개 이상의 집단을 비교할 때, 사용하는데 평균으로 비교하는 게 아니라 분산으로 비교한다.
- 수식
- H0 : A = B = C
- H1 : A, B, C의 분산 중 하나라도 차이가 있다.
- F 검증의 한계
- 집단 간 차이가 있는지 없는지를 알려주지만, 차이가 있다면 어떤 것에서 차이가 있는지 알려주지 않는다.
- F 검정을 통해 유의미한 차이가 있다면, T-test로 하나씩 잡아야 한다.
- 1) 독립성
- 2) 정규성
- 샘플 수가 늘어나면 자동으로 정규분포가 된다.
- n이 30개
- 3) 등분산성
- Category : 성별, 지역, 정당 ...
- 우위가 없음
- 서열 : 신용등급, 순위 ...
- 우위가 있음
- 구간으로 본다.
| X (R.V x) | Y(R.V o) | Test |
|---|---|---|
| 명목형 변수 | 연속형 변수 | T_test, Anova |
| 연속형 변수 | 연속형 변수 | Regression |
| 연속형 변수 | 등급형 변수 | Logistic Regression |
| 명목형 변수 | 명목형 변수 | Chi-squared test |
- 머신러닝에 대한 설명은 추후에 자세하게 설명할 예정이니, 머릿 속에 지도를 그릴 수 있을 정도로 간략하게 설명하겠다.
- 1. Label 유무에 따른 머신러닝
- 1) Label(정답)이 있으면 지도학습(Supervised Learning)
- 2) Label(정답)이 없으면 비지도 학습(Unsupervised Learning)
- 2. Label의 종류에 따른 머신러닝 기법
- 1) Regression (회귀) : 종속 변수(y)가 수치형
- 종속변수(Y)가 독립변수(X)에 영향을 받을 때, 그 변수들 간의 함수 관계를 규명하기 위하여 이용되는 통계적 방법
- 회귀 모형이 학습되었을 때, 새로운 독립 변수의 값으로부터 종속 변수의 값을 예측할 수 있다.
- 종속변수(Y)에 중요한 영향을 주는 주요 독립변수 선별
- 알고리즘 종류
- a) 선형 회귀 (Linear Regression)
- 단순 선형 회귀 (Simple Linear Regression)
- 독립변수가 하나일 때 종속 변수의 값을 예측
- 예) 여름철의 기온과 아이스크림의 판매량과의 경향성을 파악하면 미래의 일을 예측할 수 있음
\[\begin{equation} y = \beta_0 + \beta_1\chi + \varepsilon \end{equation}\]
- β0 : y절편 (독립변수가 0일 때, 종속변수의 평균값)
- β1 : 기울기 (독립변수가 한 단위 증가함에 따라 발생하게 되는 종속변수 평균치의 증가분)
- ε : 랜덤 오차 (random error, εi - yi = ŷ)
- 최소제곱법 (Method of Least Squares)
- 회귀 모형의 타당성
- 상관분석 vs 회귀분석
- 다중 선형 회귀 (Multiple Linear Regression)
- 독립변수가 두 개 이상일 때 종속변수의 값 예측
- 예) 여름철의 기온, 아이스크림 가격, 소득이 아이스크림의 판매량에 미치는 영향을 분석 및 예측
\[\begin{equation} y = \beta_0 + \beta_1\chi_1 + \beta_2\chi_2 + \beta_3\chi_3 + ... + \varepsilon \end{equation}\]
- 다중공선성(Multicollinearity)
- 회귀 모형의 타당성
- Subset Selection (변수 선택법)
- 변수 중요도
- b) Shrinkage Method
- Ridge Regression
- Lasso Regression
- c) k-NN
- d) Regression Tree
- e) ANN (Artificial Neural Network)
- f) SVM (Support Vector Machine)
- 2) Classification (분류) : 종속 변수(y)가 명목형
- Supervised Learning의 일종으로 다양한 X 변수들과 미리 정의된 class 변수(Y)와의 관계를 밝히는 과정
- Traning set으로 모델을 학습한 뒤, 새로운 data(Test set)가 주어졌을 때, data의 class를 밝혀내고 정확하게 분류하는 것
- 알고리즘 종류
- a) k-NN (k-Nearest Neighbors)
- b) Decision Tree
- c) ANN (Artificial Neural Network)
- d) SVM (Support Vector Machine)
- e) Losistic Regerssion
- 종속변수가 범주형일 때의 회귀식을 추정하여 분류 문제에 적용하기 위해 사용한다.
- 기존의 선형 회귀식
\[\begin{equation} y = \beta_0 + \beta_1\chi + \varepsilon \end{equation}\]
- 예측된 Y값이 0~1사이의 값을 가짐 -> 기존의 선형 회귀식을 사용하기 어려움
- 종속 변수의 범위를 [0, 1]에서 [−∞, ∞]로 바꿔주기 위한 작업이 필요
- 오즈(Odds) / 로짓(Logit) 변환
1. Y값에 대한 확률을 계산
- P = P(Y=1) : 어떤 사건이 일어날 확률
2. Odds 계산
- 사건이 발생할 확률 / 사건이 발생하지 않을 확률
\[\begin{equation} odds = \frac p{1-P} = \frac {p(성공)}{1-P(실패)} \end{equation}\]
\[\begin{equation} 0 < Odds < \infty \end{equation}\]
3. Log Odds 계산
- Odds에 Log를 취함
\[\begin{equation} log(odds) = logit(P) = In(odds) = ln\left ( \frac{P}{1-P} \right ) \end{equation}\]
\[\begin{equation} -\infty < Odds < \infty \end{equation}\]
- Log odds를 이용한 회귀식 추정
\[\begin{equation} ln\left ( \frac{P}{1-P} \right ) = \beta_0 + \beta_1x \end{equation}\]
- x가 아무리 작아지거나 커지더라도 y는 0또는 1로 수렴
- 회귀계수의 해석
- 회귀계수가 양수일 때, x값이 증가하면 P(Y = 1)이 증가
- 회귀계수가 음수일 때, x값이 증가하면 P(Y = 1)이 감소
- x가 한 단위 증가할 때 Odds가
\({\ e^{\beta_i}}\) 만큼 증가
- Simple linear regression
- y = -0.2 + 0.25 hours
- Logistic regression
\[\begin{equation} ln\left ( \frac{P}{1-P} \right ) = -758.5 + 251.8hours \end{equation}\]
\[\begin{equation}
P = \frac{1}{1+e^-(^-758.5+251.8hours)}
\end{equation}\]
- 학생이 공부를 1/3/5 시간 했다면 시험에 pass를 할 확률
\[\begin{equation} \hat{p}(hours = 1) = 0 \end{equation}\] \[\begin{equation} \hat{p}(hours = 3) = 0.045 \end{equation}\] \[\begin{equation} \hat{p}(hours = 5) = 1 \end{equation}\]
- 3. Ensemble Learning(앙상블)
- Bagging
- Random Forest
- Boosting
-