루비페이퍼에서 출간된 이토록 쉬운 통계&R을 학습한 내용을 정리합니다.

루비페이퍼가 지원합니다


4일차 (2018년 1월 28일 일요일)

평균 (Mean) : 어떤 변수의 합계가 고정되어 있을 때 모든 관측치가 똑같이 나눠 가질 수 있는 값
분산 (Variance) : 평균에서 떨어져 있는 거리를 숫자로 계산하기 위한 시도중 하나
- 관측치들이 평균에서 평균적으로 얼마나 떨어져 있는지를 계산
- 0에 가깝다면, 관측치들이 대부분 평균 근처에 몰려 있다는 것을 의미
- 분산이 커질수록 평균에서 멀리 떨어져 있다는 것을 의미
- 분산이 크다는 것은 평균을 중심으로 관측치들이 상대적으로 더 넓게 퍼져 있다는 것을 의미 - 단위 (Unit)가 치명적인 단점이다

표준편차 (Standard Deviation) : 분산에 제곱근을 씌워서 단위의 문제를 해결한 숫자
- 분산이 면적이며 표준편차는 길이를 의미


3일차 (2018년 1월 27일 토요일)

순서통계량 (Order Statistics) : 값들을 크기에 따라 순서대로 줄 세우는 과정인 정렬해서 분석하는 것
- 최솟값(Minimum) : 정렬해서 가장 먼저, 가장 작은 값
- 최댓값(Maximum) : 정렬해서 가장 나중에 나오는, 가장 큰 값

다섯 숫자 요약 (Five Number Summary) : 데이터를 정렬해서 최솟값, Q1, 중앙값, Q3, 최대값으로 요약
- 분위수 (Quantile)
- 백분위수 (Percentile)
- 중앙값 (Median)
- 사분위수 (Quartile)

상자그림 (Boxplot)
도수분포표 (Frequency distribution table)
히스토그램 (Histogram)
=> 간단하고 빠른 분석을 하거나 그룹에 따른 차이를 확인 할 떄는 상자그림을 주로,
=> 하나의 변수에 대해서 좀 더 자세히 살펴볼 때는 히스토그램을 주로 사용


2일차 (2018년 1월 26일 금요일)

데이터를 분석하려면 비교할 기준이 필요하다
=> 비교를 할 수 없으면 차이를 확인할 수 없고
=> 차이를 확인할 수 없으면 데이터 분석은 의미가 없다

데이터의 구성

관측의 단위 (Unit)
변수 (variable)
관측치 혹은 관측 개체 (observation)

데이터와 데이터 공간

변수가 하나라도 늘어나면 분석이 복잡해지지만,
관측치는 몇 개가 더 늘어난다고 해서 분석 과정이 크게 달리지지 않는다.

==> 데이터 분석은 변수들이 만들어 내는 공간의 특징을 설명하고 그 속에 점처럼 흩어져 있는 관측치의 패턴을 찾는 과정

많은 데이터가 있는 경우 데이터 분석을 위해 변수 또는 관측치의 개수를 줄여본다
==> 관측치가 아닌 변수를 선택해야 차이를 확인하고 설명할 수 있다!

데이터 분석은 데이트를 변수 단위로 나눠서 분석하거나 변수 관계를 살펴보는 것

변수의 개수 : p
관측치의 개수 : n
데이터의 크기 : n x p
변수 : x
관측치 : 아래 첨자 알파벳
합계 : 시그마

기술통계량과 변수

통계량 (statistics) : 선택된 변수의 데이터를 계산한 숫자
기술 통계량 (Descriptive statistics) : 데이터의 특징을 설명하는 통계량

변수의 종류 : 확인할 수 있는 차리가 다르고, 계산할 수 있는 기술 통계량도 다르다

  • 연속형 (Continuous) : 한없이 다양하고 이어짐, 순서를 정하거나 값들을 더함
  • 범주형 (Categorical) : 정해진 몇 개의 값 중에서 하나의 값을 가짐, 값이 같은 관측치들을 묶어 개수를 셈.

1일차 (2018년 1월 25일 목요일)

데이터 -> 정보 -> 지식 -> 지혜

데이터의 특징 —> 숫자로 표현된 통계

데이터 요약