결측치와 이상치 처리

01 결측치

데이터에서 값이 비어 있는 상태를 의미

rm(list=ls()) library(dplyr) data(‘airquality’) summary(airquality) str(airquality)

R에서는 NA가 결측값을 의미함.

is.na() 결측값을 Ture로 출력.

table(is.na(airquality))

결측값이 존재하면 연산 불가능.

sum(airquality\(Ozone) mean(airquality\)Ozone)

na.rm=ture: 결측값을 제외.

sum(airquality\(Ozone, na.rm=TRUE) mean(airquality\)Ozone,na.rm=TRUE)

02 이상치

데이터에서 다른 관측값들과 비교해

현저히 크거나 작아 통계적으로 동떨어진 값

data(iris)

상자그림(Boxplot)은 데이터의 분포와 이상치를 한눈에 보여주는 시각화 도구.

중앙값, 사분위수, 범위, 이상치 등을 확인

summary(iris)

boxplot(iris\(Petal.Length~iris\)Species,data=iris) data(“ChickWeight”) summary(ChickWeight) boxplot(ChickWeight\(weight~ChickWeight\)Diet,data=ChickWeight) hist(ChickWeight$weight)

data(“chickwts”) summary(chickwts) boxplot(chickwts\(weight~chickwts\)feed,data=chickwts)