2023.07.17

rm(list=ls()) ls() library(dplyr) getwd() setwd(“C:/data”) getwd()

library(caret)

ott1<-data.frame(id=c(1,2,3), car=c(“bmw”,“bmw”,“bmw”), fe=c(20,22,24)) ott2<-data.frame(id=c(1,4,5),fe1=c(30,34,35)) ott1 ott2

left_join(ott1,ott2,by=“id”)# 새로운 칼럼 삽입 inner_join(ott1,ott2,by=“id”) full_join(ott1,ott2,by=“id”)

ott3<-data.frame(nation_code=c(1,2,3,4), nation=c(“korea”,“japan”,“china”, “germany”)) ott4<-data.frame(car=c(“bmw”,“toyota”,“kia”),nation_code=c(3,3,2)) ott3 ott4 left_join(ott4,ott3,by=“nation_code”)

ott5<-data.frame(car=c(“bmw”,“bmw”,“bmw”), fe1=c(20,22,24)) ott6<-data.frame(car=c(“audi”,“audi”,“audi”), fe1=c(20,22,24)) bind_rows(ott5,ott6)

library(ggplot2) data(“economics”) glimpse(economics)

economics<-economics %>% mutate(year=substr(economics$date,1,4)) economics%>%group_by(year)%>%summarize(m=mean(psavert))%>% arrange(desc(m))%>% head(5)

as.Date(“2021-05-01”) # as.Date(“20210501”) ->>시계열 데이터는 이런식이면 에러

library(lubridate) library(dplyr) data(lakers) lakers<-lakers%>% as_tibble lakers%>% select(date,time) lakers<-lakers%>% mutate(date=paste(date,time)%>% ymd_hm)%>% rename(time_index=date)%>% select(-time) head(lakers)

summary(lakers) lakers%>%group_by(month(time_index))%>% summarize(mean_x=mean(x,na.rm=TRUE),mean_y=mean(y,na.rm=TRUE)) lakers%>%group_by(year(time_index))%>% summarize(mean_x=mean(x,na.rm=TRUE),mean_y=mean(y,na.rm=TRUE))

lakers%>%filter(time_index<=ymd_hms(“2008-10-28 12:00:00”))%>% head(3) lakers%>%filter(time_index>=ymd_hms(“2008-10-28 12:00:00”), time_index<=ymd_hms(“2009-03-09 00:33:00”))%>% head(3)

#6장 결측치와 이상치 처리 adsp 파트 #하나라도 결측치가 없으면 False, 하나라도 있으면 TRUE data(“airquality”) colSums(is.na(airquality)) today() now()

library(dplyr) summary(airquality) #summary함수를 통해서 결측값을 확인할 수 있다(adsp시험 포인트) names(airquality)<-tolower(names(airquality)) is.na(airquality$ozone) #데이터셋의 결측치 전체 빈도 구하기: table(is.na(데이터셋)) #데이터셋의 특정변수에 있는 결측치 빈도 구하기: table(is.na(데이터셋$변수)) #데이터셋의 모든 변수별로 결측치 빈도 구하기: summary(is.na(데이터셋)) table(is.na(airquality)) table(is.na(airquality$ozone)) summary(is.na(airquality))

sum(airquality$ozone) mean(airquality$ozone) sum(airquality$ozone, na.rm=TRUE) mean(airquality$ozone, na.rm=TRUE)

airquality<-na.omit(airquality) table(is.na(airquality)) colSums(is.na(airquality))

library(dplyr) names(airquality)<-tolower(names(airquality)) airquality%>% filter(!is.na(ozone))%>%head(3) airquality%>% filter(!is.na(ozone)&!is.na(solar.r))%>%head(3)

#ifelse(is.na(변수),대체값, 변수) data(“airquality”) names(airquality)<-tolower(names(airquality))

mean(airquality$ozone,na.rm=TRUE) airquality$ozone<-ifelse(is.na(airquality$ozone),42.0991, airquality$ozone) table(is.na(airquality$ozone)) glimpse(airquality)

airquality%>% filter(ozone==42.0991)%>% NROW()

2023.07.17

강지안

2023-07-17