This is an R Markdown Notebook. When you execute code within the notebook, the results appear beneath the code.
Try executing this chunk by clicking the Run button within the chunk or by placing your cursor inside it and pressing Ctrl+Shift+Enter.
plot(cars)
필요한 패키지
---
if("rJava" %in% installed.packages("rJava") == FALSE)install.packages("rJava")
library(rJava)
if("DBI" %in% installed.packages("DBI") == FALSE)install.packages("DBI")
library(DBI)
if("RJDBC" %in% installed.packages("RJDBC") == FALSE)install.packages("RJDBC")
library(RJDBC)
if("XML" %in% installed.packages("XML") == FALSE)install.packages("XML")
if("data.table" %in% installed.packages("data.table") == FALSE)install.packages("data.table")
library(data.table)
install.packages("dplyr")
library(dplyr)
Oracle 데이터를 Rstudio 로 가져오는 방법
myJDBC <- JDBC("oracle.jdbc.driver.OracleDriver",
"C:\\Users\\jiwon\\ojdbc6.jar")
conn <- dbConnect(myJDBC,
"jdbc:oracle:thin:@localhost:1521:xe",
"hr",
"oracle"
)
tab <- dbGetQuery(conn,"SELECT * FROM TAB")
tab
dplyr
filter, select, arrange, mutate,
summarise, group_by, left_join, bind_rows
tab <- data.frame(tab)
View(tab)
tname <- tab$TNAME
tname <- as.vector(tname)
tname
[1] “COUNTRIES” cnt “DEPARTMENTS” dep
[3] “EMPLOYEES” emp “EMP_DETAILS_VIEW” empd
[5] “JOBS” job “JOB_HISTORY” jobh
[7] “LOCATIONS” loc “REGIONS” reg
cnt <- data.frame(dbGetQuery(conn,"SELECT * FROM COUNTRIES"))
#마찬가지로 해보기
head(cnt)
str(cnt)
dep<- data.frame(dbGetQuery(conn,"SELECT * FROM DEPARTMENTS"))
emp<- data.frame(dbGetQuery(conn,"SELECT * FROM EMPLOYEES"))
empd<- data.frame(dbGetQuery(conn,"SELECT * FROM EMP_DETAILS_VIEW"))
job<- data.frame(dbGetQuery(conn,"SELECT * FROM JOBS"))
jobh<- data.frame(dbGetQuery(conn,"SELECT * FROM JOB_HISTORY"))
loc<- data.frame(dbGetQuery(conn,"SELECT * FROM LOCATIONS"))
reg<- data.frame(dbGetQuery(conn,"SELECT * FROM REGIONS"))
cnt의 컬럼명을 한글로 전환하시오
str(cnt)
#COUNRTY_ID 국가아이디,
#COUNTRNAME 국가명,
#REGION_ID 지역아이디,
#MANAGER_ID 매니저아이디
#LOCATION_ID 위치아이디
install.packages("dplyr")
library(dplyr)
cnt<- cnt %>%
dplyr::rename(국가아이디=COUNTRY_ID,
국가명=COUNTRY_NAME,
지역아이디=REGION_ID)
cnt
#dep의 칼럼명 전환
str(dep)
head(dep)
emp 의 컬럼명을 한글로 전환하시오.
그리고 First Name 과 Last Name 을
붙여서 이름 으로 된 컬럼을 추가하시오
단, 이름 간격은 띄울것. ex) James Dean
install.packages("dplyr")
library(dplyr)
str(emp)
emp<- emp %>%
dplyr::rename(전화번호=PHONE_NUMBER
) %>% mutate(이름=paste(FIRST_NAME,LAST_NAME)) # 두 변수 붙이기
View(head(emp))
필요없는 변수 삭제하기 부분함수를 구해서 마이너스 하면 제거된것처럼 된다
emp<-subset(empd,select=-c(FIRST_NAME,LAST_NAME))
View(head(empd))
매달 지급하는 월급여(연봉/12)를 보여주는
월급이라는 컬럼(변수)를 추가하시오. 0단위 이하는 절삭
emp <- emp %>% #emp에 뒤에 연산 부분을 추가하는것
dplyr::mutate(월급=연봉%/%12)
emp %>% head
View(emp)
연봉이 10000불 이상인 사원(emp)의 목록을 이름, 직원아이디, 연봉만 구하되,
연봉 내림차순으로 보여주시오(Get)
emp %>%
filter(연봉>=10000) %>% #파이트라인 뒤에는 왠만하면 줄바꿈
select(이름,EMPLOYEE_ID,연봉) %>%
arrange(desc(연봉))
연봉이 3000미만인 사원에게 보너스로 급여의 15%를 지급하겠다 한다.
보너스 컬럼을 추가하고,대상자의 목록을 이름 직원아이디 연봉을 기재하고 오름차순으으로 보여주시오.
install.packages("dplyr")
library(dplyr)
emp<-emp %>%
filter(연봉<3000) %>%
dplyr::mutate(보너스=연봉 * 0.15)
emp %>% select(이름, EMPLOYEE_ID, 연봉, 보너스) %>%
arrange(EMPLOYEE_ID)
+단, 보너스는 이번 달만 주는 것이므로, emp dataframe에 저장하지는 말고, 1회용 임시 df를 따로
생성해서 저장하고, 기한이 지나서는 폐기하라.
install.packages("dplyr")
library(dplyr)
emp<-emp %>%
filter(연봉<3000) %>%
dplyr::mutate(보너스=연봉 * 0.15)
emp %>% select(이름, EMPLOYEE_ID, 연봉, 보너스) %>%
arrange(EMPLOYEE_ID)
보너스지급명세서<- emp %>%
filter(연봉<3000) %>%
dplyr::mutate(보너스=연봉 * 0.15) %>%
select(이름, EMPLOYEE_ID, 연봉, 보너스) %>%
arrange(EMPLOYEE_ID)
View(보너스지급명세서)
rm(보너스지급명세서)
연봉이 10000이 넘는 직원의 부서명, 이름, 연봉을 출력(get.화살표 노)하시오.—<틀ㄹ #부서명은 dp안에 안나와있고 아이디만 나와있음. dp df안에 부서명 나와있으니 두개 join
install.packages("dplyr")
library(dplyr)
dep<- dep %>%
dplyr::rename(DEPARTMENT_ID=부서아이디)
emp<- emp %>%
dplyr::rename(DEPARTMENT_ID=부서아이디)
View(emp)
View(dep)
emp %>% #왼쪽에있는 emp기준.오른쪽에 있는것을 합쳐라
left_join(dep,by="DEPARTMENT_ID") %>% #두 df가 공통으로 가지고 있는것을by뒤에 둔다.
filter(연봉>=1000) %>%
select(DEPARTMENT_NAME,이름,연봉)
부서별로 연봉 평균을 구하시오–<틀ㄹ #(일대일 대응되는 두 요소-부서아이디와 부서명.그루핑 하기)
install.packages("dplyr")
library(dplyr)
emp %>%
left_join(dep,by="DEPARTMENT_ID") %>%
group_by(DEPARTMENT_NAME,DEPARTMENT_ID)
dplyr::summarise(연봉평균=mean(연봉,na.rm=T)) %>% #지운다rm=T--->
arrange(desc(연봉평균)) %>% View
이 회사의 부서의 수를 구하시오거<–
dep %>%
dplyr::distinct(DEPARTMENT_NAME) %>% #distinct:중복제ㄱ
count
연봉이 12000이 넘는 직원의 부서명, 이름, 연봉, 직책을 기재하시오
job. emp. dep 합쳐야함
install.packages("dplyr")
library(dplyr)
job %>% viwe
dep %>%
left_join(emp,by="DEPARTMENT_ID") %>%
left_join(job,by="JOB_ID")
filter(연봉>1200) %>%
select(DEPARTMENT_NAME,이름,연봉,JOB_NAME)
문제풀때는 항상 공통되는값을 기준으로!
부서별로 가장 높은 최대 연봉을 받는 부서아이디, 부서명, 최대연봉을 구하시오.max(연봉)
emp %>%
left_join(deb,by="DEPARTMENT_ID") %>%
left_join(job,by"JOB_ID") %>%
group_by(DEPARTMENT_ID,DEPARTMENT_NAME) %>%
summarise(max(연봉))
부서아이디를 발급받지 않으면 신입입니다.
신입의 이름과 연봉을 구하시오
install.packages("dplyr")
library(dplyr)
View(emp)
emp %>%
filter(is.na(emp %>% select(DEPARTMENT_ID))) ##이줄이핵심
selcect(이름,연봉,DEPARTMENT_NAME)
