데이터베이스 분석하기

필요한 패키지

if("rJava" %in% installed.packages("rJava") == FALSE)install.packages("rJava")
library(rJava)
if("DBI" %in% installed.packages("DBI") == FALSE)install.packages("DBI")
library(DBI)
if("RJDBC" %in% installed.packages("RJDBC") == FALSE)install.packages("RJDBC")
library(RJDBC)
if("XML" %in% installed.packages("XML") == FALSE)install.packages("XML")
if("data.table" %in% installed.packages("data.table") == FALSE)install.packages("data.table")
library(data.table)
if("dplyr" %in% installed.packages("dplyr") == FALSE)install.packages("dplyr")
library(dplyr)

Oracle 데이터를 Rstudio 로 가져오는 방법

myJDBC <- JDBC("oracle.jdbc.driver.OracleDriver",
               "C:\\oraclexe\\app\\oracle\\product\\11.2.0\\server\\jdbc\\lib\\ojdbc6.jar")
conn <- dbConnect(myJDBC,
                  "jdbc:oracle:thin:@localhost:1521:xe",
                  "hr",
                  "oracle"
)
tab <- dbGetQuery(conn,"SELECT * FROM TAB")
tab

dplyr

filter, select, arrange, mutate,

summarise, group_by, left_join, bind_rows

tab <- data.frame(tab)
View(tab)
tname <- tab$TNAME
tname <- as.vector(tname)
tname

[1] “COUNTRIES” cnt “DEPARTMENTS” dep

[3] “DEPARTMENTS” emp “EMP_DETAILS_VIEW” empd

[5] “JOBS” job “JOB_HISTORY” jobh

[7] “LOCATIONS” loc “REGIONS” reg

cnt <- data.frame(dbGetQuery(conn,"SELECT * FROM COUNTRIES"))
head(cnt)
dep <- data.frame(dbGetQuery(conn,"SELECT * FROM DEPARTMENTS")) 
head(dep)
emp <- data.frame(dbGetQuery(conn,"SELECT * FROM DEPARTMENTS"))  
head(emp)
empd <- data.frame(dbGetQuery(conn,"SELECT * FROM EMP_DETAILS_VIEW"))  
head(empd)
job <- data.frame(dbGetQuery(conn,"SELECT * FROM JOBS"))  
head(job)
jobh <- data.frame(dbGetQuery(conn,"SELECT * FROM JOB_HISTORY")) 
head(jobh)
loc <- data.frame(dbGetQuery(conn,"SELECT * FROM LOCATIONS"))  
head(loc)
reg <- data.frame(dbGetQuery(conn,"SELECT * FROM REGIONS")) 
head(reg)

cnt의 컬럼명을 한글로 전환하시오

str(cnt)

COUNTRY_ID 국가 아이디,

COUNTRY_NAME 국가명

REGION_ID 지역아이디

cnt <- cnt %>% 
  dplyr::rename(국가아이디 = COUNTRY_ID ,
                     국가명 = COUNTRY_NAME,
                     지역아이디 = REGION_ID
  )
str(cnt)

dep 의 컬럼명 전환

str(dep)

DEPARTMENT_ID부서아이디

DEPARTMENT_NAME 부서며

MANAGER_ID 명매니저 아이디

LOCATION_ID 위치아이디

dep <- dep %>% 
  dplyr::rename(부서아이디 = DEPARTMENT_ID,
                     부서명 = DEPARTMENT_NAME,
                     매니저아이디 = MANAGER_ID,
                     위치아이디 = LOCATION_ID)
head(dep)

emp 의 컬럼명을 한글로 전환하시오.

그리고 First Name 과 Last Name 을

붙여서 이름 으로 된 컬럼을 추가하시오

단, 이름 간격은 띄울것. ex) James Dean

직원아이디 = EMPLOYEE_ID

이메일 = EMAIL

전화번호 = PHONE_NUMBER

채용일 = HIRE_DATE

업무아이디 = JOB_ID

연봉 = SALARY

커미션비율 = COMMISSION_PCT

매니저아이디 = MANAGER_ID

부서아이디 = DEPARTMENT_ID

str(emp)

emp <- emp %>% 
  dplyr::rename(직원아이디 = EMPLOYEE_ID,
                     이메일 = EMAIL,
                     전화번호 = PHONE_NUMBER,
                     채용일 = HIRE_DATE,
                     업무아이디 = JOB_ID,
                     연봉 = SALARY,
                     커미션비율 = COMMISSION_PCT,
                     매니저아이디 = MANAGER_ID,
                     부서아이디 = DEPARTMENT_ID
                     )
mutate(이름 = paste(FIRST_NAME,
                  LAST_NAME))
View(head(emp))

필요 없는 변수 삭제하기

emp <- subset(emp, select = c(FIRST_NAME, LAST_NAME)) 
emp <- subset(emp, select = -c(FIRST_NAME, LAST_NAME)) #서로 반대됨 
View(head(emp))

매달 지급하는 월급여(연봉/12)를 보여주는

월급이란는 컬럼 (변수)를 추가시키시오 0단위 이하는 절삭

emp_1 <- emp
  emp_1 
  mutate(월급 = 연봉%/%12) %>% 
  subset(emp, filter(월급<=0) )
View(head(emp_1))
#=====쌤 코딩 ==========
emp <- emp %>% 
    dplyr::mutate(월급 = 연봉%/%12)  #?
emp %>% head()  
View(emp)
  subset(emp, filter(월급<=0) )
View(head(emp))

연봉이 10000불 이상인 사원(emp)의 목록을 이름 지원아이디, 연봉만

구하되 연봉 내림차순으로 보여주시오.

str(emp)
  emp %>% left_join(dep, by="부서아이디") %>% 
  filter(연봉 >= 100000) %>% 
  select(이름 , 지원아이디,연봉,부서명 ) %>% 
  arrange(desc(연봉))

연봉 3000미만인 사원에게보너스로 급여의 1%를 지급 하겠다고

합니다. 보너스 컬럼을 추가 하고 대상자의 목록을 이름 , 직원아이디, 연봉, 보너스 을 #기재하고

아이디 오름차순으로 보여주시오

단 보너스는 이번달만 주는 것이므로 emp DF에 저장하지 말고 1회용 임시 DF를 따로 생성해서

저장하고 기한이 지나서는 폐기 하라.

보너스지급명세서  <-  emp %>% 
  filter(연봉 < 3000) %>% 
  dplyr:: mutate(보너스 = 연봉*0.01) %>%   
  select(이름 ,지원아이디,연봉, 보너스 ) %>% 
  arrange(직원아이디)
View(보너스지급명세서) 
rm(보너스지급명세서)#변수 제거 함수 

변수 추가하기

연봉이 10000이 넘는 직원의 부서명, 이름 ,연봉, 출력하시오 #출력하시오 <-사용안함

emp %>% left_join(dep,by ="부서아이디 " ) %>% #= raw 데이터 (값 )이다,그래서 "" 사용함 
  filter (연봉>=10000) %>% 
  select(부서명 ,이름 , 연봉)#연봉 변수임, 그래서 ""사용안함

부서별로 연봉 평균을 구하시오

emp %>% 
  left_join(dep,by ="부서아이디 " ) %>%
  View

dep %>% 
  left_join(emp, by="부서아이디 ") %>% 
  group_by(부서명,부서아이디 )#부서별로 이므로 group_by()사용함 
 dplyr::summarise(연봉평균=mean(연봉 ,na.rm=T)) %>% #na.rm=T->na이면 rm 삭제 함 
   arrange(desc(연봉평균 )) %>% 
   View

이회사의 부서의 수를 구하시오

dep %>% 
   dplyr::distinct(부서명 ) %>% #distinct는 중복을 제거하기 
   count

연봉이 12000넘는 직원의 부서명 , 이름 ,연봉, 직책을 기재하시오.

job <- job %>% 
   rename(업무아이디 = JOB_ID,
               직책 = JOB_TITLE,
               최소연봉 = MIN_SALARY,
               최대연봉 = MAX_SALARY
               )
 job %>% View

dep %>% 
  left_join(emp, by="부서아이디") %>% 
  left_join(job, by="업무아이디") %>% 
  filter(연봉>=12000) %>% 
  select(부서명, 이름, 연봉,직책 )

부서별로 가장 높은 연봉을 받는 부서아이디, 부서명 ,최대연봉을 구하시오

emp %>% 
  left_join(dep, by="부서아이디") %>% 
  left_join(job, by="업무아이디") %>% 
  group_by(부서아이디,부서명  ) %>% 
  summary(max(연봉 ))

부서아이디를 발급받지 않으면 신입입니다.신입의 이름과 연봉을 구하시오

View(emp)
emp %>% 
  filter(is.na(emp %>% select(부서아이디))) %>% 
  select(이름,연봉,부서아이디 )

#===혼자 한것 ====
emp <- ifelse (is.na(emp$부서아이디), 신입,emp$부서아이) %>% 
  filter(부서아이디=="신입 ") %>% 
  select(이름,연봉)
