2조 GITHUB

2조 GITHUB https://github.com/tmdals5252/Statistics-Network-Analysis





<1> 개요


1. 주제 : 반도체 특허 분석 및 시각자료 제공

기업별 반도체 특허를 시각자료로 제공하고 분석한다.


2. 대상

  • 특허를 내는 기업

  • 변리사

  • 특허청 공무원


3. 선정 기업 및 반도체

  • 선정 기업 : LG, SAMSUNG, SK

  • 반도체

    • Display
      컴퓨터로 처리된 내용을 브라운관에 보여주는 출력장치

    • Led (Light-Emitting Diode)
      전기 에너지를 빛으로 변환시키는 광반도체

    • RAM (Random Access Memory)
      기억된 정보를 읽어내기도 하고 다른 정보를 기억시킬 수도 있는 메모리

    • Transistor
      전류나 전압 흐름을 조절하여 신호를 증폭하고, 스위치 역할 등을 수행하는 반도체소자


4. 기대 효과

  • 기업 Issue
    • 어느 기업이, 어느 부품에서 특허를 많이 가지고 있는지 알 수 있다.
  • 반도체 Issue
    • 반도체 내에서 어떤 부품이 issue가 되는지 알 수 있다.
  • 경쟁력 향상
    • 각 기업이 가지고 있는 특허 중 개선해야 할 부분을 파악하여 경쟁력 향상되는데 도움이 된다.






<2> Data


1. Data 수집

Kipris 특허청 특허정보검색서비스


kipris 로고

Kipris 사이트 http://www.kipris.or.kr/khome/main.jsp


2. DE

  1. 분석을 진행할 변수 열 선택 (4개의 변수)
    - 발명의 명칭, 출원인, 출원연도, 심사진행 상태

  2. 출원인을 기준으로 반도체 부품별 데이터 구분
    - 3개 기업 x 4개 반도체 - 총 12개 데이터 생성


3. DV

  1. 워드 클라우드 시각화
    - 발명의 명칭 변수 사용, 단어의 빈도 분석
    -> 해당 부품의 특허에서 가장 많이 언급되는 단어 파악


2. 심사 진행상태 비율 시각화
- 심사 진행 상태 변수를 사용 - 각 기업이 각 부품 별 가지고 있는 특허의 등록결정, 등록거절, 취하, 포기 등 비율 시각화


3. 각 부품별 기업의 특허 개수 비율 시각화
- 해당 부품에서 가장 많은 특허를 가진 기업 파악



4. 특허 추이 시각화
- 연도별 심사 진행 상태의 비율 추이 시각화
- 1의 워드클라우드 키워드 중 상위 키워드를 선별하여 연도별 키워드 빈도수의 추이 시각화







<3> 기업별 워드클라우드


1. 워드클라우드 코드

예시

1. 데이터 가져오기




LED


word_df10<-data.frame(word = names(wordResult10[1:10]), freq= wordResult10[1:10])


ggplot(word_df10, aes(word, freq, fill = word)) + geom_bar(stat='identity') + labs(title = "SK led 관련 특허 키워드")




LED




RAM




Transistor






<4>. 기업별 키워드 상위 10개


3. sk 상위 키워드


Display


LED


RAM


Transistor




SK 전체






<4> 특허 심사 진행 상태


1. 코드

예시

#데이터 불러오기 및 전처리
display_lg <- read.csv("C:/Users/dnjs1/Downloads/Rr/display(LG).csv", header=T)
display_lg <- display_lg[!(display_lg$심사진행상태 == ""), ]
display_lg$심사진행상태 <- gsub("\\(.*?\\)","",display_lg$심사진행상태)
#등록결정/거절결정/포기/취하(심사미청구)/기타=원결정유지

display_lg$심사진행상태 <- substr(display_lg$심사진행상태, 1, 5)
display_lg$심사진행상태 <- str_trim(display_lg$심사진행상태)

#각 항목별 개수 파악 (등록결정=1, 거절결정=2, 포기=3, 취하=4, 기타=5(원결정유지) )
display_lg_1 <- nrow(display_lg[display_lg$심사진행상태 == "등록결정",])
display_lg_1 <- nrow(display_lg[display_lg$심사진행상태 == "등록결정",])
display_lg_2 <- nrow(display_lg[display_lg$심사진행상태 == "거절결정",])
display_lg_3 <- nrow(display_lg[display_lg$심사진행상태 == "포기",])
display_lg_4 <- nrow(display_lg[display_lg$심사진행상태 == "취하",])
display_lg_5 <- nrow(display_lg[display_lg$심사진행상태 == "원결정유지",])
display_lg <- nrow(display_lg)

#lg사 display 관련 특허건 개수
display_lg #39209 #lg사 display 관련 특허 건 수
display_lg_1 #26915 #lg사 display 관련 특허 중 등록결정 건 개수 (재심사 후 등록결정건 포함)
display_lg_2 #2996 #lg사 display 관련 특허 중 거절결정 건 개수(거절결정 후 재심사중인 건 포함)
display_lg_3 #54 #lg사 display 관련 특허 중 포기(미납) 건 개수
display_lg_4 #8755 #lg사 display 관련 특허 중 취하(심사미청구) 건 개수
display_lg_5 #422 #lg사 display 관련 특허 중 원결정유지 건 개수

#lg사 display 관련 특허건 비율
display_lg_1_per <- display_lg_1 / display_lg 
display_lg_2_per <- display_lg_2 / display_lg
display_lg_3_per <- display_lg_3 / display_lg 
display_lg_4_per <- display_lg_4 / display_lg 
display_lg_5_per <- display_lg_5 / display_lg #원결정유지건은 제외
display_lg_1_per #0.6864495
display_lg_2_per #0.07641103
display_lg_3_per #0.001377235
display_lg_4_per #0.2232906

#lg사 display 관련 특허건
display_lg <- data.frame("심사진행상태"=c("등록결정","거절결정","포기","취하"),
                         "비율"=c(display_lg_1_per,display_lg_2_per,display_lg_3_per,display_lg_4_per))


그래프 코드

d_l = ggplot(display_lg, aes(x=심사진행상태, y=비율, fill=심사진행상태))+
       geom_bar(mapping=aes(fill=심사진행상태),stat = "identity")+
       geom_label(aes(label=round(비율,3),nudge_y = 1.1)) +
       labs(title = "LG사 display 관련 특허건 비율")




2. LG




3. SAMSUNG




4. SK




5. 특허 심사진행 상태 비율







<5> 각 부품별 기업의 특허 개수 비율


1. 코드

예시

##Display
#데이터 불러오기 및 전처리
display_lg <- read.csv("C:/Users/dnjs1/Downloads/Rr/display(LG).csv", header=T)
display_lg <- nrow(display_lg)
display_samsung <- read.csv("C:/Users/dnjs1/Downloads/Rr/display_samsung.csv", header=T)
display_samsung <- nrow(display_samsung)
display_sk <- read.csv("C:/Users/dnjs1/Downloads/Rr/skdisplay.csv", header=T, fileEncoding="euc-kr")
display_sk <- nrow(display_sk)
display_all <- sum(display_lg,display_samsung,display_sk)
#비율
display_lg <- display_lg/display_all
display_samsung <- display_samsung/display_all
display_sk <- display_sk/display_all

display <- data.frame("기업"=c("LG","SAMSUNG","SK"),
                      "퍼센트"=c(display_lg*100,display_samsung*100,display_sk*100))


그래프 코드

dis = ggplot(display, aes(x = '', y = 퍼센트, fill = 기업)) +
       geom_bar(width=0.5, stat = "identity", color="white") +
       coord_polar("y",start=1)+
       geom_text(aes(label = paste0(round(퍼센트,2),"%")),
                 position = position_stack(vjust = 0.5))+
       theme_void()+
       labs(title = "Display 관련 특허 내 각 기업 비율")




2. 각 부품별 기업 특허 개수 비율

  • Display : SAMSUNG > LG > SK

  • RAM : SAMSUNG > SK > LG

  • LED : SAMSUNG > LG > SK

  • Transistor : SAMSUNG > LG > SK




ⓒ Statistical Methods, Gachon University