Author

:> JungHwan Yun
:> Master Student in Data-Science
:> Seoul National University of Science & Technology(SeoulTech)
:> E-mail : junghwan.yun@seoultech.ac.kr


INTRO
  • 데이터 핸들링 첫 시간입니다. 여러분의 학기가 끝난지 얼마 되지 않았기 때문에 사회연결망 과제에 사용했던 데이터에 대해서 처리하는 과정을 진행해보도록 하겠습니다. 크게 어려운 부분은 아니니 수업을 듣지 않으신 분들도 쉽게 이해하실 수 있을겁니다.
  • 네트워크에 대한 간단한 이해 : Node와 Edge의 개념에 관하여

TASK
  • DATA : Web of Science의 1990~2016년까지의 “Artificial Intelligence”에 관한 논문 정보
  • ToDo : 논문 저자키워드를 이용하여 Keyword co-occurance network를 만드세요
    • 기존의 Document-Term Matrix를 이용하여 Term x Term 형태의 거대한 행렬을 만드는 것이 아닌, 바로 Edgelist형태로 만드는 방식입니다

DUE DATE
  • 1차 : 2017-06-29(목) 오후 1:00
  • 2차 : 2017-07-03(월) 오후 9:00

알고리즘 구현방식
1. 데이터를 입력받는다
2. 저자키워드 리스트를 받아서 2개씩 Pair를 생성해준다(Combination 연산을 진행한다)
3. Combination 연산의 결과를 세로로 배치한다 'Source'와 'Target'형태로 만들어 준다 
4. Source와 Target을 합산하여 Weight를 산출한다
5. 결과를 리턴한다
6. 주의사항 :  Source와 Target의 중복을 확인해 줘야 한다. 키워드 리스트의 경우는 방향성이 없다. 
  + ex)  A - B = B - A



중점 사항
1. 코드를 최대한 모듈화 할 수 있도록 코드를 작성해주세요.
2. 큰 규모의 함수를 돌리는 상황에서는 시작시간과 종료시간을 체크할 수 있도록 코드를 작성해 주세요.
3. 혹시 기존의 패키지와 함수들을 사용한다면 사용버전을 꼭 명시해주세요



Code Example

#함수선언부분
edge-maker = function(){
  
  #함수기능 수행
  
}


#코드실행부분
keyword = pd.read_csv()
head(keyword)
edgelist =  edge-maker(keyword)
head(edgelist)



Input Data의 형태

head(keyword)
IDX AuthorKeyword
1 gaussian mixture model;similarity measures;dimensionality reduction;kl-divergence
2 data ethics;data science;ethics of data;ethics of algorithms;ethics of practices;levels of abstraction
3 time series forecasting;dynamic selection;chaotic time series;time series forecasting ensemble
4 multi-agent systems;cooperative virtual power plants;scoring rules;coalition formation;game theory;artificial intelligence
5 residential buildings;energy consumption modeling;artificial neural network
6 groundwater quality;mamdani fuzzy system;drinking water quality;fuzzy;physicochemical analysis



Output Data의 형태

head(edgelist)
Source Target Type Weight Source_Label Target_Label
1350 1218 Undirected 518 artificial intelligence artificial neural network
7587 1218 Undirected 305 artificial intelligence expert system
9049 1350 Undirected 214 artificial neural network genetic algorithm
9049 1218 Undirected 185 artificial intelligence genetic algorithm
8595 1218 Undirected 177 artificial intelligence fuzzy
12951 1218 Undirected 171 artificial intelligence machine learning