Author
:> JungHwan Yun
:> Master Student in Data-Science
:> Seoul National University of Science & Technology(SeoulTech)
:> E-mail : junghwan.yun@seoultech.ac.kr
INTRO
- 네트워크 분석을 위한 파일 전처리를 지난시간까지 진행을 했습니다. 이번엔 조금 더 데이터 전처리에 집중을 해보도록하겠습니다.
TASK
- DATA : 익명의 어떤분께서 작성하신 “기차하면 생각나는 단어”에 대한 설문내용
- ToDo : 설문데이터셋을 분석이 가능한 형태로 변환하시오
- 이번 소스는 범용적으로 쓰기에는 다소 적절하지 않을 수는 있습니다.
- Warning : 데이터셋을 보면 화가 날 수 있습니다.
알고리즘 구현방식
function1 : format.trans()
1. 데이터를 입력받는다
2. 데이터를 나이, 성별순으로 집계한다.
3. 행단위의 데이터형태로 출력한다
중점 사항
1. 이번코드는 모듈화를 하지 않으셔도 좋습니다.
2. 큰 규모의 함수를 돌리는 상황에서는 시작시간과 종료시간을 체크할 수 있도록 코드를 작성해 주세요.
3. 혹시 기존의 패키지와 함수들을 사용한다면 사용버전을 꼭 명시해주세요
Code Example
#함수선언부분
def format.trans():
#함수기능 수행
#코드실행부분
data = pd.read_csv()
output.data = format.trans(data)
head(output.data)
Output Data의 형태
- Output : [idx][키워드][나이][성별]
data <- read.csv("D:/1_Google Drive/0_DH_STUDY/Week2-2/2_Output_DataSet.csv")
kable(head(data,20)) %>% kable_styling(bootstrap_options = c("striped"))
idx
|
KEYWORD
|
SEX
|
AGE
|
1
|
고향 만남의장소 여행 추억 약속
|
M
|
40
|
2
|
MT 무단여행 계란 고향 전국일주
|
M
|
30
|
3
|
배낭 간이역 시골장 서울역 증기기관차
|
M
|
50
|
4
|
만남 이별 애인 군대 여행
|
F
|
30
|
5
|
KTX 여행 내일로 이별 만남
|
F
|
30
|
6
|
간이역 은하철도999 스피드 여유 삶은계란
|
M
|
40
|
7
|
여행 빠른이동 기다림 출발 휴식
|
F
|
40
|
8
|
무임승차 기적소리 기다림 화장실 친구
|
M
|
50
|
9
|
여행 추억 명절이동수단 즐거움 만남
|
F
|
60
|
10
|
만남 친구 설렘 가족 여행
|
F
|
30
|
11
|
여행 친구 소나무 MT 터널속연기
|
M
|
30
|
12
|
낭만 청춘 고향친구 시작 끝
|
M
|
30
|
13
|
추억 역장 정동진 할머니
|
F
|
20
|
14
|
여행 추억 만남 역세권 사랑
|
F
|
60
|
15
|
추억 김밥,달걀,사이다 여행 KTX 랜드마크(상징)
|
M
|
40
|
16
|
추억 코레일 고루함 덜컹거림 비효율
|
M
|
50
|
17
|
여행 만남 약속 매개체 기적소리
|
F
|
30
|
18
|
빠르다 여행 안전 연결 호남고속철도
|
F
|
30
|
19
|
시골풍경 죽마고우 장터여행 이벤트홀 계란
|
F
|
50
|
20
|
KTX 고향 추억 계란 호두과자
|
F
|
50
|