데이터 분석 분야의 오픈채팅방이 얼마나 활발하게 진행 되고 있는지 파악해보자. 중점은 비정형 데이터인 카카오톡 데이터를 정형화 시키느것, 반응형 그래프와 테이블을 만들었다는것, 그리고 도메인 지식이 없으면 이에 대한 해석이 힘들 거라느 점이다. 이곳에서 코드 설명은 따로 하지 않을 예정이고, 코드 설명에 대한 내용은 블로그에다가 나누어서 설명을 해보려고 한다.

캐글 코리아

캐글 코리아는 이런 공유 정신에 입각하여, 데이터 사이언스, 머신 러닝, 딥러닝을 공부하고자 하는 분들이 캐글에서 쉽게 공부하실 수 있도록 함께 돕도록 만들어진 커뮤니티 입니다. 라고 소개를 하는 커뮤니티이다.
현재 약 1035명(2019-08-07기준) 정도가 오픈채팅방에 소속되어 있다.
그럼 이제 이 곳의 7월 오픈채팅방의 생태계를 조사해보자.

공식 링크: https://www.facebook.com/groups/KaggleKoreaOpenGroup/
카톡 링크: https://open.kakao.com/o/gP24T89


1. 일별 카톡 트래픽

하루에 몇개의 카톡이 오고 가는가를 보려고 한다. 경험상 1200명의 사람들이 매일 같이 질문답변을 함에도, 많이 하는날이 있고 적게 하는 날이 있었다.



2. 시간별 카톡 트래픽

시간별 얼마나 카톡이 오고가는지 알아보자. 이 수치를 알아보는 이유는 다음과 같다.
- 주로 몰리는 특정 시간대가 있는가?
- 또는, 주로 몰리게 되는 주요 키워드가 존재하는가?
몰리는 시간대야 쉽게 이를 통해 알 수 있지만 이 카톡방에서의 경험상 특히 몰리는 키워드가 있었다.(Ex. 모각캐 가시는분 계신가요?, 이러이러한 공부중인데 추천해주실만한 캐글 대회가 있나요? 등등)



3. 자주 쓰는 단어

시간대별 트래픽이중 상위 4개의 시간에 대한 키워드를 알아보자. 트래픽이 몰렸을때의 주요 키워드를 알아보도록 하자. 가령, 시간대가 점심이면 점심밥에 대한 이야기를, 금요일 밤이면, 월요일 아침이면, 그에 대한 키워드가 나올 것이다. 그리고 특정 키워드가 사람들을 참여하게 한다면 어떤 키워드 인지도 파악해보자.


2019-07-22 23:00:00 ~ 2019-07-22 23:59:00 의 키워드

1시간동안 272건의 카톡을 했다. 아래 그래프를 보자. 캐글 채팅방 답게, 가장 많은 단어는 AI, 커널이다, 동시에 캐글,참여,csv,kernel 답변 등등이 보인다. 이방에서 캐글과 공부 방법에 대한 이야기가 주로 나오긴 했었다.

2019-07-14 22:00:00 ~ 2019-07-14 22:59:00 의 키워드

1시간동안 138건의 카톡을 했다. 아래 그래프를 보자. 정리,기억, 공부, 블로그, 마크, 다운등의 키워드가 보인다. “공부한거 정리 어떻게 하세요 기억이 안나는요?” 정도의 질문부터 시작해서 “블로그에 정리해요 저는”, “마크다운으로 정리 하세요” 등등의 대화가 오갔을 것이다.

2019-07-03 12:00:00 ~ 2019-07-03 12:59:00 의 키워드

1시간동안 120건의 카톡을 했다. 아래 그래프를 보자. 커널이야 자주 사용되는 단어니까 패스. 그러나 notebook과 colab라는 단어가 눈에 띈다. 이 단어는 주로 파이썬 사용시 notebook을 사용하는지 google colab을 사용하는지에 대한 이야기다.

2019-07-22 16:00:00 ~ 2019-07-22 16:59:00 의 키워드

1시간동안 117건의 카톡을 했다. 아래 그래프를 보자. 모각캐… 이 모.각.캐라는 단어는 모여서 각자 캐글의 준말로, 모.각.코(모여서 각자 코딩)을 어원?으로 하고 있다. 2019년 모각캐의 일정은 08.10일로 7월 22일 즈음 부터 현 시점(8월 7일)까지도 꾸준하게 나오는 단어이다. 추가로, 토치는, 파이토치, keras, pytorch 라는 단어가 보이는데 이 단어들은 모두 딥러닝 라이브러리를 뜻한다.


4. 파레토 법칙

파레토 법칙이 어떻게 적용 되는가?
- 파레토 법칙: 파레토 법칙( - 法則, 영어: Pareto principle, law of the vital few, principle of factor sparsity) 또는 80 대 20 법칙(영어: 80–20 rule)은 ’전체 결과의 80%가 전체 원인의 20%에서 일어나는 현상’을 가리킨다.[3] 예를 들어, 20%의 고객이 백화점 전체 매출의 80%에 해당하는 만큼 쇼핑하는 현상을 설명할 때 이 용어를 사용한다. 2 대 8 법칙라고도 한다. (출처: 위키)

말 그대로 오픈채팅방에서 전체 카톡의 80%를 차지하는 대화가 주 멤버 20%의 비율에서 나오는지 알아보려고 한다. 한계점이 있다면, 카톡에서는 대화를 할때 문장을 작성하는 경우도 있지만 단어를 한줄씩 작성하면서 문장을 완성하는 경우도 있다.
아래 테이블로 대화의 비중에서 80% 에 해당하는 비율이 몇%를 차지하는지 알아보자.
보면 단 6명의 대화가 전체 대화의 20%를 차지 하는데, 이를 해석 해보자면 - 카톡 대화 전처리의 한계 - 잠수중인 인원 처리의 한계 - 극심한 양극화 (커뮤니티의 특성상 이 현상은 종종 보이긴 하더라.) 정도로 해석해 볼 수 있겠다.


5. 7월의 가입/탈퇴

7월 한달 동안 몇명이 가입 했고, 몇명이 나갔고, 이 트렌드는 어떠 할까?

총 145 명이 나갔고, 391명이 들어 왔다. 매우 재밌는 그래프다. 가입률이 낮은 수준에 머물러 있다가 특정 하루에 급격하게 성장한 이후로 많은 가입률을 보이고 있다. 7월 17일에 139명이 가입을 했는데, 이 이유는 다음과 같다.




총평

내가 주로 사용하는 오픈채팅방의 비정형 데이터를 정형화 시켜서, 그리고 나의 경험에 비추어서 분석을 해보았다. 특히 도메인 지식이 없이는 이 카톡 데이터를 어떻게 해석 해도 어떠한 결과를 얻기 힘들거라는 생각이 너무 든다. 또한, 분석의 방향도 잘 잡아야한다고 생각을 했는데, 아까 시간별 트렌드를 파악 하려고 할 때 좀 더 현명한 방법이 있었을까 하는 생각이 든다. 차후에 이 분석은 캐글관련 오픈 채팅방에도 적용을 시켜보려고 한다.