빅테이터의 이면
- 구글과 페이스북이 우리(정보)를 이용할 수 있습니다.
- 빅데이터를 분석함으로써, 우리의 삶은 상품화되고 판매됩니다.
- 모든 것이 데이터가 될 수 있으며 어디서나 가능합니다.
만약 우리가 빅데이터를 사용하는 방법을 안다면 어떨까요?
- 고객 또는 공공의 불만 사항을 신속하게 처리할 수 있습니다.
- 사람들이 어떤 종류의 물건을 사고 싶어 하는지, 어떻게 느끼는지 예측할 수 있습니다.
- 빅데이터를 분석하고 사용하는 기업이 많기 때문에 일자리가 많습니다.
텍스트 마이닝이란?
- 컴퓨터가 자연어를 이해하고 분석하도록 하는 방법입니다.
- 자연어란 인간이 자연적으로 진화시킨 모든 언어를 말합니다.
- 영어, 한국어, 속어…etc.
- 우리가 의미 있는 정보를 찾는 텍스트로부터 관계 패턴을 추출하는 간단한 방법입니다.
텍스트란?
- 이미지, 오디오 및 비디오 또는 문자에 표시, 전송 및 저장되는 기호
- 온라인의 텍스트로 사용되는 문자
- 트위터의 트윗
- IMDB나 Rottern Tomato의 영화 리뷰
- 온라인 뉴스 기사
- 페이스북 페이지의 댓글
텍스트 마이닝의 필요성
- 다양한 온라인 소스에서 많은 정보를 텍스트 형식으로 이용할 수 있습니다.
- 이런 면에서 유용한 정보를 효과적으로 추출하기 위해서는 수동 분석이 불가능합니다.
- 많은 텍스트를 분석할 수 있는 자동 툴(tool)이 필요합니다.
텍스트 마이닝이 직면한 과제
- 단어의 모호함과 문맥 의존성
- Ex) Apple (회사) apple (과일)
- 장애물 : 철자 오류, 이모티콘, 공백단어, 약어 etc…
토큰화
- 텍스트 마이닝은 텍스트 전처리 및 토큰화에서 시작합니다.
- 토큰화는 문자열을 words(단어)/sentences(문장)/paragraphs(단락)와 같은 조각으로 나눕니다.
- 왜 토큰화를 해야할까요?
- 문자나 숫자와 같은 기호를 문장으로 취급하지 않기 때문입니다.
- 한국어와 비교해, 일반적인 영어 문장을 토큰화하는 것이 비교적 간단합니다.
- 공백(띄어쓰기)를 경계로 사용합니다.
- “Los Angeles” 나 “South Korea”와 같은 일부 예외 사항을 처리하기 위해 몇몇의 휴리스틱(heuristics)을 사용합니다.
앞으로의 과정에서 배울 내용
- 단어 빈도 분석
- Word Cloud 생성
- 감정 분석
RStudio 프로젝트 사용하기
상단 툴바에서 파일 탭을 누르면 새로운 프로젝트를 시작할 수 있습니다. 프로젝트는 작업 디렉토리와 연동됩니다. 따라서 작업 내용과 결과를 쉽게 저장 및 불러올 수 있습니다.
RStudio의 프로젝트 기능은 다음 중 하나를 선택해서 시작할 수 있습니다.
- 코드와 데이터를 저장할 새로운 디렉토리를 만들거나
- 아니면 기존의 R 코드와 데이터가 저장되어있는 디렉토리를 이용합니다.
그리고 “.Rproj”의 확장자를 가진 프로젝트 파일이 생성되는데, 이를 통해 우리가 작업한 내용과 결과를 쉽게 불러옵니다.
RStudio에서 코드와 데이터를 저장 및 불러오기기
다음의 방식으로 프로젝트 기능을 통해 쉽게 코드와 데이터를 저장할 수 있습니다.
- 상단의 ’도구’에서 글로벌 옵션 기능을 선택한 후, 종료시 Workspace를 .RData에 항상 저장함을 선택합니다.
- 또한 RStudio 시작 시, 저장된 .RData를 Workspace에 복구 옵션이 선택되어 있는지 확인합니다.