형태소 분석
[데이터 분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 4 (단어 사용 빈도 체크하기)
명사 분리 추출 후, 단어 사용 빈도 계산하기 이번에는 동아일보, 한겨레신문에서 '사드'관련 기사를 크롤링해 저장한 텍스트 파일을 이용해 단어 사용 빈도를 계산하는 프로그램을 만들어보겠습니다. """ 형태소 분석기 명사 추출 및 빈도수 체크 python [모듈 이름] [텍스트 파일명.txt] [결과파일명.txt] """ import sys from konlpy.tag import Twitter from collections import Counter def get_tags(text, ntags=50): spliter = Twitter() nouns = spliter.nouns(text) count = Counter(nouns) return_list = [] for n, c in count.most_com..
[데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 1
동일한 키워드를 가지는 신문 기사를 논조가 다른 신문사에서 긁어와 사용된 단어를 워드클라우드로 시각화해 분석해보는 예제입니다. 키워드는 '사드'를 사용했고, 신문사는 동아일보, 한겨레신문 두 신문사에서 각각 150개씩 기사를 긁어왔습니다. 결과는 아래와 같습니다. (왼쪽이 동아일보, 오른쪽이 한겨레신문 입니다.) 키워드가 '사드'인 만큼, 워드클라우드 모양을 미사일로 만들어봤습니다. 워드클라우드를 살펴보면 동아일보는 '중국'을 한겨레신문에서는 '미국'을 가장 많이 사용했음을 알 수 있습니다. 분석환경은 우분투 16.04에서 파이썬 3.5.2버전을 사용했습니다. 다음 글 부터 사용된 라이브러리와 코드를 차근차근 살펴보도록 하겠습니다.