[데이터 분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 4 (단어 사용 빈도 체크하기)
·
데이터분석/NLP
명사 분리 추출 후, 단어 사용 빈도 계산하기 이번에는 동아일보, 한겨레신문에서 '사드'관련 기사를 크롤링해 저장한 텍스트 파일을 이용해 단어 사용 빈도를 계산하는 프로그램을 만들어보겠습니다. """ 형태소 분석기 명사 추출 및 빈도수 체크 python [모듈 이름] [텍스트 파일명.txt] [결과파일명.txt] """ import sys from konlpy.tag import Twitter from collections import Counter def get_tags(text, ntags=50): spliter = Twitter() nouns = spliter.nouns(text) count = Counter(nouns) return_list = [] for n, c in count.most_com..
[데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 2 (네이버 뉴스 크롤링하기)
·
데이터분석/NLP
네이버 뉴스 크롤링하기 이번 글에서는 동아일보와 한겨레신문에서 특정 키워드를 포함하는 기사를 긁어오기 전 예제로 네이버 포털의 뉴스 기사를 긁어 오는 것을 먼저 연습하도록 하겠습니다. """네이버 뉴스 기사 웹 크롤러 모듈""" from bs4 import BeautifulSoup import urllib.request # 출력 파일 명 OUTPUT_FILE_NAME = 'output.txt' # 긁어 올 URL URL = 'http://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=103&oid=055'\ '&aid=0000445667' # 크롤링 함수 def get_text(URL): source_code_from_URL = urllib.request.ur..
[데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 1
·
데이터분석/NLP
동일한 키워드를 가지는 신문 기사를 논조가 다른 신문사에서 긁어와 사용된 단어를 워드클라우드로 시각화해 분석해보는 예제입니다. 키워드는 '사드'를 사용했고, 신문사는 동아일보, 한겨레신문 두 신문사에서 각각 150개씩 기사를 긁어왔습니다. 결과는 아래와 같습니다. (왼쪽이 동아일보, 오른쪽이 한겨레신문 입니다.) 키워드가 '사드'인 만큼, 워드클라우드 모양을 미사일로 만들어봤습니다. 워드클라우드를 살펴보면 동아일보는 '중국'을 한겨레신문에서는 '미국'을 가장 많이 사용했음을 알 수 있습니다. 분석환경은 우분투 16.04에서 파이썬 3.5.2버전을 사용했습니다. 다음 글 부터 사용된 라이브러리와 코드를 차근차근 살펴보도록 하겠습니다.