웹크롤링
[데이터 분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 4 (단어 사용 빈도 체크하기)
명사 분리 추출 후, 단어 사용 빈도 계산하기 이번에는 동아일보, 한겨레신문에서 '사드'관련 기사를 크롤링해 저장한 텍스트 파일을 이용해 단어 사용 빈도를 계산하는 프로그램을 만들어보겠습니다. """ 형태소 분석기 명사 추출 및 빈도수 체크 python [모듈 이름] [텍스트 파일명.txt] [결과파일명.txt] """ import sys from konlpy.tag import Twitter from collections import Counter def get_tags(text, ntags=50): spliter = Twitter() nouns = spliter.nouns(text) count = Counter(nouns) return_list = [] for n, c in count.most_com..
[데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 3 (동아일보, 한겨레 '사드'관련 기사 크롤링하기)
동아일보, 한겨레 신문에서 '사드'관련 신문기사 크롤링하기 이번 글에서는 지난 글에서 연습한 네이버 신문기사 크롤링 모듈을 응용 확장해, 동아일보와 한겨레 신문에서 특정 키워드와 관련된 신문기사의 본문 내용을 대량으로 긁어오는 크롤러를 만들어보도록 하겠습니다. """ 동아일보 특정 키워드를 포함하는, 특정 날짜 이전 기사 내용 크롤러(정확도순 검색) python [모듈 이름] [키워드] [가져올 페이지 숫자] [결과 파일명] 한 페이지에 기사 15개 """ import sys from bs4 import BeautifulSoup import urllib.request from urllib.parse import quote TARGET_URL_BEFORE_PAGE_NUM = "http://news.dong..
[데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 2 (네이버 뉴스 크롤링하기)
네이버 뉴스 크롤링하기 이번 글에서는 동아일보와 한겨레신문에서 특정 키워드를 포함하는 기사를 긁어오기 전 예제로 네이버 포털의 뉴스 기사를 긁어 오는 것을 먼저 연습하도록 하겠습니다. """네이버 뉴스 기사 웹 크롤러 모듈""" from bs4 import BeautifulSoup import urllib.request # 출력 파일 명 OUTPUT_FILE_NAME = 'output.txt' # 긁어 올 URL URL = 'http://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=103&oid=055'\ '&aid=0000445667' # 크롤링 함수 def get_text(URL): source_code_from_URL = urllib.request.ur..
[데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 1
동일한 키워드를 가지는 신문 기사를 논조가 다른 신문사에서 긁어와 사용된 단어를 워드클라우드로 시각화해 분석해보는 예제입니다. 키워드는 '사드'를 사용했고, 신문사는 동아일보, 한겨레신문 두 신문사에서 각각 150개씩 기사를 긁어왔습니다. 결과는 아래와 같습니다. (왼쪽이 동아일보, 오른쪽이 한겨레신문 입니다.) 키워드가 '사드'인 만큼, 워드클라우드 모양을 미사일로 만들어봤습니다. 워드클라우드를 살펴보면 동아일보는 '중국'을 한겨레신문에서는 '미국'을 가장 많이 사용했음을 알 수 있습니다. 분석환경은 우분투 16.04에서 파이썬 3.5.2버전을 사용했습니다. 다음 글 부터 사용된 라이브러리와 코드를 차근차근 살펴보도록 하겠습니다.