Crawling
[데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 3 (동아일보, 한겨레 '사드'관련 기사 크롤링하기)
동아일보, 한겨레 신문에서 '사드'관련 신문기사 크롤링하기 이번 글에서는 지난 글에서 연습한 네이버 신문기사 크롤링 모듈을 응용 확장해, 동아일보와 한겨레 신문에서 특정 키워드와 관련된 신문기사의 본문 내용을 대량으로 긁어오는 크롤러를 만들어보도록 하겠습니다. """ 동아일보 특정 키워드를 포함하는, 특정 날짜 이전 기사 내용 크롤러(정확도순 검색) python [모듈 이름] [키워드] [가져올 페이지 숫자] [결과 파일명] 한 페이지에 기사 15개 """ import sys from bs4 import BeautifulSoup import urllib.request from urllib.parse import quote TARGET_URL_BEFORE_PAGE_NUM = "http://news.dong..
[데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 2 (네이버 뉴스 크롤링하기)
네이버 뉴스 크롤링하기 이번 글에서는 동아일보와 한겨레신문에서 특정 키워드를 포함하는 기사를 긁어오기 전 예제로 네이버 포털의 뉴스 기사를 긁어 오는 것을 먼저 연습하도록 하겠습니다. """네이버 뉴스 기사 웹 크롤러 모듈""" from bs4 import BeautifulSoup import urllib.request # 출력 파일 명 OUTPUT_FILE_NAME = 'output.txt' # 긁어 올 URL URL = 'http://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=103&oid=055'\ '&aid=0000445667' # 크롤링 함수 def get_text(URL): source_code_from_URL = urllib.request.ur..