전체 글 목록

    [데이터 분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 4 (단어 사용 빈도 체크하기)

    명사 분리 추출 후, 단어 사용 빈도 계산하기 이번에는 동아일보, 한겨레신문에서 '사드'관련 기사를 크롤링해 저장한 텍스트 파일을 이용해 단어 사용 빈도를 계산하는 프로그램을 만들어보겠습니다. """ 형태소 분석기 명사 추출 및 빈도수 체크 python [모듈 이름] [텍스트 파일명.txt] [결과파일명.txt] """ import sys from konlpy.tag import Twitter from collections import Counter def get_tags(text, ntags=50): spliter = Twitter() nouns = spliter.nouns(text) count = Counter(nouns) return_list = [] for n, c in count.most_com..

    [데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 3 (동아일보, 한겨레 '사드'관련 기사 크롤링하기)

    동아일보, 한겨레 신문에서 '사드'관련 신문기사 크롤링하기 이번 글에서는 지난 글에서 연습한 네이버 신문기사 크롤링 모듈을 응용 확장해, 동아일보와 한겨레 신문에서 특정 키워드와 관련된 신문기사의 본문 내용을 대량으로 긁어오는 크롤러를 만들어보도록 하겠습니다. """ 동아일보 특정 키워드를 포함하는, 특정 날짜 이전 기사 내용 크롤러(정확도순 검색) python [모듈 이름] [키워드] [가져올 페이지 숫자] [결과 파일명] 한 페이지에 기사 15개 """ import sys from bs4 import BeautifulSoup import urllib.request from urllib.parse import quote TARGET_URL_BEFORE_PAGE_NUM = "http://news.dong..

    [데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 2 (네이버 뉴스 크롤링하기)

    네이버 뉴스 크롤링하기 이번 글에서는 동아일보와 한겨레신문에서 특정 키워드를 포함하는 기사를 긁어오기 전 예제로 네이버 포털의 뉴스 기사를 긁어 오는 것을 먼저 연습하도록 하겠습니다. """네이버 뉴스 기사 웹 크롤러 모듈""" from bs4 import BeautifulSoup import urllib.request # 출력 파일 명 OUTPUT_FILE_NAME = 'output.txt' # 긁어 올 URL URL = 'http://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=103&oid=055'\ '&aid=0000445667' # 크롤링 함수 def get_text(URL): source_code_from_URL = urllib.request.ur..

    [데이터분석] 파이썬으로 특정 키워드를 포함하는 신문기사 웹크롤링 & 워드클라우드 시각화 분석 - 1

    동일한 키워드를 가지는 신문 기사를 논조가 다른 신문사에서 긁어와 사용된 단어를 워드클라우드로 시각화해 분석해보는 예제입니다. 키워드는 '사드'를 사용했고, 신문사는 동아일보, 한겨레신문 두 신문사에서 각각 150개씩 기사를 긁어왔습니다. 결과는 아래와 같습니다. (왼쪽이 동아일보, 오른쪽이 한겨레신문 입니다.) 키워드가 '사드'인 만큼, 워드클라우드 모양을 미사일로 만들어봤습니다. 워드클라우드를 살펴보면 동아일보는 '중국'을 한겨레신문에서는 '미국'을 가장 많이 사용했음을 알 수 있습니다. 분석환경은 우분투 16.04에서 파이썬 3.5.2버전을 사용했습니다. 다음 글 부터 사용된 라이브러리와 코드를 차근차근 살펴보도록 하겠습니다.

    [파이썬] PEP 8 파이썬 코드 스타일 가이드 번역 및 요약 (작성중)

    원본 문서 : https://www.python.org/dev/peps/pep-0008/ 혼자 공부하면서 정리할 겸 요약했습니다. 중간중간 생략된 부분이 있을 수 있으며 오역, 의역 등이 있을 수 있습니다. 2. Code lay-out Indentation(들여쓰기) 들여쓰기는 space 4번을 이용한다. 연속 되는 문장은 괄호(소, 중, 대)를 이용하여 수직 정렬을 하거나 'hanging indent'* 를 사용한다. 'hanging indent'를 사용할 경우, 첫번째 줄에는 인수가 오면 안되며 더 많은 들여쓰기를 통해 연속되는 문장임을 확실히 드러나게 해야한다. *hanging indent : 정확하겐 모르겠지만 이어지는 문장에 첫 줄을 제외하곤 계속 들여쓰기를 하는 방법 같다. 1234567891..