설치하기
우분투 터미널에서
apt-get install build-essential 입력
파이썬은 기본으로 설치되어 있다고 함 python -V 치면 파이썬 버전이 나옴
apt-get install python-pip 입력, pip는 파이썬으로 작성된 패키지 라이브러리를 관리해줌
pip list를 입력하면 beautifulsoup 등 라이브러리가 나옴
가상 환경에서 파이썬을 사용하기 위해 pip install virtualenv virtualenvwrapper를 입력한다.
가상 환경을 쓰면 오류가 났을 때 지우고 다시 설치하면 된다.
vi bach.rc에 들어가서 설정을 한다.
파일의 맨 아랫줄로 이동한 뒤
insert 또는 i 버튼 누르고
export WORKON_HOME=$HOME/.virtualenvs
source /usr/local/bin/virtualenvwrapper.sh
입력한 뒤 esc -> shift+q -> :가 나오면 wq 입력 해서 저장하고 나온다.
source .bashrc를 입력하면 적용된다.
이 상태에서 가상 환경을 만들 수 있다.
mkvirtualenv 가상환경이름을 적어주면 된다.
/home/ .virturalenvs 또는 /root/ .virtualenvs 경로에 가상환경이 구축된다.
가상환경에서 빠져나오고 싶다면 deactivate를 입력한다.
가상환경에 진입하고 싶다면 workon 가상환경이름을 입력한다.
이후 lxml parser 패키지를 설치한다. parser는 html에 있는 데이터를 분석(해석)해주는 것이다.
apt-get install libxml2-dev libxslt1-dev python-dev zlib1g-dev를 입력한다. (1과 l이 헷갈린다.)
apt-get install python-lxml
pip install lxml 입력하면 설치된다.
가상환경이 없다면 여러 프로젝트를 할 때 버전이 다를 경우 버전 충돌이 일어나거나 덮어씌어져서 문제가 생긴다.
cd .virtualenvs 명령어로 가상환경 디렉토리로 이동한다.
ls 명령어를 치면 존재하는 디렉토리, 파일이 보이는데 그 중 미리 생성한 가상환경 이름이 보인다. 그 안에 모든 라이브러리가 설치된다.
프로젝트를 할 때 가상환경을 만들어두면 관리가 깔끔하다.
web crawling을 위해 beautifulsoup4를 설치한다.
pip install beautifulsoup4
또 다른 라이브러리인 scrapy를 설치한다.
apt-get install libffi-dev libssl-dev
pip install Scrapy
Beautiful Soup vs Scrapy
흔히 쓰이는 웹 크롤링을 위한 라이브러리다. 전자는 문서를 가져와서 파싱해주는 역할이 강하고 후자는 프레임워크 같은 라이브러리다. 후자가 기능이 더 다양하다고 한다.
Beautiful Soup https://www.crummy.com/software/BeautifulSoup/bs4/doc/
html문서에서 원하는 정보를 손쉽게 가져올 수 있는 방법 제공
자동으로 인코딩을 유니코드로 변환해서 UTF-8로 출력
lxml, html5lib 파서 이용
Scrapy
다양한 selector 지원
파이프 라인 - 가져온 데이터를 입력으로 해서 또 다른 결과를 낼 수 있음
로깅 - 데이터 처리가 잘 되는 지 확인할 수 있음
이메일
Scrapy 프로젝트를 시작하려면
workon 가상환경이름으로 가상환경에 진입한 후
scrapy startproject 프로젝트명을 입력하면 프로젝트가 생성된다.
리눅스에서 파이참을 설치해서 쓰자. https://www.jetbrains.com/pycharm/download/#section=windows 여기서 community 다운받기.
터미널 창에서 다운로드 된 폴더로 이동하고 tar xvf pycharm-community-2018.1.3.tar.gz 입력한다. (파일명이 바뀌면 바뀐걸 써준다.)
cd pycharm-community-2018.1.3/bin으로 이동한다. sh pycharm.sh를 입력하면 파이참 완전 설치 마법사가 뜬다.
skip하면서 설치를 끝내고 프로젝트는 아까 만들어뒀던 가상환경에 있는 폴더를 선택한다.
폴더를 열면 확장자가 py인 파일들이 있다. item에서는 클래스 형태로 태그 등을 지정할 수 있다.
pipelines는 데이터 후처리를 하기 위한 것이다. spider폴더에 스크랩할 내용을 프로그래밍한다.
강좌에서는 https://dmoztools.net/Computers/Programming/Languages/Python/Books/ 이곳의 내용을 스크래핑하겠다고 한다. 그러나 모습이 바뀌었다...
파이참에서 가상환경을 사용한다는 사실을 알려줘야한다.
File->Settings->Project:프로젝트이름->Project Interpreter->톱니모양 클릭->Add Local->virtualenvs폴더의 bin 폴더 python2.7 선택.
'Python' 카테고리의 다른 글
Scrapy의 구조 크롤링 맛보기 (0) | 2018.05.26 |
---|---|
윈도우에서 scrapy 설치 및 확인 (0) | 2018.05.26 |
네이버 홈 section_navbar 크롤링 초간단 (0) | 2018.05.23 |
웹 크롤러 (0) | 2018.05.06 |
ValueError: invalid literal for int() with base 10: ' ' (0) | 2017.12.20 |