웹 크롤러

IT 기업 채용 정보 크롤링을 위한 기초

1. 파이썬을 설치해야함

2. 파이썬 개발 환경인 pycharm을 설치해야함.

3. 윈도우 OS... cmd 창을 켜고 cd AppData\Local\Programs\Python\Python36-32\Scripts 입력해서 파이썬이 설치된 폴더로 이동

4. pip install beautifulsoup4

5. pip install lxml

6. pip install html5lib

7. pip 업그레이드하라고 나오면 pip install --upgrade pip

8. pycharm 켜고 폴더 생성, 파일 생성. 파일명은 crawler.py 정도로..

9. 아래 코드 입력후 ctrl + shift + F10 으로 실행해보기.

10. 결과 창에 뭐가 나오는지 확인

아래는 간단 코드.

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import urllib.request

# request 모듈을 사용하여 웹 페이지의 내용을 가져온다
url = 'http://www.jobkorea.co.kr/recruit/joblist?menucode=duty'
r = urllib.request.urlopen(url)

# beautiful soup 초기화
soup = BeautifulSoup(r, "html.parser")

# 태그로 찾기 (첫번째 항목)
mr = soup.find_all('a')
print(mr)
print(mr.get_text())  # get_text() 함수는 도큐먼트 혹은 특정 태그 밑에 있는 모든 텍스트를 추출한다
print(mr.string)
# 태그로 찾기 (모든 항목)
mr = soup.find_all("a")
print(mr[0])

# id로 찾기
mr = soup.find(id="AUTHOR")
print(mr.get_text())

# class로 찾기
mr = soup.find(class_="bash")
print(mr.get_text())
mr = soup.find("code", class_="bash")  # id와 class를 조합하여 찾을 수도 있다
print('get_text 사용',mr.get_text())

# 찾기 결과에 대해 다시 한번 찾기를 수행할 수 있다
tables = soup.find("ul")
mr = tables.find("li")
print(mr)

도움될 수도 있는 사이트

http://zeroplus1.zc.bz/jh/web/main.php?id=132&category=ETC

저작자표시 (새창열림)

'Python' 카테고리의 다른 글

Scrapy의 구조 크롤링 맛보기 (0)	2018.05.26
윈도우에서 scrapy 설치 및 확인 (0)	2018.05.26
우분투에서 크롤링하기 위한 설치 (0)	2018.05.25
네이버 홈 section_navbar 크롤링 초간단 (0)	2018.05.23
ValueError: invalid literal for int() with base 10: ' ' (0)	2017.12.20

잘하고 싶은 백엔드 개발자

웹 크롤러

'Python' 카테고리의 다른 글

티스토리툴바

웹 크롤러

'Python' 카테고리의 다른 글

'Python' Related Articles

티스토리툴바