본문 바로가기

Python

웹 크롤러

IT 기업 채용 정보 크롤링을 위한 기초


1. 파이썬을 설치해야함

2. 파이썬 개발 환경인 pycharm을 설치해야함.

3. 윈도우 OS... cmd 창을 켜고 cd AppData\Local\Programs\Python\Python36-32\Scripts 입력해서 파이썬이 설치된 폴더로 이동

4. pip install beautifulsoup4

5. pip install lxml

6. pip install html5lib

7. pip 업그레이드하라고 나오면 pip install --upgrade pip

8. pycharm 켜고 폴더 생성, 파일 생성. 파일명은 crawler.py 정도로..

9. 아래 코드 입력후 ctrl + shift + F10 으로 실행해보기.

10. 결과 창에 뭐가 나오는지 확인


아래는 간단 코드.

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import urllib.request

# request 모듈을 사용하여 웹 페이지의 내용을 가져온다
url = 'http://www.jobkorea.co.kr/recruit/joblist?menucode=duty'
r = urllib.request.urlopen(url)

# beautiful soup 초기화
soup = BeautifulSoup(r, "html.parser")

# 태그로 찾기 (첫번째 항목)
mr = soup.find_all('a')
print(mr)
print(mr.get_text()) # get_text() 함수는 도큐먼트 혹은 특정 태그 밑에 있는 모든 텍스트를 추출한다
print(mr.string)
# 태그로 찾기 (모든 항목)
mr = soup.find_all("a")
print(mr[0])

# id로 찾기
mr = soup.find(id="AUTHOR")
print(mr.get_text())

# class로 찾기
mr = soup.find(class_="bash")
print(mr.get_text())
mr = soup.find("code", class_="bash") # id와 class를 조합하여 찾을 수도 있다
print('get_text 사용',mr.get_text())

# 찾기 결과에 대해 다시 한번 찾기를 수행할 수 있다
tables = soup.find("ul")
mr = tables.find("li")
print(mr)


도움될 수도 있는 사이트

http://zeroplus1.zc.bz/jh/web/main.php?id=132&category=ETC