IT 기업 채용 정보 크롤링을 위한 기초
1. 파이썬을 설치해야함
2. 파이썬 개발 환경인 pycharm을 설치해야함.
3. 윈도우 OS... cmd 창을 켜고 cd AppData\Local\Programs\Python\Python36-32\Scripts 입력해서 파이썬이 설치된 폴더로 이동
4. pip install beautifulsoup4
5. pip install lxml
6. pip install html5lib
7. pip 업그레이드하라고 나오면 pip install --upgrade pip
8. pycharm 켜고 폴더 생성, 파일 생성. 파일명은 crawler.py 정도로..
9. 아래 코드 입력후 ctrl + shift + F10 으로 실행해보기.
10. 결과 창에 뭐가 나오는지 확인
아래는 간단 코드.
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import urllib.request
# request 모듈을 사용하여 웹 페이지의 내용을 가져온다
url = 'http://www.jobkorea.co.kr/recruit/joblist?menucode=duty'
r = urllib.request.urlopen(url)
# beautiful soup 초기화
soup = BeautifulSoup(r, "html.parser")
# 태그로 찾기 (첫번째 항목)
mr = soup.find_all('a')
print(mr)
print(mr.get_text()) # get_text() 함수는 도큐먼트 혹은 특정 태그 밑에 있는 모든 텍스트를 추출한다
print(mr.string)
# 태그로 찾기 (모든 항목)
mr = soup.find_all("a")
print(mr[0])
# id로 찾기
mr = soup.find(id="AUTHOR")
print(mr.get_text())
# class로 찾기
mr = soup.find(class_="bash")
print(mr.get_text())
mr = soup.find("code", class_="bash") # id와 class를 조합하여 찾을 수도 있다
print('get_text 사용',mr.get_text())
# 찾기 결과에 대해 다시 한번 찾기를 수행할 수 있다
tables = soup.find("ul")
mr = tables.find("li")
print(mr)
도움될 수도 있는 사이트
http://zeroplus1.zc.bz/jh/web/main.php?id=132&category=ETC
'Python' 카테고리의 다른 글
Scrapy의 구조 크롤링 맛보기 (0) | 2018.05.26 |
---|---|
윈도우에서 scrapy 설치 및 확인 (0) | 2018.05.26 |
우분투에서 크롤링하기 위한 설치 (0) | 2018.05.25 |
네이버 홈 section_navbar 크롤링 초간단 (0) | 2018.05.23 |
ValueError: invalid literal for int() with base 10: ' ' (0) | 2017.12.20 |