본문 바로가기

Python

웹 크롤링 이슈 - 저작권, 사이트 크롤링 정책

다음 내용은 정확하지 않을 수 있다.


링크의 종류


저작권법 허용

1. 단순 링크 - 사이트 대표 주소를 링크

2. 직접 링크 - 특정 게시물을 링크


저작권법 위반

3. 프레임 링크 - 저작물의 일부를 홈페이지에 표시

4. 임베디드 링크 - 저작물 전체를 홈페이지에 표시


다른 사이트에서 직접 만들거나 돈 주고 사온 데이터를 함부로 긁어와서 자신의 사이트에 게시하는 것은 저작권 위반의 소지가 있을 수 있다.


로봇 배제 표준 (robots.txt)

웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약

사이트의 로봇 규약을 보고 싶다면 주소 창에 사이트 url/robots.txt 입력


모두 허용

User-agent: *

Allow: /

모두 차단

User-agent: *

Disallow: /


User-agent: googlebot  # google 로봇만 허용

Disallow: /private/  # 이 디렉토리에 대한 접근 차단


User-agent: googlebot-news  # googlebot-news 로봇만 적용

Disallow: /  # 모든 디렉토리에 대한 접근 차단


User-agent: *  # 모든 로봇 접근 허용

Disallow: /something/  # 이 디렉토리에 대한 접근 차단



https://www.inflearn.com/course/%EC%9B%B9-%ED%81%AC%EB%A1%A4%EB%A7%81web-crawling-%EC%96%B4%ED%94%8C%EB%A6%AC%EC%BC%80%EC%9D%B4%EC%85%98-%EB%A7%8C%EB%93%A4%EA%B8%B0/05-%EC%9B%B9-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%80%EC%9E%91%EA%B6%8C-%EB%B0%8F-%EC%82%AC%EC%9D%B4%ED%8A%B8-%EC%A0%95%EC%B1%85/

'Python' 카테고리의 다른 글

Scrapy IndexError: list index out of range  (0) 2019.02.24
Scrapy 간단 Selector  (0) 2019.02.24
T-Rex Game Bot  (0) 2018.06.17
ImportError: cannot import name 'MongoClient'  (4) 2018.05.29
Scrapy 참고 사이트  (0) 2018.05.28