웹 크롤링 이슈 - 저작권, 사이트 크롤링 정책

다음 내용은 정확하지 않을 수 있다.

링크의 종류

저작권법 허용

1. 단순 링크 - 사이트 대표 주소를 링크

2. 직접 링크 - 특정 게시물을 링크

저작권법 위반

3. 프레임 링크 - 저작물의 일부를 홈페이지에 표시

4. 임베디드 링크 - 저작물 전체를 홈페이지에 표시

다른 사이트에서 직접 만들거나 돈 주고 사온 데이터를 함부로 긁어와서 자신의 사이트에 게시하는 것은 저작권 위반의 소지가 있을 수 있다.

로봇 배제 표준 (robots.txt)

웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약

사이트의 로봇 규약을 보고 싶다면 주소 창에 사이트 url/robots.txt 입력

모두 허용

User-agent: *

Allow: /

모두 차단

User-agent: *

Disallow: /

User-agent: googlebot # google 로봇만 허용

Disallow: /private/ # 이 디렉토리에 대한 접근 차단

User-agent: googlebot-news # googlebot-news 로봇만 적용

Disallow: / # 모든 디렉토리에 대한 접근 차단

User-agent: * # 모든 로봇 접근 허용

Disallow: /something/ # 이 디렉토리에 대한 접근 차단

Scrapy IndexError: list index out of range (0)	2019.02.24
Scrapy 간단 Selector (0)	2019.02.24
T-Rex Game Bot (0)	2018.06.17
ImportError: cannot import name 'MongoClient' (4)	2018.05.29
Scrapy 참고 사이트 (0)	2018.05.28

잘하고 싶은 백엔드 개발자