Python
웹 크롤링 이슈 - 저작권, 사이트 크롤링 정책
원펀만
2019. 2. 24. 14:56
다음 내용은 정확하지 않을 수 있다.
링크의 종류
저작권법 허용
1. 단순 링크 - 사이트 대표 주소를 링크
2. 직접 링크 - 특정 게시물을 링크
저작권법 위반
3. 프레임 링크 - 저작물의 일부를 홈페이지에 표시
4. 임베디드 링크 - 저작물 전체를 홈페이지에 표시
다른 사이트에서 직접 만들거나 돈 주고 사온 데이터를 함부로 긁어와서 자신의 사이트에 게시하는 것은 저작권 위반의 소지가 있을 수 있다.
로봇 배제 표준 (robots.txt)
웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약
사이트의 로봇 규약을 보고 싶다면 주소 창에 사이트 url/robots.txt 입력
모두 허용
User-agent: *
Allow: /
모두 차단
User-agent: *
Disallow: /
User-agent: googlebot # google 로봇만 허용
Disallow: /private/ # 이 디렉토리에 대한 접근 차단
User-agent: googlebot-news # googlebot-news 로봇만 적용
Disallow: / # 모든 디렉토리에 대한 접근 차단
User-agent: * # 모든 로봇 접근 허용
Disallow: /something/ # 이 디렉토리에 대한 접근 차단