다음 내용은 정확하지 않을 수 있다.
링크의 종류
저작권법 허용
1. 단순 링크 - 사이트 대표 주소를 링크
2. 직접 링크 - 특정 게시물을 링크
저작권법 위반
3. 프레임 링크 - 저작물의 일부를 홈페이지에 표시
4. 임베디드 링크 - 저작물 전체를 홈페이지에 표시
다른 사이트에서 직접 만들거나 돈 주고 사온 데이터를 함부로 긁어와서 자신의 사이트에 게시하는 것은 저작권 위반의 소지가 있을 수 있다.
로봇 배제 표준 (robots.txt)
웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약
사이트의 로봇 규약을 보고 싶다면 주소 창에 사이트 url/robots.txt 입력
모두 허용
User-agent: *
Allow: /
모두 차단
User-agent: *
Disallow: /
User-agent: googlebot # google 로봇만 허용
Disallow: /private/ # 이 디렉토리에 대한 접근 차단
User-agent: googlebot-news # googlebot-news 로봇만 적용
Disallow: / # 모든 디렉토리에 대한 접근 차단
User-agent: * # 모든 로봇 접근 허용
Disallow: /something/ # 이 디렉토리에 대한 접근 차단
'Python' 카테고리의 다른 글
Scrapy IndexError: list index out of range (0) | 2019.02.24 |
---|---|
Scrapy 간단 Selector (0) | 2019.02.24 |
T-Rex Game Bot (0) | 2018.06.17 |
ImportError: cannot import name 'MongoClient' (4) | 2018.05.29 |
Scrapy 참고 사이트 (0) | 2018.05.28 |