반응형
robots.txt
-
웹사이트 크롤링과 인덱싱, robots.txtTechnique/WEB 2016. 12. 21. 20:19
이 세상 여러 검색사이트가 존재한다. 그런 검색사이트 에선 여러 웹상에 존재하는 로봇들을 이용하여세상에 존재하는 여러 도메인에 접근, 정보를 수집합니다. 그리고 이정보들을 모아모아 축적하여 검색이 이뤄지면 필요한 녀석들을 유저에게 보여주곤 합니다. 위의 이야기중 도메인에 접근, 정보를 수집 하는 것을 크롤링 이라고 합니다.그리고 정보를 모아두고 검색햇을때 가져가기 쉽게 정리해두는 것을 인덱싱 이라고 합니다. 크롤링과 인덱싱의 제어를위해 사용 되는 것이 robots.txt와 meta 태그의 index 입니다.크롤러가 도멘인을 돌아다니다가 어떤 하나의 도메인에 도착하게 되면 우선robots.txt 가 있는지를 확인합니다. 만일 없다면 모두 수집대상이 되지만 이 robots.txt가 설정 되어 있다면 설정된 ..