-
웹사이트 크롤링과 인덱싱, robots.txtTechnique/WEB 2016. 12. 21. 20:19반응형
이 세상 여러 검색사이트가 존재한다. 그런 검색사이트 에선 여러 웹상에 존재하는 로봇들을 이용하여
세상에 존재하는 여러 도메인에 접근, 정보를 수집합니다.
그리고 이정보들을 모아모아 축적하여 검색이 이뤄지면 필요한 녀석들을 유저에게 보여주곤 합니다.
위의 이야기중 도메인에 접근, 정보를 수집 하는 것을 크롤링 이라고 합니다.
그리고 정보를 모아두고 검색햇을때 가져가기 쉽게 정리해두는 것을 인덱싱 이라고 합니다.
크롤링과 인덱싱의 제어를위해 사용 되는 것이 robots.txt와 meta 태그의 index 입니다.
크롤러가 도멘인을 돌아다니다가 어떤 하나의 도메인에 도착하게 되면 우선
robots.txt 가 있는지를 확인합니다. 만일 없다면 모두 수집대상이 되지만 이 robots.txt가 설정 되어 있다면 설정된 페이지는 모두 피해서 수집을 시작합니다.
하위에 있는 모든 페이지도 수집대상이 됩니다.
순서는 크롤링 > 인덱싱 입니다.
크롤링 당한후 인덱싱을 하기때문에 최초에 설정을 할때부터 잘 생각 해야하는 것 같습니다.
크롤링 자체를 막고 싶다면 robots.txt를 크롤링은 허용하되 인덱싱을 막고싶다면 meta태그를...
입니다.
저 메타 태그에 대해선 별도로 포스팅 하겠습니다~
반응형'Technique > WEB' 카테고리의 다른 글
[ 펌 ]HTTP의 새로운 상태 코드: 103 Early Hints (0) 2017.05.11 [ 펌 ] user-agent string 의 역사 (0) 2016.12.30 [ 펌 ] HTML 코딩 팁 (0) 2016.09.19 XXE ( Xml eXternal Entity ) 문제 (0) 2016.09.06 [ 번역 ] XSS 대응( 이스케이프 처리 ) (1) 2016.09.06