검색로봇 robot.txt 작성

이온디
2009년 01월 05일
로봇이 http://wiz.pe.kr/과 같은 웹 싸이트를 방문하면, 먼저 http://wiz.pe.kr/robots.txt 파일을 호출한다.
robot.txt 파일이 발견되면 파일을 읽어 그 내용을 분석한다.
로봇에 접근 권한 및 접근 가능한 경로에 대한 정보로 자신이 수집해도 되는 콘텐트만을 수집 하게 된다.

한 사이트에는 하나의 "robots.txt" 를 루트에 가질 수 있다.
로봇은 하위 디렉토리에서 이 파일을 검색하지 않는 것을 원칙으로 한다.
이 때문에 robots.txt 파일은 꼭 웹사이트의 루트에 생성해야 한다.

uri는 대소문자 구별하고, "robots.txt" 파일이름은 모두 소문자로 작성해야 하며. 파일명에 공백은 허용되지 않는다.

robot.txt 파일에 아래와 같이 되어있다면 해당 url에 대하여 모든 로봇에 대해 모든 경로에 접근을 차단한다는 내용이다.
user-agent: * # 모든 로봇(robot)들에 적용
disallow: / # 모든 페이지들의 색인(indexing) 금지

user-agent : 접근을 허용하지 않을 로봇을 설정 한다.
disallow : 허용하지 않을항목에 대해 설정 한다.

"disallow"를 빈 값으로 설정 할 경우, 모든 하위 경로에 대한 접근이 가능하다.
robots.txt 화일에는 최소한 한개의 "disallow" 필드(field)가 존재해야 한다.

disallow: /help          # /help.html과 /help/index.html 둘 다 허용 안함
disallow: /help/    # /help/index.html는 허용 안하나, /help.html은 허용 됨.

페이지 차단하기
특정 파일 확장자를 차단 하는 방법은 robot.txt 파일에 아래와 같은 내용을 추가 하면된다.

Disallow: /*.xml$      # 루트 하위에 있는 xml 확장자를 가진 모든 파일의 색인을 거부한다.
Disallow: /test.html?  # 루트에 text.html 과 ?가 포함된 파일의 색인을 거부한다.

참고.
페이지의 메타태그에 아래와 같은 설정을 할 경우 로봇이 문서를 색인(index)하거나 연결을 분석하지 않는다.
내용에서 사용되는 용어들은 allindexnofollownoindex이다.
그 이름과 내용 애트리뷰트의 값은 대소문자 구별 없이 사용된다

 
댓글은 로그인 사용자만 작성 가능합니다. 로그인하기
  • 2009 년 01 월 05 일 (09:14)

    구글 검색에 노출되셨군요. 이는 구글의 로봇이 다녀갔기 때문입니다. 상세 안내드립니다.

     

    1. 홈페이지의 자료가 구글에서 검색되는 이유는, 구글의 크롤링 로봇이 귀하의 동문회 홈페이지 자료를 수집해 갔기 때문이며, 차단하지 않는다면 수시로 수집해 가게 됩니다. 구글의 로봇이 다녀가는 이유는, 여러가지 이유가 있겠으나, 다른 곳의 링크를 통해 한 번 방문하게 된 이후로 발생했을 가능성과, 다른 웹사이트에 동문회 홈페이지를 등록하면, 그 링크를 통해 방문하게 되었을 것입니다.

     

    2. 구글 검색에서 삭제하기 위해서는, 긴급할 경우 구글측에 요쳥하여 검색 결과를 삭제하면 됩니다(귀하의 홈페이지 자료를 삭제할 필요는 없습니다.) 다만 이 과정은 조금 복잡할 수 있습니다.

     

    2-1. 일반적으로 구글 로봇을 차단할려면, 홈페이지의 루트 디렉토리(최상위 폴더)에 robots.txt를 업로드하시면 됩니다. 모든 로봇을 차단하실려면 아래와 같이 하면 됩니다.

     

    User-agent: *
    Disallow: /

     

    구글 로봇만 차단시에는 아래와 같이 하면 됩니다.

    User-agent: Googlebot
    Disallow: /
    
    * 참조 : http://www.google.com/support/webmasters/bin/answer.py?hl=kr&answer=35301
    

    2-2. 그러나 자신이 운영하는 홈페이지가 아니라, 특정 사이트 하위 형식으로 된 홈페이지일 경우 robots.txt를 사용할 수 없는 경우가 있습니다. 이러한 경우에는, 웹페지의 내용에 meta 태그를 삽입해서 차단할 수 있습니다.

     

    전체 로봇 차단시, <meta name="robots" content="noindex">
    Google 로봇만 차단시, <meta name="googlebot" content="noindex">

     

    * 참조 : http://www.google.com/support/webmasters/bin/answer.py?answer=93710&ctx=sibling

     

    2-3. 기존에 구글 검색에 노출된 자료의 삭제는, 구글 웹마스터 도구에 가입한 후, 절차에 따라 시행하시면 됩니다. 일반적으로 며칠 이내에 반영됩니다. 홈페이지의 최상위 폴더에 robots.txt를 삽입한 경우에는, 구글 로봇이 재방문해야 적용될 것이며, 구글에 노출된 자료는 시일이 좀 지난 후에 삭제처리될 것으로 보입니다.

    * 참조 : https://www.google.com/webmasters/tools/docs/ko/about.html

     

    3. 구글 로봇의 방문과 관련하여, 홈페이지 제작 업체는 아무런 상관이 없습니다. 귀하께서 미리 외부에 노출되지 않도록 요청했어야 할 것입니다.

     

    4. robots.txt 파일의 업로드나, 메타 태그의 삽입은 개인이 직접 가능하며, 수정이 힘들 경우 홈페이지 제작업체에서 얼마든지 작업 가능합니다. 아주 간단하거든요.

     

    5. 무상 여부는 알 수가 없군요. robots.txt 파일의 업로드는 간단하지만, 웹페이지에 메타 태그를 삽입하는 것은 수정 비용이 추가될 수 있습니다.

    답변 달기
  • 2009 년 01 월 05 일 (09:36)
    각 검색엔진의 봇 명칭
    네이버 : Naverbot
    구글 : Googlebot
    답변 달기