구글봇
구글봇(영어: Googlebot)은 구글이 사용하는 검색 봇 소프트웨어이며 웹으로부터 문서를 수집하여 구글 검색 엔진을 위한 검색 가능한 색인을 만든다. 이 이름은 실제로 각기 다른 두 종류의 웹 크롤러를 가리키기 위해 사용된다: 데스크톱 크롤러(데스크톱 사용자를 시뮬레이트하기 위함), 모바일 크롤러(모바일 사용자를 시뮬레이트하기 위함)[1]
원저자 | 구글 |
---|---|
종류 | 웹 크롤러 |
웹사이트 | Googlebot FAQ |
웹사이트는 구글봇 데스크톱과 구글봇 모바일에 의해 크롤링될 가능성이 있다. 요청 중 사용자 에이전트 문자열을 살펴봄으로써 구글봇의 서브타입을 식별할 수 있다. 그러나 두 종류의 크롤러 모두 robots.txt의 동일한 제품 토큰(useent 토큰)을 준수하므로 robots.txt를 사용하여 구글봇 모바일 또는 구글봇 데스크톱을 선별적으로 지정할 수 없다.
웹마스터가 구글봇이나 다른 스파이더에 이용할 수 있는 사이트의 정보를 제한하고 싶다면 robots.txt 파일에 적절한 디렉티브를 지정하여 해당 작업을 수행할 수 있으며,[2] 메타 태그 <meta name="Googlebot" content="nofollow" />
를 웹 페이지에 추가하여 진행할 수도 있다.[3] 웹 서버 대한 구글봇의 요청은 "Googlebot"을 포함하는 사용자 에이전트 문자열, "googlebot.com"을 포함하는 호스트 주소로 식별이 가능하다.[4]
현재 구글봇은 HREF 링크와 SRC 링크를 따른다.[2] 구글봇이 자바스크립트를 실행하고 Ajax 호출에 의해 생성된 콘텐츠의 구문을 분석할 수 있다는 정황이 있다.[5][6] 진보된 구글봇의 기능을 설명하는 여러 이론들을 뒷받침하는 것은 자바스크립트를 처리하는 것이다.[7][8][9] 현재 구글봇은 크롬 41(M41) 기반의 웹 렌더링 서비스(WRS)를 사용한다[10]. 구글봇은 모든 문서의 모든 링크를 찾아들어가면서 페이지를 발견한다. 그 다음 다른 웹 페이지의 이 링크들을 따라간다. 새 웹 페이지들은 웹 상에 알려진 다른 문서들과 연결되어 있어야 웹마스터가 크롤링, 색인, 수동 제출을 할 수 있게 된다.
미디어봇
미디어봇은 내용 분석을 위해 구글이 사용하는 웹 크롤러이며 이를 이용하여 구글 애드센스는 문맥상 적절한 광고를 웹 페이지에 서비스할 수 있다. 미디어봇의 사용자 에이전트는 "Mediapartners-Google/2.1"이다.
다른 크롤러들과 달리 미디어봇은 새로운 크롤링 가능한 URL을 발견하기 위해 링크를 따라가지 않으며 애드센스 코드에 포함된 URL만을 방문한다. 콘텐츠가 로그인 뒷편에 존재하는 경우 크롤러에 로그인을 제공하여 보호된 내용을 크롤링하는 것이 가능하다.