구글봇

구글봇
원저자	구글
종류	웹 크롤러
웹사이트	Googlebot FAQ

구글봇(영어: Googlebot)은 구글이 사용하는 검색 봇 소프트웨어이며 웹으로부터 문서를 수집하여 구글 검색 엔진을 위한 검색 가능한 색인을 만든다. 이 이름은 실제로 각기 다른 두 종류의 웹 크롤러를 가리키기 위해 사용된다: 데스크톱 크롤러(데스크톱 사용자를 시뮬레이트하기 위함), 모바일 크롤러(모바일 사용자를 시뮬레이트하기 위함)^[1]

웹사이트는 구글봇 데스크톱과 구글봇 모바일에 의해 크롤링될 가능성이 있다. 요청 중 사용자 에이전트 문자열을 살펴봄으로써 구글봇의 서브타입을 식별할 수 있다. 그러나 두 종류의 크롤러 모두 robots.txt의 동일한 제품 토큰(useent 토큰)을 준수하므로 robots.txt를 사용하여 구글봇 모바일 또는 구글봇 데스크톱을 선별적으로 지정할 수 없다.

웹마스터가 구글봇이나 다른 스파이더에 이용할 수 있는 사이트의 정보를 제한하고 싶다면 robots.txt 파일에 적절한 디렉티브를 지정하여 해당 작업을 수행할 수 있으며,^[2] 메타 태그 <meta name="Googlebot" content="nofollow" />를 웹 페이지에 추가하여 진행할 수도 있다.^[3] 웹 서버 대한 구글봇의 요청은 "Googlebot"을 포함하는 사용자 에이전트 문자열, "googlebot.com"을 포함하는 호스트 주소로 식별이 가능하다.^[4]

현재 구글봇은 HREF 링크와 SRC 링크를 따른다.^[2] 구글봇이 자바스크립트를 실행하고 Ajax 호출에 의해 생성된 콘텐츠의 구문을 분석할 수 있다는 정황이 있다.^[5]^[6] 진보된 구글봇의 기능을 설명하는 여러 이론들을 뒷받침하는 것은 자바스크립트를 처리하는 것이다.^[7]^[8]^[9] 현재 구글봇은 크롬 41(M41) 기반의 웹 렌더링 서비스(WRS)를 사용한다^[10]. 구글봇은 모든 문서의 모든 링크를 찾아들어가면서 페이지를 발견한다. 그 다음 다른 웹 페이지의 이 링크들을 따라간다. 새 웹 페이지들은 웹 상에 알려진 다른 문서들과 연결되어 있어야 웹마스터가 크롤링, 색인, 수동 제출을 할 수 있게 된다.

미디어봇

미디어봇은 내용 분석을 위해 구글이 사용하는 웹 크롤러이며 이를 이용하여 구글 애드센스는 문맥상 적절한 광고를 웹 페이지에 서비스할 수 있다. 미디어봇의 사용자 에이전트는 "Mediapartners-Google/2.1"이다.

다른 크롤러들과 달리 미디어봇은 새로운 크롤링 가능한 URL을 발견하기 위해 링크를 따라가지 않으며 애드센스 코드에 포함된 URL만을 방문한다. 콘텐츠가 로그인 뒷편에 존재하는 경우 크롤러에 로그인을 제공하여 보호된 내용을 크롤링하는 것이 가능하다.

각주

외부 링크

Google's official Googlebot FAQ

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]