Googlebot

Googlebot (někdy též označovaný jako web crawler nebo spider) je speciální vyhledávací software společnosti Google, který se využívá k indexování webových stránek. Tento robot prochází webové stránky, přečte si jejich obsah a následně jej přidá do svého indexu, tj. do své databáze. Díky tomuto procesu je následně možné stránku zobrazit v internetovém Google vyhledávači.[1][2][3]

Googlebot
VývojářGoogle
Typ softwaruWeb crawler
Webwww.googlebot.com
Některá data mohou pocházet z datové položky.

Jak Googlebot funguje

Googlebot je zcela automatický program, který funguje bez jakéhokoli vnějšího řízení. Ke své činnosti využívá mapy webu (tzv. sitemaps) a odkazy objevené během předchozího vyhledávání. Pokaždé, když Googlebot narazí na nový odkaz, tak si ho uloží, aby se na něj mohl později podívat a případně jej i přidat do svého indexu. Program si též zaznamenává změněné nebo poškozené odkazy a aktualizuje podle toho svou databázi.[4][5] Googlebot si sám určuje, jak často bude webové stránky navštěvovat. Tuto četnost určuje podle tzv. rozpočtu vyhledávání (neboli crawl budget), který sám přiděluje každé stránce na základě odhadu, jak často se daná webová stránka mění.[6]

Typy

Google využívá ke sběru dat velkou řadu IP adres, aby prohledal co nejvíce obsahu v co nejkratším čase. Existuje několik různých typů programu, každý s jasně definovaným účelem. Existuje například AdsBot – kontrola relevantnosti a kvality placených reklam na webu. Dále existuje tzv. Images Googlebot (prochází obrázky na webu), News Googlebot atd.[7]

Mezi nejvýznamnější typy patří:

Googlebot desktop  

(Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)[7]

Googlebot mobile  

(Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z, Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)[7]

Možnosti přístupu Googlebota ke stránce

Googlebot může mít buď plný přístup ke stránce, nebo je možné jeho čtení stránky korigovat. Existuje mnoho případů, kdy správce webu nechce, aby měl Googlebot přístup k jeho stránce. Může se jednat například o stránku administrace, nákupní košíky nebo osobní účty uživatelů. V takovémto případě je vhodné použít soubor robots.txt, díky kterému je možné zakázat Googlebotovi přístup ke stránce nebo jednotlivým částem webu. Soubor robots.txt je první věcí, kterou Googlebot kontroluje při vstupu na stránku a následně se vždy řídí jeho příkazy.[8][9]

Optimalizace stránky pro Googlebota

Pokud správce webu chce, aby byla jeho stránka správně indexována, je vhodné ji přizpůsobit tak, aby se Googlebotovi procházela co možná nejrychleji.[6][3]

Snadno viditelný obsah

Je nutné, aby byl obsah stránek snadno viditelný v textovém prohlížeči a aby nebyl pro Googlebota příliš komplikovaný. Googlebot může mít potíže s indexováním stránek využívajících technologii Ajax[10] a programovací jazyk JavaScript.[11][3]

Soubory CSS

Soubory CSS také velmi usnadňují Googlebotovu práci. CSS, neboli Cascading Style Sheets, jsou sobory, které popisují, jak se zobrazují jednotlivé prvky HTML (Hypertext Markup Language) na obrazovce. Kromě čtení textu si Googlebot stahuje právě i tyto CSS soubory, aby lépe porozuměl obsahu webu.

Kanonizace duplicitních stránek

Webové stránky často používají různé URL (Uniform Resource Locator), na kterých je ovšem stejný obsah. Může se jednat o parametry uvedené v URL – například produkt na e-shopu může mít URL jen s ID dané věci, ale zároveň i s názvem, který je lepší pro SEO (search engine optimization). V obou případech je však obsah stejný, a tak se zde používá kanonizace. Během ní se jedna stránka označí jako ta, která se má indexovat a další se pak na ní pouze odkazují.[12]

Mapa webu (sitemap)

Soubor sitemap slouží Googlebotovi jako jakási mapa, která mu říká, jak se má na stránce pohybovat. V souboru sitemap se nachází seznam všech URL adres webu, který se majitel webu rozhodl použít a také to, jak na sebe jednotlivé URL navazují. Díky těmto souborům mohou být stránky procházeny rychleji a jsou tedy častěji indexovány.[13]

Reference