Vlastní doplnění souboru Robots.txt
Díky souboru robots.txt můžete robotům zakázat, aby prohledávali některé stránky Vašeho webu. Roboti se tedy k zakázanému obsahu nedostanou a výsledkem bude, že tyto stránky nebudou indexovány, nezobrazí se ve výsledcích vyhledávání.
Soubor robots.txt Vaší stránky naleznete na URL adrese : www.nazevdomeny.cz/robots.txt
V tomto souboru se již nacházejí sekce : /admin/ a /erp/ - t.j. administrační rozhraní webu. Požadujeme, aby v robots.txt tyto položky zůstaly, proto můžete soubor jen doplnit, ne vytvořit nový.
Zakázat můžete např. stránky s interními informacemi, které slouží pro Vaše účely a účely Vašich zaměstnanců, nebo libovolné stránky, které nechcete aby se zobrazovaly ve vyhledávačích .
Jak si mohu doplnit Robots.txt?
1. Vytvořte si textový soubor (použijte například Poznámkový blok, druhou alternativou je MS Office)
2. Vložte příkaz k zakázaní indexace, např. Disallow: /nazev-zakazaneho-adresare/ Základní pravidla pro zadávání příkazů naleznete zde.
3. Soubor uložte jako robots.txt (pokud jste použili MS Office dejte "Uložit jako" a vyberte formát: Obyčejný text) Soubor musí být uložen ve formátu s koncovkou .txt a název musí být robots.
4. Tento soubor nahrajte do files ve Vaší administraci - sekce SOUBORY. Nevkládejte ho do dalších adresářů, ale přímo do files. URL adresa tohoto souboru pak bude mít podobu: www.nazevdomeny.cz/files/robots.txt
5. Když zadáte URL adresu www.nazevdomeny.cz/robots.txt vidíte, že soubor je doplněn o adresáře, které jste přidali.
Příklady příkazů:
- Za příkazem Disallow: musí být lomítko Disallow: / - tento příkaz znamená , že robot nemůže nikam.
- Příkaz Disallow: (bez lomítka) by znamenal, že robot může vstoupit všude.
- Příkaz, který končí lomítkem: Disallow: /nazev-zakazaneho-adresare/ znamená, že roboti nemohou vejít do zadaného adresáře ani k žádnému podadresáři a souboru patřícímu tomuto adresáři.
- Příkaz Disallow: /in (bez lomítka na konci) by znamenal, že robotům jsou zakázány všechny stránky začínající řetězcem "in" jako například interni/, info.html, index.html
Podstata příkazu Disallow: je, že zakazuje sledovat cesty, které začínají vypsaným řetězcem.
User-agent: *
Disallow: /temp/
Disallow: /admin/
Disallow: /komentáre/
Zákaz přecházení konkrétních složek. Všichni roboti (symbol hvězdičky) nesmějí vjet do adresářů /temp/, /admin/, /komentare/, ani k jejich podadresářům.
User- agent : Googlebot
Disallow : /interni/
Robot Googlebot má zakázaný přístup do čehokoliv v adresáři /interni/.
Disallow: /
Allow: /cz/
Disallow: /cz/interni/
Robot může do adresáře /cz/ a do jeho podadresářů, ale nesmí indexovat podadresář /interni/.
User-agent: Googlebot - Image
Disallow: /*.jpg$
Vyhledávač obrázků Googlebot-Image nesmí stahovat všechny obrázky ve formátu .jpg. Znak - $ znamená konec názvu.