Robots.txt määritykset

Tiivistelmä

Tässä asiakirjassa kerrotaan, miten Google käsittelee robots.txt-tiedostoa, jonka avulla voit hallita, kuinka Googlen verkkosivustojen indeksointirobotit indeksoivat julkisesti käytettävissä olevat verkkosivustot.

Mikä muuttui

1. heinäkuuta 2019 Google ilmoitti, että robots.txt-protokolla pyrkii tulemaan Internet-standardiksi. Muutokset näkyvät tässä asiakirjassa.

Muutosluettelo

Tässä muuttui:

  • Poistettiin tämän asiakirjan ”Vaatimusten kieli” -osio, koska kieli on Internet-luonnoskohtainen.
  • Robots.txt hyväksyy nyt kaikki URI-pohjaiset protokollat.
  • Google seuraa vähintään viittä uudelleenohjausta. Koska sääntöjä ei ollut vielä haettu, uudelleenohjauksia noudatetaan vähintään viidessä humalassa, ja jos robots.txt-tiedostoa ei löydy, Google pitää sitä robots.txt-tiedostona 404. Loogisten uudelleenohjausten käsittely robots.txt-tiedostoon, joka perustuu HTML-sisältöön, joka palauttaa 2xx (kehykset, JavaScript tai meta-päivitystyyppiset uudelleenohjaukset), ei suositella ja ensimmäisen sivun sisältöä käytetään sovellettavien sääntöjen löytämiseen.
  • For 5xx, jos robots.txt ei ole käytettävissä yli 30 päivän ajan, robots.txt-tiedoston viimeistä välimuistissa olevaa kopiota käytetään, tai jos se ei ole käytettävissä, Google olettaa, että indeksointirajoituksia ei ole.
  • Google käsittelee epäonnistuneita pyyntöjä tai puutteellisia tietoja palvelinvirheinä.
  • ”Tietueita” kutsutaan nyt tapauksen mukaan ”riveiksi” tai ”säännöiksi”.
  • Google ei tue <field> elementit, joissa on yksinkertaisia virheitä tai kirjoitusvirheitä (esimerkiksi ”useragent” eikä ”user-agent”).
  • Google noudattaa tällä hetkellä 500 kibibyten (KiB) kokorajoitusta ja jättää huomiotta sisällön sen jälkeen.
  • Päivitetty virallinen syntaksi kelvolliseksi Augmented Backus-Naur Form (ABNF) -koodiksi RFC5234: n mukaan ja kattamaan UTF-8-merkit robots.txt-tiedostossa.
  • Päivitetty ryhmien määritelmä ”jotta se olisi lyhyempi ja täsmällisempi. Lisättiin esimerkki tyhjälle ryhmälle.
  • Poistettiin viittaukset vanhentuneeseen Ajax-indeksointijärjestelmään.

Perusmäärittelyt

Määritelmät
Indeksoija Indeksoija on palvelu tai agentti, joka indeksoi verkkosivustoja. Yleisesti ottaen indeksointirobotti automaattisesti ja rekursiivisesti käyttää isännän tunnettuja URL-osoitteita, jotka paljastavat sisältöä, johon pääsee tavallisilla verkkoselaimilla. Kun uusia URL-osoitteita löydetään (eri tavoin, kuten olemassa olevien, indeksoitujen sivujen linkeistä tai sivustokarttatiedostoista), myös nämä indeksoidaan samalla tavalla.
User- agentti Tapa tietyn indeksoijan tai indeksointiryhmän tunnistamiseksi.
Direktiivit Luettelo indeksoijalle sovellettavista ohjeista tai robottien ryhmä, joka on määritetty robots.txt-tiedostossa.
URL RFC 1738: ssa määritellyt yhtenäiset resurssilokaattorit.
Google-kohtainen Nämä elementit ovat ominaisia Googlen toteuttamalle robots.txt-tiedostolle, eivätkä ne välttämättä ole merkityksellisiä muille osapuolille.

Sovellettavuus

Kaikki Googlen automaattiset indeksointirobotit noudattavat tämän asiakirjan ohjeita. agentti käyttää URL-osoitteita käyttäjän puolesta (esimerkiksi käännettäväksi, manuaalisesti tilatut syötteet, haittaohjelmien analyysi), näitä ohjeita ei tarvitse soveltaa.

Fi le sijainti ja voimassaoloväli

Robots.txt-tiedoston on oltava isännän ylätason hakemistossa, jonne pääsee asianmukaisen protokollan ja portin numeron kautta. Robots.txt: n yleisesti hyväksytyt protokollat ovat kaikki URI-pohjaisia, ja erityisesti Google-haussa (esimerkiksi verkkosivustojen indeksointi) ovat ”http” ja ”https”. Http ja https: ssä robots.txt-tiedosto haetaan HTTP: n ehdollisen GET-pyynnön avulla.

Google-kohtainen: Google hyväksyy ja seuraa myös robots.txt-tiedostoja FTP-sivustoille. FTP-pohjaisiin robots.txt-tiedostoihin pääsee FTP-protokollan kautta anonyymin kirjautumistunnuksen avulla.

Robots.txt-tiedostossa luetellut ohjeet koskevat vain isäntää, protokollaa ja portin numeroa, jossa tiedosto on. .

Esimerkkejä kelvollisista robots.txt-URL-osoitteista

HTTP-tuloskoodien käsittely

Robots.txt-tiedostoja noudettaessa on yleensä kolme erilaista tulosta:

  • täysi salliminen: Kaikki sisältö voidaan indeksoida.
  • täydellinen kielto: Sisältöä ei voida indeksoida.
  • ehdollinen salli: robots.txt-tiedoston ohjeet määrittävät kyvyn indeksoida tietty sisältö.
HTTP-tuloskoodien käsittely
2xx (onnistunut) Menestystä ilmoittavat HTTP-tuloskoodit johtavat ehdolliseen sallimiseen indeksoinnista.
3xx (uudelleenohjaus) Google seuraa vähintään viittä uudelleenohjaushyppyä, kuten RFC 1945 määrittelee HTTP / 1.0: lle, ja lopettaa ja käsittelee sitä 404 Robots.txt – uudelleenohjausten tekeminen kiellettyihin URL – osoitteisiin ei ole suositeltavaa; koska sääntöjä ei ollut vielä haettu, uudelleenohjauksia noudatetaan vähintään viidessä humalassa ja jos robots.txt-tiedostoa ei löydy, Google pitää sitä robots.txt-tiedostona 404. Loogisten uudelleenohjausten käsittely robots.txt-tiedostolle, joka perustuu HTML-sisältöön, joka palauttaa 2xx (kehykset, JavaScript tai meta-päivitystyyppiset uudelleenohjaukset), ei suositella ja ensimmäisen sivun sisältöä käytetään sovellettavien sääntöjen löytämiseen.
4xx (asiakasvirheet) Kaikkia 4xx-virheitä käsitellään samalla tavalla ja oletetaan, että kelvollista robots.txt-tiedostoa ei ole. oletetaan, ettei rajoituksia ole. Tämä on indeksoinnin ”täysi lupa”.
5xx (palvelinvirhe)

Palvelinvirheet näkyvät väliaikaisina virheinä, jotka johtavat indeksoinnin ”täydelliseen estoon”. Pyyntöä yritetään uudelleen, kunnes HTTP-tuloskoodi ei ole palvelinvirhe. 503 (Palvelu ei ole käytettävissä) -virhe johtaa melko usein uudelleenyrityksiin. Jos robots.txt on robots.txt-tiedoston viimeinen välimuistikopio on käytettävissä yli 30 päivän ajan. Jos se ei ole käytettävissä, Google olettaa, että indeksointirajoituksia ei ole. Indeksoinnin väliaikaiseen keskeyttämiseen on suositeltavaa antaa 503 HTTP-tuloskoodi.

Google-kohtainen: Jos pystymme selvittämään, että sivusto on määritetty virheellisesti palauttamaan 5xx 404: n sijasta puuttuvien sivujen sijasta, käsittelemme kyseisen sivuston 5xx-virhettä 404.

epäonnistui pyynnöt tai keskeneräiset tiedot robots.txt-tiedoston käsittelyä, jota ei voida noutaa DNS- tai verkko-ongelmien, kuten aikakatkaisujen, virheellisten vastausten, palautettujen tai ripustettujen yhteyksien ja HTTP-hakkurivirheiden vuoksi, käsitellään palvelinvirhe.
Välimuisti robots.txt -sisältö välimuistissa on yleensä enintään 24 tuntia, mutta sitä voidaan tallentaa välimuistissa pidempään tilanteissa, joissa välimuistin päivittäminen versio ei ole mahdollinen (esimerkiksi aikakatkaisujen tai 5xx-virheiden vuoksi). Eri indeksointirobotit voivat jakaa välimuistissa olevan vastauksen. Google voi pidentää tai lyhentää välimuistin käyttöikää enintään-ikäisten välimuistinhallinnan HTTP-otsikkojen perusteella.

Tiedostomuoto

Odotettu tiedostomuoto on pelkkää tekstiä, joka on koodattu UTF-8: een. Tiedosto koostuu CR: llä, CR / LF: llä tai LF: llä erotetuista riveistä.

Ainoastaan kelvolliset rivit otetaan huomioon. kaikki muu sisältö jätetään huomioimatta. Esimerkiksi, jos tuloksena oleva asiakirja on HTML-sivu, vain kelvolliset tekstirivit otetaan huomioon, loput hylätään ilman varoituksia tai virheitä.

Jos käytetään merkkikoodausta, tuloksena on merkkejä, jotka eivät ole UTF-8: n osajoukko, tämä voi johtaa siihen, että tiedoston sisältö jäsennetään väärin.

Valinnainen Unicode BOM (tavun järjestysmerkki) robots.txt-tiedoston alussa ohitetaan.

Jokainen kelvollinen rivi koostuu kentästä, kaksoispisteestä ja arvosta. Välilyönnit ovat valinnaisia (mutta suositellaan luettavuuden parantamiseksi). Kommentit voidaan lisätä mihin tahansa tiedoston kohtaan merkillä ”#”; kaikkea sisältöä kommentin alkamisen jälkeen rivin loppuun asti käsitellään kommenttina ja ohitetaan. Yleinen muoto on <field>:<value><#optional-comment>. Rivin alussa ja lopussa oleva välilyönti jätetään huomioimatta.

Elementti <field> ei eroa isoja ja pieniä kirjaimia. < -arvo > -elementti voi olla kirjainkoon mukainen, riippuen kentästä < > -elementti.

<field> -elementtien käsittely yksinkertaisilla virheillä tai kirjoitusvirheillä (esimerkiksi ”useragent” eikä ” user-agent ”) ei tueta.

Tiedostojen enimmäiskoko voidaan asettaa indeksointikohtaisesti. Sisältö, joka on suurimman tiedostokoon jälkeen, ohitetaan. Google noudattaa tällä hetkellä 500 kibibytin (KiB) kokorajoitusta. Pienennä robots.txt-tiedoston kokoa konsolidoimalla direktiivit, jotka johtaisivat liian suureksi robots.txt-tiedostoksi. Sijoita poissuljettu materiaali esimerkiksi erilliseen hakemistoon.

Muodollinen syntakse / määritelmä

Tässä on ABNF (Augmented Backus-Naur Form) -kuvauksen kuvaus, joka on kuvattu RFC 5234: ssä

Rivien ja sääntöjen ryhmittely

Yksi tai useampi user-agent rivi, jota seuraa yksi tai useampi sääntö. Ryhmä päättyy user-agent -rivillä tai tiedoston lopussa. Viimeisellä ryhmällä ei ehkä ole sääntöjä, mikä tarkoittaa, että se sallii kaiken implisiittisesti.

Esimerkkiryhmät:

user-agent: adisallow: /cuser-agent: bdisallow: /duser-agent: euser-agent: fdisallow: /guser-agent: h

Määritettyjä neljää erillistä ryhmää :

  • Yksi ryhmä a: lle
  • Yksi ryhmä b: lle
  • Yksi ryhmä sekä e: lle että f: lle
  • Yksi ryhmä ”h”: lle

Viimeistä ryhmää lukuun ottamatta (ryhmä ”h”) jokaisella ryhmällä on oma ryhmän jäsenjohdin. Viimeinen ryhmä (ryhmä ”h”) on tyhjä.Huomaa valinnainen välilyönti ja tyhjät rivit luettavuuden parantamiseksi.

Etujärjestys käyttäjäagenteille

Vain yksi ryhmä on kelvollinen tietylle indeksointirobotille. Indeksoijan on määritettävä oikea riviryhmä etsimällä ryhmä, jolla on tarkin vastaava käyttäjäagentti. Indeksoija jättää kaikki muut ryhmät huomiotta. Käyttäjäagentti erottaa kirjainkoon. Kaikki yhteensopimattomat tekstit ohitetaan (esimerkiksi sekä googlebot/1.2 että googlebot* vastaavat googlebot). Robots.txt-tiedoston ryhmien järjestyksellä ei ole merkitystä.

Jos tietylle käyttäjäagentille on ilmoitettu useampi kuin yksi ryhmä, kaikki tiettyyn käyttäjäagenttiin sovellettavat ryhmien säännöt yhdistetään yhdeksi ryhmäksi.

Esimerkkejä

Esimerkki 1

Olettaen seuraavan robots.txt-tiedoston:

 user-agent: googlebot-news (group 1) user-agent: * (group 2) user-agent: googlebot (group 3) 

Näin indeksoijat valitsisivat osuva ryhmä:

Indeksointikohtainen ryhmä
Googlebot News Seurattava ryhmä on ryhmä 1. Vain tarkinta ryhmää seurataan, kaikki muut ohitetaan.
Googlebot (verkko) Seurattava ryhmä on ryhmä 3.
Googlebot Images Seurattava ryhmä on ryhmä 3. Ei ole erityistä ryhmää googlebot-images, joten yleisempää ryhmää seurataan .
Googlebot News (kun kuvat indeksoidaan) > Ryhmä, jota seurataan, on ryhmä 1. Nämä kuvat indeksoidaan Googlebot News -sivustolle ja siksi ne seuraavat vain Googlebot News -ryhmää.
Otherbot (verkko) Seurattu ryhmä on ryhmä 2.
Otherbot (uutiset) Seurattava ryhmä on ryhmä 2. Vaikka ryhmään olisi merkintä liittyvä indeksointirobotti, se on kelvollinen vain, jos se on erityisesti yhteensopiva.

Esimerkki 2

Olettaen seuraavan robots.txt-tiedoston:

 user-agent: googlebot-news disallow: /fish user-agent: * disallow: /carrots user-agent: googlebot-news disallow: /shrimp 

Näin indeksoijat yhdistävät tietyn käyttäjäagentin kannalta merkitykselliset ryhmät:

 user-agent: googlebot-news disallow: /fish disallow: /shrimp user-agent: * disallow: /carrots 

Katso myös Googlen indeksointirobotit ja user-agent-merkkijonot.

Ryhmän jäsenen säännöt

Vain vakio ryhmän jäsenen säännöt käsitellään tässä osiossa. Näitä sääntöjä kutsutaan myös indeksoijille ”direktiiveiksi”. Nämä direktiivit on määritelty muodossa directive: , jossa on valinnainen. Oletusarvoisesti nimettyjen indeksointirobottien indeksoinnille ei ole rajoituksia. Direktiivit, joissa ei ole , jätetään huomioimatta.

-arvo, jos se on määritelty, tulee nähdä suhteessa sen sivuston juuret, jolle robots.txt-tiedosto haettiin (käyttäen samaa protokollaa, portin numeroa, isäntää ja verkkotunnuksia). Polun arvon on aloitettava ”/”: llä juuren osoittamiseksi. Polku on kirjainkoon mukainen. Lisätietoja löytyy alla olevasta osiosta ”URL-osoitteiden haku polkuarvojen perusteella”.

disallow

disallow -direktiivi määrittää polut, jotka nimetyt indeksoijat eivät saa käyttää sitä. Kun polkua ei määritetä, direktiivi ohitetaan.

Käyttö:

disallow: 

salli

allow -direktiivi määrittää polut, joihin nimetyt indeksoijat voivat päästä. Kun polkua ei määritetä, direktiivi jätetään huomioimatta.

Käyttö:

allow: 

polun arvoihin perustuva URL-osoitteen haku

Polun arvoa käytetään perustana määritettäessä, sovelletaanko sääntöä tiettyyn sivuston URL-osoitteeseen. Jokerimerkkejä lukuun ottamatta polkua käytetään vastaamaan URL-osoitteen alkua (ja kaikkia kelvollisia URL-osoitteita, jotka alkavat samalla polulla). Ei-7-bittiset ASCII-merkit polussa voidaan sisällyttää UTF-8-merkkeinä tai prosenttiosuutena pakattuina UTF-8-koodattuina merkeinä RFC 3986: n mukaan.

Google, Bing ja muut suuret hakukoneet tukevat rajoitettu ”yleismerkkien” muoto polkuarvoille. Nämä ovat:

  • * osoittaa vähintään yhden mahdollisen merkin esiintymän.
  • $ määrittää URL-osoitteen loppu.

Googlen tukemat ryhmittymättömät rivit

Google, Bing ja muut suuret hakukoneet tukevat sitemap, sellaisena kuin se on määritelty sivustokartalla.org.

Käyttö:

sitemap: 

osoittaa sivustokarttaan, sivustokarttahakemistotiedostoon tai vastaavaan URL-osoitteeseen. URL-osoitteen ei tarvitse olla samassa isännässä kuin robots.txt-tiedosto. Useita sitemap -tietoja voi olla olemassa. Nämä eivät ole ryhmän jäseniä, joten ne eivät ole sidoksissa mihinkään tiettyyn käyttäjäagenttiin, ja kaikki indeksointirobotit voivat seurata niitä, ellei sitä ole kielletty.

Ryhmäjäsenten rivien etusijajärjestys

Ryhmän jäsenen tasolla, erityisesti allow ja disallow direktiivit, tarkin sääntö, joka perustuu -merkinnän pituuteen, kumoaa vähemmän spesifisen (lyhyemmän) säännön. Ristiriitaisissa säännöissä, myös jokerimerkkien kanssa, käytetään vähiten rajoittavaa sääntöä.

Robots.txt-merkintöjen testaaminen

Google tarjoaa kaksi vaihtoehtoa robots.txt-merkintöjen testaamiseen:

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *