De ce ar trebui să avem grijă de fișierul robots.txt de pe site-ul web

SEO
Piotr SmargolPiotr Smargol
Publicat: 22.07.2021
6 minute

Fișierul discret robots.txt vă permite să controlați accesul roboților motoarelor de căutare la site-ul dvs. web. Din acest motiv, el joacă un rol crucial în SEO și merită să i se acorde atenția cuvenită, mai ales în activitățile mai avansate SEO. În acest articol, vom discuta despre ce este un fișier robots.txt, la ce servește și de ce este important, iar apoi vom trece la exemple de reguli și instrucțiuni despre cum să creați singur un astfel de fișier.

Principalele concluzii
  • Fișierul robots.txt controlează accesul roboților de căutare la anumite părți ale site-ului, influențând indexarea și vizibilitatea în motoarele de căutare, element esențial pentru o bună Analiză de Vizibilitate Senuto.
  • Roboții motoarelor de căutare precum Google folosesc fișierul robots.txt pentru a identifica resursele accesibile pe site, astfel încât să poată actualiza periodic indexul lor.
  • Crearea unui fișier robots.txt implică utilizarea unui editor de text și plasarea acestuia în folderul rădăcină al domeniului, cu seturi de reguli specifice pentru diferiți roboți.
  • Deși majoritatea motoarelor de căutare respectă fișierul robots.txt, unele roboți pot ignora instrucțiunile și accesa conținutul blocat.
  • Fișierul robots.txt poate folosi caractere speciale, cum ar fi asteriscul (*) și semnul dolar ($), pentru a crea reguli mai flexibile și mai detaliate.

Ce este un fișier robots.txt și de ce este folosit?

.
Fișierul cu numele exact robots.txt este un simplu fișier text – salvat în format .txt și plasat direct în folderul rădăcină al domeniului.

În interiorul fișierului se plasează liniile directoare pentru roboții care ne vizitează site-ul.

În aceste linii directoare, specificăm ce pagini din radacina domeniului pot fi vizitate de roboți și care sunt cele cărora le blocăm posibilitatea de a fi vizitate.

Este demn de remarcat faptul că roboții pot ocoli directivele plasate în fișierul robots.txt și pot interoga în continuare paginile sau secțiunile plasate acolo.

Încearcă Senuto Suite gratuit timp de 14 zile

Încearcă gratuit 14 zile

De ce este important fișierul robots.txt?

.
Putem ști importanța fișierului robots.txt prin modul în care robotul Google scanează paginile.

Atunci când robotul Google întâlnește site-ul dvs. legat de un alt domeniu aflat deja în indexul său, acesta verifică imediat fișierul robots.txt pentru a verifica ce resurse de pe site poate vizita. Apoi vizitează periodic fișierul respectiv pentru a vedea dacă s-a schimbat ceva în liniile directoare.

Analizând jurnalele site-ului, putem vedea că fișierul robots.txt, chiar și în cazul site-urilor mici, este vizitat de zeci sau zeci de ori pe lună.

Pe lângă posibilitatea deja menționată de a bloca accesul roboților în anumite locuri de pe site, folosim fișierul robots.txt pentru a sublima adresa URL a mapei site-ului XML. Legătura harta site-ului aici este deosebit de importantă în special atunci când nu avem un profil în Google Search Console și atunci când harta site-ului nostru are un URL de tip out-of-the-box.

De asemenea, este demn de remarcat cât de meticulos își populează Google fișierul robots.txt, care poate fi găsit la adresa URL https://www.google.com/robots.txt.

Exemplu de reguli în robots.txt. Din ce grupe și directive este alcătuit un astfel de fișier?

.
Fiecare fișier robots.txt este construit din grupuri. Grupul de directive include:

  • referință la numele robotului,
    Fiecare aplicație sau utilizator care vizitează site-ul este prezentat prin numele său de client sau, altfel spus, numele botului. Acest nume este cel pe care îl introducem în directivele din interiorul fișierului în directiva User-agent.
  • informații despre ce resurse sunt excluse sau permise pentru a fi vizitate de către botul indicat.
  • .

Astfel de grupuri ne permit, în primul rând:

  1. Selectați numele botului către care dorim să direcționăm directivele.
    User-agent: AdsBot-Google

    .

  2. Adaugați directive pentru a bloca accesul la anumite directoare sau URL-uri.
    Disallow: /maps/api/js/

    .

  3. Adaugați directive pentru a permite accesul la anumite directoare sau URL-uri.
    Allow: /maps/api/js

    .

Fiecare grup ulterior poate conține un alt nume de robot și directive pentru un alt robot, de exemplu:

User-agent: Twitterbot
Allow: /imgres

.
Pe scurt, obținem un set de grupuri:

User-agent: AdsBot-Google
Disallow: /maps/api/js/
Allow: /maps/api/js
Nu permite: /maps/api/place/js/
Disallow: /maps/api/staticmap
Disallow: /maps/api/streetview

Agent utilizator: Twitterbot
Permite: /imgres

Rețineți, totuși, că rândurile din interiorul grupului sunt procesate de sus în jos, iar clientul utilizatorului (în acest caz: numele robotului) este asociat cu un singur set de reguli sau, mai exact, cu prima regulă cel mai puternic specificată care i se aplică.

În sine, ordinea grupurilor din fișier nu are nicio importanță. De asemenea, este de remarcat faptul că roboții sunt sensibili la majuscule și minuscule. De exemplu, regula:

Disallow: /file.asp

se aplică la subpagina http://www.example.com/file.asp, dar la subpagina http://www.example.com/FILE.asp – nu se mai aplică.

Cu toate acestea, acest lucru nu ar trebui să cauzeze probleme dacă creăm URL-uri corect în domeniul nostru.

În cele din urmă, dacă există mai mult de un grup pentru un robot, directivele din grupurile duplicate sunt unite într-un singur grup.

User-Agent

.
Doar unul dintre grupurile plasate în fișierul robots.txt este asociat cu numele fiecărui robot, iar celelalte sunt ignorate. Prin urmare, un robot numit Senuto, văzând regulile din fișierul robots.txt al domeniului:

User-agent: *
disallow: /search/

User-agent: Senuto
permite: /search/

va selecta regula de mai jos (în exemplu) și va accesa directorul /search/, deoarece este precis direcționată către acesta.

Disallow

.
Directiva disallow specifică ce directoare, căi sau URL-uri nu pot fi accesate de către roboții selectați.

disallow: [path]

.

disallow: [address-URL]

.
Directiva este ignorată dacă nu este completată nicio cale sau niciun director.

disallow:

.
Exemplu de utilizare a directivei:

disallow: /search

Directiva de mai sus va bloca accesul la URL-uri:

  • https://www.domena.pl/search/
  • .

  • https://www.domena.pl/search/test-site/
  • https://www.domena.pl/searches/

Este demn de remarcat faptul că exemplul discutat aici se aplică doar la aplicarea unei singure reguli pentru un singur robot desemnat.

Autoriza

.
Directiva allow specifică ce directoare, căi sau URL-uri au voie să acceseze roboții desemnați.

allow: [path]

.

allow: [adresa-URL]

Directiva este ignorată dacă nu este completată nicio cale sau niciun director.

allow:

.
Exemplu de utilizare a directivei:

allow: /images

Directiva de mai sus va permite accesul la URL-uri:

  • https://www.domena.pl/images/
  • .

  • https://www.domena.pl/images/test-site/
  • https://www.domena.pl/images-send/

Este demn de remarcat faptul că exemplul discutat aici se aplică doar la aplicarea unei singure reguli pentru un singur robot indicat.

Sitemap

.
În fișierul robots.txt, putem include, de asemenea, un link către mapa site-ului nostru în format XML. Deoarece pagina robots.txt este vizitată în mod regulat de robotul Google și este una dintre primele pagini de pe site pe care acesta le accesează, este foarte logic să includem un link către harta site-ului.

sitemap: [unlabeled-address-URL]

.
Ghidul Google prevede că URL-ul sitemap trebuie să fie absolut (URL complet, propriu), deci, de exemplu

sitemap: https://www.domena.pl/sitemap.xml

Alte directive

.
În fișierele robots.txt putem găsi și alte directive, și anume

  • host – directiva host este folosită pentru a indica domeniul preferat dintre numeroasele copii ale acestuia disponibile pe Internet.
  • .

  • crawl delay – în funcție de robot, această directivă poate fi folosită diferit. În cazul robotului motorului de căutare Bing, timpul specificat în crawl delay va fi timpul minim dintre prima și a doua crawlare a unei subpagini a site-ului. Yandex, pe de altă parte, va citi această directivă ca fiind timpul pe care robotul trebuie să îl aștepte înainte de a interoga fiecare pagină ulterioară din domeniu.

Ambele directive vor fi ignorate de Google și nu vor fi luate în considerare la scanarea site-ului.

Pot fi folosite expresii regulate în reguli?

.
Roboții motorului de căutare Google (dar nu numai) acceptă caractere unice cu proprietăți speciale în căile de acces. Astfel de caractere includ:

  • caracterul asterisc * – indică zero sau mai multe apariții ale oricărui caracter,
  • .

  • semnul dolar $ – indică sfârșitul URL-ului.
  • .

Acest lucru nu coincide perfect cu ceea ce știm din expresiile regulate https://pl.wikipedia.org/wiki/Wyrażenie_regularne. De asemenea, este demn de remarcat faptul că proprietățile caracterelor * și $ nu sunt incluse în standardul de excludere a roboților https://en.wikipedia.org/wiki/Robots_exclusion_standard.

Un exemplu de utilizare nofollow a acestor caractere ar fi regula:

disallow: *search*

.
Regula citată va fi aceeași ca și regula:

disallow: searches

iar caracterele * vor fi pur și simplu ignorate.

Aceste caractere își vor găsi utilizarea, de exemplu, atunci când doriți să blocați accesul la pagini în care pot exista alte dosare între două dosare din URL, fie singure, fie în mod repetat.

O regulă pentru a bloca accesul la paginile care au un folder /search/ în adresa adresa URL și un folder /on-demand/ mai adânc în structura paginii ar arăta astfel:

disallow: /search/*/on-demand

Cu regula de mai sus, vom bloca accesul la aceste URL-uri:

  • https://www.domena.pl/search/wstawka-w-url/on-demand/wlasciwy-url/
  • https://www.domena.pl/search/a/on-demand/,
  • .

Dar nu vom bloca accesul la acestea:

  • https://www.domena.pl/search/on-demand/
  • https://www.domena.pl/on-demand/
  • https://www.domena.pl/search/adres-url/

Un exemplu interesant ar fi să blocăm accesul la toate fișierele cu extensia .pdf (presupunem că orice fișier cu această extensie din domeniul nostru se termină în acest fel) care conțin folderul /data-client/ în URL. Pentru aceasta vom folosi directiva :

disallow: /data-client/*.pdf$

Puteți citi mai multe despre sintaxa corectă și regulile care trebuie incluse într-un fișier robots.txt în specificația de sintaxă ABNF la URL: https://datatracker.ietf.org/doc/html/rfc5234

Ce ar trebui să conțină un fișier robots.txt de bază

.
Pentru ca un fișier robots.txt să fie citit corect, acesta ar trebui:

  • să fie un fișier text în codificare UTF-8,
  • .

  • să aibă numele: robots.txt (URL de exemplu https://www.domena.pl/robots.txt),
  • .

  • să fie plasat direct în folderul rădăcină al domeniului,
  • .

  • să fie unic în cadrul domeniului – nu ar trebui să existe mai mult de un fișier robots.txt, deoarece orientările din fișierele plasate la un alt URL decât cel indicat nu vor fi citite,
  • .

  • să conțină cel puțin un grup de directive în interiorul fișierului
  • .

De asemenea, putem găsi uneori semnul # în fișier. Acesta vă permite să adăugați comentarii în interiorul fișierului care nu vor fi citite de robotul Google. Atunci când puneți un # într-o linie, orice caracter care urmează acelui caracter în aceeași linie nu va fi citit de Google.

disallow: /search/ #orice caracter după "fence" nu va fi citit de robotul Google

.

Cum se creează un fișier robots.txt

.
În acest moment suntem gata să creăm noi înșine un astfel de fișier. Pentru a face acest lucru, vom avea nevoie de orice editor de text: MS Word, Notepad, etc. În editor, creăm un document text gol și îl numim pur și simplu robots.txt.

Următorul pas este să completăm documentul text cu directivele corecte. Înainte de a le tasta, ar trebui să ne pregătim:

  • lista de roboți care vor fi afectați de restricții,
  • .

  • lista de roboți care nu vor fi supuși restricțiilor,
  • .

  • lista site-urilor la care dorim să blocăm accesul,
  • .

  • lista site-urilor al căror acces nu îl putem bloca,
  • .

  • URL-ul hărții site-ului,
  • .

Având datele de mai sus, putem începe să scriem manual regulile una sub alta în documentul text creat. Exemplu de fișier robots.txt:

User-agent: *
disallow: /business-card #blochează accesul la paginile din folderul business-card.
disallow: /*.pdf$ #blochează accesul la fișierele cu extensia .pdf
disallow: sortby= #blochează accesul la fișierele care au sortare în url

User-agent: ownbotsc1
allow: *

sitemap: <https://www.domena.pl/sitemap_product.xml> #link to xml sitemap
sitemap: <https://www.domena.pl/sitemap_category.xml&gt
sitemap: <https://www.domena.pl/sitemap_static.xml&gt
sitemap: <https://www.domena.pl/sitemap_blog.xml>

.
Trebuie să plasăm documentul creat în acest fel în folderul rădăcină al domeniului nostru pe serverul FTP unde se află fișierele acestuia. Este demn de remarcat faptul că în sistemele de gestionare a conținutului, cum ar fi WordPress, vom găsi plug-in-uri care ne vor permite să edităm fișierul robots.txt aflat pe serverul FTP.

Cum să testăm dacă directivele din fișierul robots.txt sunt corecte?

.
Pentru a testa temeinic dacă fișierul robots.txt pe care l-am creat va funcționa corect, trebuie să vizităm: https://www.google.com/webmasters/tools/robots-testing-tool.

Aici vom găsi un tester care va descărca fișierul robot.txt aflat în prezent pe domeniu (trebuie să fim proprietarul verificat al acestuia în Google Search Console), iar apoi ne va permite să îl modificăm și să verificăm dacă subpaginile pe care le indicăm vor fi blocate sau trecute de directivele din el.

De fiecare dată după ce adăugăm un URL la test (în partea de jos a graficului), dăm click pe butonul roșu „TEST”, iar ca răspuns primim informații despre dacă URL-ul indicat a fost blocat și, dacă a fost, ce linie de text din fișierul robots.txt a blocat URL-ul nostru.

În cazul în care URL-ul nu este blocat, vom primi un mesaj care face ca URL-ul directivei să fie accesibil robotului Google – ca în graficul de mai jos:

Ce trebuie să aveți în vedere atunci când creați un fișier robots.txt?

.
Atunci când creăm un fișier robots.txt, trebuie să fim deosebit de atenți să blocăm accesul robotului Google la site, fie complet, fie parțial. Prin urmare, toate modificările aduse acestui fișier trebuie consultate cu un specialist, pentru a nu vă afecta și mai mult site-ul.

Cu toate acestea, este demn de remarcat faptul că fișierul robots.txt nu va bloca indexarea site-ului de către roboți. Google permite posibilitatea ca, în cazul în care robotul său a ajuns la una dintre subpaginile noastre de pe un alt domeniu, atunci, atâta timp cât această pagină este considerată valoroasă, ea va intra în index.

O altă notă importantă este că majoritatea roboților care nu sunt de la Google nu respectă liniile directoare din fișierul robots.txt și ignoră comenzile din acesta.

Summary

.
Fișierul robots.txt este cu siguranță un element important în SEO tehnic. Completându-l prost riscă să limiteze traficul din SEO, în timp ce dacă îl completați bine veți ajuta la gestionarea indexării unui site și a bugetului de căutare. Cu cât volumul de trafic pe site este mai mare, cu cât există mai multe subpagini pe site-ul nostru, cu atât mai bine să ne ocupăm de completarea corectă a robots.txt.

 

.

FAQ


Fișierul robots.txt este un simplu fișier text care conține instrucțiuni pentru roboții motoarelor de căutare, specificând ce pagini sau secțiuni ale site-ului pot fi accesate și care nu.


Fișierul robots.txt este important pentru SEO deoarece permite controlul accesului roboților de căutare la anumite părți ale site-ului, influențând astfel ce conținut este indexat și disponibil în rezultatele căutării.


Pentru a crea un fișier robots.txt, aveți nevoie de un editor de text pentru a scrie directivele și apoi să plasați fișierul în folderul rădăcină al domeniului site-ului web.


Da, este posibil ca anumiți roboți, mai ales cei care nu sunt de la motoarele de căutare principale, să ignore instrucțiunile din fișierul robots.txt și să acceseze conținutul blocat.


Da, roboții motoarelor de căutare acceptă anumite caractere speciale, cum ar fi asteriscul (*) și semnul dolar ($), care permit crearea de reguli mai flexibile în fișierul robots.txt.
Distribuie aceasta postare:  
Piotr Smargol

Lubi nowe wyzwania i nie boi się zmian. Pracę w branży SEO zaczął w 2018 roku, a pół roku później trafił do Vestigio, gdzie dziś zajmuje się kluczowymi projektami jako Senior SEO Specialist.

Încearcă Senuto gratuit timp de 14 zile

Încearcă gratuit

Încearcă Senuto Suite gratuit timp de 14 zile

Încearcă gratuit 14 zile

Descoperă Senuto într-o oră de training online, gratuit

Alege o dată și conectează-te