Atenție la fișierului robots.txt pe un site web

SEO
Piotr SmargolPiotr Smargol
Csaba PiroscaCsaba Pirosca
Publicat: 22.07.2021
Actualizat:
01.07.2024
14 minute

Fișierul discret robots.txt permite controlul accesului roboților motoarelor de căutare la site-ul dvs. web. De aceea, joacă un rol esențial în SEO și merită atenția necesară, mai ales în activitățile SEO avansate. În acest articol, vom explora ce este fișierul robots.txt, scopul său și importanța sa, iar ulterior vom prezenta exemple de reguli și instrucțiuni pentru a crea singur un astfel de fișier.

Concluziile principale
  • Fișierul robots.txt controlează accesul roboților de căutare la anumite părți ale site-ului, influențând indexarea și vizibilitatea în motoarele de căutare, element esențial pentru o bună Analiză de Vizibilitate Senuto.
  • Roboții motoarelor de căutare, precum Google, utilizează fișierul robots.txt pentru a identifica resursele accesibile pe site, astfel încât să poată actualiza periodic indexul lor.
  • Crearea unui fișier robots.txt implică utilizarea unui editor de text și plasarea acestuia în folderul rădăcină al domeniului, cu seturi de reguli specifice pentru diferiți roboți.
  • Deși majoritatea motoarelor de căutare respectă fișierul robots.txt, unii roboți pot ignora instrucțiunile și accesa conținutul blocat.
  • Fișierul robots.txt poate utiliza caractere speciale, cum ar fi asteriscul (*) și semnul dolar ($), pentru a crea reguli mai flexibile și mai detaliate.

Ce este un fișier robots.txt și de ce este utilizat?

Fișierul denumit exact robots.txt este un fișier text simplu, salvat în format .txt și plasat direct în folderul rădăcină al domeniului.

Acest fișier conține directive pentru roboții care vizitează site-ul nostru.

În aceste linii directoare, specificăm ce pagini din radacina domeniului pot fi vizitate de roboți și care sunt cele cărora le blocăm posibilitatea de a fi vizitate.

Este important de menționat că roboții pot ignora directivele din fișierul robots.txt și pot continua să acceseze paginile sau secțiunile respective.

Încearcă Senuto Suite gratuit timp de 14 zile

Încearcă gratuit 14 zile

De ce este important fișierul robots.txt?

Putem înțelege importanța fișierului robots.txt prin modul în care robotul Google scanează paginile web.

Când robotul Google descoperă site-ul dvs. printr-un link de pe un alt domeniu deja indexat, acesta verifică imediat fișierul robots.txt pentru a vedea ce resurse poate accesa pe site-ul dvs. Apoi, revine periodic pentru a verifica dacă au apărut modificări în fișierul respectiv.

Analizând jurnalele site-ului, observăm că fișierul robots.txt este accesat de zeci de ori pe lună, chiar și în cazul site-urilor mici.

În plus față de posibilitatea de a bloca accesul roboților la anumite secțiuni ale site-ului, folosim fișierul robots.txt pentru a indica adresa URL a hărții site-ului XML. Acest aspect este deosebit de important mai ales dacă nu avem un profil în Google Search Console sau dacă harta site-ului nostru are un URL neobișnuit.

De asemenea, merită menționat cât de meticulos își gestionează Google fișierul robots.txt, care poate fi găsit la adresa URL https://www.google.com/robots.txt.

Exemplu de reguli în robots.txt. Din ce grupe și directive este alcătuit un astfel de fișier?

Fiecare fișier robots.txt este format din grupuri de directive. Un grup de directive include:

  • referință la numele robotului,
    Fiecare aplicație sau utilizator care vizitează site-ul este reprezentat prin numele său de client sau, altfel spus, numele botului. Acest nume este cel pe care îl introducem în directivele din fișier, în directiva User-agent.
  • informații despre resursele excluse sau permise pentru botul indicat

Astfel de grupuri ne permit, în principal:

  1. să selectăm numele botului către care dorim să direcționăm directivele.
    User-agent: AdsBot-Google
  2. să adăugăm directive pentru a bloca accesul la anumite directoare sau URL-uri.
    Disallow: /maps/api/js/
  3. să adăugăm directive pentru a permite accesul la anumite directoare sau URL-uri.
    Allow: /maps/api/js

Fiecare grup ulterior poate conține un alt nume de robot și directive specifice pentru acesta. De exemplu:

User-agent: Twitterbot
Allow: /imgres

Pe scurt, obținem un set de grupuri:
User-agent: AdsBot-Google
Disallow: /maps/api/js/
Allow: /maps/api/js
Nu permite: /maps/api/place/js/
Disallow: /maps/api/staticmap
Disallow: /maps/api/streetview

Agent utilizator: Twitterbot
Permite: /imgres

Este important de reținut că liniile din interiorul unui grup sunt procesate de sus în jos, iar clientul utilizatorului (în acest caz, numele robotului) este asociat cu un singur set de reguli, sau mai exact, cu prima regulă cel mai puternic specificată care i se aplică.

Ordinea grupurilor din fișier nu are importanță. De asemenea, trebuie remarcat faptul că roboții sunt sensibili la majuscule și minuscule. De exemplu, regula:

Disallow: /file.asp

se aplică la subpagina http://www.example.com/file.asp, dar la subpagina http://www.example.com/FILE.asp – nu se mai aplică.

Acest lucru nu ar trebui să cauzeze probleme dacă creăm corect URL-urile în domeniul nostru.

În final, dacă există mai multe grupuri pentru un robot, directivele din aceste grupuri duplicate sunt unite într-un singur grup.

User-Agent

Doar unul dintre grupurile plasate în fișierul robots.txt este asociat cu numele fiecărui robot, iar celelalte sunt ignorate. Prin urmare, un robot numit Senuto, văzând regulile din fișierul robots.txt al domeniului:

User-agent: *
disallow: /search/

User-agent: Senuto
permite: /search/

va selecta regula de mai jos (în exemplu) și va accesa directorul /search/, deoarece este precis direcționată către acesta.

Disallow

Directiva disallow specifică ce directoare, căi sau URL-uri nu pot fi accesate de către roboții selectați.

disallow: [path]

disallow: [address-URL]

Directiva este ignorată dacă nu este completată nicio cale sau niciun director.

disallow:

Exemplu de utilizare a directivei:

disallow: /search

Directiva de mai sus va bloca accesul la URL-uri:

  • https://www.domena.pl/search/
  • https://www.domena.pl/search/test-site/
  • https://www.domena.pl/searches/

Este important de menționat că exemplul prezentat aici se referă doar la aplicarea unei singure reguli pentru un anumit robot specific.

Autorizare

Directiva allow indică roboților desemnați ce directoare, căi sau URL-uri pot să acceseze.

allow: [path]
allow: [adresa-URL]

Directiva este neglijată dacă nu este specificată nicio cale sau director.

allow:

Exemplu de utilizare a directivei:

allow: /images

Directiva de mai sus va permite accesul la URL-uri:

  • https://www.domena.pl/images/
  • https://www.domena.pl/images/test-site/
  • https://www.domena.pl/images-send/

Este important de menționat că exemplul prezentat aici se aplică exclusiv atunci când se utilizează o singură regulă pentru un anumit robot specificat.

Sitemap

În fișierul robots.txt, avem posibilitatea de a include și un link către harta site-ului nostru în format XML. Deoarece fișierul robots.txt este accesat frecvent de către robotul Google și reprezintă una dintre primele pagini verificate pe site, este foarte logic să adăugăm un link către harta site-ului.

sitemap: [unlabeled-address-URL]

Ghidul Google specifică faptul că URL-ul sitemap trebuie să fie absolut (URL complet). De exemplu:

sitemap: https://www.domena.pl/sitemap.xml

Alte directive

În fișierele robots.txt se pot regăsi și alte directive, cum ar fi:

  • host – Această directivă este utilizată pentru a specifica domeniul preferat dintre multiplele versiuni disponibile pe Internet.
  • crawl delay – În funcție de robot, această directivă poate avea utilizări diferite. Pentru robotul motorului de căutare Bing, timpul indicat în crawl delay reprezintă intervalul minim dintre prima și a doua accesare a unei subpagini a site-ului. În schimb, Yandex interpretează această directivă ca fiind timpul pe care robotul trebuie să-l aștepte înainte de a accesa fiecare pagină nouă din domeniu.

Ambele directive vor fi ignorate de Google și nu vor fi luate în considerare în procesul de scanare a site-ului.

Pot fi folosite expresii regulate în reguli?

Motoarele de căutare, inclusiv Google, recunosc caractere speciale în căile de acces din fișierul robots.txt. Aceste caractere includ:

  • Asterisc (*) – care indică zero sau mai multe apariții ale oricărui caracter.
  • Semnul dolar ($) – care indică sfârșitul URL-ului.

Aceste caracteristici nu se aliniază complet cu ceea ce știm despre expresiile regulate, așa cum se poate vedea aici: https://pl.wikipedia.org/wiki/Wyrażenie_regularne. Este important de menționat că proprietățile caracterelor * și $ nu sunt incluse https://en.wikipedia.org/wiki/Robots_exclusion_standard.

Un exemplu de utilizare a acestor caractere în directivele nofollow ar putea fi:

disallow: *search*

Această regulă este echivalentă cu:

disallow: searches

și caracterele * vor fi pur și simplu ignorate.

Aceste caractere sunt utile, de exemplu, când doriți să blocați accesul la pagini unde pot exista alte dosare între două dosare din URL, fie singure, fie repetate.

O regulă pentru a bloca accesul la paginile care au un folder /search/ în URL și un folder /on-demand/ mai adânc în structura paginii ar fi:

disallow: /search/*/on-demand

Această regulă va bloca accesul la următoarele URL-uri:

    • https://www.domena.pl/search/wstawka-w-url/on-demand/wlasciwy-url/
    • https://www.domena.pl/search/a/on-demand/,

Însă nu va bloca accesul la:

  • https://www.domena.pl/search/on-demand/
  • https://www.domena.pl/on-demand/
  • https://www.domena.pl/search/adres-url/

Un alt exemplu ar fi blocarea accesului la toate fișierele cu extensia .pdf (presupunând că orice fișier cu această extensie se termină astfel) care conțin folderul /data-client/ în URL. Pentru aceasta, vom folosi directiva:

disallow: /data-client/*.pdf$

Puteți citi mai multe despre sintaxa corectă și regulile care trebuie incluse într-un fișier robots.txt aici: https://datatracker.ietf.org/doc/html/rfc5234

Ce ar trebui să conțină un fișier robots.txt de bază

Pentru ca un fișier robots.txt să fie citit corect, acesta ar trebui să îndeplinească următoarele criterii:

  • să fie un fișier text în codificare UTF-8,
  • să aibă numele: robots.txt (URL de exemplu https://www.domena.pl/robots.txt),
  • să fie plasat direct în directorul rădăcină al domeniului,
  • să fie unic pentru domeniul respectiv – nu ar trebui să existe mai mult de un fișier robots.txt, deoarece directivele din alte fișiere plasate la alte URL-uri nu vor fi luate în considerare,
  • să conțină cel puțin un set de directive.

De asemenea, uneori putem găsi semnul # în fișier. Acesta permite adăugarea de comentarii în fișier, care nu vor fi citite de robotul Google. Atunci când puneți un # pe o linie, orice caracter care urmează acestuia în aceeași linie nu va fi citit de Google.

disallow: /search/ #orice caracter după "fence" nu va fi citit de robotul Google

Cum se creează un fișier robots.txt

Acum suntem pregătiți să creăm propriul nostru fișier robots.txt. Pentru a face acest lucru, vom avea nevoie de un editor de text, cum ar fi MS Word, Notepad, etc. În editor, creăm un document text nou și îl denumim simplu robots.txt.

Pasul următor este completarea documentului cu directivele corecte. Înainte de a începe să le tastăm, ar trebui să ne pregătim cu:

    • lista roboților care vor fi supuși restricțiilor
    • lista roboților care nu vor fi supuși restricțiilor
    • lista paginilor de pe site la care dorim să blocăm accesul
    • lista paginilor de pe site la care nu putem bloca accesul
    • URL-ul hărții site-ului

Având aceste date, putem începe să scriem manual regulile în documentul text creat. Iată un exemplu de fișier robots.txt:

User-agent: *
disallow: /business-card #blochează accesul la paginile din folderul business-card.
disallow: /*.pdf$ #blochează accesul la fișierele cu extensia .pdf
disallow: sortby= #blochează accesul la fișierele care au sortare în url

User-agent: ownbotsc1
allow: *

sitemap: <https://www.domena.pl/sitemap_product.xml> #link to xml sitemap
sitemap: <https://www.domena.pl/sitemap_category.xml&gt
sitemap: <https://www.domena.pl/sitemap_static.xml&gt
sitemap: <https://www.domena.pl/sitemap_blog.xml>

Trebuie să plasăm documentul creat în acest mod în directorul rădăcină al domeniului nostru pe serverul FTP unde se află fișierele site-ului. Este de remarcat că în sistemele de gestionare a conținutului, cum ar fi WordPress, există plug-in-uri care ne permit să edităm fișierul robots.txt direct pe serverul FTP.

Cum să verificăm corectitudinea directivelor din fișierul robots.txt?

Cum să verificăm corectitudinea directivelor din fișierul robots.txt?

Pentru a verifica dacă fișierul robots.txt funcționează corect, trebuie să accesăm:

https://www.google.com/webmasters/tools/robots-testing-tool.

Aici vom găsi un instrument care va descărca fișierul robots.txt actual de pe domeniu (trebuie să fim proprietari verificați în Google Search Console), iapoi ne va permite să îl modificăm și să verificăm dacă subpaginile indicate vor fi blocate sau vor trece de directivele sale.

De fiecare dată când adăugăm un URL pentru testare (în partea de jos a graficului), facem clic pe butonul roșu „TEST”. Drept răspuns, primim informații despre dacă URL-ul indicat a fost blocat și, dacă a fost blocat, ce linie din fișierul robots.txt a cauzat această blocare.

Dacă URL-ul nu este blocat, vom primi un mesaj care indică faptul că URL-ul directivei este accesibil pentru robotul Google, așa cum se vede în graficul de mai jos:

Ce trebuie să luați în considerare atunci când creați un fișier robots.txt?

Când creați un fișier robots.txt, este esențial să aveți grijă să nu blocați accidental accesul robotului Google la site, fie în totalitate, fie parțial. Din acest motiv, este recomandat să consultați un specialist înainte de a face orice modificare acestui fișier pentru a evita potențiale probleme care ar putea afecta negativ site-ul.

otuși, este important de menționat că fișierul robots.txt nu împiedică indexarea site-ului de către roboți. Google permite ca, dacă robotul său ajunge la una dintre paginile noastre printr-un alt domeniu și acea pagină este considerată valoroasă, aceasta va fi indexată.

De asemenea, trebuie reținut că majoritatea roboților care nu aparțin Google nu respectă directivele din fișierul robots.txt și ignoră instrucțiunile din acesta.

Rezumat

Fișierul robots.txt este un element esențial în SEO tehnic. Dacă este completat incorect, există riscul de a limita traficul provenit din SEO, în timp ce o completare adecvată va ajuta la gestionarea indexării unui site și a bugetului de căutare. Cu cât volumul de trafic pe site este mai mare și cu cât există mai multe subpagini pe site-ul nostru, cu atât este mai important să ne asigurăm că fișierul robots.txt este completat corect.

FAQ

Fișierul robots.txt este un simplu fișier text care conține instrucțiuni pentru roboții motoarelor de căutare, specificând ce pagini sau secțiuni ale site-ului pot fi accesate și care nu.

Fișierul robots.txt este important pentru SEO deoarece permite controlul accesului roboților de căutare la anumite părți ale site-ului, influențând astfel ce conținut este indexat și disponibil în rezultatele căutării.

Pentru a crea un fișier robots.txt, aveți nevoie de un editor de text pentru a scrie directivele și apoi să plasați fișierul în folderul rădăcină al domeniului site-ului web.

Da, este posibil ca anumiți roboți, mai ales cei care nu sunt de la motoarele de căutare principale, să ignore instrucțiunile din fișierul robots.txt și să acceseze conținutul blocat.

Da, roboții motoarelor de căutare acceptă anumite caractere speciale, cum ar fi asteriscul (*) și semnul dolar ($), care permit crearea de reguli mai flexibile în fișierul robots.txt.
Distribuie aceasta postare:  
Piotr Smargol

Lubi nowe wyzwania i nie boi się zmian. Pracę w branży SEO zaczął w 2018 roku, a pół roku później trafił do Vestigio, gdzie dziś zajmuje się kluczowymi projektami jako Senior SEO Specialist.

Csaba Pirosca

Experienced marketing manager, SEO specialist, and Local Partnership Manager at SENUTO, but above all, an out-of-the-box thinker, data lover, and a big Google fan!

Încearcă Senuto gratuit timp de 14 zile

Încearcă gratuit

Încearcă Senuto Suite gratuit timp de 14 zile

Încearcă gratuit 14 zile

Descoperă Senuto într-o oră de training online, gratuit

Alege o dată și conectează-te