robots.txt: Cos’è e come crearlo correttamente

Il file robots.txt è un mezzo utilizzato dal webmaster per fornire specifiche istruzioni ai bot di quelli che sono i motori di ricerca, ovvero i programmi che vengono utilizzati per scansionare i contenuti dei siti web. Il nome di questi bot è “crawler”. Mediante le istruzioni presenti in tale file, sarà possibile inviare istruzioni riguardo quali testi devono scansionare o meno, ovvero cosa dovrà essere indicizzato o meno. In questo articolo vedremo esattamente cos’è un file robots.txt e come crearlo correttamente.

File robots.txt: cos’è

Abbiamo detto che il file robots.txt altro non è che un file contenente alcune istruzioni destinati ai crawler, riguardo quali contenuti indicizzare e quali no. Nel momento in cui un bot inizia quello che è il processo di scansione di un determinato sito web, il primo URL che questo visiterà sarà “www.example.com/robots.txt”. Al suo interno troverà proprio le istruzioni fornite dal webmaster.

Il file robots.txt indica dunque ai bot di non effettuare la scansione di determinate pagine. Questo strumento si rivela particolarmente utile in quelle situazioni dove all’interno del sito web è possibile trovare contenuti duplicati, che come risaputo potrebbero causare penalizzazioni da parte dei motori di ricerca.

File robots.txt: struttura e sitemap

La struttura base del file file robots.txt è piuttosto semplice. Facciamo un esempio:

• User-agent: *
• Disallow:

Quella che è la prima riga indica a quale bot si desidera effettuare la comunicazione delle istruzioni. In questo particolare caso, il simbolo * indica che i destinatari sono tutti i bot. La seconda riga invece determina quali sono le sezioni e le pagine che non dovrebbero essere oggetto di scansione da parte dei crawler.

Sempre facendo riferimento all’esempio in oggetto, in questo caso nessuna pagina sarebbe esclusa. In sintesi: qualsiasi bot deve scansionare l’intero contenuto del sito web.

Il file robots.txt può essere anche utilizzato per indicare ai crawler l’esatta locazione della sitemap del sito. Per comunicare correttamente le istruzioni su come trovare tale sitemap, si dovrà ricorrere all’utilizzo della seguente stringa: “Sitemap: https://example.com/sitemap_location.xml”. Inutile sottolineare come al posto di example.com vadano inseriti i dati del proprio sito.

Dove creare il robots.txt

Non tutti i siti web sono dotati di file robots.txt. Se il bot che inizia la scansione non identifica alcun file, procederà analizzando tutte le pagine del sito in oggetto. La stessa situazione si verifica anche quando il file è presente, ma al suo interno non è riportato alcun contenuto.

Nel caso si volesse creare un robots.txt per il proprio spazio web, si dovrebbe aggiungere il file nella cartella principale del server, così che i bot possano trovarlo visitando “www.example.com/robots.txt”.

In altre parole, si dovrà sostituire robots.txt a “index.html”. Quando si crea il file in oggetto per il sito web, vi dovrà essere la certezza di chiamarlo esattamente “robots.txt”. Dovranno quindi essere utilizzate solamente lettere minuscole, senza aggiungere alcun carattere né simbolo. Il nome dovrà necessariamente essere quello indicato, altrimenti i crawler non potranno riconoscerlo.

File robots.txt: i codici da usare

Ci sono una serie di codici che si potranno utilizzare all’interno del file robots.txt per comunicare correttamente le istruzioni ai motori di ricerca. Oltre a quello riportato precedentemente, ne troviamo molti altri. Ad esempio per escludere delle intere cartelle dalla scansione, si dovrà utilizzare il seguente codice, si dovrà indicare il nome di tali cartelle dopo la dicitura Disallow, in questo modo:

• User-agent: *
• Disallow: /junk/
• Disallow: /tmp/

Nel caso si volesse indicare più di una cartella come da escludere alla scansione, si dovrà inserire un’ulteriore riga di Disallow. Ad ogni modo, il file robots.txt è accessibile da chiunque, quindi si dovrà prestare attenzione a non inserire alcuna informazione personale.

In altre parole, tale file non deve essere utilizzato ad esempio per nascondere cartelle contenenti informazioni riservate, perché queste sarebbero comunque accessibili, e il file non avrebbe alcun effetto.

Inserito in: Web