Scrivere il robots.txt

Quando un motore di ricerca vuole indicizzare il tuo sito web, cosa necessaria se non si vuole rimanere isolati dal resto del web, fanno uso di un sistema denominato "The Robots Exclusion Standard". I moderni motori di ricerca utilizzano agenti intelligenti, denominati spieder, per indicizzare tutte le pagine del web.

Quando uno spieder raggiunge il tuo sito, la prima cosa che ricerca è il file "robots.txt". Questo è uno standard internazionale, valido quindi per tutti i motori di ricerca seri e ben fatti. Il file robots.txt è utile ai motori di ricerca perchè li informa riguardo a quali pagine analizzare e indicizzare e quali invece tralasciare. Su un sito web può essere presente un solo file robots.txt e deve essere nella cartella principale, la document root. Se volete specificare parametri diversi da pagina a pagina, a seconda dei casi, è possibile utilizzare i Meta-tags, che però non saranno analizzati in questo tutorial.

La sintassi del file robots.txt è molto semplice: per prima cosa bisogna specificare a quale/i agent si riferiscono le informazioni in una data porzione del file robots. E’ infatti possibile definire comportamenti diversi per ciascun agent, quindi per ciascuno spider. Tenete presente che il carattere "*" significa "tutti".
Per specificare l’agent si usa la sintassi "User agent: nomeSpider".

Subito dopo aver specificato l’agent è possibile definire quali pagine o directory lo spider deve tralasciare. Ciò si ottiene con la sintassi "Disallow: /nomedirectory", per impedire l’indicizzazione di un’intera directory, o "Disallow: /directory/nomefile.ext" per impedire l’indicizzazione di un solo file. Invece la sintassi "Disallow: ", senza specificare nè directory nè files, significa lo spider è libero di indicizzare tutte le pagine.

Quindi ad esempio un file robots.txt come il seguente significa che tutti gli spider sono liberi di indicizzare tutte le pagine del sito:

User-agent: * Disallow:

Invece se scriviamo il robots.txt nel modo seguente impediamo a tutti gli spider di indicizzare qualunque pagina del sito, in quanto impediamo l’analisi di tutta la cartella principale del sito, e quindi anche di tutte le relative sottodirectories:

User-agent: * Disallow: /

E’ possibile impedire l’indicizzazione di tutto il sito solo ad uno spieder, ad esempio googlebot, mentre permetterla a tutti gli altri, in questo modo:

User-agent: * Disallow:

User-agent: googlebot Disallow: /

Se invece si vuole impedire l’indicizzazione di una sottodirectory si può usare questa sintassi:

User-agent: * Disallow: /lamiadirectory

In questo modo tutti gli spider analizzeranno tutto il sito tranne le pagine contenute in "lamiadirectory". Con l’esempio seguente escludiamo invece un solo file della sottodirectory:

User-agent: * Disallow: /lamiadirectory/ilmiofile.file

E’ naturalmente possibile inserire nello stesso robots più dichiarazioni User-agent, seguite ciascuna dalle proprie dichiarazioni Disallow. Sono ovviamente ammessi più Disallow di seguito.
E’ possibile anche inserire commenti nel file robots.txt anteponendo ad essi il carattere "#". Dopo tale carattere tutta la riga non viene considerata dagli spieder.

Come dire agli spider come indicizzare il proprio sito web

Lascia un commento Annulla risposta