Home
Home
Tutorials
   PHP
   Java
   Tutti...
Manuali
SmartImage
Marketing
Downloads
Contatti
Affiliati

  Da vedere
Hosting
Statistiche per siti
Corsi per webmaster
Hardware
Processori


  OnFocus
I 10 font più compatibili per un sito web

Effettuare un redirect

UnripeGod

  Siti Amici
Miki News
Giochi gratis
Areagratis
Baratto Online
AI Machines
Guide e Manuali Gratis
Egregio Directory
Ipernegozio
Canoa Quebrada
Boutique online
Tutorialing
Bigthink - idee dal web
Add to Technorati Favorites

Tutti i siti amici
Diventa Affiliato

 


Autore: Claudio Venturini
Categoria: marketing
Livello: base Livello base

Scrivere il robots.txt

Come dire agli spider come indicizzare il proprio sito web

Quando un motore di ricerca vuole indicizzare il tuo sito web, cosa necessaria se non si vuole rimanere isolati dal resto del web, fanno uso di un sistema denominato "The Robots Exclusion Standard". I moderni motori di ricerca utilizzano agenti intelligenti, denominati spieder, per indicizzare tutte le pagine del web.

Quando uno spieder raggiunge il tuo sito, la prima cosa che ricerca è il file "robots.txt". Questo è uno standard internazionale, valido quindi per tutti i motori di ricerca seri e ben fatti. Il file robots.txt è utile ai motori di ricerca perchè li informa riguardo a quali pagine analizzare e indicizzare e quali invece tralasciare. Su un sito web può essere presente un solo file robots.txt e deve essere nella cartella principale, la document root. Se volete specificare parametri diversi da pagina a pagina, a seconda dei casi, è possibile utilizzare i Meta-tags, che però non saranno analizzati in questo tutorial.

La sintassi del file robots.txt è molto semplice: per prima cosa bisogna specificare a quale/i agent si riferiscono le informazioni in una data porzione del file robots. E' infatti possibile definire comportamenti diversi per ciascun agent, quindi per ciascuno spider. Tenete presente che il carattere "*" significa "tutti".
Per specificare l'agent si usa la sintassi "User agent: nomeSpider".

Subito dopo aver specificato l'agent è possibile definire quali pagine o directory lo spider deve tralasciare. Ciò si ottiene con la sintassi "Disallow: /nomedirectory", per impedire l'indicizzazione di un'intera directory, o "Disallow: /directory/nomefile.ext" per impedire l'indicizzazione di un solo file. Invece la sintassi "Disallow: ", senza specificare nè directory nè files, significa lo spider è libero di indicizzare tutte le pagine.

Quindi ad esempio un file robots.txt come il seguente significa che tutti gli spider sono liberi di indicizzare tutte le pagine del sito:

User-agent: *
Disallow:

Invece se scriviamo il robots.txt nel modo seguente impediamo a tutti gli spider di indicizzare qualunque pagina del sito, in quanto impediamo l'analisi di tutta la cartella principale del sito, e quindi anche di tutte le relative sottodirectories:

User-agent: *
Disallow: / 

E' possibile impedire l'indicizzazione di tutto il sito solo ad uno spieder, ad esempio googlebot, mentre permetterla a tutti gli altri, in questo modo:

User-agent: *
Disallow:

User-agent: googlebot
Disallow: /

Se invece si vuole impedire l'indicizzazione di una sottodirectory si può usare questa sintassi:

User-agent: *
Disallow: /lamiadirectory

In questo modo tutti gli spider analizzeranno tutto il sito tranne le pagine contenute in "lamiadirectory". Con l'esempio seguente escludiamo invece un solo file della sottodirectory:

User-agent: *
Disallow: /lamiadirectory/ilmiofile.file

E' naturalmente possibile inserire nello stesso robots più dichiarazioni User-agent, seguite ciascuna dalle proprie dichiarazioni Disallow. Sono ovviamente ammessi più Disallow di seguito.
E' possibile anche inserire commenti nel file robots.txt anteponendo ad essi il carattere "#". Dopo tale carattere tutta la riga non viene considerata dagli spieder.

Quanti internauti ci sono in Italia? Quanti nel mondo? Precedente Indice Successivo Google non legge i meta tags!
Quanti internauti ci sono in Italia? Quanti nel mondo? Google non legge i meta tags!