Realizzazione Siti, Posizionamento sui Motori di Ricerca, Gestione Strategica Social Network

Meta tag robots: come bloccare l'accesso degli spider?

28/07/2015

Dopo aver letto come funzionano i motori di ricerca e i relativi spider web, abbiamo capito come questi riescono ad archiviare le informazioni presenti nei siti internet. 

Spesso però può capitare che non si desideri il passaggio degli spider su una determinata pagina, perchè magari essa presenta dei contenuti che preferiamo non vengano digeriti dai motori di ricerca: per far questo è possibile dialogare con gli spider dei motori, fornendo loro delle linee guida sulle pagine da indicizzare o meno del nostro sito.

Per far questo esistono fondamentalmente 3 metodi:

  • Utilizzo dell'attributo rel="nofollow" nel link che rimanda alla pagina che non vogliamo venga indicizzata. Questo metodo però presenta un problema: se la pagina riceve altri link da fonti esterne verrà ugualmente indicizzata, perchè con questo comando non si fà altro che ordinare allo spider di non seguire un determinato link, senza specificare di non indicizzare la pagina.
  • Utilizzo del file robots.txt che vedremo in un prossimo articolo.
  • Utilizzo del meta tag ROBOTS nell'header della pagina da non indicizzare.

Meta tag ROBOTS
I meta tag sono dei tag HTML da posizionare nell'header del codice sorgente della pagina. Essi contengono informazioni di vario genere, come l'autore della pagina, la descrizione del contenuto, eccetera. (Per avere maggiori informazioni riguardo ai meta tag potete fare riferimento alla pagina ufficiale del w3c.)

Il metatag che prendiamo in considerazione in questo articolo è il metatag "ROBOTS", che consente di segnalare all'eventuale spider  come deve comportarsi all'atto di indicizzare una determinata pagina. Quando lo spider leggerà la pagina per prima cosa controllerà se è presente il meta tag e di conseguenza si comporterà in base a quello che c'è scritto al suo interno.
L'utilizzo è semplice, questo è il codice da utilizzare nell'header delle pagine html:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">

La prima parte rimarrà sempre uguale; i valori all'interno di "content" cambieranno a seconda del risultato che si desidera ottenere. Nell' esempio qui sopra, si ordina allo spider di indicizzare(INDEX) e di seguire tutti i link presenti nella pagina (FOLLOW), quindi di mantenere il comportamento normale. Difatti in questo caso si può fare e meno di utilizzare il meta tag perchè non comporta alcun cambiamento rispetto al suo normale comportamento. 

Di seguito, le varie combinazioni possibili:

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

Il motore non indicizzerà la pagina nei suoi archivi ma seguirà comunque i link presenti al suo interno.

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
Il motore sarà libero di indicizzare la pagina, però non seguirà i link presenti in questa.

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
Il massimo della restrizione, non viene consentito allo spider di indicizzare la pagina e dinavigare sui link che essa contiene.