Com crear un fitxer robots.txt?
Com crear un fitxer robots.txt?
Què és?
El fitxer robots.txt és un fitxer de text sense format que ha de complir l'estàndard d'exclusió de robots.
Pots crear el fitxer amb el bloc de notes de Windows i desar-lo amb el nom robots.txt
Aquest fitxer consta d'una o diverses regles i cadascuna bloqueja o permet l'accés d'un rastrejador determinat a una ruta d'arxiu concret d'un lloc web.
El fitxer robots.txt s'utilitza per gestionar el trànsit dels rastrejadors al teu lloc.
S'utilitza per evitar que les sol·licituds que rep el teu lloc web el sobrecarreguin, amb el fitxer robots.txt ben configurat, pots evitar que la velocitat de la teva web o fins i tot del mateix Cloud es veurà afectat negativament quan rebbis diverses visites d'aquests indexadors alhora.
Què bloquegem?
Els crawler, també conegut com rastrejador aranya, robot o bot. És un programa que analitza els documents del lloc web. Els motors de cerca utilitzen rastrejadors molt potents que naveguen i analitzen els llocs web creant una base de dades amb la informació recol·lectada.
Quins elements formen el robots.txt?
A l'hora de generar el fitxer robots.txt, has de tenir en compte les ordres i les regles específiques.
Comandos
User agent: És l'ordre que serveix per especificar els robots/aranyes dels motors de cerca que permetem que rastregin la nostra web.
La sintaxi d'aquesta ordre és: User-agent: (nom del robot)
(A cada regla ha d'haver-hi com a mínim una entrada Disallow o Allow)
Disallow: Indica un directori o una pàgina del domini arrel que no vols que l'user-agent rastregi.
Allow: Indica els directoris o pàgines del domini arrel que l'user‑agent especificat al grup ha de rastrejar. Serveix per anul·lar la directiva Disallow i permetre que es rastrigi un determinat subdirectori o pàgina d'un directori bloquejat.
Una opció és posar un asterisc, això significa que permeteu rastrejar la web a tots els motors de cerca.
User-agent: (*)
Disallow
La següent ordre és per indicar als motors de cerca que no rastregin, ni accedeixin ni indexin una part concreta de la web, com ara la carpeta wp-admin.
Disallow: /wp-admin/
Allow
Amb la següent ordre indiques el contrari, marques als motors de cerca què és el que poden rastrejar. En aquest exemple, només permet un fitxer d'una carpeta específica.
Allow: /wp-admin/admin-ajax.php
Altres elements que cal tenir en compte.
A l'hora d'afegir elements per al bloqueig, hauràs de col·locar la barra inclinada (/) a principi i final.
El codi es pot simplificar.
*. L'asterisc serveix per bloquejar una seqüència de caràcters.
$. El símbol de dòlar es fa servir quan vols bloquejar URL amb una terminació concreta.
Exemples d'ordres utilitzades en robots.txt.
Excloure tots els robots del servidor:
User-agent: *
Disallow: /
Permetre que tots els robots tinguin accés a escanejar-ho tot:
User-agent: *
Disallow:
Excloure només un bot, en aquest cas Badbot:
User-agent: BadBot
Disallow: /
Permetre només un bot, en aquest cas Google:
User-agent: Google
Disallow:
User-agent: *
Disallow: /
Excloure un directori per a tots els bots:
User-agent: *
Disallow: /nombre-directorio/
Excloure una pàgina en concret:
User-agent: *
Disallow: /url-pagina.html
Bloquejar les imatges de la web:
User-agent: Googlebot-Image
Disallow: /
Bloquejar una imatge només per a un bot:
User-agent: Googlebot-Image
Disallow: /imagen/bloqueada.jpeg
Excloure un tipus de fitxer específic:
User-agent: Googlebot
Dissallow: /*.jpeg$
Excloure URL amb una terminació determinada:
User-agent: *
Disallow: //pdf$
Aquests són exemples d'ús, utilitza el que s'adapti a les teves necessitats o en crea un a la teva mida.
Un cop creat el fitxer robots.txt, puja-ho mitjançant FTP dins del directori /tudominio/datos/web/