Il file robots.txt è un documento di testo che servono per indicare ai crawler dei motori di ricerca quali pagine di un sito possono essere scansionate e quali no.
Queste istruzioni si basano sulle direttive allow (consentito) e disallow (non consentito).
L’IMPORTANZA DEL FILE ROBOTS.TXT
Un file robots.txt è fondamentale per regolare l’attività dei web crawler perché evita che questi sovraccarichino il sito o indicizzino pagine non destinate al pubblico.
Ecco i motivi principali per utilizzarlo
Ottimizzazione del crawl budget
Il crawl budget rappresenta il numero di pagine che Google può scansionare su un sito in un determinato periodo. Questo numero dipende da vari fattori, tra cui dimensione, stato di salute e i backlink.
Un file robots.txt ben strutturato permette di indirizzare i crawler verso le pagine più importanti, migliorando così l’efficienza del budget di scansione e garantendo che le pagine essenziali vengano indicizzate.
Bloccare pagine duplicate e non pubbliche
Non tutte le pagine di un sito devono essere indicizzate dai motori di ricerca, come ad esempio quelle di login. L’uso di robots.txt permette di escludere queste pagine dai risultati di ricerca.
Nascondere risorse
In alcuni casi, è opportuno impedire ai motori di ricerca di indicizzare risorse specifiche, come file PDF, video o immagini, per mantenerle private o per dare priorità ad altri contenuti più rilevanti.
COME FUNZIONA UN FILE ROBOTS.TXT?
Il file robots.txt comunica ai motori di ricerca quali URL possono essere scansionati e quali no. I motori di ricerca hanno due principali funzioni: scansionare il web per scoprire nuovi contenuti e indicizzare tali contenuti per renderli disponibili agli utenti.
Quando un crawler raggiunge un sito, la prima operazione che esegue è cercare un file robots.txt. Se presente, il file viene letto prima di eseguire altre operazioni.
Sintassi di un file robots.txt
La sintassi di un file robots.txt è semplice e si basa su “blocchi di direttive” che specificano a quali user-agent (i crawler dei motori di ricerca) si applicano le regole. Si possono utilizzare caratteri jolly come l’asterisco (*) per applicare una direttiva a tutti i robot.
Ad esempio:
User-agent: *
Disallow: /private/
Questo codice indica a tutti i crawler di non accedere alla cartella “/private/”.
Direttive principali
• User-agent: specifica il crawler a cui si applica una determinata regola.
• Disallow: vieta l’accesso a determinate pagine o sezioni del sito.
• Allow: consente l’accesso a specifiche pagine anche all’interno di aree altrimenti vietate.
• Sitemap: indica ai motori di ricerca la posizione della sitemap XML del sito.
Creazione di un file robots.txt
1. Creazione del file: aprire un editor di testo e nominare il file “robots.txt”.
2. Aggiunta delle direttive: inserire le direttive come “User-agent”, “Disallow” e “Sitemap” in base alle necessità del sito.
3. Caricamento del file: una volta completato, il file deve essere caricato nella directory radice del sito web.
4. Test del file: verificare che il file robots.txt sia accessibile e funzionante utilizzando strumenti come Google Search Console.
Io, però, ho fatto in un altro modo:
1. Ho aperto Yoast Seo.
2. Ho cliccato su Strumenti (Tools).
3. Ho cliccato su Modifica file (File editor).
4. Ho inserito le indicazioni.
Si può usare questo metodo anche per modificarlo.
CONSIGLI
Ogni direttiva deve essere scritta su una nuova riga.
Utilizzate il carattere asterisco (*) per applicare regole generali a tutti i crawler.
Usate il simbolo “$” per indicare la fine di un URL.
Se avete aperto questo articolo, significa che ho lavorato abbastanza bene in termini di seo e che qualcosa vi ha spinto a cliccare.
Se siete arrivati fin qui, significa che molto probabilmente l’articolo vi è piaciuto.
Se volete usufruire dei miei servizi di business ghostwriting, mandate una mail a scrivereperglialtri@gmail.com
