A che cosa serve il file robots.txt?

Il file robots.txt è un documento di testo che servono per indicare ai crawler dei motori di ricerca quali pagine di un sito possono essere scansionate e quali no.
Queste istruzioni si basano sulle direttive allow (consentito) e disallow (non consentito).

Table of Contents

L’IMPORTANZA DEL FILE ROBOTS.TXT

Un file robots.txt è fondamentale per regolare l’attività dei web crawler perché evita che questi sovraccarichino il sito o indicizzino pagine non destinate al pubblico.

Ecco i motivi principali per utilizzarlo

Ottimizzazione del crawl budget

Il crawl budget rappresenta il numero di pagine che Google può scansionare su un sito in un determinato periodo. Questo numero dipende da vari fattori, tra cui dimensione, stato di salute e i backlink.

Un file robots.txt ben strutturato permette di indirizzare i crawler verso le pagine più importanti, migliorando così l’efficienza del budget di scansione e garantendo che le pagine essenziali vengano indicizzate.

Bloccare pagine duplicate e non pubbliche

Non tutte le pagine di un sito devono essere indicizzate dai motori di ricerca, come ad esempio quelle di login. L’uso di robots.txt permette di escludere queste pagine dai risultati di ricerca.

Nascondere risorse

In alcuni casi, è opportuno impedire ai motori di ricerca di indicizzare risorse specifiche, come file PDF, video o immagini, per mantenerle private o per dare priorità ad altri contenuti più rilevanti.

COME FUNZIONA UN FILE ROBOTS.TXT?

Il file robots.txt comunica ai motori di ricerca quali URL possono essere scansionati e quali no. I motori di ricerca hanno due principali funzioni: scansionare il web per scoprire nuovi contenuti e indicizzare tali contenuti per renderli disponibili agli utenti.

Quando un crawler raggiunge un sito, la prima operazione che esegue è cercare un file robots.txt. Se presente, il file viene letto prima di eseguire altre operazioni.

Sintassi di un file robots.txt

La sintassi di un file robots.txt è semplice e si basa su “blocchi di direttive” che specificano a quali user-agent (i crawler dei motori di ricerca) si applicano le regole. Si possono utilizzare caratteri jolly come l’asterisco (*) per applicare una direttiva a tutti i robot.

Ad esempio:

User-agent: *
Disallow: /private/
Questo codice indica a tutti i crawler di non accedere alla cartella “/private/”.

Direttive principali

• User-agent: specifica il crawler a cui si applica una determinata regola.
• Disallow: vieta l’accesso a determinate pagine o sezioni del sito.
• Allow: consente l’accesso a specifiche pagine anche all’interno di aree altrimenti vietate.
• Sitemap: indica ai motori di ricerca la posizione della sitemap XML del sito.

Creazione di un file robots.txt

1. Creazione del file: aprire un editor di testo e nominare il file “robots.txt”.
2. Aggiunta delle direttive: inserire le direttive come “User-agent”, “Disallow” e “Sitemap” in base alle necessità del sito.
3. Caricamento del file: una volta completato, il file deve essere caricato nella directory radice del sito web.
4. Test del file: verificare che il file robots.txt sia accessibile e funzionante utilizzando strumenti come Google Search Console.

Io, però, ho fatto in un altro modo:
1. Ho aperto Yoast Seo.
2. Ho cliccato su Strumenti (Tools).
3. Ho cliccato su Modifica file (File editor).
4. Ho inserito le indicazioni.
Si può usare questo metodo anche per modificarlo.

CONSIGLI
Ogni direttiva deve essere scritta su una nuova riga.
Utilizzate il carattere asterisco (*) per applicare regole generali a tutti i crawler.
Usate il simbolo “$” per indicare la fine di un URL.

Se avete aperto questo articolo, significa che ho lavorato abbastanza bene in termini di seo e che qualcosa vi ha spinto a cliccare.
Se siete arrivati fin qui, significa che molto probabilmente l’articolo vi è piaciuto.
Se volete usufruire dei miei servizi di business ghostwriting, mandate una mail a scrivereperglialtri@gmail.com

Autore: Massimiliano Priore

Servizi di scrittura per partite iva. Consulenza sull'allestimento di mostre. Vedi tutti gli articoli di Massimiliano Priore

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

A che cosa serve il file robots.txt?

L’IMPORTANZA DEL FILE ROBOTS.TXT

Ottimizzazione del crawl budget

Bloccare pagine duplicate e non pubbliche

Nascondere risorse

COME FUNZIONA UN FILE ROBOTS.TXT?

Sintassi di un file robots.txt

Direttive principali

Creazione di un file robots.txt

Mi piace:

Autore: Massimiliano Priore

RispondiAnnulla risposta

L’IMPORTANZA DEL FILE ROBOTS.TXT

Ottimizzazione del crawl budget

Bloccare pagine duplicate e non pubbliche

Nascondere risorse

COME FUNZIONA UN FILE ROBOTS.TXT?

Sintassi di un file robots.txt

Direttive principali

Creazione di un file robots.txt

Condividi:

Mi piace:

Autore: Massimiliano Priore

RispondiAnnulla risposta

Scopri di più da Scrivereperglialtri