Che cos'è un crawler Web e come funziona?

admin

4 years ago

Ti è mai capitato di cercare qualcosa su Google chiedendoti “Come fa a sapere dove cercare?” La risposta è “web crawler,” che cercano nel Web e lo indicizzano in modo da poter trovare facilmente le cose online. Te lo spieghiamo noi.

Motori di ricerca e crawler

Quando effettui una ricerca utilizzando una parola chiave su un motore di ricerca come Google o Bing, il sito setaccia trilioni di pagine per generare un elenco di risultati relativi a quel termine. In che modo esattamente questi motori di ricerca hanno tutte queste pagine in archivio, sanno come cercarle e generano questi risultati in pochi secondi?

La risposta sono i web crawler, noti anche come spider. Si tratta di programmi automatici (spesso chiamati “robot” o “bot”) che “strisciando” o navigare sul Web in modo che possano essere aggiunti ai motori di ricerca. Questi robot indicizzano i siti web per creare un elenco di pagine che alla fine compaiono nei risultati di ricerca.

I crawler creano e archiviano anche copie di queste pagine nel database del motore, che ti consente di effettuare ricerche quasi immediatamente. È anche il motivo per cui i motori di ricerca spesso includono versioni memorizzate nella cache dei siti nei loro database.

RELAZIONATO: Come accedere a una pagina Web quando è inattiva< /strong>

Mappe e selezione del sito

Quindi, in che modo i crawler scelgono quali siti Web eseguire la scansione? Bene, lo scenario più comune è che i proprietari di siti Web desiderano che i motori di ricerca eseguano la scansione dei loro siti. Possono raggiungere questo obiettivo chiedendo a Google, Bing, Yahoo o a un altro motore di ricerca di indicizzare le proprie pagine. Questo processo varia da motore a motore. Inoltre, i motori di ricerca selezionano spesso siti web popolari e ben collegati da sottoporre a scansione tracciando il numero di volte in cui un URL viene collegato ad altri siti pubblici.

I proprietari di siti web possono utilizzare determinati processi per aiutare i motori di ricerca a indicizzare i propri siti web. , come
il caricamento di una mappa del sito. Questo è un file contenente tutti i link e le pagine che fanno parte del tuo sito web. Normalmente viene utilizzato per indicare quali pagine desideri vengano indicizzate.

Una volta che i motori di ricerca hanno già eseguito la scansione di un sito Web una volta, eseguiranno nuovamente la scansione di quel sito. La frequenza varia in base alla popolarità di un sito Web, tra le altre metriche. Pertanto, i proprietari dei siti mantengono spesso aggiornate le mappe dei siti per consentire ai motori di sapere quali nuovi siti Web indicizzare.

Robot e fattore di cortesia

Che cosa succede se un sito web non desidera che alcune o tutte le sue pagine vengano visualizzate su un motore di ricerca? Ad esempio, potresti non volere che le persone cerchino una pagina riservata agli abbonati o visualizzino la tua pagina di errore 404. È qui che entra in gioco l'elenco di esclusione dalla scansione, noto anche come robots.txt. Questo è un semplice file di testo che indica ai crawler quali pagine Web escludere dall'indicizzazione.

Un altro motivo per cui robots.txt è importante è che i web crawler possono avere un effetto significativo sulle prestazioni del sito. Poiché i crawler scaricano essenzialmente tutte le pagine del tuo sito Web, consumano risorse e possono causare rallentamenti. Arrivano in tempi imprevedibili e senza approvazione. Se non hai bisogno che le tue pagine vengano indicizzate ripetutamente, l'arresto dei crawler potrebbe aiutare a ridurre parte del carico del tuo sito web. Fortunatamente, la maggior parte dei crawler smette di eseguire la scansione di determinate pagine in base alle regole del proprietario del sito.

Magia dei metadati

Sotto l'URL e il titolo di ogni risultato di ricerca in Google, troverai una breve descrizione della pagina. Queste descrizioni sono chiamate snippet. Potresti notare che lo snippet di una pagina in Google non sempre si allinea con il contenuto effettivo del sito web. Questo perché molti siti web hanno qualcosa chiamato “meta tag,” che sono descrizioni personalizzate che i proprietari dei siti aggiungono alle loro pagine.

I proprietari di siti spesso escogitano descrizioni di metadati allettanti scritte per farti venire voglia di fare clic su un sito web. Google elenca anche altre meta-informazioni, come prezzi e disponibilità di magazzino. Ciò è particolarmente utile per coloro che gestiscono siti di e-commerce.

La tua ricerca

La ricerca sul Web è una parte essenziale dell'utilizzo di Internet . La ricerca sul Web è un ottimo modo per scoprire nuovi siti Web, negozi, comunità e interessi. Ogni giorno, i web crawler visitano milioni di pagine e le aggiungono ai motori di ricerca. Sebbene i crawler abbiano alcuni aspetti negativi, come l'assorbimento delle risorse del sito, sono inestimabili sia per i proprietari dei siti che per i visitatori.

RELAZIONATO: Come eliminare gli ultimi 15 Minuti della cronologia delle ricerche di Google

LEGGI SUCCESSIVO

› Come posizionare le immagini dietro o davanti al testo in Google Documenti
› Come disattivare le notifiche sugli obiettivi di gioco su Xbox Series X|S
› Come vedere le tue app più utilizzate su iPhone
› Come uscire da YouTube
› Cosa devi sapere sulla teoria del colore per foto fantastiche