Lorem ipsum

sabato 7 giugno 2014

Cosa sono i Crawler e come difendersi

Un Web Crawler (noto anche come web robot) è un programma o uno script automatico che esplora il World Wide Web metodicamente. Questo processo è chiamato Web Crawling o Spidering e, come la maggior parte delle cose nella vita, esistono Web Crawlers sia buoni che cattivi.

Molti siti famosi (in particolare i motori di ricerca come Google e Microsoft Bing), usano spidering come mezzo per fornire dati aggiornati. Un Web Crawler scansiona i siti, memorizza una copia delle pagine visitate e, quindi, le indicizza per fornire ricerche veloci.
I Crawlers possono anche essere utilizzati per automatizzare le attività di manutenzione di un sito web, come, ad esempio, il controllo dei collegamenti o la convalida del codice HTML. Purtroppo, esistono anche i crawlers che hanno intenzioni meno benevole, ad esempio la raccolta di indirizzi e-mail dalle pagine web per scopi di spamming, inserendo spam nel form dei blog e dei forum.


Come ci accorgiamo che un crawler sta scansionando il proprio sito web?

E’ normale vedere nel tuo sito i crawlers, e, se vuoi che il sito sia rintracciabile tramite i motori di ricerca, sicuramente devi leggere questo articolo!

Presenta un’applicazione chiamata AWSTAT all’interno dell’interfaccia cPanel che ti mostrerà i crawlers più comuni che lo hanno visitato. Per accedervi devi entrare nel tuo pannello di controllo, cPanel, e cliccare su AWSTAT. Puoi quindi scegliere per quale dei i tuoi domini (se ne possiedi più di uno) desideri visualizzare le statistiche.

AWSTAT aprirà una nuova finestra attraverso la quale sarà possibile avere una analisi completa dei visitatori che hanno effettuato l’accesso al tuo sito web, compreso i crawlers/spider web
Quali problemi possono causare i web crawlers sul mio sito o su un server?

Devi tenere a mente che non tutti i web crawlers sono ‘amichevoli’ e anche quelli che lo sono (ad esempio Google) possono influenzare le prestazioni del server.

A volte un web crawler tenterà di scansionare il tuo sito in modo troppo aggressivo e questo potrà provocare un sovraccarico del server.
In questi casi i nostri sistemi di protezione automatici possono sospendere per un breve lasso di tempo il tuo sito per evitare inconvenienti che possono causare, appunto, sovraccarichi del server o forti rallentamenti. I bot possono anche consumare grandi quantità di larghezza di banda, guarda la seguente schermata giornaliera del sito di un cliente che è stato scansionato improvvisamente ed in modo aggressivo da Bing

Cosa posso fare per controllare i web crawler?


Prendi in considerazione i seguenti scenari e soluzioni:

1) Il mio sito ha un modulo web e sto ricevendo molto SPAM.

Installare un buon sistema di Captcha, come Recaptcha da Google. Se disponi di un’applicazione di terze parti, verifica la presenza di plugin o estensioni che aggiungono la funzionalità Captcha.

2) Ricevo molto SPAM nel mio indirizzo di posta personale/aziendale, che viene visualizzato sul mio sito.

Se hai bisogno di pubblicare sul tuo sito l’indirizzo di posta personale/aziendale è necessario assicurarsi che sia nascosto nel codice sorgente. La maggior parte dei crawlers non lavora come le persone- infatti controllano solo la pagina web dei codici sorgente alla ricerca di indirizzi e-mail da prelevare.
.
Posta un commento

Libri consigliati

Social Network Marketing 3.0

Su Amazon

Top Seller: Venditore TOP

Su Amazon

I MIsteri della Comunicazione

Bestseller Su Amazon



Andrea Tamburelli ospite di Tempo Super

Hanghout sulla gestione del tempo(Con Davide Rampoldi Coach)

Like-MLM Strategies

Software per la gestione del Network Marketing & mercato multilivello


Siamo LEADER del mercato e primi su Google, i più richiesti ed i più imitati!!!
Diffida da imitazioni e CONTATTACI SUBITO!