Semalt ger tips om hur man hanterar bots, spindlar och crawlers

Bortsett från att skapa sökmotorvänliga webbadresser, låter .htaccess-filen webbansvariga blockera specifika bots från att komma åt sin webbplats. Ett sätt att blockera dessa robotar är genom filen robots.txt. Ross Barber, Semalt Customer Success Manager, menar dock att han har sett några sökrobotar ignorera denna begäran. Ett av de bästa sätten är att använda .htaccess-filen för att hindra dem från att indexera ditt innehåll.

Vad är dessa bots?

De är en typ av programvara som används av sökmotorer för att ta bort nytt innehåll från internet för indexeringsändamål.

De utför följande uppgifter:

  • Besök webbsidor som du länkar till
  • Kontrollera din HTML-kod för fel
  • De sparar vilka webbsidor du länkar till och ser vilka webbsidor som länkar till ditt innehåll
  • De indexerar ditt innehåll

Vissa bots är dock skadliga och söker på din webbplats efter e-postadresser och formulär som vanligtvis används för att skicka oönskade meddelanden eller skräppost. Andra letar till och med efter kryphål i din kod.

Vad behövs för att blockera webbsökare?

Innan du använder .htaccess-filen måste du kontrollera följande saker:

1. Din webbplats måste köras på en Apache-server. Idag ger även de webbhotellföretag som är halvt anständiga i sitt jobb ger dig tillgång till den önskade filen.

2. Du bör ha åtkomst till att du är de råa serverloggarna på din webbplats så att du kan hitta vilka bots som har besökt dina webbsidor.

Observera att det inte finns något sätt att du kan blockera alla skadliga bots om du inte blockerar alla, även de som du anser vara till hjälp. Nya bots kommer upp varje dag och äldre ändras. Det mest effektiva sättet är att säkra din kod och göra det svårt för bots att skräppost.

Identifiera bots

Bots kan antingen identifieras med IP-adressen eller från deras "User Agent String", som de skickar in HTTP-rubrikerna. Till exempel använder Google "Googlebot."

Du kanske behöver den här listan med 302 bots om du redan har namnet på den bot som du vill hålla sig borta med .htaccess

Ett annat sätt är att ladda ner alla loggfiler från servern och öppna dem med en textredigerare. Deras plats på servern kan ändras beroende på din serverns konfiguration. Om du inte kan hitta dem, söka hjälp från din webbhotell.

Om du vet vilken sida som besökts eller besökstiden är det lättare att komma med en oönskad bot. Du kan söka i loggfilen med dessa parametrar.

En gång har du noterat vilka bots du behöver blockera; Du kan sedan inkludera dem i .htaccess-filen. Observera att det inte är tillräckligt att blockera botten för att stoppa den. Det kan komma tillbaka med en ny IP eller namn.

Hur man blockerar dem

Ladda ner en kopia av .htaccess-filen. Gör säkerhetskopior vid behov.

Metod 1: blockering med IP

Det här kodavsnittet blockerar botten med IP-adressen 197.0.0.1

Beställ Neka, tillåt

Avvisa från 197.0.0.1

Den första raden innebär att servern blockerar alla förfrågningar som matchar de mönster du har angett och tillåter alla andra.

Den andra raden säger servern att utfärda en 403: förbjuden sida

Metod 2: Blockering av användaragenter

Det enklaste sättet är att använda Apaches omskrivningsmotor

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

Omskriva regel. - [F, L]

Den första raden säkerställer att omskrivningsmodulen är aktiverad. Linje två är det villkor som regeln gäller. "F" i rad 4 säger servern att returnera en 403: förbjuden medan "L" betyder att detta är den sista regeln.

Du kommer sedan att ladda upp .htaccess-filen till din server och skriva över den befintliga. Med tiden måste du uppdatera botens IP. Om du gör ett fel laddar du bara upp säkerhetskopian som du gjorde.

mass gmail