Boții și crawlerii web controlați de AI pot avea un impact negativ asupra performanței și securității site-ului tău. Pentru a aborda această problemă, poți utiliza o configurație specifică în fișierul .htaccess pentru a bloca accesul acestor tipuri de bot.
Fișierul .htaccess este un fișier de configurare folosit de serverele web Apache pentru a controla diverse setări la nivel de server, inclusiv controlul accesului și rewriting-ul URL-urilor. Adăugând următorul cod în fișierul .htaccess, poți preveni în mod eficient o listă de agenți de utilizator (user agents) AI cunoscuți să acceseze site-ul tău.
Tot ce trebuie sa faci e sa dai copy-paste la codul de mai jos in fisierul .htaccess care se afla in root sau public_html siteului tau.
# Start AI Bot Prevention
<IfModule mod_setenvif.c>
# AI bot User-Agents (example identifiers)
# Anthropic AI - refers to the AI models from Anthropic, like Claude.
SetEnvIfNoCase User-Agent "anthropic-ai" bad_bot
# Claude-Web - another identifier for Anthropic's Claude AI accessed through web interfaces.
SetEnvIfNoCase User-Agent "Claude-Web" bad_bot
# Applebot-Extended - Apple's web crawling bot used for indexing content.
SetEnvIfNoCase User-Agent "Applebot-Extended" bad_bot
# Bytespider - web crawler operated by Byte, a search engine.
SetEnvIfNoCase User-Agent "Bytespider" bad_bot
# CCBot - CCBot is a crawler operated by Common Crawl, indexing the web for public access.
SetEnvIfNoCase User-Agent "CCBot" bad_bot
# ChatGPT-User - identifies bots accessing content through OpenAI's ChatGPT.
SetEnvIfNoCase User-Agent "ChatGPT-User" bad_bot
# Cohere-ai - represents the AI models from Cohere, designed for NLP tasks.
SetEnvIfNoCase User-Agent "cohere-ai" bad_bot
# Diffbot - automated service to extract data from websites for various purposes.
SetEnvIfNoCase User-Agent "Diffbot" bad_bot
# FacebookBot - web crawler used by Facebook for collecting data from websites.
SetEnvIfNoCase User-Agent "FacebookBot" bad_bot
# Google-Extended - Google's extended bot that is used to gather content for various Google services.
SetEnvIfNoCase User-Agent "Google-Extended" bad_bot
# GPTBot - identifies bots based on OpenAI's GPT models, possibly for data scraping or web interactions.
SetEnvIfNoCase User-Agent "GPTBot" bad_bot
# ImagesiftBot - web crawler specifically designed to index and analyze images.
SetEnvIfNoCase User-Agent "ImagesiftBot" bad_bot
# PerplexityBot - an AI-powered bot designed for search and information retrieval.
SetEnvIfNoCase User-Agent "PerplexityBot" bad_bot
# OmigiliBot - a web crawler from Omigili used to index web content.
SetEnvIfNoCase User-Agent "OmigiliBot" bad_bot
# Omigili - another identifier for the Omigili service used for crawling the web.
SetEnvIfNoCase User-Agent "Omigili" bad_bot
# Deny access for matched bots
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</IfModule>
# End AI Bot Prevention
Iată cum funcționează această configurație:
- Detectarea Boturilor AI: Directiva
SetEnvIfNoCaseverifică antetulUser-Agental cererilor incoming și setează variabila de mediubad_botdacă agentul de utilizator se potrivește cu oricare dintre modelele specificate. Aceste modele includ identificatori cunoscuți pentru bot-uri AI precum ChatGPT, Claude, GPTBot și altele. - Blocarea Accesului: Directivele
Order Allow,DenyșiDeny from env=bad_botinstruiesc serverul web să refuze accesul la orice cereri pentru care variabila de mediubad_boteste setată, blocând astfel bot-urile AI identificate.
Implementând această configurație, poți obține mai multe beneficii:
- Îmbunătățirea Performanței: Prin blocarea acestor bot-uri AI, serverul web nu va mai trebui să proceseze cereri inutile sau să răspundă la accesuri automate, economisind resurse precum CPU, memorie și lățime de bandă, ducând la o performanță generală mai bună a site-ului.
- Reducerea Încărcării Serverului: Mai puține cereri de bot nedorite înseamnă că serverul tău nu va fi supraaglomerat, în special în perioadele de trafic ridicat, îmbunătățind experiența utilizatorilor umani.
- Indexare Corectă: Unele bot-uri AI pot indexa incorect paginile de pe site-ul tău, ducând la date incorecte în motoarele de căutare. Blocarea acestor bot-uri previne astfel de probleme.
- Securitate Îmbunătățită: Blocarea accesului automatizat al bot-urilor poate reduce, de asemenea, riscul anumitor atacuri, cum ar fi încercările brute-force sau extragerea conținutului.
Pentru a utiliza această configurație, adaugă pur și simplu codul furnizat în fișierul .htaccess din directorul rădăcină al site-ului tău sau în folderul public_html. Nu uita să salvezi modificările și site-ul tău va fi acum protejat de bot-urile AI specificate.
Această soluție oferă o modalitate rapidă și eficientă de a îmbunătăți performanța, securitatea și experiența generală a utilizatorilor pe site-ul tău sau în magazinul tău online, fără a necesita setări complexe sau resurse hardware suplimentare.