Dit artikel biedt een overzicht van alle bots die door AI Scrape Protect worden herkend, onderverdeeld in de vier categorieën die ook in de plugin worden gebruikt. Per bot staat uitgelegd wat deze doet en waarom je hem wel of niet zou willen blokkeren. Voor meer informatie over de plugin, bezoek de AI Scrape Protect Plugin-pagina.
Versie: 5.0
Publicatie: 23 mei 2026
Zoekmachines
Deze bots zijn standaard toegestaan. Ze zijn verantwoordelijk voor de reguliere indexering in zoekmachines. Je kunt ze individueel uitschakelen, maar dat heeft direct gevolgen voor je vindbaarheid.
Googlebot
De primaire webcrawler van Google, verantwoordelijk voor de indexering van je site in Google Zoeken. Blokkeren betekent dat je site uit de zoekresultaten verdwijnt.
Googlebot-Image
Crawlt afbeeldingen voor Google Afbeeldingen. Blokkeren verwijdert je afbeeldingen uit Google Afbeeldingen.
Googlebot-News
Indexeert nieuwsartikelen voor Google Nieuws.
Google-PageSpeed
Wordt gebruikt door Google PageSpeed Insights voor prestatieanalyse van je site.
Google-Site-Verification
Gebruikt door Google Search Console om eigendom van je site te verifiëren.
Lighthouse
Google’s geautomatiseerde tool voor het analyseren van prestaties, toegankelijkheid en SEO.
Bingbot
De primaire webcrawler van Microsoft voor Bing Zoeken. Blokkeren betekent dat je site uit Bing verdwijnt.
AI-training
Deze bots verzamelen webcontent om AI-modellen te trainen. Ze zijn standaard geblokkeerd. Blokkeren via robots.txt is voor de meeste van deze bots effectief, al zijn er uitzonderingen die robots.txt mogelijk negeren.
GPTBot
De primaire trainingscrawler van OpenAI. Verzamelt webcontent voor het trainen van GPT-modellen zoals ChatGPT. Respecteert robots.txt.
GPTBot-Preview
Een experimentele pre-releasevariant van GPTBot waarmee OpenAI nieuwe dataverzamelingsmethoden test voor toekomstige modellen.
ClaudeBot
De primaire trainingscrawler van Anthropic. Verzamelt webcontent voor het trainen van Claude. Respecteert robots.txt.
ClaudeResearchBot
Ingezet door het onderzoeksteam van Anthropic voor het verzamelen van datasets specifiek gericht op veilige en verantwoorde AI-systemen.
AnthropicBot
Een crawler van Anthropic voor dataverzameling ten behoeve van modeltraining. Er zijn meldingen dat deze bot robots.txt mogelijk niet altijd respecteert.
CCBot
De crawler van Common Crawl. Bouwt een publiek beschikbare open dataset die als trainingsdata wordt gebruikt door de meeste grote taalmodellen. Respecteert robots.txt.
Meta-ExternalAgent
Meta’s AI-trainingscrawler voor producten zoals Facebook, Instagram en WhatsApp. Niet te verwarren met facebookexternalhit, de linkpreview-fetcher van Meta die je niet wilt blokkeren.
Meta-ExternalFetcher
Wordt door Meta gebruikt voor het ophalen van externe content voor AI-indexering. Ook hier geldt: niet verwarren met facebookexternalhit.
cohere-ai
De crawler van Cohere, gebruikt voor het verzamelen van trainingsdata voor hun taalmodellen.
cohere-training-data-crawler
Een afzonderlijke Cohere-crawler die specifiek gericht is op het opbouwen van trainingsdatasets.
Amazonbot
Amazon’s crawler voor indexering en AI-modeltraining, waaronder Amazon Nova en Alexa. Respecteert robots.txt.
Amazon-AI
Amazon’s AI-specifieke crawler voor het verzamelen van webcontent ter ondersteuning van diensten zoals Alexa en aanbevelingssystemen.
Applebot-Extended
Apple’s opt-out token voor AI-training. Blokkeren voorkomt dat je content wordt gebruikt voor het trainen van Apple Intelligence en andere generatieve AI-modellen van Apple. De activiteit van deze bot is sterk toegenomen sinds de introductie van Apple Intelligence in 2026.
AI2Bot
Ontwikkeld door het Allen Institute for AI voor academisch onderzoek en AI-modelontwikkeling.
Ai2Bot-Dolma
Een variant van AI2Bot die specifiek data verzamelt voor de Dolma open dataset, gebruikt voor het trainen van open-source taalmodellen.
StableDiffusionBot
Crawlt webcontent, met name afbeeldingen, voor het trainen van Stable Diffusion en andere generatieve AI-beeldmodellen.
img2dataset
Een tool voor het downloaden en verwerken van grote afbeeldingsdatasets voor AI-training.
TurnitinBot
Ingezet door Turnitin voor het verzamelen van content ten behoeve van plagiaatdetectie en AI-training. Blokkeren voorkomt dat je teksten in hun detectiedatabases terechtkomen.
DataForSeoBot
Crawlt websites voor het opbouwen van grote datasets voor SEO-analyse, dataverkoop en AI-modeltraining.
Diffbot
Een AI-gestuurde webscraper die webdata structureert voor kennisgraafopbouw en diverse AI-toepassingen.
magpie-crawler
Gericht op contentaggregatie en het opbouwen van trainingsdatasets, voornamelijk voor social listening en AI.
sentibot
Waarschijnlijk ingezet voor het verzamelen van data voor sentimentanalyse en AI-modeltraining.
Omgilibot / Omgili
Scrapet content van forums en discussieplatforms, voornamelijk voor marktonderzoek en AI-trainingsdatasets.
Webzio-Extended / webzio
Crawlers van Webz.io voor het verzamelen van webdata voor contentanalyse en AI-trainingsdatasets.
ImagesiftBot
Gespecialiseerd in het crawlen van afbeeldingen, mogelijk voor AI-training of visuele contentanalyse.
PanguBot
Gekoppeld aan Huawei’s Pangu AI-modellen. Verzamelt webdata voor de training van grote taalmodellen.
ErnieBot
Baidu’s AI-modelcrawler, ingezet voor het verzamelen van trainingsdata voor Ernie Bot, Baidu’s grote taalmodel.
DeepseekBot
Crawler van DeepSeek voor het verzamelen van webdata ten behoeve van hun AI-taalmodellen.
ChatGLM-Spider
Crawler van Zhipu AI voor het verzamelen van trainingsdata voor ChatGLM, hun grote taalmodel.
AIMatrixCrawler
Crawlt webcontent voor AI-matrix en machine learning trainingsdoeleinden.
FirecrawlAgent
Een scraper-as-a-service platform dat door uiteenlopende klanten en AI-toepassingen wordt ingezet om gestructureerde webcontent te extraheren. Respecteert robots.txt, maar is multi-tenant: veel verschillende partijen sturen dezelfde crawler aan.
Timpibot
Indexeert en haalt data op voor zoek- en AI-toepassingen.
YouBot
Crawler van You.com voor het verzamelen van content voor AI-gestuurde zoekopdrachten en modeltraining.
KomoBot
Gebruikt door Komo Search voor het verzamelen van data voor AI-verbeterde zoekopdrachten en trainingsdoeleinden.
iAskAI-Crawler
Verzamelt webcontent voor het genereren van antwoorden op het iAsk.ai zoek- en vraagbeantwoordingsplatform.
PiplBot
Verzamelt informatie voor Pipl’s personenzoekopdrachten en identiteitsverificatiediensten.
AI-zoekresultaten
Deze bots halen content op voor AI-gestuurde zoekresultaten of directe antwoorden aan gebruikers. Ze zijn standaard geblokkeerd, maar het toestaan ervan kan ervoor zorgen dat je site verschijnt in AI-zoekmachines zoals ChatGPT Search of Perplexity.
PerplexityBot
De primaire crawler van Perplexity AI voor het opbouwen van een index voor AI-gegenereerde zoekantwoorden. Bekend om zijn hoge crawlfrequentie en focus op nieuws en gezaghebbende content. Levert geen verwijzingsverkeer naar je site.
Perplexity-User
Haalt pagina’s in realtime op wanneer een gebruiker een zoekopdracht indient bij Perplexity AI. Blokkeren voorkomt dat je content in Perplexity-antwoorden verschijnt.
OAI-SearchBot
De indexeringscrawler van OpenAI voor ChatGPT Zoeken. Afzonderlijk van GPTBot. Door OAI-SearchBot toe te staan terwijl je GPTBot blokkeert, kun je in ChatGPT Zoeken verschijnen zonder bij te dragen aan modeltraining.
ChatGPT-User
Haalt pagina’s in realtime op wanneer een ChatGPT-gebruiker actuele informatie opvraagt. Blokkeren voorkomt dat je content wordt opgehaald voor live ChatGPT-antwoorden.
Claude-User
Haalt pagina’s in realtime op wanneer een Claude-gebruiker actuele informatie opvraagt. Blokkeren voorkomt dat je content wordt opgehaald voor live Claude-antwoorden. Heeft geen invloed op zoekmachine-indexering.
Claude-SearchBot
De indexeringscrawler van Anthropic voor de zoekfunctionaliteit van Claude. Afzonderlijk van ClaudeBot, die voor training wordt ingezet.
Google-Extended
Google’s opt-out token voor AI-training en Gemini-producten. Blokkeren voorkomt dat je content wordt gebruikt voor Google’s AI-modellen en AI-gegenereerde samenvattingen, zonder invloed op je reguliere Google Zoeken-ranking.
GoogleOther
Een Google-crawler voor interne doeleinden zoals AI-onderzoek en training, niet voor reguliere zoekindexering. Blokkeren heeft geen invloed op je Google Zoeken-positie.
Google-Agent
Google’s user-triggered fetcher, ingezet wanneer een gebruiker Gemini of Google AI Overviews om actuele informatie vraagt. Let op: deze bot respecteert robots.txt niet. Blokkeren via robots.txt is daarom niet effectief.
DuckAssistBot
De bot van DuckDuckGo voor DuckAssist, hun AI-gestuurde antwoord- en samenvattingsfunctie.
OpenAIContentCrawler
Verzamelt data specifiek voor OpenAI’s contentgerelateerde tools en retrieval-augmented generation.
Algemene indexering
Deze bots worden primair gebruikt voor zoekmachine-indexering, maar hebben ook bekende AI- of dataverzamelingstoepassingen. Ze zijn standaard toegestaan. Blokkeren kan invloed hebben op je vindbaarheid in de betreffende zoekmachines.
YandexBot
De primaire webcrawler van Yandex voor zoekindexering. Ook ingezet voor AI-toepassingen binnen Yandex-diensten. Blokkeren verwijdert je site uit Yandex Zoeken.
Baiduspider
De primaire webcrawler van Baidu voor indexering in Baidu Zoeken, de dominante zoekmachine in China. Voedt ook Baidu’s AI-producten. Blokkeren verwijdert je site uit Baidu Zoeken.
Sogou
De webcrawler van Sogou Search, een grote zoekmachine in China die nu door Tencent wordt beheerd. Ook ingezet voor AI-dataverzameling.
360Spider
Webcrawler van de zoekmachine van Qihoo 360 in China. Ook ingezet voor AI-gerelateerde dataverzameling.
PetalBot
Huawei’s webcrawler gekoppeld aan Petal Search. Gebruikt voor zoekindexering met mogelijke AI-datatoepassingen.
FacebookBot
Gebruikt door Meta voor het indexeren van publieke content voor sociale media zoek- en ontdekkingsfuncties. Niet te verwarren met facebookexternalhit, de linkpreview-fetcher die je niet wilt blokkeren.
Bytespider
Gekoppeld aan ByteDance, het moederbedrijf van TikTok. Mogelijk ingezet voor AI- en contentgeneratietools. ByteDance heeft geen officiële documentatiepagina voor deze crawler.
Grok / GrokAI / XAI / XBot
Verschillende user agent varianten gekoppeld aan xAI, het AI-bedrijf achter Grok. Worden ingezet voor dataverzameling en AI-onderzoek. xAI heeft geen officiële documentatiepagina voor deze crawlers.
Voor meer informatie over hoe AI Scrape Protect werkt, bezoek de AI Scrape Protect Plugin-pagina.


