AI Scrape Protect: Welke bots worden geblokkeerd en waarom?

Dit artikel biedt een overzicht van alle bots die door AI Scrape Protect worden herkend, onderverdeeld in de vier categorieën die ook in de plugin worden gebruikt. Per bot staat uitgelegd wat deze doet en waarom je hem wel of niet zou willen blokkeren. Voor meer informatie over de plugin, bezoek de AI Scrape Protect Plugin-pagina.

Versie: 5.0
Publicatie: 23 mei 2026

Zoekmachines

Deze bots zijn standaard toegestaan. Ze zijn verantwoordelijk voor de reguliere indexering in zoekmachines. Je kunt ze individueel uitschakelen, maar dat heeft direct gevolgen voor je vindbaarheid.

Googlebot

De primaire webcrawler van Google, verantwoordelijk voor de indexering van je site in Google Zoeken. Blokkeren betekent dat je site uit de zoekresultaten verdwijnt.

Googlebot-Image

Crawlt afbeeldingen voor Google Afbeeldingen. Blokkeren verwijdert je afbeeldingen uit Google Afbeeldingen.

Googlebot-News

Indexeert nieuwsartikelen voor Google Nieuws.

Google-PageSpeed

Wordt gebruikt door Google PageSpeed Insights voor prestatieanalyse van je site.

Google-Site-Verification

Gebruikt door Google Search Console om eigendom van je site te verifiëren.

Lighthouse

Google’s geautomatiseerde tool voor het analyseren van prestaties, toegankelijkheid en SEO.

Bingbot

De primaire webcrawler van Microsoft voor Bing Zoeken. Blokkeren betekent dat je site uit Bing verdwijnt.

AI-training

Deze bots verzamelen webcontent om AI-modellen te trainen. Ze zijn standaard geblokkeerd. Blokkeren via robots.txt is voor de meeste van deze bots effectief, al zijn er uitzonderingen die robots.txt mogelijk negeren.

GPTBot

De primaire trainingscrawler van OpenAI. Verzamelt webcontent voor het trainen van GPT-modellen zoals ChatGPT. Respecteert robots.txt.

GPTBot-Preview

Een experimentele pre-releasevariant van GPTBot waarmee OpenAI nieuwe dataverzamelingsmethoden test voor toekomstige modellen.

ClaudeBot

De primaire trainingscrawler van Anthropic. Verzamelt webcontent voor het trainen van Claude. Respecteert robots.txt.

ClaudeResearchBot

Ingezet door het onderzoeksteam van Anthropic voor het verzamelen van datasets specifiek gericht op veilige en verantwoorde AI-systemen.

AnthropicBot

Een crawler van Anthropic voor dataverzameling ten behoeve van modeltraining. Er zijn meldingen dat deze bot robots.txt mogelijk niet altijd respecteert.

CCBot

De crawler van Common Crawl. Bouwt een publiek beschikbare open dataset die als trainingsdata wordt gebruikt door de meeste grote taalmodellen. Respecteert robots.txt.

Meta-ExternalAgent

Meta’s AI-trainingscrawler voor producten zoals Facebook, Instagram en WhatsApp. Niet te verwarren met facebookexternalhit, de linkpreview-fetcher van Meta die je niet wilt blokkeren.

Meta-ExternalFetcher

Wordt door Meta gebruikt voor het ophalen van externe content voor AI-indexering. Ook hier geldt: niet verwarren met facebookexternalhit.

cohere-ai

De crawler van Cohere, gebruikt voor het verzamelen van trainingsdata voor hun taalmodellen.

cohere-training-data-crawler

Een afzonderlijke Cohere-crawler die specifiek gericht is op het opbouwen van trainingsdatasets.

Amazonbot

Amazon’s crawler voor indexering en AI-modeltraining, waaronder Amazon Nova en Alexa. Respecteert robots.txt.

Amazon-AI

Amazon’s AI-specifieke crawler voor het verzamelen van webcontent ter ondersteuning van diensten zoals Alexa en aanbevelingssystemen.

Applebot-Extended

Apple’s opt-out token voor AI-training. Blokkeren voorkomt dat je content wordt gebruikt voor het trainen van Apple Intelligence en andere generatieve AI-modellen van Apple. De activiteit van deze bot is sterk toegenomen sinds de introductie van Apple Intelligence in 2026.

AI2Bot

Ontwikkeld door het Allen Institute for AI voor academisch onderzoek en AI-modelontwikkeling.

Ai2Bot-Dolma

Een variant van AI2Bot die specifiek data verzamelt voor de Dolma open dataset, gebruikt voor het trainen van open-source taalmodellen.

StableDiffusionBot

Crawlt webcontent, met name afbeeldingen, voor het trainen van Stable Diffusion en andere generatieve AI-beeldmodellen.

img2dataset

Een tool voor het downloaden en verwerken van grote afbeeldingsdatasets voor AI-training.

TurnitinBot

Ingezet door Turnitin voor het verzamelen van content ten behoeve van plagiaat­detectie en AI-training. Blokkeren voorkomt dat je teksten in hun detectiedatabases terechtkomen.

DataForSeoBot

Crawlt websites voor het opbouwen van grote datasets voor SEO-analyse, dataverkoop en AI-modeltraining.

Diffbot

Een AI-gestuurde webscraper die webdata structureert voor kennisgraafopbouw en diverse AI-toepassingen.

magpie-crawler

Gericht op contentaggregatie en het opbouwen van trainingsdatasets, voornamelijk voor social listening en AI.

sentibot

Waarschijnlijk ingezet voor het verzamelen van data voor sentimentanalyse en AI-modeltraining.

Omgilibot / Omgili

Scrapet content van forums en discussieplatforms, voornamelijk voor marktonderzoek en AI-trainingsdatasets.

Webzio-Extended / webzio

Crawlers van Webz.io voor het verzamelen van webdata voor contentanalyse en AI-trainingsdatasets.

ImagesiftBot

Gespecialiseerd in het crawlen van afbeeldingen, mogelijk voor AI-training of visuele contentanalyse.

PanguBot

Gekoppeld aan Huawei’s Pangu AI-modellen. Verzamelt webdata voor de training van grote taalmodellen.

ErnieBot

Baidu’s AI-modelcrawler, ingezet voor het verzamelen van trainingsdata voor Ernie Bot, Baidu’s grote taalmodel.

DeepseekBot

Crawler van DeepSeek voor het verzamelen van webdata ten behoeve van hun AI-taalmodellen.

ChatGLM-Spider

Crawler van Zhipu AI voor het verzamelen van trainingsdata voor ChatGLM, hun grote taalmodel.

AIMatrixCrawler

Crawlt webcontent voor AI-matrix en machine learning trainingsdoeleinden.

FirecrawlAgent

Een scraper-as-a-service platform dat door uiteenlopende klanten en AI-toepassingen wordt ingezet om gestructureerde webcontent te extraheren. Respecteert robots.txt, maar is multi-tenant: veel verschillende partijen sturen dezelfde crawler aan.

Timpibot

Indexeert en haalt data op voor zoek- en AI-toepassingen.

YouBot

Crawler van You.com voor het verzamelen van content voor AI-gestuurde zoekopdrachten en modeltraining.

KomoBot

Gebruikt door Komo Search voor het verzamelen van data voor AI-verbeterde zoekopdrachten en trainingsdoeleinden.

iAskAI-Crawler

Verzamelt webcontent voor het genereren van antwoorden op het iAsk.ai zoek- en vraagbeantwoordingsplatform.

PiplBot

Verzamelt informatie voor Pipl’s personenzoekopdrachten en identiteitsverificatiediensten.

AI-zoekresultaten

Deze bots halen content op voor AI-gestuurde zoekresultaten of directe antwoorden aan gebruikers. Ze zijn standaard geblokkeerd, maar het toestaan ervan kan ervoor zorgen dat je site verschijnt in AI-zoekmachines zoals ChatGPT Search of Perplexity.

PerplexityBot

De primaire crawler van Perplexity AI voor het opbouwen van een index voor AI-gegenereerde zoekantwoorden. Bekend om zijn hoge crawlfrequentie en focus op nieuws en gezaghebbende content. Levert geen verwijzingsverkeer naar je site.

Perplexity-User

Haalt pagina’s in realtime op wanneer een gebruiker een zoekopdracht indient bij Perplexity AI. Blokkeren voorkomt dat je content in Perplexity-antwoorden verschijnt.

OAI-SearchBot

De indexeringscrawler van OpenAI voor ChatGPT Zoeken. Afzonderlijk van GPTBot. Door OAI-SearchBot toe te staan terwijl je GPTBot blokkeert, kun je in ChatGPT Zoeken verschijnen zonder bij te dragen aan modeltraining.

ChatGPT-User

Haalt pagina’s in realtime op wanneer een ChatGPT-gebruiker actuele informatie opvraagt. Blokkeren voorkomt dat je content wordt opgehaald voor live ChatGPT-antwoorden.

Claude-User

Haalt pagina’s in realtime op wanneer een Claude-gebruiker actuele informatie opvraagt. Blokkeren voorkomt dat je content wordt opgehaald voor live Claude-antwoorden. Heeft geen invloed op zoekmachine-indexering.

Claude-SearchBot

De indexeringscrawler van Anthropic voor de zoekfunctionaliteit van Claude. Afzonderlijk van ClaudeBot, die voor training wordt ingezet.

Google-Extended

Google’s opt-out token voor AI-training en Gemini-producten. Blokkeren voorkomt dat je content wordt gebruikt voor Google’s AI-modellen en AI-gegenereerde samenvattingen, zonder invloed op je reguliere Google Zoeken-ranking.

GoogleOther

Een Google-crawler voor interne doeleinden zoals AI-onderzoek en training, niet voor reguliere zoekindexering. Blokkeren heeft geen invloed op je Google Zoeken-positie.

Google-Agent

Google’s user-triggered fetcher, ingezet wanneer een gebruiker Gemini of Google AI Overviews om actuele informatie vraagt. Let op: deze bot respecteert robots.txt niet. Blokkeren via robots.txt is daarom niet effectief.

DuckAssistBot

De bot van DuckDuckGo voor DuckAssist, hun AI-gestuurde antwoord- en samenvattingsfunctie.

OpenAIContentCrawler

Verzamelt data specifiek voor OpenAI’s contentgerelateerde tools en retrieval-augmented generation.

Algemene indexering

Deze bots worden primair gebruikt voor zoekmachine-indexering, maar hebben ook bekende AI- of dataverzamelingstoepassingen. Ze zijn standaard toegestaan. Blokkeren kan invloed hebben op je vindbaarheid in de betreffende zoekmachines.

YandexBot

De primaire webcrawler van Yandex voor zoekindexering. Ook ingezet voor AI-toepassingen binnen Yandex-diensten. Blokkeren verwijdert je site uit Yandex Zoeken.

Baiduspider

De primaire webcrawler van Baidu voor indexering in Baidu Zoeken, de dominante zoekmachine in China. Voedt ook Baidu’s AI-producten. Blokkeren verwijdert je site uit Baidu Zoeken.

Sogou

De webcrawler van Sogou Search, een grote zoekmachine in China die nu door Tencent wordt beheerd. Ook ingezet voor AI-dataverzameling.

360Spider

Webcrawler van de zoekmachine van Qihoo 360 in China. Ook ingezet voor AI-gerelateerde dataverzameling.

PetalBot

Huawei’s webcrawler gekoppeld aan Petal Search. Gebruikt voor zoekindexering met mogelijke AI-datatoepassingen.

FacebookBot

Gebruikt door Meta voor het indexeren van publieke content voor sociale media zoek- en ontdekkingsfuncties. Niet te verwarren met facebookexternalhit, de linkpreview-fetcher die je niet wilt blokkeren.

Bytespider

Gekoppeld aan ByteDance, het moederbedrijf van TikTok. Mogelijk ingezet voor AI- en contentgeneratietools. ByteDance heeft geen officiële documentatiepagina voor deze crawler.

Grok / GrokAI / XAI / XBot

Verschillende user agent varianten gekoppeld aan xAI, het AI-bedrijf achter Grok. Worden ingezet voor dataverzameling en AI-onderzoek. xAI heeft geen officiële documentatiepagina voor deze crawlers.

Voor meer informatie over hoe AI Scrape Protect werkt, bezoek de AI Scrape Protect Plugin-pagina.