AI Scrape Protect: Welke bots worden geblokkeerd en waarom?

Dit artikel biedt een gedetailleerd overzicht van de bots die door de AI Scrape Protect-plugin worden geblokkeerd, met uitleg over hun functies en waarom ze op de blocklist staan. Voor meer informatie over de plugin, bezoek de AI Scrape Protect Plugin-pagina.

Versie: 4.2
Publicatie: 16 juni 2025

Geblokkeerde bots en hun functies

1. anthropic-ai

Anthropic AI is een onderzoeksgerichte bot die betrouwbare en interpreteerbare AI-systemen ontwikkelt. Door deze bot te blokkeren, wordt mogelijke datascraping voor AI-modeltraining voorkomen.

2. Claude-Web

Deze bot, geassocieerd met Claude van Anthropic, verzamelt informatie ter verbetering van conversatie-AI-modellen.

3. CCbot

Een bot gekoppeld aan Common Crawl, die webgegevens verzamelt voor grote datasets. Het blokkeren ervan beperkt de toegang tot de inhoud van je site voor dergelijke doeleinden.

4. FacebookBot

Gebruikt door Meta (Facebook) voor indexering en sociale media-functionaliteiten. Het blokkeren van deze bot zorgt ervoor dat je content niet onnodig wordt geïndexeerd.

5. Google-Extended

Een uitgebreide bot van Google voor toegang tot extra inhoud. Het blokkeren helpt bij het controleren van het gebruik van je content buiten reguliere zoekindexering.

6. GPTBot

De bot van OpenAI verzamelt gegevens ter verbetering van AI-modellen zoals ChatGPT. Blokkeren voorkomt ongeautoriseerd gebruik van je content voor AI-training.

7. PiplBot

Een bot van Pipl, ontworpen voor het verzamelen van informatie voor zoek- en identiteitsverificatiediensten.

8. ChatGPT-User

Blokkeert scrapingpogingen die verband houden met ChatGPT-gebruikersprompts.

9. PerplexityBot

Een bot gekoppeld aan Perplexity.ai, gericht op het verbeteren van AI-gestuurde zoek- en vraag-antwoordmodellen.

10. Bytespider

Geassocieerd met ByteDance; deze bot verzamelt mogelijk gegevens voor AI en contentgeneratietools.

11. Omgilibot / Omgili

Deze bots scrapen content van forums en discussieplatforms, vaak voor marktonderzoek.

12. ImagesiftBot

Gespecialiseerd in het crawlen van afbeeldingen, mogelijk voor AI-training of contentanalyse.

13. BardBot

Gekoppeld aan Google’s Bard AI, gebruikt ter verbetering van conversatie- en generatieve AI-modellen.

14. KomoBot

Een bot van Komo, waarschijnlijk gebruikt voor het verzamelen van gegevens ter verbetering van AI-functionaliteiten.

15. Meta-ExternalAgent / Meta-ExternalFetcher

Deze bots van Meta halen externe inhoud op voor indexering of AI-doeleinden.

16. Diffbot

Een AI-gestuurde webscraper die webgegevens structureert voor verschillende toepassingen.

17. cohere-ai

De bot van Cohere verzamelt gegevens ter training van AI-modellen gericht op natuurlijke taalverwerking.

18. Timpibot

Indexeert en haalt gegevens op, waarschijnlijk voor zoek- of AI-toepassingen.

19. Webzio-Extended / webzio

Bots van Webzio die uitgebreide webgegevens verzamelen voor contentanalyse en AI-training.

20. YouBot

Crawlt content om gebruikersgerichte AI-modellen te verbeteren.

21. AI2Bot / Ai2Bot-Dolma

Ontwikkeld door het Allen Institute for AI; deze bots verzamelen gegevens voor onderzoek en modelontwikkeling.

22. AmazonBot

Gebruikt door Amazon voor contentindexering, vaak gerelateerd aan Alexa of andere AI-gestuurde diensten.

23. Applebot-Extended

Apple’s bot verzamelt webgegevens, mogelijk voor Siri en Spotlight-aanbevelingen.

24. ClaudeBot

Nog een bot gekoppeld aan Anthropic’s Claude AI voor dataverzameling.

25. OAI-SearchBot

Een bot van OpenAI, gebruikt voor onderzoek en verbetering van AI-zoekmogelijkheden.

26. PetalBot

Huawei’s bot, geassocieerd met Petal Search, voor contentindexering.

27. StableDiffusionBot

Crawlt content, met name afbeeldingen, voor het trainen van Stable Diffusion AI-modellen.

28. sentibot

Waarschijnlijk gebruikt voor sentimentanalyse of AI-training.

29. Grok / GrokAI

Bots ontworpen voor AI-onderzoek, mogelijk gekoppeld aan modelontwikkeling.

30. XAI / XBot

Bots gericht op verklaarbare AI en gerelateerde gegevensverzameling.

31. cohere-training-data-crawler

Verzamelt specifiek gegevens voor de trainingsdoeleinden van Cohere.

32. DuckAssistBot

Van DuckDuckGo, deze bot richt zich op AI-gestuurde antwoorden en inhoudssamenvattingen.

33. img2dataset

Een bot ontworpen om datasets van afbeeldingen te verzamelen voor AI en machine learning.

34. magpie-crawler

Richt zich op contentaggregatie en mogelijk training datasets.

35. PanguBot

Gekoppeld aan AI-training, met name voor taalmodellen.

36. DuckDuckBot

De algemene bot van DuckDuckGo voor het indexeren van webinhoud.

37. OpenAIContentCrawler

Verzamelt expliciet gegevens voor OpenAI’s contentgerelateerde tools.

38. YandexBot

De webcrawler van Yandex, gebruikt voor indexering en mogelijk AI-toepassingen.

39. NeevaBot

Een bot van Neeva, waarschijnlijk gebruikt voor zoekmachine-indexering en AI-ontwikkeling.

40. AIMatrixCrawler

Crawlt webcontent voor AI-matrixtraining.

41. Amazon-AI

Deze bot wordt gebruikt door Amazon om webinhoud te indexeren ter ondersteuning van AI-gestuurde diensten zoals Alexa. Het crawlt websites om informatie te verzamelen die helpt bij het verbeteren van zoekresultaten en aanbevelingen.

42. AnthropicBot

AnthropicBot is een crawler van Anthropic die wordt ingezet voor het verzamelen van gegevens ter training van hun AI-modellen, zoals Claude. Het is belangrijk op te merken dat sommige gebruikers hebben gemeld dat deze bot de regels in robots.txt mogelijk niet respecteert.

43. Claude-User

Deze user agent wordt door Anthropic’s Claude gebruikt om op verzoek van gebruikers live webpagina’s op te halen. Door deze bot te blokkeren, voorkom je dat jouw content in realtime wordt gebruikt voor AI-antwoorden. Dit heeft geen invloed op de algemene vindbaarheid van je site in zoekmachines, omdat deze bot niet voor indexering wordt ingezet.

44. DataForSeoBot

DataForSeoBot crawlt websites om grote datasets te verzamelen die gebruikt worden voor zoekmachineoptimalisatie, data-analyse en AI-training. Door deze bot te blokkeren, beperk je het gebruik van jouw content in commerciële datasets en AI-modellen.

45. GoogleOther

GoogleOther is een crawler van Google die niet wordt gebruikt voor reguliere zoekmachine-indexering, maar voor interne doeleinden zoals AI-training en onderzoek. Het blokkeren van deze bot voorkomt dat je content wordt gebruikt voor het trainen van Google’s AI-systemen.

46. TurnitinBot

TurnitinBot wordt ingezet door Turnitin voor het verzamelen van content ten behoeve van plagiaatdetectie en AI-trainingsdoeleinden. Door deze bot te blokkeren, voorkom je dat jouw teksten in databases voor plagiaat- en AI-detectie terechtkomen.

Voor meer details over hoe de AI Scrape Protect-plugin werkt, bezoek de AI Scrape Protect Plugin-pagina.