Wired: zoekmachine Perplexity negeert weigeren scrapen in robots.txt-bestanden

Het bedrijf achter de AI-zoekmachine Perplexity negeert volgens Wired en onderzoeker Robb Knight verzoeken van websites om niet gescrapet te worden. De start-up beweert dit niet te doen, maar de onderzoeker en het medium concluderen dat dit wel het geval is.

Perplexity Bron: Perplexity

Uit een publicatie van Knight zou blijken dat Perplexity samenvattingen kan geven van websites die op basis van verzoeken in het robots.txt-bestand niet door de PerplexityBot bezocht mogen worden. Knight wist daarentegen te registreren dat het bedrijf gemaskeerd een bot gebruikt om de afgeschermde website te scrapen, waarbij geen user-agent string werd verzonden om de bot te identificeren.

Wired bevestigt de claims op basis van eigen onderzoek. Het nieuwsmedium verzocht de AI-zoekmachine en -chatbot om pagina’s samen te vatten die afgeschermd waren met het robots.txt-bestand. Toch kon Perplexity informatie van de webpagina’s delen. Het moederbedrijf van Wired registreerde daarnaast vergelijkbaar bezoekgedrag van een bot via een IP-adres dat ‘nagenoeg zeker’ bij Perplexity hoort. Het bedrijf achter de AI-dienst zegt tegen Wired dat het artikel ‘onbegrip’ van de technologie toont, maar gaat niet in op de aantijgingen.

Perplexity.ai is een AI-tool die naar eigen zeggen informatie van het internet verzamelt en dit via een chatbotinterface aan een gebruiker presenteert. De start-up achter de zoekmachine zegt, net als andere grote AI-bedrijven, verzoeken in robots.txt-bestanden te honoreren. In deze zogenoemde Robots Exclusion Protocol-bestanden kunnen websites aangeven dat zij geen bezoek willen van specifieke scrapers, ook wel webcrawlers genoemd. Scrapers kunnen worden gebruikt om geautomatiseerd content van het internet te verzamelen. Bedrijven kunnen deze scrapers gebruiken om hun algoritmes te trainen of, zoals in het geval van Perplexity, als bronmateriaal. Ook Tweakers-uitgever DPG Media weigert scraping in zijn robots.txt-bestand.


Posted

in

by

Tags:

Comments

Leave a Reply