Reddit werkt robots.txt-bestand bij om webcrawlers van AI-diensten te blokkeren

Reddit gaat zijn robots.txt-bestand aanpassen om automatische webcrawlers te blokkeren. Dat bevestigt het bedrijf. Het socialemediaplatform doet dit na berichten dat AI-start-ups de voorwaarden van Reddit negeerden om content voor hun AI-systemen te scrapen.

Reddit bevestigt de aanpassingen aan zijn robots.txt-bestand, dat aangeeft welke delen van een website bezocht mogen worden door webcrawlers, in een blogpost. Het bedrijf gaat die naar eigen zeggen ‘in de komende weken’ toepassen, maar noemt geen concrete datum voor de wijziging. Naast het bijwerken van zijn robots.txt-bestand, zegt Reddit dat het ‘onbekende’ bots en crawlers actief blijft blokkeren en rate-limits toepast, waarbij het netwerkverkeer van bots op het platform wordt beperkt.

Reddit sloot eerder een licentiedeal met Google voor het trainen van AI-modellen op basis van Reddit-content. De robots.txt-wijzigingen hebben geen invloed op die overeenkomst. Het bedrijf benadrukt daarnaast dat partijen die ‘te goeder trouw handelen’, bijvoorbeeld organisaties als Internet Archive en onderzoekers, toegang tot Reddit behouden voor niet-commercieel gebruik.

Reddits voorwaarden verbieden al enkele weken dat AI-bedrijven zonder toestemming de content van het platform verzamelen. De aanpassing van het robots.txt-bestand moet dat dan ook voorkomen. Bedrijven kunnen dat bestand echter ook negeren. Nieuwsmedium Wired beschuldigde AI-zoekmachine Perplexity daar onlangs bijvoorbeeld van. De dienst kon artikelen van Wired samenvatten, hoewel die afgeschermd moesten zijn onder het robots.txt-bestand van dat medium. Business Insider claimde onlangs dat ook OpenAI en Anthropic de robots.txt-bestanden van websites negeren.

Reddit werkt robots.txt-bestand bij om webcrawlers van AI-diensten te blokkeren

Comments

Leave a Reply