Google en OpenAI hebben getranscribeerde YouTube-video’s gebruikt om eigen AI-taalmodellen te trainen. Dat schrijft The New York Times. De techbedrijven zouden hiermee de gebruiksvoorwaarden van het videoplatform hebben geschonden.
Volgens de redactie van de Amerikaanse krant was OpenAI aan het einde van 2021 op zoek naar nieuwe bronnen met Engelse tekst om zijn AI-taalmodellen te trainen. Het onderzoeksbedrijf ontwikkelde daarom Whisper: een spraakherkenningstool waarmee audio uit bijvoorbeeld YouTube-video’s kon worden omgezet naar tekst. Het bedrijf zou met behulp van deze tool meer dan 1 miljoen uur aan YouTube-video’s hebben getranscribeerd. De tekst die uit deze video’s werd gefilterd, is naar verluidt ook gebruikt om het taalmodel achter GPT-4 te trainen. The New York Times stelt ook dat OpenAI een team had opgericht dat moest nagaan hoe deze actie de gebruiksvoorwaarden van YouTube zou schenden. Volgens de redactie van de krant mogen onafhankelijke applicaties, die niet tot het videoplatform toebehoren, de video’s immers niet zomaar gebruiken.
OpenAI was naar verluidt niet het enige bedrijf dat YouTube-video’s heeft gebruikt om AI-modellen te trainen. YouTube zou deze praktijk ook zelf hebben toegepast. Dat zeggen vijf bronnen. Het is onduidelijk op welke schaal YouTube dit zou hebben gedaan, maar volgens de krant zou het bedrijf alleszins wel zijn eigen beleid wat betreft de auteursrechten hebben geschonden. Google zou in 2023 ook zijn eigen gebruikersvoorwaarden hebben aangepast, waardoor het bedrijf wel beroep mocht doen op publiekelijke Google Docs-bestanden, Google Maps-reviews en ander online materiaal om AI-modellen te trainen.
The New York Times heeft naar eigen zeggen ook informatie over Meta kunnen verzamelen: het moederbedrijf van Facebook, Instagram en Whatsapp. Het bedrijf zou plannen hebben gehad om de Amerikaanse uitgeverij Simon & Schuster op te kopen en op die manier boeken in zijn bezit te krijgen. Die werken hadden dan gebruikt kunnen worden om de AI-taalmodellen van Meta verder te trainen.
Meta hield naar verluidt ook vergaderingen waarin de mogelijkheid werd besproken om copyrighted data van het internet te verzamelen, ook al bracht dat een verhoogd risico voor rechtszaken met zich mee. Het bedrijf zou deze piste hebben overwogen omdat eventuele onderhandelingen met uitgeverijen, nieuwssector en artiesten te veel tijd in beslag zouden nemen. Het is niet duidelijk of Meta ook is doorgegaan met het verzamelen van informatie waar auteursrechten op van toepassing zijn.
The New York Times heeft OpenAI en Microsoft eind 2023 aangeklaagd voor het schenden van het auteursrecht. De Amerikaanse krant claimde toen dat de twee techbedrijven ‘miljoenen’ artikelen zouden hebben misbruikt om hun eigen chatbots te trainen. OpenAI beweerde in februari van 2024 dan weer dat The New York Times een bug in zijn AI-modellen had misbruikt om ze het auteursrecht van de krant ogenschijnlijk te laten schenden.
Leave a Reply
You must be logged in to post a comment.