Microsoft brengt tools uit voor meer veiligheid en detectie in Azure AI

Microsoft komt met een reeks nieuwe tools voor AI-ontwikkelaars die hun software op Azure draaien. Het gaat onder andere om een tool om prompt injection-aanvallen te detecteren, risicomonitoring uit te voeren en hallucinaties in output te herkennen.

De tools komen beschikbaar voor Azure AI Studio, schrijft Microsoft. Ontwikkelaars die hun AI-software draaien in Azure AI kunnen ze gebruiken. Het bedrijf zegt dat er een steeds grotere vraag is naar tools die helpen bij ‘de balans tussen innovatie en risicomanagement’. De nieuwe tools voor Azure AI Studio moeten daarbij helpen.

Microsoft brengt vijf van zulke tools uit. Prompt Shields is een mechanisme om jailbreaks en andere vormen van prompt injection-aanvallen te detecteren en te kunnen stoppen. Veel gebruikers van AI-systemen proberen die te ‘hacken’ door de grens op te zoeken van wat die tools toelaten. Dat kan bijvoorbeeld via jailbreaks als DAN voor ChatGPT, maar ook door te kijken hoe generatieve AI reageert op bepaalde code of door documenten te uploaden. Prompt Shield kijkt naar veelgebruikte methodes en veelvoorkomende zinnen waarmee dat gebeurt, of naar methodes die vaak bij jailbreaken worden gebruikt. Vervolgens zijn die methodes makkelijker te blokkeren.

Azure AI Studio krijgt verder ook detectie van hallucinaties in de output van generatieve AI. Dat is voornamelijk gevaarlijk in werkvelden waarbij data, ook output, het beste vertrouwelijk kan blijven. Bij hallucinatie van modellen kan zo’n model dan data lekken die het eigenlijk niet hoort te lekken. ‘Groundedness Detection’ voorkomt dat. Ook komt er een Risk & Safety Monitoring-tool, een soort platform waarop beheerders in een oogopslag het effect van contentfilters kunnen zien.

Tot slot komen er twee tools beschikbaar waarmee de output van generatieve AI veiliger kan worden gemaakt. Het Safety Messages System kan uit zichzelf veiligheidsvoorwaarden opleggen aan output. Safety Evaluations is bedoeld om een applicaties kwetsbaarheid voor jailbreakaanvallen te detecteren, maar ook om contentrisico’s in te schatten.

Niet alle tools zijn per direct beschikbaar. Prompt Shields, Safety Evaluations en Risk & Safety Monitoring zijn als preview beschikbaar in Azure AI en Azure OpenAI, maar Groundedness Detection en Safety Messages Systems komen ‘in de toekomst’.


Posted

in

by

Tags:

Comments

Leave a Reply