Anthropic gaat samenwerken met marktleiders in cybersecurity aan strengere AI-beveiliging. Het bedrijf achter het taalmodel Claude kondigde deze week een internationaal initiatief aan. Doel is misbruik van algoritmen te beperken en digitale weerbaarheid te vergroten. De stap is ook relevant voor Europa door de AI-verordening en de gevolgen voor overheid en bedrijven.
Gezamenlijk front voor AI-veiligheid
De samenwerking richt zich op het veiliger ontwerpen, testen en inzetten van kunstmatige intelligentie. Bedrijven delen kennis over aanvallen op modellen, zoals misleiding van prompts en code-misbruik. Ze bouwen samen richtlijnen om systemen als Claude verantwoord in te zetten. Zo moet de praktijk sneller aansluiten op nieuwe wet- en regelgeving.
Anthropic brengt zijn ervaring met Claude en zogeheten Constitutional AI in. Dat is een trainingsmethode waarbij een model leert van duidelijke gedragsregels, in plaats van alleen menselijke feedback. Cybersecuritypartners leveren scenario’s uit het veld, zoals phishing, malware en kwetsbaarheden in software. Die combinatie moet leiden tot beter getrainde en beter begrensde datamodellen.
Het initiatief werkt naar gemeenschappelijke testen en rapportages. Denk aan red teaming: gecontroleerde aanvallen door experts om zwaktes te vinden. Ook komen er richtlijnen voor logging en verantwoord gebruik van data. Dit helpt organisaties om aantoonbaar aan eisen te voldoen.
Concrete focus op misbruik
De groep pakt twee kanten tegelijk aan: misbruik van AI én veilige inzet van AI voor verdediging. Misbruik gaat bijvoorbeeld over het laten schrijven van kwaadaardige code of geloofwaardige nepmails. Veilige inzet gaat over het sneller analyseren van incidenten en het uitleggen van dreigingen in simpele taal. Beide kanten vragen heldere grenzen in het systeem.
In Claude worden daarom strengere veiligheidsfilters en gebruiksregels getest. Filters blokkeren gevaarlijke output, zoals stap-voor-stap instructies voor aanvallen. Gebruiksscenario’s krijgen aparte waarborgen, bijvoorbeeld bij code-voorstellen. Zo blijft het model nuttig voor verdedigers, maar minder bruikbaar voor aanvallers.
Daarnaast komen er evaluaties die beter passen bij beveiliging. Klassieke taaltests meten vooral begrip en nauwkeurigheid. Beveiligingstests kijken juist naar weerbaarheid tegen manipulatie en de kans op schadelijke adviezen. Dat geeft een realistischer beeld van risico’s in de praktijk.
AI-beveiliging gaat over twee vragen: hoe bescherm je modellen tegen misbruik, en hoe zet je modellen zelf veilig in voor beveiliging?
Aansluiting op EU-regels vereist
De Europese AI-verordening (AI Act) stelt eisen aan risicobeheersing, transparantie en menselijk toezicht. Toepassingen in vitale sectoren of opsporing vallen snel in de hogere risicoklassen. Organisaties moeten dan risicoanalyses, testen en logboeken kunnen tonen. Deze samenwerking kan zulke bewijzen en methoden leveren.
Ook de AVG speelt mee zodra persoonsgegevens in logs of trainingsdata staan. Dataminimalisatie, duidelijke doelen en versleuteling zijn vereist. Dreigingsinformatie delen moet daarom privacybewust, bijvoorbeeld via geanonimiseerde patronen. Europese klanten zullen hier expliciete garanties over willen zien.
NIS2 verplicht middelgrote en grote organisaties tot strengere cyberhygiëne. Denk aan incidentrapportage en leverancierscontrole. AI-componenten vallen daarmee onder dezelfde zorgplicht. Standaardtesten en auditbare rapporten van Anthropic en partners helpen om aan te tonen dat maatregelen op orde zijn.
Gevolgen voor Nederlandse organisaties
Voor Nederlandse overheden en zorginstellingen is uitlegbaarheid extra belangrijk. Besluiten met impact op burgers moeten controleerbaar zijn. Claude kan samenvattingen en analyses geven, maar de herkomst van advies moet duidelijk blijven. Dat vraagt inzicht in prompts, instellingen en eventuele filters.
Inkoop en due diligence veranderen mee. Afnemers zullen vragen naar red-teamresultaten, privacycontroles en Europese datalokatie. Ook is nodig dat leveranciers snel modelupdates en beveiligingspatches leveren. Contracten moeten deze punten concreet vastleggen.
Voor mkb is toepasbaarheid en kostenniveau van belang. Gestandaardiseerde testen en duidelijke handleidingen verlagen de drempel. Beveiligingsteams kunnen dan met beperkte middelen toch profiteren van AI. Denk aan assistenten die logs uitleggen of snelle risico-inschattingen geven.
Wat werkt en wat ontbreekt
Het sterke punt is de combinatie van modelkennis en praktijkdreigingen. Hierdoor sluiten veiligheidsmaatregelen beter aan op echte aanvallen. Ook helpt gezamenlijke rapportage om appels met appels te vergelijken. Dat maakt toezicht en verantwoording eenvoudiger.
Een open vraag is transparantie over resultaten en datasets. Onafhankelijke toetsing en publicatie van methodes vergroten vertrouwen. Europese deelnemers en toezichthouders, zoals ENISA, kunnen hier richting geven. Alignement op EU-normen voorkomt dubbele inspanning voor afnemers.
Verder blijft het risico op omzeiling bestaan. Aanvallers passen prompts en tactieken voortdurend aan. Daarom moeten filters, evaluaties en monitoring continu worden bijgewerkt. Langdurige samenwerking is dus net zo belangrijk als de start.
Toepassing met duidelijke grenzen
Organisaties doen er goed aan klein te beginnen, met heldere kaders. Start met laag-risicoprocessen, zoals samenvatten van dreigingsrapporten. Sla alleen noodzakelijke gegevens op en verwijder gevoelige velden. Documenteer beslissingen en toets regelmatig op fouten.
Leg vast wie eindverantwoordelijk is, en wanneer menselijk ingrijpen verplicht is. Maak misbruikscenario’s expliciet en test daartegen. Houd bij welke versies van Claude en welke instellingen gebruikt zijn. Zo is achteraf te reconstrueren wat er gebeurde en waarom.
Tot slot: stem implementatie af op de AI Act, NIS2 en de AVG. Dat voorkomt verrassingen bij audits of incidenten. De nieuwe samenwerking van Anthropic kan hierbij praktische handvatten geven. Maar de keuze en zorgplicht blijven bij de organisatie die AI inzet.
