Als je een AI vraagt waarom hij een bepaald antwoord geeft, krijg je een antwoord. Maar dat antwoord is niet noodzakelijkerwijs de echte reden.
Het model genereert een plausibele verklaring — niet een accurate beschrijving van zijn eigen denkproces. Dat onderscheid is cruciaal, en het is precies het probleem dat Anthropic probeert op te lossen.
Het probleem: neuronen die meerdere talen spreken Een groot taalmodel bestaat uit miljarden parameters — getallen die tijdens training zijn aangepast op basis van enorme hoeveelheden tekst.
Het probleem is dat één enkel neuron in zo’n netwerk vaak reageert op meerdere, ogenschijnlijk ongerelateerde concepten tegelijk.
Een neuron kan activeren bij zowel “koningin” als “schaakstuk” als “bijenkorf”. Dit noemen onderzoekers polysemantiek — één neuron, meerdere betekenissen.
Dat maakt het bijna onmogelijk om te begrijpen wat een model denkt. De interne staat van een model — wat het “denkt” voordat het schrijft — bestaat uit een lange lijst getallen zonder duidelijke betekenis.
De oplossing: sparse autoencoders
Anthropic ontwikkelde een techniek die ze sparse autoencoders (SAEs) noemen. Het idee: train een tweede neuraal netwerk op de activaties van het eerste, en dwing het om die activaties te vertalen naar een hogere dimensionale ruimte — een ruimte groot genoeg voor een één-op-één koppeling tussen feature en concept.
Anthropic’s aanpak gebruikte dictionary learning op 8 miljard activaties, en extraheerde bijna 15.000 latente richtingen waarvan menselijke beoordelaars 70% kon koppelen aan één enkel concept — zoals Arabisch schrift of DNA-motieven.
In eenvoudiger termen: ze vonden een manier om de rommelige, overlappende neuronactivaties te vertalen naar leesbare concepten. Toen ze dit toepaste op Claude 3 Sonnet, vonden ze een diversiteit aan sterk abstracte features die zowel reageren op als gedrag veroorzaken.
De resultaten waren opmerkelijk. Anthropic vond aparte features die activeren op tekst en afbeeldingen gerelateerd aan de Golden Gate Bridge, neurowetenschap, en populaire toeristische attracties. Maar ook features voor abstractere concepten — deceptief gedrag, emotionele toestand, onzekerheid.
Golden Gate Claude: wat feature steering onthult Het meest illustratieve experiment: onderzoekers versterkte de “Golden Gate Bridge” feature kunstmatig in Claude’s activaties. Het resultaat was een model dat bij elke vraag — ook volledig ongerelateerde — de Golden Gate Bridge ter sprake bracht. Het model was de Golden Gate Bridge geworden, in zoverre dat een AI ergens “van” kan zijn.
Dit klinkt als een curiositeit. Maar de implicatie is serieus: als je individuele concepten kunt versterken of onderdrukken, kun je in theorie ook gevaarlijke concepten detecteren voordat een model ze uitvoert. Anthropic gebruikte mechanistische interpretabiliteit in de pre-deployment veiligheidsbeoordeling van Claude Sonnet 4.5 — het eerste geval waarbij interpretabiliteitsonderzoek direct de beslissing beïnvloedde om een productiemodel te releasen.
Waar het nog niet werkt Het eerlijke verhaal is dat dit veld nog in de kinderschoenen staat. Het kost momenteel een paar uur menselijke inspanning om de circuits te begrijpen die zichtbaar worden, zelfs voor prompts van slechts tientallen woorden.
Er is ook een fundamenteel probleem: geautomatiseerde interpretability pipelines die LLMs gebruiken om andere LLMs te verklaren roepen de zorg op van “black box die black box interpreteert” — en gehallusineerde verklaringen zijn gangbaar. En dan is er het hydra-effect: als je één component uitschakelt, compenseren andere componenten automatisch. Dat maakt causale attribuering — wie deed wat — bijzonder moeilijk.
Wat dit betekent als je AI inzet in je bedrijf Drie praktische conclusies voor ondernemers die AI serieus nemen:
Ten eerste: een AI die zijn redenering uitlegt geeft geen garantie op een correcte redenering. De verklaring en het denkproces zijn twee aparte dingen. Behandel AI-outputs als hypotheses, niet als feiten.
Ten tweede: de betrouwbaarheid van AI-systemen gaat de komende jaren snel verbeteren — niet omdat de modellen slimmer worden, maar omdat we beter begrijpen wat er binnenin gebeurt.
Mechanistische interpretabiliteit verschuift van interessante onderzoeksrichting naar praktische engineering discipline, sneller dan de meeste mensen verwachtten.
Ten derde: als je AI inzet voor kritische bedrijfsprocessen — klantcommunicatie, financiële beslissingen, leadkwalificatie — bouw dan menselijke controlepunten in op de plekken waar een fout de meeste schade aanricht. Niet omdat AI onbetrouwbaar is, maar omdat we nog niet de gereedschappen hebben om te bewijzen dat het betrouwbaar is.
Dat bewijs komt eraan. Maar het is er nog niet.