Kwaliteitscontrole bij AI-output op cijfers

Kwaliteitscontrole bij AI-output op cijfers betekent dat je voor elke cijfermatige output weet hoe het tot stand kwam, of het reproduceerbaar is, en welke fail-mode mogelijk speelt. Voor finance-teams: niet steekproef-controle op elk getal, maar architectuurkeuzes — deterministische code voor berekeningen, AI alleen voor toelichting — plus systematische sanity-checks waar het écht telt.

Eén prompt waarbij je een AI een variance-analyse vraagt op een spreadsheet die je net hebt geplakt — die controleer je met de hand. Je leest het antwoord, je herkent de getallen, klaar. Maar zodra de workflow uit vier stappen bestaat — bankmutatie → categorisatie → boekingsvoorstel → toelichting — en het draait misschien deels door een agent, valt diezelfde reflex weg. De output ziet er goed uit, dus wordt hij goedgekeurd. Dat is precies waar fouten in AI-workflows op cijfers zich ophopen, en in finance hebben die fouten een vervelende eigenschap: ze zijn vaak zes maanden later pas zichtbaar, in een controle of een afwijking die niemand kan verklaren.

Kwaliteitsborging op numerieke AI-output is geen luxe. Zonder wordt schaalbare output schaalbare rommel — en in finance schaalbare audit-bevindingen.

Waarom cijferwerk extra kwetsbaar is

LLM's zijn taalmodellen. Ze produceren plausibele tekst, en cijfers behandelen ze grotendeels als tokens — niet als rekeneenheden met validatieregels. Dat heeft drie consequenties die in finance specifiek hard aankomen.

Cijfer-hallucinaties zien er correct uit. Een model dat "de marge bedraagt 23%" zegt, klinkt overtuigd, ook als het percentage is verzonnen. Een model dat een journaalpost van €87.231 voorstelt waar het echte bedrag €8.723 is, zegt dat met dezelfde toon. De bekende hallucinaties — een verzonnen wettekst, een niet-bestaande bron — zijn relatief makkelijk te herkennen. Numerieke hallucinaties niet.

Cumulatieve fouten in chains. Bij een keten — bankmutaties ophalen → matchen → boekingsvoorstel → toelichting — versterkt een kleine fout in stap 1 zich in stap 3. Een verkeerd geïnterpreteerd valutateken (USD vs EUR), een nullenfout in een grootboekrekening, een aanname die niet expliciet wordt: je ziet het pas in het eindresultaat, waar het moeilijk te traceren is.

Outdated knowledge bij regels en tarieven. BTW-tarieven, drempels, fiscale spelregels, RJ- en IFRS-updates: deze veranderen, modellen hebben een training-cutoff. Een AI die nog werkt vanuit het BTW-tarief van twee jaar geleden, of die een sinds 2025 vervallen aftrek noemt, produceert nuttig ogend werk met een fundamentele fout.

Vier niveaus van controle

1. Checkpoints per stap

De eerste regel: valideer elke link voordat je doorgaat. Concreet voor finance:

Lees de output van stap N met de vraag: "Zou een collega zonder context hier verder kunnen?" Als nee, dan klopt de overdracht niet en gaat de volgende stap waarschijnlijk de mist in.
Check de harde feiten. Bedragen, periodes, valuta's, rekeningnummers, klantnamen. Een model hallucineert zelden iets evident fouts; het hallucineert bijna-kloppende details — €87.231 in plaats van €87.213, of de juiste klant maar de verkeerde factuur.
Check de aannames. Heeft het model iets aangenomen dat niet in jouw vraag stond? Bijvoorbeeld een periode-aanname, een grootboek-uitsluiting, een valuta-conversie. Aannames horen expliciet te zijn, anders zijn ze hallucinaties met een net pak aan.

Een chain is bewust modulair, juist om debugging makkelijk te maken. Gebruik dat. Als stap 3 rammelt, draai stap 3 opnieuw — niet de hele chain.

2. Structuur-checks bij handoffs

Tussen twee modellen of tools is de handoff het gevaarlijkste punt. Drie hulpmiddelen die in finance werken:

Context packets. Vraag elke stap zijn output te eindigen met een blok "Context voor volgende stap": welke periode, welke administratie, welke filters, welke aannames, welke open punten. Zo zie je meteen wat er wordt doorgegeven.
Round-trip test. Laat de output van stap 1 door een tweede model samenvatten alsof het de opdracht is. Klopt de samenvatting met wat stap 2 gaat doen? Zo nee: stap 1 was niet helder genoeg.
Expliciete doelherhaling. Herhaal aan het begin van elke stap kort wat het doel van de hele keten is — bijvoorbeeld "we sluiten april af voor administratie X, eindresultaat is een board-pack met variance-toelichting". Zonder die herhaling raakt een model in stap 3 het zicht op het geheel kwijt.

3. Numerieke verificatie

Hier is de finance-versie strikter dan algemene QC. Vier disciplines die werken:

Vraag altijd om de berekening, niet alleen het antwoord. Niet "de marge is 23%", maar "de marge is 23% (bruto winst €460.000 / omzet €2.000.000)". Je kunt dan in een seconde checken of de rekenstap klopt. Dit is veruit de goedkoopste kwaliteitscheck en wordt het vaakst overgeslagen.
Verwijs altijd naar de bron. Welke grootboekrekening, welke periode, welke filter? Een toelichting "operationele kosten stegen met 12%" is onbruikbaar zonder "operationele kosten = grootboek 4000-4999, periode april 2026 vs maart 2026". Bronvermelding maakt de controle uitvoerbaar.
Laat een tweede model herrekenen. Een numeric-verifier-stap: nadat het hoofdmodel de analyse heeft gedaan, vraag je een ander model (of hetzelfde model met andere instructie) om de berekeningen te repliceren vanuit de bron-data. Wijken de uitkomsten af, dan wordt het ding teruggestuurd. Dit vangt de meeste numerieke hallucinaties.
Cross-check tegen de administratie. Bedragen die door de AI worden genoemd, moeten matchen met wat in Exact of de aangiftesoftware staat. Voor totaal-bedragen kun je dit programmatisch checken; voor uitsplitsingen vaak handmatig met een sample.

4. Eindreview door een mens

De laatste stap van elke niet-triviale chain is menselijke review. Niet "scrollen en knikken", maar:

Een tegenvraag stellen. "Wat zou hier fout aan kunnen zijn?" — en die vraag beantwoorden voor je het stuk doorstuurt.
Het eindresultaat zelfstandig teruglezen. Niet in vergelijking met de AI-output, maar vanuit het perspectief van de ontvanger (RvC, accountant, bank). Klopt het verhaal los van het proces?
Eén bedrag terugrekenen. Pak een willekeurig getal uit het eindrapport en reken het zelf na vanuit de bron. Als dat klopt, is er een goede kans dat de andere getallen ook kloppen. Klopt het niet, dan is er ergens iets mis dat verder onderzoek waard is.

Het verschil tussen "klopt" en "is goed"

Een subtiele valkuil in finance-rapportages: AI-output kan numeriek correct zijn én toch niet goed. Een variance-analyse kan juiste cijfers bevatten maar de verkeerde vraag beantwoorden — bijvoorbeeld het verschil tegenover budget verklaren, terwijl het verschil tegenover vorig jaar het interessante was. Een toelichting kan netjes geformuleerd zijn maar de verkeerde toon hebben voor jullie investeerder. Een board-memo kan logisch kloppen maar de cruciale kwalitatieve nuance missen die de CFO juist wilde overbrengen.

Kwaliteitscontrole op finance-AI-output is dus altijd tweeledig:

Correctheid. Kloppen de cijfers, de berekening, de bronnen, de regelgeving die geciteerd wordt?
Gepastheid. Past het bij de opdracht, het publiek, de fase in het kwartaal, de eerder gecommuniceerde verwachting?

Het eerste kun je deels automatisch checken (numeric verifier, source verification). Het tweede vereist bijna altijd een mens met domein- en situatiekennis. Vertrouw geen agent die het tweede claimt te kunnen.

Wanneer laat je de mens eruit, wanneer niet — finance-vuistregels

Intern, reversibel, geen boeking → automatiseer. Een tag op een binnenkomende factuur, een eigen samenvatting, een match-voorstel dat nog in de queue staat.
Boeking, betaling, externe communicatie, aangifte → altijd menselijke review. Dit is niet onderhandelbaar — zelfs niet bij hoge match-confidence van het model.
Grijs gebied (rapportages voor intern gebruik, voorstellen die nog niet definitief zijn) → automatiseer mét expliciete stopconditie. Draai de chain, genereer het voorstel, maar zet hem in een review-queue. Dat is geen automatisering min — het is automatisering plus.

Agents — extra kwetsbaarheid

Een agent die zelf plant en handelt met toegang tot je boekhouding is een chain die ook nog eens met de buitenwereld werkt. Kwaliteitscontrole wordt hier een aparte discipline:

Actie-whitelist. Welke acties mag de agent autonoom doen (informatie ophalen, voorstel maken), welke vereisen approval (boeken, betalen, mail versturen)? "Voer een boeking uit" staat standaard op approval, "stel een match voor" kan autonoom.
Audit log. Elk agent-besluit en elke actie met tijdstempel, input en uitkomst. Zonder log is debuggen onmogelijk en de externe accountant kan jouw interne beheersing niet bevestigen.
Sanity-loops. Laat de agent periodiek zichzelf bevragen: "Is dit wat de gebruiker bedoelde?" Self-reflection is geen vervanging voor menselijke review maar vangt drift op.
Circuit breaker. Automatisch stoppen bij afwijkende patronen: te veel acties in korte tijd, een bedrag dat één orde van grootte boven het normale uitkomt, een onverwacht endpoint. Standaardpraktijk in software-operations, en in finance nu ook nodig.

Audit-grade — wat dit betekent voor controle-werk

Kwaliteitscontrole en audit-bewijs overlappen sterk in finance. Een checkpoint-log dat per stap registreert wat de input was, welk model is gebruikt, welk antwoord uitkwam, en wie het geaccordeerd heeft, is tegelijk het materiaal dat een externe accountant of een interne audit nodig heeft om de werking van de interne beheersing rond AI-gebruik te toetsen. Twee vliegen in één klap: investeer in QC-infrastructuur die meteen voldoet aan auditvereisten (bewaartermijnen, onveranderlijkheid, herleidbaar tot een persoon). Dan hoef je niet later alsnog een audit-laag erbovenop te bouwen.

Saldus in de praktijk

In Saldus zit een numeric-verifier-laag standaard in de Q&A-flow: bij elk antwoord met een bedrag wordt gecheckt of dat bedrag te herleiden is tot een specifieke bron in de boekhouding. Komt het bedrag niet uit een gevalideerde bron, dan blokkeert de verifier en moet de agent opnieuw of doorgeven aan een mens. Daarnaast wordt elke tool-call (welke data is uit Exact opgehaald, met welke filters) gelogd in een audit-trail. Het neemt menselijke review niet weg — dat blijft de eindcontrole — maar het verschuift de drempel waarop verkeerde cijfers ongezien doorrollen.

Verder lezen

Artikel

Human in the loop in finance-workflows

Artikel

Agentic AI en toegang tot je administratie

Artikel

AI-governance voor finance

Artikel

EU AI Act voor finance-teams

Volgende stap

Saldus.ai — het platform

Volgende stap

AI-assessment