Governance, audit & compliance

Human in the loop in finance-workflows — waar knip je de keten?

Niet elke AI-actie op finance-data mag zonder review door. Hoe bepaal je per stap of een mens moet kijken, welke drempels werken, en hoe sluit dit aan op het vier-ogen-principe.

7 min
  • workflows
  • governance
  • human-oversight
  • finance

Human-in-the-loop (HITL) in finance-workflows is het bewust inbouwen van menselijke beoordelingsmomenten op specifieke stappen — niet bij elke actie, maar daar waar bedrag, risico of impact dat eist. Voor finance-teams een matrix: routine onder de drempel autonoom, alles boven de drempel met approval, en bij rode vlaggen blokkeren — zo blijft het vier-ogen-principe schaalbaar zonder dat AI hem ondergraaft.

Een finance-workflow die van trigger tot eindresultaat volledig autonoom draait, klinkt aantrekkelijk: 's nachts loopt de close, 's ochtends ligt het board-pack klaar, geen handwerk meer. Voor sommige stappen is dat ook haalbaar. Voor andere stappen zou je elke ervaren controller direct horen zeggen: hier blijft een mens tussen, einde discussie. De vraag is dus niet "kan ik de mens eruit halen", maar "waar precies in de keten moet de mens zitten". Dat is een ontwerpkeuze per stap — niet een aan/uit-knop voor de hele workflow.

Human in the loop (HITL) betekent dat op één of meer punten in de workflow de automatisering stopt, een mens naar de output kijkt, en goedkeuring, correctie of afwijzing geeft voor de volgende stap start. Het is de scharnier tussen snelheid en verantwoordelijkheid — en in een finance-context bovendien tussen autonome efficiency en wat de externe accountant of toezichthouder van je verwacht.

Waarom finance bijzonder is

Drie redenen waarom HITL in finance vaker en strakker zit dan in andere afdelingen.

De boekhouding is legal truth. Een journaalpost, een betaling, een BTW-aangifte: dat zijn geen interne notities maar formele, juridisch werkende uitspraken die door fiscus en accountant gecontroleerd kunnen worden. Een AI die in 95% van de gevallen correct boekt, hallucineert in de 5% subtiel maar fout — en in finance is "subtiel fout" een vondst die zes maanden later in een controle-rapport terugkomt.

Vier-ogen is een bestaande discipline. Finance-teams kennen al autorisatiematrices, dubbelchecks en periodieke controles. HITL is geen vreemde nieuwe gewoonte, het is dezelfde discipline toegepast op een nieuwe input — de AI-draft in plaats van de stagiair-draft. Goed nieuws voor adoptie: het sluit naadloos aan op de cultuur.

Onomkeerbaarheid stapelt zich op. Een verzonden mail kun je rectificeren. Een geboekte betaling, een verstuurde BTW-aangifte, een geboekte journaalpost in een afgesloten periode: niet of moeizaam. Onomkeerbaar is in finance vaker de norm dan de uitzondering.

Vier oversight-niveaus per stap

Bij elke activiteit in een finance-workflow valt er een keuze te maken uit vier oversight-niveaus.

1. Fully autonomous

De AI voert uit, de output gaat direct door. Geschikt voor: interne classificaties die later toch worden gecontroleerd, samenvattingen voor eigen gebruik, niet-financiële data-transformaties (CSV-formatten, een mailbox-tag toevoegen).

Voorbeeld: een LLM categoriseert binnenkomende facturen op leveranciers-type en routeert ze naar de juiste AP-medewerker. Als de classificatie soms mis is, merkt de AP-medewerker het en corrigeert — geen impact op het grootboek.

2. Autonomous met post-review

De AI voert uit, output stroomt door, maar een mens reviewt steekproefsgewijs of periodiek. Geschikt voor: activiteiten waar kwaliteitsmonitoring nodig is, maar real-time review de snelheid wegslaan.

Voorbeeld: een agent die dagelijks alle binnenkomende bankmutaties tegen openstaande facturen matched. De match draait autonoom, de controller reviewt aan het eind van de week 20 willekeurige matches om te kijken of het patroon klopt. Steekproefcontrole is de norm bij externe accountants — hier passen we hetzelfde principe op interne automatisering toe.

3. Human approval (HITL)

De AI produceert een draft, de workflow pauzeert, een mens accordeert of corrigeert, daarna gaat de workflow verder. Geschikt voor: externe communicatie, alle journaalposten en betalingen, BTW-aangiftes, formele rapportages.

Voorbeeld: een AI stelt een debiteuren-follow-up-mail op met een betalingsregeling-voorstel. De AR-medewerker ziet de draft in een review-interface, past aan als nodig, klikt "verstuur". De klant weet niet of het origineel AI-gegenereerd was; de medewerker blijft inhoudelijk verantwoordelijk.

4. Human in the driver seat, AI-assisted

De mens doet het werk; AI is suggestie-engine. Geschikt voor: complexe oordelen, M&A-werk, IFRS-toelichtingen met materiele beoordelingen, gesprekken met de externe accountant.

Voorbeeld: een controller schrijft een toelichting bij een voorziening; de AI suggereert formuleringen en checkt of de redenering consistent is met de cijfers. De AI is niet de workflow — de controller is.

Waar knip je in een finance-keten?

Een vuistregel: zet een HITL-punt vlak voor elke stap met externe impact, financiële boeking, of fiscale werking. Binnen de workflow kunnen meerdere AI-stappen elkaar opvolgen zonder tussenkomst, zolang de output tussen systemen blijft. Zodra het richting de administratie, een betaling, een aangifte of externen gaat: mens erbij.

In een maandafsluit-workflow ziet dat er typisch zo uit:

  1. Bankmutaties ophalen en categoriseren (agent, autonoom): intern, omkeerbaar.
  2. Matches voorstellen met openstaande facturen (agent, autonoom): voorstel, geen boeking.
  3. Concept-journaalposten voor onverklaarde mutaties (agent, autonoom): draft in approval-inbox.
  4. Boeking accorderen (HITL): hier is het knippunt. Geboekt is geboekt.
  5. Reconciliatie-rapport genereren (agent, autonoom): output naar controller.
  6. Variance-toelichting bij afwijkingen (agent, autonoom): concept voor in board-pack.
  7. Board-pack publiceren (HITL): controller leest en geeft akkoord.

Twee HITL-punten in zeven stappen. Niet op elke stap een approval-dialoog — dat maakt de workflow onwerkbaar en traint mensen om mechanisch op akkoord te klikken.

Vier review-patterns die in finance werken

Inbox-review. De draft komt als normale mail of bericht binnen bij de reviewer, die reply-to-send of edit-and-send gebruikt. Lage drempel, past in bestaande workflow van een controller die toch al in Outlook werkt. Geschikt voor concept-mails naar klanten en leveranciers.

Approval-queue. Een dashboard met openstaande items die op goedkeuring wachten — concept-boekingen, betaalvoorstellen, BTW-correcties. Werkt bij volume (tientallen items per dag per persoon). Zorg dat de queue niet volloopt — dan wordt het een blocker en accepteert het team alles om er vanaf te zijn. Een goede regel: als de queue meer dan 48 uur achterloopt, is er iets mis met de drempel of de inhoud.

Inline-review in de bron-app. Concept-boekingen in Exact, concept-facturen in het facturatie-systeem, concept-mails in de Drafts-folder van Outlook. De reviewer werkt waar hij toch al werkt. Sterkste pattern voor finance want het verstoort geen gewoontes.

Threshold-review. De AI handelt autonoom tot een drempelwaarde, daarboven komt er een mens. Voorbeelden: bankmutaties onder €500 autonoom matchen, daarboven HITL. Inkoopfacturen onder €1.000 autonoom verwerken, daarboven door AP. Boekingen in periode N autonoom, naboekingen in afgesloten periodes altijd HITL. Combineert snelheid met risico-afdekking en sluit aan op autorisatiematrices die de meeste finance-teams al hebben.

Threshold-review is meestal het meest effectief in finance — omdat het direct vertaalt naar bestaand beleid, en omdat het de mens specifiek inzet op wat ertoe doet in plaats van op alles.

Vier-ogen en HITL — hetzelfde of niet?

Vier-ogen is een specifieke vorm van HITL: de tweede paar ogen is een ander persoon dan de eerste. Niet elke HITL is vier-ogen — als de AI een draft maakt en de medewerker keurt zelf goed, is dat HITL maar geen vier-ogen.

Voor finance is het verschil belangrijk. Het CISO-handboek en de meeste autorisatiematrices schrijven vier-ogen voor bij betalingen boven een bepaalde drempel, bij journaalposten na periode-afsluiting, en bij gevoelige overdrachten (rekeningnummers wijzigen, debiteuren-kwijtschelden). Een AI vervangt de eerste paar ogen niet — die functie verschuift van "data invoeren" naar "draft beoordelen" — en kan dus ook de tweede paar ogen niet vervangen. Vier-ogen blijft vier menselijke ogen.

In de praktijk: AI maakt de draft, medewerker A reviewt en accordeert (eerste HITL), medewerker B doet de tweede review (vier-ogen). De tijdswinst zit niet in het verdwijnen van een rol, maar in dat het draftwerk in een fractie van de tijd klaar is en beide menselijke reviews zich kunnen concentreren op het beoordelen in plaats van op het uittikken.

Veelgemaakte fouten

  • Te veel HITL. Elke stap laten goedkeuren. Resultaat: de tijdwinst verdampt, reviewers klikken mechanisch op akkoord, fouten glippen er alsnog doorheen.
  • Te weinig HITL. De AI stuurt autonoom mails namens finance. Eén foute hallucinatie ("uw saldo bedraagt €87.000" terwijl het €8.700 is) en de klant-impact is groter dan de hele tijdwinst.
  • HITL zonder context. De reviewer ziet alleen de output van de AI, niet de input en het redeneerspoor. Zonder context kan hij niet beoordelen of de output klopt. Geef altijd input en redenering mee in de approval-view.
  • HITL zonder feedback-loop. De reviewer corrigeert de draft, maar die correctie wordt nergens vastgelegd. Het model leert niets, de volgende draft is even fout. Bewaar correcties als trainings- en monitoring-data.
  • Review-moeheid. Als 98% van de drafts zonder aanpassing wordt doorgezet, controleert niemand nog echt. Tijd om die stap autonoom te maken of de drempel te verhogen.

Audit-grade — waarom HITL ook compliance-werk doet

De EU AI Act eist voor high-risk-systemen "appropriate human oversight" — een vereiste die bij finance-toepassingen die boven Tier 2 uitkomen direct van toepassing is. Praktisch betekent het: documenteer per AI-stap wie het reviewt, op basis van welke informatie, met welk goedkeuringsbewijs. Een approval-inbox met audit-log dekt dit standaard af; een inbox-review zonder log doet dat niet. Houd dit in het ontwerp meteen mee.

Voor de externe accountant geldt iets vergelijkbaars vanuit interne beheersing. De vraag "wie heeft deze journaalpost ingevoerd" is in een AI-tijdperk eigenlijk twee vragen: "welke AI heeft de draft gemaakt en op welke input" en "welke mens heeft 'm geaccordeerd op welk tijdstip". Beide bewaren, op dezelfde manier en met dezelfde discipline als de boekhouding zelf, voorkomt dat een audit hierop een bevinding wordt.

De harde test, per stap

Twee vragen, te beantwoorden voor elke stap in je workflow:

  1. Als deze stap fout gaat en niemand merkt het, wat is dan de schade? Klein → autonoom. Groot → HITL. Bij finance schuift "groot" sneller in beeld: een verkeerde tag is klein, een verkeerd geboekt bedrag is groot.
  2. Als een mens altijd moet kijken, levert de automatisering dan nog tijdwinst op? Nee → herontwerp, of accepteer dat dit geen workflow-kandidaat is. Dit is geen toegeving — sommige werk verdient geen AI omdat de review even duur is als het werk zelf.

Waar beide antwoorden goed uitvallen, zit de mens op de juiste plek: niet overal, niet nergens, maar precies op het scharnier waar zijn oordeel telt.

Saldus in de praktijk

In Saldus zit een approval-inbox standaard ingebouwd voor schrijfacties: elke AI-draft van een journaalpost, betalingsvoorstel of externe communicatie landt in een queue, wordt door een mens geaccordeerd of afgewezen, en het hele besluitspoor — input, AI-stap, reviewer, tijdstip, eindbesluit — wordt automatisch gelogd. Drempels per agent zijn instelbaar (bijvoorbeeld: automatische match tot €500, HITL erboven). Het ontslaat het team niet van het inrichten van de workflow zelf, maar levert de review-infrastructuur waar het in zelfgebouwde tools vaak misgaat.

Verder lezen

AVG-compliant verwerker
Audit-grade logging
Pen-tested platform