Machine Learning bij Financieel Fraude-onderzoek

Inleiding
Nederland kent momenteel ongeveer 1,2 miljoen MKB-ondernemingen die allemaal belastingaangifte doen. Het gros van deze aangiften is correct, maar een klein deel is (bewust of onbewust) incorrect ingediend. De Belastingdienst wil deze incorrecte aangiften graag zo goed mogelijk detecteren, zodat (dure) boekenonderzoeken zo effectief mogelijk kunnen worden ingezet.
De boekenonderzoeken uit het verleden lenen zich goed voor een machine learning oplossing: met behulp van algoritmes kan op basis van de data van onderzochte subjecten en de bijbehorende correctiebedragen een verband worden gevonden tussen beiden. Het model dat hieruit voortkomt kan vervolgens worden gebruikt om risicoscores toe te kennen aan subjecten waarbij recent geen boekenonderzoek is uitgevoerd. Dit zou een behoorlijke automatiseringsslag betekenen voor het selectieproces.

Rol fitlancer
Onze data scientist heeft vanaf het eerste moment een belangrijke rol gespeeld bij de ontwikkeling van een boekenonderzoek-model. De eerste stap bestond uit het doorgronden van het proces. Tegelijkertijd werd samen met domein-experts een selectie gemaakt van variabelen die redelijkerwijs invloed kunnen hebben op het correctiebedrag. Daarnaast werd er beoordeeld of de selectie geen variabelen bevatte die kunnen leiden tot een “oneerlijk” model (bijvoorbeeld variabelen waarvan het geslacht of de migratiestatus is af te leiden).
Vervolgens werden de geselecteerde variabelen opgewerkt naar een bruikbare dataset en begon de modelleer-cyclus: dataverkenning, modelontwikkeling en modelevaluatie. Bij de modelevaluatie werden de resultaten ook samen met domein-experts geanalyseerd om de bruikbaarheid van de signalen te beoordelen.
Nadat er een goed presterend model was voortgekomen uit bovengenoemde cyclus heeft onze data scientist hieromheen productie-waardige programmatuur gebouwd waarmee risicoscores worden toegekend aan subjecten welke vervolgens kunnen worden uitgeleverd aan behandelaren.

Resultaat
Het resultaat is een productie-klaar model dat gebruikt kan worden om de selectie voor boekenonderzoeken automatisch uit te voeren. Als vervolg stap zal de werking van het model getoetst worden in een pilot-fase. In deze fase zal het model in de praktijk getoetst worden en zal er beoordeeld worden of het model effectief en eerlijk is.

World Of Data