28. März 2019

Geldwäsche mit Data Mining erkennen

Geldwäsche zielt darauf ab, die Herkunft von illegal erworbenen Geldern zu verschleiern und sie in den legalen Wirtschaftskreislauf einzuschleusen. Banken und Finanzdienstleistungsunternehmen im Allgemeinen sind durch das Geldwäschegesetz dazu verpflichtet, verdächtige Aktivitäten auf ihren Konten zu identifizieren und zu melden. Dazu werden alle Transaktionen auf diesen Konten möglichst automatisiert überwacht. Die hierfür eingesetzten Automatismen verwenden in der Regel statische Regelwerke oder Modelle. Diese erkennen Geldwäschefälle anhand von festgelegten Kriterien (u.a. bestimmte Verhaltensmuster oder Herkunftsländer, die bekanntermaßen auf Geldwäsche hindeuten).

Deutlich höhere Automatisierung

Diese Kriterien werden häufig noch manuell durch menschliche Experten erarbeitet und basieren auf Erfahrungswerten zu bekannten Geldwäschefällen. Eine gängige Methode ist eine manuelle Einteilung von Konten anhand ihrer Metainformationen (wie z.B. das Transaktionsland oder die Geschäftsbranche) in Risikoklassen (z.B. in ein geringes, mittleres oder hohes Risiko). Auf Basis dieser einzelnen Risikoklassen wird dann eine Gesamtbewertung (z.B. eine Klassifizierung als (kein) potenzieller Geldwäschefall) für die betrachteten Transaktionen durchgeführt. Das Geldwäscheverhalten verändert sich allerdings ständig. So passen Geldwäscher ihre Transaktionen ständig an, um eine Entdeckung durch Experten bzw. Automatismen zu vermeiden. Die Erarbeitung der Kriterien zur Geldwäscheerkennung ist daher ein wiederkehrender, oft manueller und sehr mühsamer Prozess.

Eine Alternative zur aufwändigen manuellen Analyse bietet Data Mining. Dieses stellt Werkzeuge (u.a. Verfahren des maschinellen Lernens) zur Verfügung, um Geldwäscheexperten in ihrer Tätigkeit zu unterstützen oder ihnen im Idealfall Arbeiten (fast) vollständig abzunehmen. Die oben genannte Einteilung von Konten (oder anderer Geschäftsobjekte, wie z.B. Kunden oder Länder) kann durch Methoden des Data Minings realisiert werden. Ein einfacher Ansatz hierfür wäre z.B. die Verwendung von (unüberwachten) Clustering-Methoden, die Objekte anhand ihrer Ähnlichkeit in Cluster gruppiert. Diese Gruppierung kann dann als Ausgangspunkt für eine Einteilung in Risikogruppen verwendet werden. Auch die zuvor erwähnte Klassifizierung von Transaktionen als (keine) Geldwäschefälle kann durch überwachte Lernverfahren des Data Minings übernommen und in ihrer Performanz verbessert werden. Diese Aufgabenstellung legt die Verwendung von Klassifikationslernern nahe, die die bekannten Informationen über Geldwäschefälle (d.h. sowohl positive als auch negative Beispiele für Geldwäschetransaktionen inklusive zugehöriger Informationen, wie z.B. Kunden- oder Länderstammdaten) generalisieren, um Klassifikationsmodelle zu erhalten. Mit Hilfe dieser Modelle können anschließend neue Transaktionen automatisch bewertet und ggf. als Geldwäschefall identifiziert werden. Auf diese Weise nimmt Data Mining den Geldwäscheexperten die Arbeit ab, Vorhersagemodelle manuell erstellen zu müssen.

Qualitative Verbesserungen

Zur Einteilung in Risikoklassen und Erstellung von Vorhersagemodellen stehen diverse Verfahren des Data Minings zur Verfügung, die mit ihren unterschiedlichen Eigenschaften auf die gegebenen Anforderungen abgestimmt werden können. Zum Beispiel können mit den entsprechenden Verfahren interpretierbare Klassifikationsmodelle, wie z.B. Entscheidungsbäume oder Regellerner, erstellt werden. Interpretierbare Modelle bzw. deren Entscheidungen können durch menschliche Experten analysiert bzw. verifiziert werden. Im Allgemeinen kann auf diese Weise die Akzeptanz des erstellten Modells bzw. die Bereitschaft dieses produktiv einzusetzen erhöht werden. Weiterhin können die Lernphasen von Data Mining Verfahren (entweder eine Neuerstellung oder im Falle von inkrementellen Lernern eine Aktualisierung des Modells) häufiger stattfinden als dies manuell möglich ist (z.B. täglich oder nach dem Bekanntwerden eines oder mehrerer Geldwäschefälle). Die so erhaltenen neuen oder aktualisierten Modelle können anschließend, ggf. nach einer Prüfung durch menschliche Experten, produktiv eingesetzt werden, um für die aktuellen Geldwäschetrends gewappnet zu sein. Dieser Einsatz von maschinellem Lernen kann somit völlig neue Erkenntnisse generieren. Es werden Zusammenhänge erkannt (sowohl für die Risikogruppierung als auch in den Vorhersagemodellen), die den menschlichen Experten im Vorfeld gar nicht bewußt waren.

Zusammengefasst kann der Einsatz von Data Mining die menschlichen (Geldwäsche-)Experten wesentlich in ihrer Arbeit unterstützen. Erstens werden kostbare menschliche Ressourcen frei für wichtigere und ggf. nicht automatisierbare Tätigkeiten, da Data Mining zeitraubende manuelle Tätigkeiten ggf. mit einer höheren Güte übernehmen kann. Zweitens können die verwendeten Modelle zur Geldwäscheerkennung häufiger neu erstellt oder aktualisiert werden, da dies automatisch ablaufen kann und ggf. nur eine Sichtung der resultierenden Modelle notwendig ist. Drittens können die Modelle auf Grund ihrer alternativen Erstellung auch neue Einblicke in das Geldwäscheverhalten bieten.

10. September 2018

„Data Warehouse“ ist out. Brauchen wir jetzt einen „Data Lake“?

 

Die technisch gereifte Möglichkeit, Unmengen von Daten im Unternehmen speichern und verarbeiten zu können, hat den Fokus auf das reine Sammeln von Daten verschoben. Auch die Möglichkeit, völlig unterschiedliche Typen von Daten (strukturiert und unstrukturiert) ablegen zu können und die gelebte Praxis, geschäftliche Analysen dieser Daten auf „später“ zu verschieben, hat zu dieser Entwicklung beigetragen. Wir sammeln also auf Teufel komm raus alles, was irgendwie von Nutzen sein könnte, legen es in einem „Data Lake“ ab und hoffen darauf, dass eines Tages daraus ein Mehrwert für das Unternehmen entsteht.

So sehr es wünschenswert ist diese Data Lakes zu etablieren, um potentiell wertvolle Informationen zu sichern, so sehr ist es aber auch notwendig, den Fokus wieder deutlicher auf die Analyse dieser Daten zu lenken. Erst diese Analysen erlauben es, geschäftliche Erkenntnisse für das Unternehmen zu gewinnen und damit Mehrwert zu schaffen. „Big Data“ ist insofern auch nur ein weiteres Buzzword um zu signalisieren, dass wir dies nun auch aus sehr großen, ggf. unstrukturierten und laufend aktualisierten Datenmengen können.

Analyse selbst soll von den vermeintlich überall verfügbaren Data-Science-Fachkräften gemacht werden. Diese tatsächlich sehr raren, hochspezialisierten Daten-Spezialisten sollen in der Lage sein, aus den Unmengen an ungeschliffenen Rohmaterial von Daten wertvolle Erkenntnisse zu schürfen. Sie schaffen das allerdings nur, wenn sie unstrukturierten Daten eine Struktur geben, wenn also die Daten aus ihrer Rohform in eine für intelligente Verarbeitung und Geschäftsanalyse verarbeitbare Form transformiert werden. Das ist ein hochkomplexer und sehr aufwändiger Vorgang, der oftmals mehr Kapazitäten bindet, als die eigentliche Analyse selbst. Wir haben sogar wieder ein Buzzword dafür etabliert: „Schema-on-read“, und viele halten es plötzlich für den Königsweg. Tatsächlich ist es aber nur eine sinnvolle Erweiterung der lange bekannten Architektur, die jetzt als das „klassische“ Data Warehouse bezeichnet wird. Eigentlich hat man nur erkannt, dass es sinnvoll ist, entsprechend ausgebildeten Daten-Spezialisten auch Zugriff auf Rohdaten zu geben. Der vermeintlich alte Ansatz „Schema-on-write“ hat aber unverändert seine Berechtigung und ist, vielmehr noch, im Kern unverzichtbar. Einmal gewonnene Erkenntnisse, geschäftliche Grundstrukturen und Zusammenhänge sollten von allen Anwendern im Unternehmen einfach nutzbar sein. Das erfordert ein Datenmodell, welches diese Zusammenhänge transparent macht. Es ist schlichtweg ineffizient die Schaffung dieser Grundstrukturen immer wieder aufs Neue, und damit hochredundant, jedem Data Scientist oder Analysten als notwendige Datenvorbereitung aufzuerlegen.

Eine effiziente und wirklich Mehrwert schaffende Informationsinfrastruktur berücksichtigt das alles und sieht hinter den Buzzwords Data Lake, Big Data etc. das, was sie sind: Sinnvolle Erweiterungen des „klassischen“ Data Warehouse um neue Arten der Datennutzung und Datenspeicherung, ergänzt um weitere Skalierungseffekte durch neue Arten der Datenverarbeitung. Wenn wir so wollen: Lasst uns das Data Warehouse weiterentwickeln und alles, was Data Lake, Big Data und Co. an neuen Möglichkeiten bringen für eine gesamthaft effiziente Informationsinfrastruktur im Unternehmen nutzen. Man könnte dafür natürlich auch wieder ein neues Buzzword erfinden und dieses Kunstwerk Information Bridge nennen 😉

© 2019 | Information Bridge, Gesellschaft für Informationsanalyse mbH | Impressum