Im Beitrag wird eine wahrscheinlichkeitsbasierte Metrik zur Messung der semantischen Konsistenz von Daten vorgeschlagen. Im Gegensatz zu bestehenden Ansätzen ermöglicht es die im Beitrag vorgestellte Metrik, probabilistische Konsistenzregeln zu berücksichtigen, die mit spezifischen Wahrscheinlichkeiten gelten sollen. Die resultierenden Metrikergebnisse repräsentieren die Wahrscheinlichkeit dafür, dass die zu betrachtete Datenmenge hinsichtlich dieser Regeln frei von Verzerrungen ist, und sind damit klar und eindeutig interpretierbar. Die theoretische Basis zur Ermittlung der Metrikergebnisse bilden statistische Tests und das Konzept des p-Werts. Die Anwendbarkeit und der praktische Mehrwert der Metrik werden am Fallbeispiel eines Versicherers demonstriert. Hier konnte die Metrik erfolgreich angewendet werden, um in einem Kundendatensatz semantische Inkonsistenzen zu identifizieren und Entscheidungen im Customer Relationship Management – bspw. im Kampagnenmanagement – entsprechend zu unterstützen.
Das vollständige Paper finden Sie hier zum Download (bis 24.06.2018 frei verfügbar).