DQMM
Messung und Verbesserung der Datenqualität in unstrukturierten Daten
Messung und Verbesserung der Datenqualität in unstrukturierten Daten
Prof. Dr. Mathias Klier
+49 (0) 7 31 50-3 23 12
mathias.klier(at)uni-ulm.de
Aufgrund schnell wachsender Mengen an unstrukturierten Daten (bspw. Stichwort „Big Data“) ist Datenqualität (DQ) ein hoch relevantes Thema. So werden bspw. große Mengen an unstrukturierten Daten aus unterschiedlichen, verteilten Quellen in diversen Formaten gesammelt und analysiert (oft in Echtzeit), um geschäftsrelevante Erkenntnisse abzuleiten, unternehmerische Entscheidungen zu unterstützen und datengetriebene Dienstleistungen zu entwickeln. Damit die abgeleiteten Ergebnisse valide und wertstiftend sind, ist die Sicherstellung der Qualität der zugrundeliegenden Daten unabdingbar. Ist keine ausreichende DQ gegeben, resultieren demnach fehlerhafte Erkenntnisse, die zu falschen Entscheidungen führen und mehr Schaden anrichten als Nutzen generieren („Garbage in – Garbage out“).
Konkret wurden im Rahmen des Projekts „Datenqualitätsmessung und -maßnahmen bei unstrukturierten Daten (DQMM)“ daher quantitative Methoden zur Messung, Steuerung und Verbesserung der DQ entwickelt und vor allem anhand konkreter Anwendungsszenarien evaluiert werden. So wurden effiziente quantitative Methoden zur Messung der DQ für datenwertorientierte Qualitätsdimensionen (bspw. Konsistenz, Aktualität und Eindeutigkeit) entwickelt. Zudem wurden Methoden zur Analyse unstrukturierter Daten (z. B. Data-Mining- und Text Mining-Verfahren) (weiter)entwickelt, um das gemessene DQ-Niveau direkt zu berücksichtigen. Die erzielten Ergebnisse haben weitreichende wirtschaftliche und wissenschaftliche Implikationen: Die Berücksichtigung der DQ bei Methoden der Datenanalyse führt zu zuverlässigeren Ergebnissen und einer verbesserten Entscheidungsqualität. Konkret lassen sich Fehlentscheidungen mit hohen (ökonomischen) Schäden vermeiden (z. B. falsche Einschätzung des Kontrahenten- bzw. Bonitätsrisikos) und neuartige datengetriebene Dienstleistungen entwickeln. Die Messung der DQ unstrukturierter Daten ist dabei unabdingbare Voraussetzung.
Kooperationspartner: xapio GmbH
Fördergeber: Staatsministerium für Wirtschaft, Landesentwicklung und Energie Bayern
Projektzeitraum: Juni 2015 – Juni 2018