Interpretation der Suchergebnisse

Die Bedeutung von fehlertoleranten Suchsystemen wird immer größer, und Unternehmen investieren hohe Eurobeträge in Systeme für das „Customer Relationship Management“ (CRM). Praktisch nie existiert ein „wirklich eindeutiger“ Schlüssel zur Identifikation einer Person oder einer Firma. Selbst wenn „einheitliche Kundennummern“ vorhanden sind, kann man dennoch oftmals doppelte Identitäten (Dubletten) im Bestand finden. Somit kommt heute kein Daten-Management-System mehr ohne eine fehlertolerante Suchkomponente aus.

Werden zwei Datensätze zusammen gefunden, so stellt sich die Frage nach der Güte und der Zuverlässigkeit dieser Zuordnung. In der Regel liefern die Abgleichsysteme entsprechende Kennzahlen für die „Güte der Zuordnung“. In diesem Blog wollen wir uns mit der Interpretation dieser Gütemaße auseinandersetzen.

Punktwert für die Übereinstimmung

Werden zwei Datensätze zusammen gefunden, so stellt sich die Frage nach der Güte und der Zuverlässigkeit dieser Zuordnung. In der Regel liefern die Abgleichsysteme entsprechende Kennzahlen für die „Güte der Zuordnung“. In diesem Blog wollen wir uns mit der Interpretation dieser Gütemaße auseinandersetzen.

Beispiel
Gesucht:
Gefunden:


Paul Schulz
92 % P. Schulz
86 % Schlosserei Dieter und Paul Schulz


Kirchstr. 12
Kirch 12
Kirchgasse 12


67433 Neustadt
67433 Neustadt
67435 Neustadt

Eine Punktzahl als Übereinstimmungsmaß ist sehr hilfreich um die gefundenen Datensätze quantitativ zu bewerten. Zwei Treffer können sehr leicht verglichen und in eine Reihenfolge gebracht werden.

An dieser Stelle möchten wir extra darauf hinweisen, dass es sich um keine Wahrscheinlichkeit handelt. Man kann aufgrund der ermittelten „Wortübereinstimmung“ keine Wahrscheinlichkeit angeben, dass der gesuchte Paul Schulz mit dem einen oder anderen Treffer übereinstimmt (im Sinne einer Identität). Darüber würde jeder Mathematiker sich die Haare raufen, denn die Summe der Wahrscheinlichkeiten sind in unserem einfachen Beispiel 178 % und entsprechen nicht der Gesamtwahrscheinlichkeit von 100%.

Das heißt, ermittelt wird nur ein Maß für die Übereinstimmung der beiden Datensätze. Systeme mit einer höheren Transparenz liefern zusätzlich Punktzahlen für die Teilfelder (beispielsweise Name, Straße, PLZ, Ort …). Damit kann der Anwender dann sehr feingranular die Datensätze bewerten.

Einteilung in Qualitätsklassen

Einige Tools klassifizieren die Qualität in Klassen. Beispielsweise wird die Treffergüte unterteilt in
A – identischer Treffer => kann automatisch übernommen werden
B – sicherer Treffer => kann meist automatisch übernommen werden
C – unsicherer Treffer => sollte vom Fachbereich überprüft werden

Die Abstufung der Klassen ist teilweise fest vorgegeben oder aber kann vom Anwender definiert werden. Die Transparenz der Klassenabstufung reicht oftmals von „im Source-Code verborgen“ bis hin zu „offen gelegt“.

Der Vorteil bei der Klasseneinteilung liegt in der einfachen Interpretierbarkeit. Sind die Trefferklassen aussagekräftig, so ist die Entscheidung für den Anwender klar.

Treffer-Highlighting

Um die Zuordnung der beiden Datensätze bewerten zu können ist eine Markierung der übereinstimmenden Treffer (Treffer-Highlighting) hilfreich. Gerade bei Systemen mit sehr hoher Toleranz kann die vorgenommene Zuordnung nicht immer auf den ersten Blick erkennbar sein.

Beispiel:
Datensatz 1:      Deutsche Flugsicherung Rintheimer Querallee 6 76131 Karlsruhe
Datensatz 2:      DFS GmbH                       Rintheimer 6                76131 Kaxlsruhe

Notwendige Datenqualitätskriterien

Um die Übereinstimmung richtig bewerten zu können, müssen ebenfalls folgende Kriterien berücksichtigt werden:

  • Vollständigkeit der beiden Datensätze: Besteht auch nur einer der beiden Datensätze lediglich aus Datenfragmenten, so ist die Identität auch bei vollständiger zeichenweiser Übereinstimmung fraglich. Wird zum Beispiel Klaus Müller in Stuttgart gesucht, so ist die Wahrscheinlichkeit eines „false-postitives“ recht wahrscheinlich. Haben wir jedoch nur eine fehlertolerante Übereinstimmung, doch mit identischer Telefonnummer, so ist die Wahrscheinlichkeit für eine Identität recht hoch. Damit ergibt sich, dass eine Steigerung hinsichtlich der Vollständigkeit (Vorname, Nachname, Straße, Hausnummer, PLZ, Ort, Telefon, Geburtsdatum, Kundennummer) eines jeden Datensatzes erstrebenswert ist.
  • Korrektheit und Konsistenz der Daten: Die Daten müssen mit der Realität zusammenpassen. Wenn ein Kunde über ein Online-Formular falsche Daten hinterlegt hat, so sind diese wertlos und reduzieren die Datenqualität. Ebenso müssen die Daten in sich konsistent sein. Beispielsweise kann das Geburtsdatum leicht auf Plausibilität geprüft werden (Tage von 1 bis maximal 31, Monat von 1 bis 12 und ein Jahr vor 1910 ist ebenso in vielen Fällen unplausibel). Für die Korrektheit der Anschrift ist eine postalische Prüfung nützlich.
  • Relevanz der Daten: Die Qualität verbessert sich, wenn der Datensatz nur die relevanten Daten enthält. Zusätzliche (unspezifische) Informationen sind meist Schmutzdaten und steigern die „false-positive“ Rate.
  • Aktualität der Daten: Sind die Daten veraltet, so werden die Datensätze mit „harten Abgleichparametern“ häufig nicht gefunden. Das Abgleichergebnis ist insgesamt etwas „schwammiger“.
  • Redundanzfreiheit der Daten: Dies ist möglicherweise sogar der wichtigste Punkt. Innerhalb eines Bestandes dürfen keine Dubletten vorkommen.

Es liegt auf der Hand, dass die Qualität eines Abgleichs bei guten allgemeinen Datenqualitätskriterien zuverlässiger ist.

Zusätzliche Aspekte für die Sicherheit der Suchergebnisse

Die Redundanz innerhalb eines Datensatzes spielt ebenfalls eine entscheidende Rolle für die Sicherheit eines Treffers. Haben wir beispielsweise mehrere Kriterien mit geringerer Übereinstimmung, so kann der Treffer trotzdem von höherer Qualität sein. Wenn zum Beispiel der Treffer aus einem toleranten Namen und einer toleranten Anschrift besteht, aber zusätzlich das Geburtsdatum übereinstimmt, so ist dieser Treffer wertvoller einzuschätzen als ein identischer Name ohne Geburtsdatum. Das wird deutlich, wenn wir mit Markus Meier einen zeichenidentischen Treffer in Köln finden.

Wenn unser Suchbestand vollständig ist (im Sinne von alle Personen sind im Datenbestand), so können wir bei einem Treffer trotz geringer Übereinstimmung von der „gewünschten Person“ ausgehen, falls andere Datensätze noch deutlich weiter „entfernt“ sind.
Eine Vollständigkeit hinsichtlich aller Personen ist vermutlich nur für das Einwohnermeldeamt möglich. Doch für spezielle Datenbestände kann diese Vollständigkeit gegeben sein. Beispielsweise bei der Adressprüfung gegen postalische Referenzdaten (postalische Prüfung) kann bei einem sehr dichten Bestand von einer annähernden Vollständigkeit ausgegangen werden oder wenn eine Suche auf Produktdaten stattfindet, so kann möglicherweise von einem vollständigen Bestand ausgegangen werden.


Fazit

Eine Punktzahl für die Übereinstimmung bietet dem Anwender eine Bewertungsskala (Rangskala) und damit kann der Treffer leicht quantitativ bewertet werden. Durch Finden eines geeigneten Schwellenwertes kann man die „gewünschten Treffer“ von den „zu toleranten (ungewünschten) Treffern“ abgrenzen. Eine zusätzliche Punktzahl auf den Teilfeldern ist hilfreich für eine detailliertere Aussage. Der Punktwert wird häufig von der Anzahl der Begriffe und auch von der Länge der einzelnen Wörter beeinflusst. Somit dürfen lange Straßennamen häufig „fehlerhafter“ sein als eine kurze Hausnummer oder kurze Namen, wie zum Beispiel „Kai“, „Pia“, „Rolf“ oder „Tim“.
Allerdings sagt der Punktwert nichts darüber aus, wie der Anwender mit dem Treffer umgehen muss. Dem Anwender bleibt selbst überlassen, wie der weitere Vorgang/Prozess mit dem Treffer aussieht (automatische Übernahme, manuelle Nachkontrolle …). Somit ist die Punktzahl ein technisches Qualitätsmerkmal, welches für den Anwender zu der weiteren Bearbeitung des Datensatzes eine geringe Aussagekraft. liefert.

Die Qualitätsklasse ist ein Kennzeichen, welches die Datensätze in eine bestimmte Kategorie einteilt. Doch die Treffer innerhalb einer Klasse sind zunächst nicht weiter bewertbar. Häufig finden sich viele Treffer in einer großen Klasse und damit ist dem Anwender wenig geholfen. Qualitätsklassen sind dann hilfreich, wenn diese vom Anwender passgenau definiert werden können. So kann zum Beispiel eine hierarchische Gruppierung wie folgt sehr nützlich sein:

  • Alle Begriffe sind zeichenidentisch
  • Name und Telefonnummer identisch
  • Name, Geburtsdatum identisch und Adresse fehlertolerant
  • Adresse identisch, Name fehlertolerant
  • Name identisch, Adresse fehlertolerant
  • Name und Adresse fehlertolerant

Gute Systeme bieten eine Punktzahl auf dem gesamten Datensatz, Teilpunkte auf den Teilelementen und die Möglichkeit einer Gruppeneinteilung in Qualitätsklassen.

Eine Markierung der Übereinstimmungen (Treffer-Highlighting) helfen dem Anwender bei der Bewertung der Treffer und ist heute Stand der Technik.

Wir hoffen wir konnten Ihnen mit diesem Blog die Herausforderungen der Interpretation der Suchergebnisse verdeutlichen. Sprechen Sie uns gerne an!

Address-Consulting wünscht Ihnen und Ihrer Familie ein besinnliches Weihnachtsfest und einen guten Rutsch in das Jahr 2021.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

%d Bloggern gefällt das: