Dubletten sind Datensätze, die mehrfach und somit redundant in einem Datenbestand vorhanden sind. Folgendes sagt Wikipedia. Dubletten verursachen Mehraufwand, sorgen immer wieder für Ärger bei Ihnen und bei Ihren Kunden und führen zu Mehrkosten beim Versand (Mehrfachsendungen). Genau genommen ist die Dublette eine redundante Identität. Das heißt, selbst bei identischen Namen könnten es unterschiedliche Personen sein und somit wären zwei Datensätze im Bestand keine Redundanz. Häufig helfen Zusatzinformationen wie das Geburtsdatum für die Unterscheidung. Fehlen diese Inforationen, so können unterschiedliche Personen mit (nahezu) identischen Namen/Adresse algorithmisch nicht differenziert werden. Denn für die maschinelle Dublettenerkennung wird ein Ähnlichkeitsmaß verwendet, welches den Übereinstimmungsgrad zweier Datensätze identifiziert.
Beispiele für mögliche Dubletten (Ähnlichkeiten):
- Identische Übereinstimmung
- Josef Maier Rheinstr. 8 76133 Karlsruhe
- Josef Maier Rheinstr. 8 76133 Karlsruhe
- Phonetische Übereinstimmung
- Josef Maier Rheinstr. 8 76133 Karlsruhe
- Joseph Meyer Rheinstr. 8 76133 Karlsruhe
- Zeichenfehler
- Josef Maier Rheinstr. 8 76133 Karlsruhe
- Jasef Maier Rheinstr. 18 78133 Karlxsruhe
- Synonyme
- Josef Maier Rheinstr. 8 76133 Karlsruhe
- Sepp Maier Rheinstr. 8 76133 Karlsruhe
- Potentieller Umzug
- Josef Maier Rheinstr. 8 76133 Karlsruhe 0160-79 97 95 95
- Josef Maier Hauptstr. 62 69117 Heidelberg 0160-79 97 95 95
- Spezielle Anwendung: Haushaltsdublette
- Josef Maier Rheinstr. 8 76133 Karlsruhe
- Petra Maier Rheinstr. 8 76133 Karlsruhe
Die Dublettenbereinigung (Duplikaterkennung oder Objektidentifizierung) ist die Verarbeitung, um Dubletten zu identifizieren. Hier finden Sie eine Definition auf Wikipedia. Der primäre Anwendungsfall ist die Bestandsbereinigung. Dabei werden die Dubletten im eigenen Bestand identifiziert und eliminiert. Häufig müssen die unterschiedlichen Informationen aus den Dubletten entsprechend konsolidiert werden. Für die Dublettenbereinigung kommen modernste Verfahren zum Einsatz, mit denen sich die oben skizzierten Dubletten, aber auch deutlich komplexere Dubletten auffinden lassen. Über ein Customizing kann die Fehlertoleranz parametriert werden, d.h. je nach Anwendungsfall werden nur „sichere Treffer“ gefunden oder man clustert auch Datensätze mit geringerer Übereinstimmung.
Ein weiteres Anwendungsgebiet der Dublettenbereinigung ist die Zusammenführung verschiedener Datenbestände. Hierbei findet ein Merge zweier Datenbestände statt. Das Resultat ist ein Bestand mit den Singles beider Bestände und einem konsolidierten Datensatz aus den „redundanten Datensätze“ beider Bestände.
Falls Sie beim Versand Ihres Mailings neben Ihren eigenen Adressen auch fremde Adressen (potentielle Daten) selektieren wollen, so werden über eine Fremdbereinigung nur die relevanten Datensätze selektiert, welche noch nicht zu Ihren eigenen Kundenadressen gehören. Über einen Anreicherungsabgleich (Datenanreicherung) können zusätzliche Informationen von einem Fremdbestand zugespielt werden (beispielsweise Telefonnummern). Verwand dazu ist auch der Negativ-Abgleich: Dabei werden alle Datensätze eliminiert, welche eine hinreichende Übereinstimmung mit einem Datensatz aus der Negativdatei haben (beispielsweise Sanktionslisten oder die Robinsonliste).
Wir sorgen dafür, dass Dubletten identifiziert werden und aus Ihrem Datenbestand eliminiert werden. Gerne unterstützen wir Sie beim Dublettenabgleich. Sprechen Sie uns an!
Ein Kommentar zu “Dublettenbereinigung”