Performance bei der Verarbeitung großer Datenmengen

Bei einer Adressverifizierung bzw. einer Suche in einem großen Datenbestand ist die Laufzeit (Performance) meist von großem Interesse. Bei einer Einzelsatzverarbeitung (Dialog-Verarbeitung oder Online-Verarbeitung) wird ein Satz in einer großen Menge von Sätzen gesucht. Akzeptable durchschnittliche Antwortzeiten in großen Beständen liegen hier bei etwa 100 ms je Suche. Diese Verarbeitung ist meist eingebettet in einem Eingabeprozess mit weiteren Prüfungen und einer Speicherung/Aktualisierung in einer Datenbank.

Bei einer Bestandsverarbeitung (batch-Verarbeitung) wird der gesamte Datenbestand verifiziert bzw. in sich abgeglichen.

Bei einer „naiven“ Verarbeitung würde die gesamte Verarbeitung in einem Millionenbestand bei einer angenommenen durchschnittlichen Antwortzeit von 100 ms je Datensatz rund 28 Stunden benötigen. Diese Verarbeitungszeit ist in den meisten Fällen nicht akzeptabel.

Akzeptable Verarbeitungszeiten liegen hier bei einem Durchsatz von mehreren Millionen pro Stunde. Meist hat der Anwender für die gesamte Verarbeitung ein gewisses Zeitfenster zur Verfügung und innerhalb dieses Fensters muss das gesamte Resultat vorliegen. Die vorliegende Datenmenge umfasst häufig mehrere Millionen Datensätze.

Somit ist der „naive Ansatz“ zur „batch-Verarbeitung“ nicht zielführend. Eine performante Verarbeitung kann mit geeigneten Clustering-, Sortier- und Parallelisierungsverfahren erreicht werden.

Gerne unterstützen wir Sie ein performantes und maßgeschneidertes Suchsystem zu implementieren. Beispielsweise erstellen wir bei einem gemeinsamen Workshop eine Bedarfs- und Schwachstellenanalyse und erarbeiten auf dieser Basis eine passende Lösung. Sprechen Sie uns einfach an.

Teilen mit:

Ähnliche Beiträge

Hinterlasse einen Kommentar Antwort abbrechen