Catalysts beschleunigt die Suche in Unternehmensdaten mit Apache Solr

“Big Data”-Quiz

2.) Mit traditionellen Mitteln erreicht man keine schnelle Suche in riesigen Datenmengen.
Wie viele Gründe sprechen für Apache Solr (Open Source) als Such-Technologie und gegen traditionelle Datenbanken?
     a) 1 Grund
     b) 3 Gründe
     c) 8 Gründe

Aus Desktop-Anwendungen werden Browser-Anwendungen. Server wandern in die Cloud. Die Daten scheinen sich alle paar Monate zu verdoppeln (vgl. Mooresches Gesetz für CPUs, siehe http://de.wikipedia.org/wiki/Mooresches_Gesetz). Trotzdem will heute niemand länger als eine halbe Sekunde auf das Such-Ergebnis warten, weil wir blitzschnelle Ergebnisse von Internet-Seiten wie Google, eBay und Amazon gewohnt sind. Diese Internet-Seiten sind die Messlatte der Benutzer für alle anderen Anwendungen.

Immer wieder wünschen sich unsere Kunden

  1. Phonetische Suche, d.h. Mair = Meyer = Maya
  2. Suche in Attributen mit Gewichtung, d.h. “Nachname = Mair” wird vor “Straße = Meiergasse” gereiht
  3. Volltextsuche, d.h. in allen Attributen
  4. Suche in Dokumenten (Word, PDF usw.)
  5. Hervorhebung der Treffer im Such-Ergebnis
  6. Filtern nach diversen, dynamischen Kriterien (vgl. faceted search, siehe http://en.wikipedia.org/wiki/Faceted_search), d.h. zuerst Suche nach Schi, beim Suchergebnis automatisch Anzeige aller Hersteller, wo man dann nach “Atomic” filtern kann
  7. Performance, d.h. Suchergebnis innerhalb weniger 100 ms
  8. Skalierbarkeit, d.h. selbe Performance auch bei vielen gleichzeitigen Abfragen

Auf der Basis von “alten” Such-Technologien, d.h. Datenbanken, sind diese Anforderungen nur sehr schwer bis gar nicht umsetzbar.
Diese 8 Gründe sprechen derzeit klar für die “neuen” Such-Technologien, wie sie auf den großen Internet-Seiten verwendet werden – eben Apache Solr.

Wenn man die neuen Such-Technologien wie Apache Solr im Griff hat, ergeben sich folgende Vorteile:

  • Solr kann man auf Commodity-Hardware-Cluster betreiben, man braucht z.B. keinen teuren Oracle Cluster, siehe auch http://de.wikipedia.org/wiki/Oracle_RAC
  • für Solr fallen keine Lizenzkosten an
  • weniger Implementierungs-Aufwand

Wenn die Suche derart schnell und mächtig ist, kann man sie auch viel prominenter in Business-Anwendungen einbauen. Wir arbeiten aktuell an einem System, das schlussendlich weltweit von Zehntausenden Benutzern eingesetzt werden wird. In solchen Systemen gibt es typischerweise viele Dubletten (siehe auch http://de.wikipedia.org/wiki/Dublette_%28Datenbank%29), d.h. man hat für jeden Kunden bzw. Geschäftspartner mehrere Datensätze, die man nur mehr mit viel händischem Aufwand konsolidieren könnte.

Neuer Ansatz: statt gleich einen neuen Datensatz anzulegen, sucht man zuerst. Erst wenn der Benutzer keinen passenden Datensatz findet, kann er einen neuen anlegen.

Dieses Szenario ist erst mit einer leistungsfähigen Suche möglich und führt auf Dauer zu Einsparungen.

Interessiert? Vereinbaren Sie mit uns

Anfrage für Web-Konferenz bzw. Anfrage für persönliches Treffen

Zurück zum Quiz
Vorheriger Beitrag
Catalysts beschleunigt mittels GP-GPU Cluster den Aerosol-Erkennungs-Algorithmus für die ESA
Nächster Beitrag
High Performance Computing sogar für Dokumentenerzeugung

Related Posts

No results found

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Bitte füllen Sie dieses Feld aus
Bitte füllen Sie dieses Feld aus
Bitte gib eine gültige E-Mail-Adresse ein.
Sie müssen den Bedingungen zustimmen, um fortzufahren

Menü