Apache Solr #

Auf dem FrOSCon2010 gab es einen interessanten Vortrag zu Apache Solr.

Solr ist eine Suchplattform, mit der man im einfachsten Fall eine Web-Suchmaschine für einen Intranet-Server bauen kann. Aber auch komplexere Szenarien sind denkbar, so kann man z.B. auch Filesysteme und Dokumente durchsuchen etc.

Apache benutzt die bekannte Java Suchbibliothek Apache Lucene als Basis und läuft in einem Java Server wie z.B. dem Tomcat.

Solr erlaubt die Einschränkung nach Kategorien (sog. Facets), wie man das z.B. von EBay oder von mobile.de kennt und natürlich auch Filterung. Die Filterung kann auch zur Implementierung von Sicherheit bzw. Zugriffskontrolle verwendet werden. Es gibt sehr mächtige Systeme, um aus den Rohdaten Tokens zu erzeugen und diese zu sortieren oder zu vergleichen (z.B. um grammatikalische Formen zusammenzufassen oder für die phonetische Suche). Die Vergabe des Such-Rankings kann genau gesteuert werden.

Als Basis der Suche können anhand eines flexiblen Systems Daten z.B. aus einer Datenbank, von Webseiten oder auch von "Rich Documents", also z.B. aus OpenOffice-Dokumenten geholt werden. Hierzu wird u.a. Apache Tika benutzt.

-- ThomasBayen


Add new attachment

Only authorized users are allowed to upload new attachments.
« This page (revision-3) was last changed on 01-Feb-2013 15:28 by Peter Hormanns