Indexación de contenido con Apache Lucene

Apache Lucene es un framework Java para la creación de índices de búsqueda full-text sobre cualquier tipo de contenido. Ejemplo de uso de Lucene pueden ser la implantación que hizo sourceforge.net o el producto de búsqueda de documentos locales para Linux Beagle.

La gran potencia y complejidad de Lucene reside en el hecho de que sea un framework, es decir, que Lucen nos da las herramientas para construir nuestro servicio de indexación y búsqueda utilizando el conjunto de clases que nos ofrece. Esto es muy potente ya que podemos definir exáctamente cómo se analizaran los contenidos para su indexación, control de la relevancia de los contenidos, eliminación de sufijos, control de palabras ruidosas, soporte para sinónimos, etc.

Con el tiempo y a medida que Lucene ha ido evolucionando, han ido surgiendo soluciones (muchas de ellas de pago) que ofrecian una capa de abstracción sobre los servicios básicos de Lucene para así hacer su uso más transparente y sencillo:

  • SearchBox: Servicio de indexación y búsqueda de contenidos
  • DBSight: Orientado a la indexación de bases de datos relacionales
  • Seekafile: Servicio Win32 de indexación al estilo de Google Desktop

Con la llegada de la versión 1.9 y 2.0 comenzaron a ampliarse los módulos relacionados con Lucene que se ofrecian a través de la web del proyecto. Con lo que ahora disponemos de distintos productos con los que llevar a cabo la indexación y búsqueda de contenidos:

  • Nutch: Software para búsquedas web al estilo Google. Consta de un crawler y de servicios distribuidos de indexación y búsqueda
  • Hadoop: Framework para la ejecución de aplicaciones en grandes clusters de equipos pequeños
  • Lucene4c: Implementación de Lucene en C
  • Lucy: Port a C de Lucene con bindings para Perl y Ruby
  • Solr: Servidor de indexación y búsqueda que expone sus funciones mediante un API XML/HTTP y ofrece servicios de caching, replicación y un interfaz administrativo web
  • Distintos ports de Lucene a otros lenguajes: C# o Python

No comments yet. Be the first.

Leave a reply