Posted on dic 10, 2006

Adobe MARS: XML para reemplazar el formato PDF

Adobe MARS es un formato XML diseñado para ofrecer las mismas funcionalidades que PDF, pero con las ventajas del uso de estándares abiertos como XML, SVG o PNG.

El fichero que definirá MARS será un tipo de fichero comprimido al estilo del OpenDocument en el que se estructurán todas las definiciones necesarias. Además, hará uso de OpenType, el nuevo formato multiplataforma de definición de fuentes desarrollado por Adobe y Microsoft.

Esta no es una idea a futuro de Adobe, sino que ya es una realidad. En la página de Adobe Labs podemos encontrar ya los siguientes recursos:

  • Manual de referencia sobre el uso de MARS
  • Los Schemas en formato RelaxNG que definen la estructura de los documentos XML
  • Ejemplos
  • Descarga del plugin necesario para su utilización en Acrobat 8.0

Posted on nov 5, 2006

Extendiendo MediaWiki

MediaWiki, producto que se creó originalmente para dar soporte a la Wikipedia, es uno de los entornos colaborativos de edición de contenidos más utilizados en el mundo del software libre.

Cuando usas de forma intensiva un producto de Wiki como este, se plantean ciertas necesidades a las que MediaWiki no da soporte, como por ejemplo la generación de una versión PDF de uno de los documentos.

Es por ello, que resulta interesante ver como algunos usuarios han dado posibles soluciones a esta carencia. Así, en el blog Megaroot, encontramos el siguiente artículo que nos explica como poder generar PDFs de una forma cómoda y accesible desde el mismo interfaz de MediaWiki, mediante el desarrollo de una extensión.

Esta extensión hace un uso de otras iniciativas como WikiPDF o html2fpdf.

Posted on oct 21, 2006

Indexación de contenido con Apache Lucene

Apache Lucene es un framework Java para la creación de índices de búsqueda full-text sobre cualquier tipo de contenido. Ejemplo de uso de Lucene pueden ser la implantación que hizo sourceforge.net o el producto de búsqueda de documentos locales para Linux Beagle.

La gran potencia y complejidad de Lucene reside en el hecho de que sea un framework, es decir, que Lucen nos da las herramientas para construir nuestro servicio de indexación y búsqueda utilizando el conjunto de clases que nos ofrece. Esto es muy potente ya que podemos definir exáctamente cómo se analizaran los contenidos para su indexación, control de la relevancia de los contenidos, eliminación de sufijos, control de palabras ruidosas, soporte para sinónimos, etc.

Con el tiempo y a medida que Lucene ha ido evolucionando, han ido surgiendo soluciones (muchas de ellas de pago) que ofrecian una capa de abstracción sobre los servicios básicos de Lucene para así hacer su uso más transparente y sencillo:

  • SearchBox: Servicio de indexación y búsqueda de contenidos
  • DBSight: Orientado a la indexación de bases de datos relacionales
  • Seekafile: Servicio Win32 de indexación al estilo de Google Desktop

Con la llegada de la versión 1.9 y 2.0 comenzaron a ampliarse los módulos relacionados con Lucene que se ofrecian a través de la web del proyecto. Con lo que ahora disponemos de distintos productos con los que llevar a cabo la indexación y búsqueda de contenidos:

  • Nutch: Software para búsquedas web al estilo Google. Consta de un crawler y de servicios distribuidos de indexación y búsqueda
  • Hadoop: Framework para la ejecución de aplicaciones en grandes clusters de equipos pequeños
  • Lucene4c: Implementación de Lucene en C
  • Lucy: Port a C de Lucene con bindings para Perl y Ruby
  • Solr: Servidor de indexación y búsqueda que expone sus funciones mediante un API XML/HTTP y ofrece servicios de caching, replicación y un interfaz administrativo web
  • Distintos ports de Lucene a otros lenguajes: C# o Python

Posted on oct 12, 2006

OpenSearch: Búsquedas simultáneas a través de múltiples buscadores

OpenSearch define un formato XML para que cualquier buscador pueda exponer al resto de clientes sus capacidades de búsqueda de una forma uniforme.

Si todos los buscadores expusieran sus resultados en este formato, podríamos lanzar una búsqueda contra Google, Yahoo, a9.com, etc de forma simultánea y obtener los resultados de todos en un mismo formato.

Las respuestas de un buscador que implementa OpenSearch tendrán formato RSS o Atom, añadiendo un conjunto de marcas específicas de OpenSearch que enriquecen la información obtenida (espacio de nombres propio).


<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:opensearch="http://a9.com/-/spec/opensearch/1.1/" xmlns:atom="http://www.w3.org/2005/Atom">
<channel>
<title>Example.com Search: New York history</title>
<link>http://example.com/New+York+history</link>
<description>Search results for "New York history" at Example.com</description>
<opensearch:totalResults>4230000</opensearch:totalResults>
<opensearch:startIndex>21</opensearch:startIndex>
<opensearch:itemsPerPage>10</opensearch:itemsPerPage>
<atom:link rel="search" type="application/opensearchdescription+xml" href="http://example.com/opensearchdescription.xml"/>
<opensearch:Query role="request" searchTerms="New York History" startPage="1" />
<item>
<title>New York History</title>
<link>http://www.columbia.edu/cu/lweb/eguids/amerihist/nyc.html</link>
<description>
... Harlem.NYC - A virtual tour and information on
businesses ... with historic photos of Columbia's own New York
neighborhood ... Internet Resources for the City's History. ...
</description>
</item>
</channel>
</rss>

IE7 ha anunciado ya que soportará la ejecución de búsquedas desde el navegador a los servicios que registremos que soporten el formato OpenSearch.

Más información y demostración online de como funciona aquí

Posted on oct 7, 2006

Congreso de fundamentosweb.org

He tenido la suerte de poder asistir esta semana al congreso que fundamentosweb.org ha celebrado en Oviedo con la colaboración del W3C España. Allí se han dado cita un grupo muy selecto de ponentes que han hablado del presente y futuro de la Web 2.0 (CSS, Scripting, Rich Client, IE7, etc).

Ahora que ha finalizado el congreso, están publicando las presentaciones de las ponencias en la página del programa del congreso. También prometen tener disponibles los vídeos en un corto espacio de tiempo …

Posted on oct 7, 2006

Mejoras en Internet Explorer 7

Después de tantos años de inactividad, el grupo de desarrollo de IE7 ya ha puesto a disposición de los que quieran probarla, la nueva versión de su navegador.

Podeis descargarla la RC1 aquí (Ojo!! Esta versión no coexiste con IE6, sino que la reemplaza completamente!!).

Para tener claras las mejoras que introducirá (que son muchas), y como va a afectar esto a las páginas ya existentes, podeis revisar los artículos publicados en esta página.