

La web ha evolucionado constantemente, desde documentos estáticos a experiencias dinámicas y ahora, parece dirigirse hacia una era donde la inteligencia artificial y los agentes conversacionales jugarán un papel central. En este contexto, Microsoft ha presentado NLWeb, un proyecto abierto diseñado para simplificar la creación de interfaces de lenguaje natural para sitios web. Su ambicioso objetivo es hacer que sea "la forma más rápida y sencilla de convertir efectivamente tu sitio web en una aplicación de IA".
Pero, ¿cómo facilita NLWeb esta transformación?
La clave reside en su enfoque para aprovechar los datos ya presentes en la web. NLWeb aprovecha formatos semiestructurados que los sitios web ya publican habitualmente, como Schema.org, RSS y otros datos. Esta es una base fundamental, ya que muchos sitios ya utilizan estos estándares para estructurar su información. El repositorio de GitHub de NLWeb proporciona herramientas para añadir datos en formatos como Schema.org, JSONL y RSS a la base de datos vectorial elegida.
NLWeb combina estos datos semiestructurados existentes con herramientas basadas en Modelos de Lenguaje Grandes (LLM). Es esta fusión la que permite la creación de interfaces de lenguaje natural. Esto significa que los usuarios podrán "consultar los contenidos del sitio utilizando directamente el lenguaje natural, al igual que con un asistente de IA o Copilot". Imagina poder preguntar a un sitio de recetas "¿Qué puedo cocinar hoy con pollo y brócoli?" o a un sitio de viajes "¿Cuáles son los mejores hoteles cerca de la playa en Barcelona para el próximo mes?".
Además, el sistema NLWeb "mejora este structured data by incorporating external knowledge from the underlying LLMs" (mejora estos datos estructurados incorporando conocimiento externo de los LLM subyacentes). Esto puede dar lugar a "experiencias de usuario más ricas", como añadir información geográfica relevante a una consulta sobre restaurantes.
Uno de los aspectos más destacables de NLWeb es su naturaleza de proyecto abierto y tecnológicamente agnóstico. Soporta "todos los principales sistemas operativos" y, fundamentalmente, "permite a los developers to choose the components that best suit their needs, supporting all major models and vector databases" (permite a los desarrolladores elegir los componentes que mejor se adapten a sus necesidades, soportando todos los principales modelos y bases de datos vectoriales). Esta flexibilidad es crucial para su adopción masiva.
Para los editores web, los beneficios son significativos. El objetivo de Microsoft es "to bring the benefits of AI that have transformed the way people search directly to the websites themselves" (llevar los beneficios de la IA que han transformado la forma en que las personas buscan directamente a los propios sitios web). Esto no solo mejora la experiencia del usuario, sino que también posiciona al sitio web para el futuro de internet, conocido como la "web agéntica". Cada instancia de NLWeb actúa como un Model Context Protocol (MCP) server (servidor del Model Context Protocol), lo que permite a los sitios web "make their content discoverable and accessible to agents and other participants in the MCP ecosystem if they choose" (hacer que su contenido sea descubrible y accesible para agentes y otros participantes en el ecosistema MCP si así lo desean). Esto "empoderará a los editores web a participar en sus propios términos" en esta emergente economía agéntica, asegurando que sus sitios estén listos para interactuar, transaccionar y ser descubiertos por otros agentes si así lo eligen.
Microsoft cree que NLWeb "can play a similar role to HTML in the emerging agentic web" (puede desempeñar un papel similar al de HTML en la emergente web agéntica). Así como HTML facilitó enormemente la creación de sitios web para casi cualquier persona, NLWeb busca "make it easy for any web publisher to create an intelligent, natural language experience for their site" (facilitar a cualquier editor web la creación de una experiencia inteligente y de lenguaje natural para su sitio).
El proyecto fue concebido y desarrollado por R.V. Guha, quien recientemente se unió a Microsoft como CVP y Technical Fellow. Guha es una figura notable en los estándares web, creador de estándares ampliamente utilizados como RSS, RDF y Schema.org. Como proyecto abierto, NLWeb cuenta con una lista creciente de otros colaboradores de Microsoft y la comunidad de código abierto.
Ya hay un grupo inicial de colaboradores que han adoptado y probado NLWeb. Estos Initial publishing and ecosystem collaborators (colaboradores iniciales de publicación y ecosistema) incluyen:
- Chicago Public Media
- Common Sense Media
- DDM (Allrecipes/Serious Eats)
- Eventbrite
- Hearst (Delish)
- Inception Labs
- Milvus
- O’Reilly Media
- Qdrant
- Shopify
- Snowflake
- Tripadvisor
Para aquellos interesados en explorar esta tecnología, el repositorio de GitHub de NLWeb proporciona todos los recursos necesarios para empezar. Esto incluye:
- El código ligero que controla el servicio central para manejar consultas en lenguaje natural, así como documentación sobre cómo extenderlo y personalizarlo.
- Conectores para algunos de los modelos y bases de datos vectoriales más populares, y documentación para añadir otros modelos de su elección.
- Herramientas para añadir datos en formatos como Schema.org, JSONL, RSS y otros a la base de datos vectorial elegida.
- Un frontend de servidor web para el servicio y una interfaz de usuario simple que permite a los usuarios enviar consultas al servidor web.
En resumen, NLWeb representa un esfuerzo significativo de Microsoft para democratizar la creación de interfaces de lenguaje natural e impulsar la inteligencia artificial directamente en la web. Al simplificar el proceso, aprovechar los datos existentes, ser flexible tecnológicamente, y preparar a los sitios para la web agéntica, NLWeb tiene el potencial de cambiar fundamentalmente cómo interactuamos con los sitios web, haciendo que la información sea más accesible a través del lenguaje natural y abriendo nuevas oportunidades para los editores en el futuro impulsado por agentes de IA.