SkillWeaver: el framework de Alibaba que reduce en un 99% el consumo de tokens en agentes de inteligencia artificial

Un equipo de investigadores de Alibaba presentó SkillWeaver, un nuevo marco de trabajo para agentes de inteligencia artificial que resuelve uno de los problemas más persistentes en entornos empresariales: la selección eficiente de herramientas dentro de ecosistemas de gran escala. El sistema es capaz de reducir el consumo de tokens en un 99,9% en comparación con métodos convencionales, manteniendo al mismo tiempo una mayor precisión en la ejecución de tareas complejas.

El desafío que motiva esta investigación es concreto y creciente. A medida que los sistemas de IA empresariales escalan para gestionar flujos de trabajo elaborados, los agentes pueden tener acceso a cientos de herramientas simultáneamente. Exponer toda esa biblioteca de herramientas al modelo de lenguaje para que elija la correcta resulta ineficiente, eleva los costos de manera exponencial y frecuentemente supera los límites del contexto disponible. El enfoque habitual, conocido como selección de herramienta única o por paso, tampoco resulta suficiente cuando las tareas del mundo real exigen combinar múltiples instrumentos en secuencia.

SkillWeaver aborda este problema mediante lo que sus creadores denominan «enrutamiento composicional de habilidades». Dado un comando complejo del usuario y una biblioteca extensa de herramientas, el sistema debe simultáneamente descomponer la solicitud en subtareas atómicas, asignar la herramienta más adecuada a cada una y ensamblar ese conjunto en un plan ejecutable. Para lograrlo, el framework opera en tres etapas diferenciadas: descomposición, recuperación y composición.

En la etapa de descomposición, un modelo de lenguaje actúa como planificador y divide la consulta original en pasos individuales, cada uno asociado a una sola habilidad. Posteriormente, un modelo de embeddings compara cada subtarea con la biblioteca disponible para identificar los candidatos más relevantes. Finalmente, en la fase de composición, el sistema evalúa la compatibilidad entre las herramientas seleccionadas y genera un Grafo Acíclico Dirigido (DAG) que organiza las dependencias y permite que tareas independientes se ejecuten en paralelo cuando es posible.

Un componente clave de la propuesta es la técnica denominada Descomposición Iterativa Consciente de Habilidades, conocida por sus siglas en inglés como SAD. Este mecanismo introduce un ciclo de retroalimentación que soluciona un problema frecuente: los modelos de lenguaje tienden a generar descripciones genéricas de los pasos que no coinciden con la nomenclatura técnica de las herramientas reales disponibles. SAD corrige esto recuperando primero un conjunto preliminar de habilidades y retroalimentando esa información al modelo, que puede entonces reescribir su plan con un vocabulario más alineado con las herramientas concretas.

Para evaluar el sistema, los investigadores construyeron un banco de pruebas propio llamado CompSkillBench, compuesto por 300 consultas de múltiples pasos con distintos niveles de dificultad, ejecutadas sobre una biblioteca de 2.209 habilidades reales extraídas del ecosistema público del Protocolo de Contexto de Modelos (MCP). Los resultados son contundentes: sin SAD, un modelo de 7.000 millones de parámetros lograba una precisión en la descomposición de tareas del 51%; al activar el ciclo de retroalimentación, esa cifra saltó al 67,7%, y con un modelo mayor alcanzó el 92%. En tareas que requerían cuatro o cinco habilidades distintas, SAD mejoró la precisión en un 50%.

Uno de los hallazgos más sorprendentes del estudio es que los modelos más grandes no siempre rinden mejor. En las pruebas sin SAD, un modelo de 14.000 millones de parámetros mostró una precisión inferior al de 7.000 millones, debido a su tendencia a descomponer las tareas en pasos innecesariamente minuciosos. Una vez introducido el ciclo de retroalimentación, este comportamiento se corrigió, lo que sugiere que alinear al agente con el vocabulario específico de las herramientas disponibles puede ser más determinante que incrementar el tamaño del modelo.

En cuanto al consumo de recursos, la diferencia es drástica. El método de referencia que exponía directamente toda la biblioteca al modelo consumía cerca de 884.000 tokens por consulta, mientras que SkillWeaver reduce esa cifra a aproximadamente 1.160 tokens, un ahorro del 99,9%. Esto se traduce directamente en menores costos de API y tiempos de respuesta más rápidos, dos factores críticos para cualquier despliegue empresarial a escala.

A pesar de sus resultados, el framework presenta limitaciones importantes. La principal es la ausencia de mecanismos de recuperación ante errores: si una herramienta falla en mitad de una cadena de ejecución, todo el flujo se interrumpe. Los autores reconocen que su contribución se centra en la fase de planificación y enrutamiento, por lo que los equipos que deseen llevar SkillWeaver a producción deberán construir sus propios sistemas de recuperación, reintento y manejo de fallos. Asimismo, el código fuente aún no ha sido publicado, aunque los investigadores han incluido en el artículo las plantillas de prompts necesarias para que los desarrolladores puedan reproducir el sistema con librerías estándar como LangChain o LlamaIndex.

Con la proliferación de agentes autónomos en entornos empresariales y el crecimiento del ecosistema MCP, la eficiencia en el enrutamiento de herramientas se perfila como un factor determinante para la viabilidad económica de estos sistemas. SkillWeaver ofrece una dirección concreta: en lugar de dotar a los modelos de contextos cada vez más amplios, la clave parece estar en diseñar arquitecturas que los guíen con precisión hacia los instrumentos correctos en cada momento.

SkillWeaver: el framework de Alibaba que reduce en un 99% el consumo de tokens en agentes de inteligencia artificial

Comentarios (0)

Relacionado

La app de 'Love Island USA' supera los 10 millones de usuarios: más votos que en muchas elecciones políticas

Pistas y soluciones para el Connections del New York Times del 3 de julio

Pistas y soluciones para el Strands del New York Times del 3 de julio