Continuum : les critères à vérifier pour choisir un agent runtime compatible OpenAI

Easton editorial illustration: seven-slot runtime readiness console centered on a durable execution core

TL;DR - Key Takeaways

Continuum est l'agent runtime Python d'entreprise de ShyftLabs. C'est un bon exemple pour comprendre les capacités d'ingénierie attendues d'un runtime d'agents en production.
Pour évaluer un agent runtime, regardez sept dimensions : modèles d'orchestration, routage des modèles, mémoire, standards d'outillage, exécution durable, observabilité et gouvernance du déploiement.
Les éléments distinctifs de Continuum sont le routage de coûts Smart Inference, les outils MCP natifs, les workflows durables Temporal, la mémoire Redis/vectorielle et le tracing Langfuse.
Ce n'est pas une bibliothèque de scripts légère : Redis, les bases vectorielles, Temporal et Langfuse ajoutent un vrai coût d'exploitation. Validez donc la reprise, les budgets et l'auditabilité avant le déploiement.

"La documentation Continuum décrit son positionnement, l'exigence Python 3.13, Smart Inference, les outils MCP natifs, les workflows durables Temporal, le tracing Langfuse et neuf patterns multi-agent."
- Continuum Docs

"Le dépôt GitHub Continuum est la source principale pour l'installation, les APIs, les noms de modules et la maturité du projet."
- shyftlabs/continuum

"L'écosystème d'outils MCP évolue rapidement ; les chiffres sur les serveurs et l'adoption par les grands acteurs doivent donc rester prudents et être revus régulièrement."
- Model Context Protocol

Votre agent tourne encore dans un notebook ? C’est souvent le signe qu’il vous manque un runtime de production. Les frameworks ne manquent pas : LangGraph, CrewAI, AutoGen, DeepAgents. Les noms sont connus, mais le vrai sujet de sélection consiste à savoir quelles dimensions évaluer.

Continuum est un agent runtime d’entreprise proposé par ShyftLabs, avec un positionnement clair : il s’adresse aux équipes qui doivent livrer. Ce n’est ni un outil de prototype, ni un jouet de notebook. C’est un framework Python qui regroupe collaboration multi-agent, contrôle des coûts, exécution durable et observabilité derrière une API type-safe.

Pour évaluer n’importe quel agent runtime, partez de sept dimensions : modèles d’orchestration, routage des modèles, mémoire, standards d’outillage, exécution durable, observabilité et gouvernance du déploiement. Continuum n’est qu’un exemple, mais ce cadre complet doit guider la décision.

Positionnement : ce qu’est Continuum et pourquoi l’utiliser comme exemple

Le rôle d’un agent runtime est d’assembler un noyau d’agent propre, du raisonnement multi-modèle, une mémoire avec état, des appels d’outils, une exécution durable et de l’observabilité dans un système de production composable.

Continuum illustre bien ces six capacités :

noyau d’agent typé (BaseAgent, AgentRunner)
inférence multi-modèle, avec un support annoncé de 250+ modèles et 45+ providers
mémoire court terme et long terme, avec historique de session Redis et mémoire vectorielle mem0
support natif des outils MCP
workflows durables Temporal
tracing Langfuse pour l’observabilité

Continuum n’est pas la seule réponse. C’est un exemple complet qui montre les blocs qu’un runtime de production devrait inclure.

Cadre de sélection : 7 capacités clés pour évaluer un Agent Runtime

Orchestration et patterns multi-agent

L’orchestration est la question centrale d’un runtime : prend-il en charge la collaboration multi-agent, et quels patterns propose-t-il ?

Continuum fournit neuf patterns multi-agent :

Pattern	Usage
sequential	exécuter plusieurs agents dans l’ordre
parallel	exécuter des tâches indépendantes en parallèle
loop	itérer jusqu’à satisfaire une condition
routing	router l’entrée vers différents agents
planning	décomposer un objectif en sous-tâches
reflection	laisser un agent relire et améliorer son propre travail
debate	faire négocier ou comparer plusieurs agents avant une décision
scatter	distribuer des tâches puis agréger les résultats
supervised	ajouter supervision et revue humaine aux points clés

Question de sélection : quels patterns votre scénario exige-t-il, et le runtime les prend-il en charge ?

Si votre agent n’a besoin que d’une exécution séquentielle single-thread, le pattern sequential peut suffire. Si le workflow implique des tâches parallèles, une négociation entre agents ou une approbation humaine à certains points, vérifiez la prise en charge de patterns comme parallel, debate et supervised. Pour un exemple pratique côté LangGraph, voir la gestion d’état LangGraph en pratique.

Accès aux modèles et routage des coûts

La première question est l’indépendance vis-à-vis des modèles : le runtime prend-il en charge plusieurs modèles, comme OpenAI, Claude, Llama ou des modèles locaux ? Est-il compatible OpenAI ?

Dans Continuum, l’agent appelle un seul endpoint compatible OpenAI, tandis que Smart Inference route les requêtes, selon le projet, entre 250+ modèles en fonction de la complexité et du coût. Cette conception repose sur quelques idées clés :

endpoint unique : l’agent ne connaît pas le modèle concret et appelle seulement SMART_GATEWAY_URL
routage par classifieur : Smart Inference choisit un modèle selon la complexité de la tâche et le budget
registre budgétaire : des limites de sortie dynamiques évitent l’explosion de tokens
niveaux de qualité : chaque agent peut utiliser une qualité strict, modest ou quality

Question de sélection : le runtime dispose-t-il d’un routage conscient des coûts ? Peut-on définir des niveaux de qualité par agent ?

Le contrôle des coûts ne sert pas seulement à économiser. Il sert surtout à éviter une facture incontrôlable. Les appels multi-modèles, les tâches longues et les boucles de réflexion peuvent consommer bien plus de tokens que prévu sans plafond budgétaire ni routage par coût.

Mémoire : sessions court terme et mémoire vectorielle long terme

La mémoire est la base contextuelle d’un agent. L’historique court terme sert la conversation en cours ; la mémoire vectorielle long terme sert la récupération entre sessions.

L’implémentation de Continuum :

court terme : historique de session Redis dans le module session
long terme : mem0 plus mémoire vectorielle Qdrant/Milvus dans le module memory

Question de sélection : le runtime sépare-t-il la mémoire court terme et long terme ? Les intégrations de bases vectorielles sont-elles flexibles ?

Si votre agent n’a besoin que de l’historique de conversation actuel, Redis ou un état en mémoire peut suffire. S’il doit récupérer des préférences utilisateur, des décisions passées ou des documents de projet entre sessions, vérifiez la prise en charge de la mémoire vectorielle et la possibilité de changer de base vectorielle, par exemple Qdrant, Milvus ou Chroma. Pour le design de la mémoire, voir Agent memory system design.

Standards d’outillage : support MCP natif

Le tool calling est la main de l’agent. Quel protocole utiliser ?

MCP (Model Context Protocol) est devenu un standard important pour l’intégration d’outils avec les AI agents. MCP utilise un transport JSON-RPC et fournit trois primitives : Tools, Resources et Prompts.

L’implémentation de Continuum : support natif des serveurs MCP via une interface unifiée ToolExecutor.

Question de sélection : le runtime est-il natif MCP ou repose-t-il sur une API custom ?

Le support natif de MCP permet d’utiliser des serveurs MCP existants pour les systèmes de fichiers, les bases de données, les outils API et plus encore, sans écrire votre propre adaptateur de protocole. Si un runtime repose sur une API custom, vous maintenez un standard d’interface supplémentaire, et l’extension de l’écosystème devient plus coûteuse. Pour démarrer avec les serveurs MCP, voir les bases du développement MCP Server.

Exécution durable et approbation humaine

Les tâches longues ont besoin de durabilité : reprise depuis des checkpoints et pause sur approval gate.

Continuum utilise des workflows durables Temporal et prend en charge :

reprise après interruption : continuer depuis le point interrompu après l’arrêt d’une tâche
approval gate : exiger une approbation humaine avant de continuer à des nœuds critiques

Question de sélection : le runtime prend-il en charge l’exécution durable ? La revue humaine peut-elle interrompre puis reprendre le flux ?

Si une tâche d’agent peut durer des heures ou prendre des décisions critiques, comme des virements, des publications ou des validations, l’exécution durable et la revue humaine deviennent des exigences de production. Sinon, une coupure réseau ou un timeout peut perdre toute la tâche, ou laisser l’agent continuer là où il aurait dû s’arrêter.

Observabilité : tracing, métriques et remontée d’erreurs

Les chaînes d’exécution d’agents sont longues, donc l’observabilité est une exigence de production.

Continuum intègre le tracing Langfuse et fournit :

tracing d’exécution pour chaque agent, appel de modèle et appel d’outil
métriques comme la latence, le coût et le taux de succès
remontée d’erreurs pour exceptions, timeouts et nœuds échoués

Question de sélection : le runtime inclut-il une intégration de tracing ? Quelle est la qualité de son suivi d’erreurs ?

Sans tracing, un système d’agents devient une boîte noire en production. Vous ne savez pas quel nœud est lent, quel appel de modèle échoue ou quel outil expire. Le debugging retombe alors sur du grep de logs. Pour le monitoring et la reprise, voir monitoring, alertes et reprise d’échec pour AI agents.

Déploiement et gouvernance : self-hosting, indépendance cloud et conformité entreprise

Modèle de déploiement : self-hosted et indépendant du cloud.

Continuum se positionne comme une solution enterprise-grade et self-hosted. Il dépend de Docker, Redis, bases vectorielles, Temporal et Langfuse, que vous pouvez exécuter sur votre propre infrastructure.

Question de sélection : le runtime prend-il en charge le self-hosting ? Inclut-il une conception de gouvernance entreprise ?

Si votre projet impose que les données restent dans l’entreprise, ou s’il exige des traces d’audit et de conformité, le self-hosting devient une contrainte dure. Si un runtime dépend fortement de services managés d’un cloud provider précis, la conformité des données peut devenir impossible.

Checklist de capacités : Continuum sous forme de tableau complet

Utilisez ce tableau pour comparer les capacités de Continuum avec celles des autres runtimes que vous évaluez.

Module	Fonction	Implémentation	Question de sélection
agent core	agents typés, `BaseAgent`, `AgentRunner`	type safety Python	Le design est-il typé ?
orchestration multi-agent	neuf patterns comme sequential, parallel et routing	`orchestrator.agent`	Prend-il en charge plusieurs patterns d’orchestration ?
routage des modèles	routage des coûts Smart Inference	endpoint unique plus routage par classifieur	Dispose-t-il d’un contrôle des coûts ?
mémoire	sessions court terme plus mémoire vectorielle long terme	Redis + mem0 + Qdrant/Milvus	Sépare-t-il court terme et long terme ?
outils	support natif des serveurs MCP	interface unifiée `ToolExecutor`	Est-il natif MCP ?
exécution durable	workflows Temporal et reprise par checkpoint	module temporal	Prend-il en charge l’exécution durable ?
observabilité	tracing, métriques et erreurs	intégration Langfuse	Dispose-t-il d’une intégration de tracing ?
déploiement	self-hosted et indépendant du cloud	Docker + Redis + base vectorielle	Prend-il en charge le self-hosting ?

Ce tableau n’est pas une présentation produit de Continuum. C’est un cadre de sélection : chaque ligne correspond à une dimension, et chaque dimension correspond à une question à trancher.

Comparaison avec des frameworks voisins : où se situe Continuum dans l’écosystème

Principales options d’agent runtime en 2026 :

Framework	Maturité production	Routage des coûts	Support MCP	Exécution durable	Positionnement
LangGraph	élevée	non intégré	intégration nécessaire	oui	runtime à graphes avec écosystème mature
DeepAgents	élevée	hérite de LangGraph	intégration nécessaire	oui	harness battery-included basé sur LangGraph + LangChain
Continuum	élevée	Smart Inference	natif	Temporal	self-hosting entreprise avec routage des coûts distinctif
CrewAI	moyenne	aucun	intégration nécessaire	non	orchestration multi-agent simple
OpenAI Swarm	faible, expérimental	aucun	aucun	non	expérimentation légère, pas pour la production

La combinaison distinctive de Continuum : routage des coûts Smart Inference, support MCP natif et self-hosting entreprise.

Pour choisir, LangGraph et DeepAgents sont plus matures côté production, tandis que Continuum se distingue par le routage des coûts et MCP natif. Si votre scénario est sensible aux coûts et dépend de l’écosystème d’outils MCP, le design de Continuum mérite d’être étudié. Pour comparer le state tracking entre LangGraph et AutoGen, voir LangGraph vs AutoGen state tracking.

Coût de prise en main et risques

Liste des dépendances

Continuum n’est pas un framework léger où pip install règle tout. Un runtime d’entreprise vient avec des prérequis d’infrastructure :

Python 3.13+
Docker
Redis pour l’historique de session
Qdrant / Milvus pour la mémoire vectorielle
Temporal pour les workflows durables
Langfuse pour l’observabilité

Exemple d’installation

# Installation
git clone https://github.com/shyftlabs/continuum
cd continuum
python3.13 -m venv .venv && source .venv/bin/activate
pip install -e ".[dev]"
docker compose up -d
echo "SMART_GATEWAY_URL=https://continuum.shyftops.io/v1" >> .env

# Forme minimale
python - <<'PY'
from orchestrator.agent import BaseAgent
from orchestrator.agent.runner import AgentRunner

agent = BaseAgent(
    name="assistant",
    instructions="You are a helpful assistant.",
    model="gpt-4o-mini",
)

# Dans un vrai projet, suivez la documentation officielle pour async runner,
# session, memory et gateway configuration.
PY

Notez que docker compose up -d ne démarre qu’une partie de l’infrastructure locale. Un déploiement production exige aussi Temporal, Langfuse, des clés provider et des permissions réseau. La documentation officielle reste la source de vérité.

Scénarios adaptés

projets d’entreprise qui exigent contrôle des coûts, durabilité et observabilité
exigences de self-hosting où les données doivent rester dans l’entreprise et où l’indépendance cloud compte
collaboration multi-agent avec plusieurs patterns d’orchestration
workloads sensibles aux coûts qui nécessitent le routage Smart Inference

Points de risque

Risque de projet jeune : environ 70+ étoiles GitHub en 2026-06, et les APIs ou noms de modules peuvent changer.
Chiffres de coût à vérifier : 250+ modèles et 45+ providers sont des chiffres déclarés par le projet et doivent être testés.
Limite de périmètre : les dépendances à Temporal et Langfuse conviennent mal aux scénarios légers.
Dépendance documentaire : les exemples doivent rester minimaux, avec les détails renvoyés vers la documentation officielle.

Conclusion : construire votre propre cadre de sélection d’Agent Runtime

Le choix d’un agent runtime se résume à sept dimensions :

Modèles d’orchestration : prend-il en charge la collaboration multi-agent, et quels patterns vous faut-il, comme sequential, parallel, routing, planning et reflection ?
Routage des modèles : inclut-il un routage conscient des coûts, et peut-il éviter les factures incontrôlables ?
Système de mémoire : sépare-t-il court terme et long terme, et les intégrations de bases vectorielles sont-elles flexibles ?
Standards d’outillage : est-il natif MCP, et peut-il utiliser l’écosystème existant de serveurs MCP ?
Exécution durable : prend-il en charge la reprise par checkpoint et l’approbation humaine ?
Observabilité : inclut-il une intégration de tracing, et jusqu’où peut-il suivre les erreurs ?
Gouvernance de déploiement : est-il self-hosted et indépendant du cloud, et répond-il aux besoins de conformité entreprise ?

Continuum est un exemple utile parce qu’il montre une pile runtime de production complète : neuf patterns multi-agent, routage des coûts Smart Inference, support MCP natif, exécution durable Temporal et tracing Langfuse. Mais choisir ne signifie pas imiter. Pondérez ces dimensions selon votre scénario, puis comparez Continuum à LangGraph, DeepAgents et CrewAI.

Prochaine étape : listez les exigences de votre scénario et notez chaque runtime selon ces sept dimensions.

Comment évaluer si un agent runtime est prêt pour la production

Prenez Continuum comme référence et vérifiez, en sept dimensions, si un agent runtime peut passer du demo à la production.

⏱️ Estimated time: 30 min

1
Step 1: Confirmer les modèles d'orchestration
Listez les modes de collaboration dont vos agents ont besoin : sequential, parallel, routing, planning, reflection, debate ou supervised execution.
2
Step 2: Vérifier le routage des modèles et les budgets
Vérifiez si le runtime prend en charge les endpoints compatibles OpenAI, le routage multi-provider, les niveaux de qualité et les limites budgétaires par tâche.
3
Step 3: Séparer mémoire court terme et long terme
Concevez séparément l'historique de session, les préférences entre sessions, la connaissance projet et la mémoire supprimable, au lieu de demander seulement si une base vectorielle est supportée.
4
Step 4: Revoir le protocole d'outillage
Privilégiez un runtime natif MCP ou capable de se connecter à MCP de manière fiable, afin d'éviter de maintenir plus tard un protocole d'outils privé.
5
Step 5: Valider la reprise sur erreur et l'approbation humaine
Simulez des timeouts provider, des redémarrages de worker, des réponses 500 côté outil et des pauses d'approbation pour voir si la tâche peut reprendre, se dégrader ou se mettre en pause proprement.

FAQ

Qu'est-ce que Continuum ?

Continuum est l'agent runtime Python d'entreprise de ShyftLabs. Il vise à combiner collaboration multi-agent, routage des modèles, mémoire, tool calling, exécution durable et observabilité dans un système de production. Ce n'est pas un produit officiel OpenAI ; la mention OpenAI dans le titre renvoie surtout à l'intention de recherche et au modèle d'endpoint compatible OpenAI.

Quels critères comptent vraiment pour choisir un agent runtime ?

Utilisez sept dimensions : modèles d'orchestration, accès aux modèles et routage des coûts, mémoire court terme et long terme, standards d'outillage, exécution durable avec approbation humaine, tracing et remontée d'erreurs, puis gouvernance du déploiement. Un demo qui fonctionne une fois peut masquer les vrais problèmes de production : reprise, budget et audit.

Pourquoi Smart Inference de Continuum est-il utile ?

Smart Inference place le choix du modèle derrière un endpoint compatible OpenAI. Une couche de routage choisit les modèles selon la complexité, le coût et les niveaux de qualité. L'intérêt n'est pas seulement de réduire la facture : le choix du modèle, les limites budgétaires et le fallback provider sortent du code métier.

Continuum convient-il aux petits projets d'agents ?

Pas vraiment dans la plupart des cas. Les capacités complètes de Continuum dépendent d'une infrastructure comme Redis, des bases vectorielles, Temporal et Langfuse. Il convient mieux aux systèmes multi-agent, longs à exécuter, sensibles au budget et auditables qu'à un petit script single-agent.

Comment valider un agent runtime avant le rollout ?

Ne lancez pas seulement le demo happy path. Coupez Redis, arrêtez un provider, faites renvoyer 500 à un outil, redémarrez un worker et forcez la base vectorielle à ne rien retourner. Vérifiez ensuite si la tâche retry, se dégrade, se met en pause ou échoue proprement, et si les traces, budgets, approbations et statuts visibles par l'utilisateur restent clairs.

11 min de lecture · Publié le: 8 juin 2026 · Mis à jour le: 30 juil. 2026

Easton

IA & intelligence

Continuum : les critères à vérifier pour choisir un agent runtime compatible OpenAI

Positionnement : ce qu’est Continuum et pourquoi l’utiliser comme exemple