Chez Agora Software, nous avons fait le choix de l’inférence locale pour exécuter nos modèles d’IA. Pourquoi ? Parce que cette approche nous permet de maîtriser notre infrastructure, nos données et nos coûts. Découvrez notre retour d’expérience.
Pourquoi l’inférence locale ?
Génération de texte, analyse sémantique, extraction d’entités, traitement de documents multilingues. Un choix technique majeur nous a amenés à prendre une direction radicalement différente de la plupart des acteurs du marché.
Plutôt que de nous reposer sur les APIs (OpenAI, Anthropic, Google), nous avons fait le choix de l’inférence locale. C’est-à-dire exécuter les modèles de langage directement sur notre propre infrastructure, sur nos serveurs.
Ce choix n’est pas anodin. Car il implique de gérer soi-même :
- Les GPU,
- Les optimisations mémoire (VRAM),
- Le load balancing,
- La haute disponibilité.
Mais il nous apporte en contrepartie quelque chose d’important : la souveraineté, et la maîtrise de la stack technique jusqu’à l’inférence des modèles.
Dans cet article, je souhaite partager notre retour d’expérience sur cette transition, afin de vous donner quelques clés de compréhension.
Inférence locale : définition et comparaison des solutions
Inférence locale : définition et avantages clés
L’inférence locale permet d’exécuter des modèles de langage (LLM) directement sur ses serveurs, sans dépendre d’API externes. Une solution clé pour les entreprises soucieuses de souveraineté et de performance, notamment les éditeurs de logiciel.
Concrètement, cela signifie :
- Télécharger les modèles depuis des dépôts publics (HuggingFace)
- Les charger en mémoire sur des serveurs équipés de GPU
- Traiter les requêtes en local, sans que les données ne quittent votre infrastructure
- Gérer soi-même la montée en charge, la haute disponibilité, les performances
La différence fondamentale avec les APIs cloud ?
Avec l’inférence locale, vos données ne quittent jamais votre infrastructure. Un atout majeur pour le respect du RGPD et la confidentialité.
Comparaison des solutions d’inférence locale
Lorsqu’on se lance dans l’inférence locale, trois grandes familles de solutions s’offrent à nous. En résumé : chacune répond à des besoins différents.
Ollama est probablement la solution la plus accessible pour démarrer. Pensez à Docker pour les LLM : une interface simple, une commande, et votre modèle tourne en local.
Ollama s’occupe du téléchargement, de la configuration, du démarrage. C’est parfait pour des tests, du développement, des démos.
Mais dès qu’on passe en production, les limites apparaissent.
- Pas de contrôle fin sur l’allocation mémoire.
- Difficile de configurer précisément les paramètres d’inférence.
- Gestion basique du multi-GPU.
- Monitoring limité.
→ Pour un POC, c’est idéal. En conclusion : pour faire tourner une plateforme, c’est insuffisant.
vLLM adopte une philosophie différente : c’est un moteur pensé pour servir des LLM à forte concurrence.
PagedAttention, KV cache de manière dynamique, permettant de maximiser le nombre de requêtes simultanées sur des GPU puissants.
Cette approche est efficace dans un contexte bien précis : des GPU haut de gamme (A100, H100) avec beaucoup de VRAM, des modèles en fp16/bf16, et un volume important de requêtes concurrentes à traiter.
→ Aussi, vLLM est un excellent choix si vous disposez d’une infrastructure GPU haut de gamme et visez le maximum de throughput.
llama.cpp c’est le moteur d’inférence bas niveau développé par Georgi Gerganov.
Un projet en C++ optimisé qui fait tourner des modèles quantifiés avec une grande efficacité.
On a la possibilité de faire tourner des modèles quantisés (Q4_K_M, Q5_K_S…), de jouer sur le context size, le KV cache, le tensor splitting, en clair, vous avez le contrôle total.
Avec comme résultat :
- Une empreinte VRAM minimaliste,
- De bonnes performances,
- Une flexibilité absolue.
Notre choix : prendre llama.cpp comme socle et construire par-dessus une couche Agora. C’est ce que nous appelons Allama.cpp (A de Agora + llama.cpp).
Pourquoi avons-nous fait ce choix ?
Maîtrise technique, mais aussi souveraineté et confidentialité des données, c’est la raison principale, celle qui a déclenché toute notre réflexion.
Car effectivement, notre plateforme Agora traite des données sensibles :
- Logiciels RH contenant des informations personnelles
- Informations juridiques ou financières
- Échanges internes d’entreprises
- Données de collectivités territoriales
Pour chacun de ces cas d’usage, faire transiter les informations par des serveurs tiers est tout simplement impossible.
Le RGPD est clair : les données personnelles des citoyens européens ne peuvent pas être transférées hors UE sans garanties appropriées. Mais même avec des “garanties”, la réalité juridique américaine pose problème.
Le cas de la cour pénale internationale
Un exemple récent illustre le risque : après les sanctions américaines annoncées en février 2025 contre le procureur de la CPI, des témoins cités par l’Associated Press indiquent que Karim Khan a perdu l’accès à sa messagerie Microsoft et a dû migrer vers Proton Mail.
Plus largement, ces sanctions montrent comment des acteurs soumis à la juridiction américaine peuvent être contraints d’adapter ou de suspendre des services, y compris lorsque l’organisation opère en Europe.
Peu importe que les serveurs soient en Europe. Peu importe les engagements de Microsoft sur la “souveraineté numérique”. Le Could Act américain permet au gouvernement US d’exiger la communication de données, ou la coupure de services, pour toute entreprise soumise à la juridiction américaine.
Brad Smith, président de Microsoft, avait pourtant déclaré quelques semaines avant : « Dans le cas peu probable où un gouvernement nous ordonnerait de suspendre nos activités cloud en Europe, nous nous engageons à contester vigoureusement une telle mesure. » Cet engagement n’a pas tenu face à la pression politique.
Interrogé au Sénat français en juin 2025, le directeur des affaires publiques de Microsoft France a été d’une franchise désarmante : « Non, je ne peux pas garantir » que les données des citoyens français ne seront jamais transmises aux autorités américaines sans accord des autorités françaises.
Cette transparence mérite d’être saluée. Mais elle confirme qu’il existe une impossibilité structurelle : tant qu’une entreprise est sous juridiction américaine, elle doit obéir au droit américain, quelles que soient ses promesses.
Maîtrise des coûts
Au-delà de la souveraineté, il y a une réalité économique.
Les APIs cloud facturent au token. Pour de petits volumes, c’est pratique : pas d’infrastructure à gérer, vous payez ce que vous consommez. Mais dès que les volumes augmentent, l’équation change radicalement.
L’inférence locale nécessite un investissement initial en infrastructure (serveurs, GPU), mais le coût marginal par requête devient acceptable une fois l’investissement amorti.
Et surtout, vous obtenez quelque chose d’important : la prévisibilité budgétaire. Plus de mauvaise surprise en fin de mois parce qu’un client a généré beaucoup plus de requêtes que prévu. Votre coût infrastructure est fixe et connu à l’avance.
Performance et disponibilité
L’inférence locale apporte des avantages techniques concrets.
La latence d’abord. Pas de round-trip vers des serveurs distants. Pas de file d’attente partagée avec des milliers d’autres clients. Nos GPU traitent les requêtes directement. Pour des cas d’usage temps réel (chat conversationnel, etc.), cette réactivité fait la différence.
La disponibilité ensuite. Nous ne dépendons plus d’un tiers pour notre service critique. Plus de « API is currently unavailable » qui bloque toute la plateforme. Plus de rate limiting imprévisible. Nous maîtrisons notre SLA de bout en bout.
Évidemment, cela implique de gérer nous-mêmes la haute disponibilité, le load balancing, le monitoring. Mais c’est précisément notre métier.
Contrôle technique total
L’inférence locale offre une liberté technique totale. Nous choisissons précisément quel modèle utiliser. Il existe des dizaines de modèles open source, chacun optimisé pour un cas d’usage spécifique. Llama-3, Mistral, Qwen pour le texte. Qwen3-VL pour la vision. Des modèles spécialisés NER pour l’extraction d’entités etc.
Nous choisissons le niveau de quantization pour maximiser les performances. C’est nous qui décidons du compromis, en fonction de chaque cas d’usage.
Nous configurons tous les paramètres. Nous ajustons finement les prompts système sans être limités par les contraintes des APIs. Nous pouvons même fine-tuner les modèles sur nos propres données si nécessaire.
Aussi, nous proposons à nos clients de déployer les modèles chez eux, sur leurs GPU s’ils le souhaitent.
Et enfin, nous avons un monitoring complet de ce qui se passe. Utilisation VRAM en temps réel. Nombre de slots actifs. Latence par requête. Logs exhaustifs. Métriques de performance. Tout est observable, tout est mesurable, tout est optimisable.
Nos cas d'usage concrets
Concrètement, l’inférence locale alimente tous les projets de la plateforme Agora.
- Chat conversationnel multilingue : nos agents applicatifs dialoguent avec les utilisateurs en français, italien, espagnol, dans MS Teams, Google Chat, WhatsApp.
- NER (Named Entity Recognition) pour le français : extraction automatique d’entités dans des textes juridiques ou business (noms, dates, montants, références juridiques).
- Analyse sémantique et classification : routage intelligent de requêtes, détection d’intent, classification de documents.
- Génération de contenu : rédaction, reformulation, synthèses, traductions.
Faire tourner un LLM sur son laptop, c’est simple. Le faire tourner en production avec plusieurs GPU, du load balancing et une haute disponibilité, c’est une autre histoire. Dans un prochain article, nous vous montrerons comment nous avons construit Allama.cpp, notre moteur d’inférence maison.
_____________
Vous êtes un éditeur de logiciel et vous vous interrogez sur les enjeux de souveraineté, de performance et de maîtrise des coûts liés à l’IA ? Nous espérons que cet article vous aura éclairé sur les avantages de l’inférence locale, une approche clé pour répondre à ces défis.
Chez Agora Software, nous développons des solutions d’IA conversationnelle dédiées aux éditeurs. Nous déployons des interfaces conversationnelles applicatives, multilingues et omnicanales, pour enrichir l’expérience utilisateur de vos applications et plateformes.
Vous souhaitez explorer l’inférence locale pour vos projets IA ? Découvrez dans la [partie 2] comment nous avons construit Allama.cpp, notre moteur d’inférence sur mesure. Ou contactez-nous pour échanger sur vos besoins.
Si cet article vous a intéressé, vous pourriez aussi aimer l’article « IA agentique : employé idéal… ou bombe à retardement ?«
Et pour suivre notre actualité, rejoignez-nous sur notre page Linkedin
Vous voulez comprendre comment notre IA conversationnelle optimise la productivité et l’engagement de vos utilisateurs en complétant efficacement vos applications ?


