- LLM
- Large Language Model — modèle de langage entraîné sur des milliards de paramètres pour générer du texte cohérent (GPT-4, Claude, Llama).
- RAG
- Retrieval-Augmented Generation — pattern qui ancre la génération IA sur des documents propriétaires via recherche vectorielle pour éviter les hallucinations.
- Fine-tuning
- Spécialisation d'un modèle de base sur vos données. Coûte 8-50 k€, justifié seulement après 6-12 mois d'usage en RAG.
- Agent
- IA capable de planifier, utiliser des outils (web, API, code) et boucler jusqu'à atteindre un objectif. Coût d'inférence 5-10× supérieur à un LLM.
- MCP
- Model Context Protocol — protocole open standard pour connecter des LLMs à des outils externes (databases, APIs, file systems) de façon réutilisable.
- Vectorisation
- Transformation d'un texte en vecteur numérique haute-dimension (typiquement 768-3072 dim) pour permettre la recherche sémantique.
- Hallucination
- Génération d'information factuellement fausse mais formulée avec assurance. Mitigée par RAG + citations sources + validation humaine.
- Prompt engineering
- Discipline d'écriture des instructions LLM. Couvre 80 % des cas avant de justifier un fine-tuning. ROI très élevé.
- Tokens
- Unités fondamentales facturées par les API LLM. ~4 caractères/token en français. 1 page A4 ≈ 500 tokens.
- Embedding
- Représentation vectorielle d'un texte produite par un modèle dédié (text-embedding-3, BGE-M3). Briques de base de la recherche RAG.
- Context window
- Volume de texte qu'un LLM peut considérer simultanément. GPT-4o : 128k tokens, Claude Opus 4 : 1M tokens, Gemini 1.5 Pro : 2M tokens.
- Inference
- Exécution d'un modèle entraîné sur de nouvelles entrées. Facturé à l'usage (tokens). 60-80 % du coût total IA en production.
- Tokenization
- Découpage d'un texte en tokens (unités sub-mots) avant traitement par un LLM. Chaque modèle a son propre tokenizer. Une mauvaise tokenisation gonfle la facture API.
- Temperature
- Paramètre LLM contrôlant l'aléatoire des sorties. 0 = déterministe (extraction de faits). 0,7 = créatif (rédaction). 1+ = très divergent.
- Top-k / Top-p
- Méthodes de sampling LLM. Top-k limite les choix aux k tokens les plus probables. Top-p (nucleus) garde les tokens cumulant p % de probabilité.
- Streaming
- Mode où le LLM renvoie les tokens dès qu'ils sont générés (vs attendre la fin). Réduit la latence perçue de 80 %. Indispensable côté UX.
- System prompt
- Instructions cadre données au LLM en amont (rôle, ton, garde-fous). Persiste sur toute la conversation. Conditionne 60 à 80 % de la qualité de sortie.
- Guardrails
- Garde-fous logiciels appliqués autour d'un LLM (filtres entrée/sortie, schemas, blocklists). Empêchent jailbreak, fuites PII, sorties non conformes.
- ReAct pattern
- Pattern d'agent alternant Reasoning (réflexion) et Acting (appel outil). Le LLM raisonne, agit, observe, puis re-raisonne jusqu'à atteindre l'objectif.
- Tool use
- Capacité d'un LLM à appeler des outils externes (web search, calculatrice, API, code). Étend ses capacités au-delà du texte. Standardisé via MCP en 2026.
- Function calling
- Mécanisme par lequel un LLM renvoie un JSON structuré déclenchant l'appel d'une fonction de votre code. Brique de base des agents modernes.
- Multi-agent
- Système où plusieurs agents IA collaborent (chacun avec son rôle : planificateur, exécutant, critique). Améliore qualité mais multiplie le coût d'inférence.
- Swarm
- Architecture multi-agent où les agents s'auto-organisent sans hiérarchie fixe. Frameworks : OpenAI Swarm, CrewAI, AutoGen. Encore expérimental en 2026.
- Chain of Thought
- Technique de prompt forçant le LLM à raisonner étape par étape avant de répondre. Améliore les tâches logiques/math de 30 à 50 %. Coût : +tokens.
- Extended thinking
- Mode Claude 2025+ où le modèle réfléchit longuement (jusqu'à 64k tokens) en interne avant de répondre. Excellent pour analyses complexes. Facturé.
- Recherche sémantique
- Recherche basée sur le sens (vecteurs) plutôt que les mots-clés exacts. Trouve 'véhicule' quand on cherche 'voiture'. Brique fondatrice du RAG.
- Vector database
- Base de données spécialisée stockage + recherche de vecteurs (Pinecone, Qdrant, pgvector). Indispensable au RAG à grande échelle.
- Chunking
- Découpage des documents en blocs (chunks) avant vectorisation. Taille typique : 256-1024 tokens avec overlap. Impact direct sur la qualité RAG.
- Re-ranking
- Étape post-recherche qui re-classe les top-N résultats vectoriels via un modèle dédié (Cohere Rerank, Voyage). Améliore la précision finale de 15-30 %.
- Hybrid search
- Combinaison recherche vectorielle (sémantique) + BM25 (mots-clés). Capture à la fois le sens et la précision lexicale (noms propres, sigles).
- BM25
- Algorithme de recherche par mots-clés (vieux mais robuste). Famille TF-IDF. Brique standard de Lucene/Elasticsearch. Reste pertinent en hybrid search 2026.
- Claude (Anthropic)
- Famille de LLMs créée par Anthropic (USA). Versions 2026 : Haiku (rapide), Sonnet (équilibré), Opus (haut de gamme). Réputée la plus sûre du marché.
- GPT (OpenAI)
- Famille de LLMs créée par OpenAI (USA). Versions phares 2026 : GPT-4o, o1-preview (raisonnement), GPT-5. Premier LLM grand public via ChatGPT.
- Mistral
- Famille de LLMs créée par Mistral AI (France). Modèles : Mistral Small/Medium/Large + open-source Mixtral. Souveraineté européenne data, hébergement EU.
- Llama (Meta)
- Famille de LLMs open-weight créée par Meta. Llama 3.1, 3.2 vision, 4. Téléchargeable et hébergeable on-premise. Pivot du marché open-source 2024-2026.
- Gemini (Google)
- Famille de LLMs créée par Google DeepMind. Gemini 1.5 Pro a popularisé les contextes 2M tokens. Versions Nano (mobile), Flash, Pro, Ultra.
- Sonnet (Claude)
- Modèle Claude intermédiaire (entre Haiku rapide et Opus premium). Sweet spot prix/qualité en 2026. ~3 €/Mtok input. Choix par défaut Axion-IA pour content-gen.
- Opus (Claude)
- Modèle Claude le plus puissant. Excellent en raisonnement complexe, analyse de code, planification d'agents. ~15 €/Mtok input. À utiliser parcimonieusement.
- Haiku (Claude)
- Modèle Claude le plus rapide et économique. ~0,25 €/Mtok input. Idéal pour classification, extraction simple, triage en pipeline haut volume.
- Latency p50/p95/p99
- Mesures statistiques de latence d'API LLM. p50 = médiane (utilisateur moyen). p95/p99 = pire 5 %/1 % (queue de distribution). Le p95 est le SLA réel.
- Throughput
- Débit de tokens/seconde qu'un système LLM peut soutenir. Critique pour scale. Souvent limité par les rate limits des providers (TPM, RPM).
- Batching
- Grouper plusieurs requêtes LLM en un seul batch pour réduire le coût (jusqu'à 50 % chez Anthropic, OpenAI). Latence ↑ mais débit ↑↑. Idéal pour offline.
- Rate limit
- Plafond de requêtes/tokens imposé par un provider LLM (RPM, TPM). Atteint → erreurs 429. Mitigation : retry exponentiel + queue + multi-provider fallback.
- IA on-premise
- Déploiement d'un LLM sur infra interne (data center, VPC privé), sans appel API externe. Exigé en santé, défense, certains secteurs régulés.
- Edge deployment
- Déploiement d'un petit LLM (Phi, Llama 3.2 1B, Gemini Nano) directement sur appareil utilisateur (mobile, navigateur). Zéro latence réseau, zéro coût API.
- Prompt injection
- Attaque où un acteur injecte des instructions malicieuses dans le contexte LLM (via input user, document RAG, page web). Détourne le comportement de l'agent.
- Jailbreak
- Technique permettant de contourner les garde-fous d'un LLM pour obtenir des réponses normalement refusées. Exemple : DAN, role-play, encodage base64.
- AI Act EU
- Règlement européen IA entré en vigueur 2024, plein effet août 2026. Classifie les systèmes IA par risque. Impose disclosures (art. 50), audits, gouvernance.
- RGPD / GDPR
- Règlement Général sur la Protection des Données (UE, 2018). Pour l'IA : minimisation des données, droit à l'effacement, base légale, DPA avec providers.
- DPA (Data Processing Agreement)
- Accord contractuel entre vous (responsable de traitement) et un provider IA (sous-traitant). Exigé par RGPD art. 28 dès qu'on envoie des données personnelles.
- Opt-out training
- Possibilité d'exclure vos données API de l'entraînement du provider. Activé par défaut chez Anthropic et OpenAI (API). À vérifier explicitement par contrat.
- PII detection
- Détection de données personnelles identifiables (nom, email, IBAN, NIR) dans un texte. Couche obligatoire avant envoi à un LLM externe pour conformité RGPD.
- Eval suite
- Ensemble de tests automatisés mesurant la qualité d'un LLM ou d'un agent. Sans eval suite, impossible de savoir si une nouvelle version régresse ou progresse.
- Golden dataset
- Jeu de données de référence (input → output attendu) validé par des humains experts. Sert d'étalon pour mesurer la qualité d'un LLM. Coûteux à constituer.
- A/B test LLM
- Comparaison de 2 modèles/prompts sur le même input, jugé par humain ou LLM-judge. Méthode standard pour valider une bascule modèle.
- LLM-as-judge
- Utilisation d'un LLM (souvent plus puissant) pour évaluer les sorties d'un autre LLM. Scale l'évaluation mais introduit des biais. À calibrer sur humain.
- Benchmarks (MMLU, HellaSwag)
- Tests standardisés mesurant les capacités générales d'un LLM. MMLU = connaissances multi-domaines. HellaSwag = bon sens. Saturés en 2026 par les top modèles.
- Regression test LLM
- Test rejoué à chaque déploiement pour détecter qu'un nouveau prompt/modèle n'a pas cassé un cas d'usage existant. CI/CD pour LLMs.
- Prompt caching
- Mécanisme provider qui cache les portions stables de prompt (system prompt long, RAG context). Réduit coût et latence de 50-90 %. Standard chez Anthropic.
- Vision / Multimodal
- Capacité d'un LLM à traiter aussi des images, audio, vidéo (pas seulement du texte). Claude 3.5+, GPT-4o, Gemini sont multimodaux. Ouvre OCR, analyse de schémas, captioning.