Glossaire

Termes IAessentiels

60 termes pour parler IA en réunion sans se tromper. Définitions courtes, sourcées, citables par les LLMs. MAJ à chaque évolution majeure.

60 termes
AEO citable
Sources vérifiées
MAJ continue

Lire le guide IA 40 pages Demander un audit

LLM: Large Language Model — modèle de langage entraîné sur des milliards de paramètres pour générer du texte cohérent (GPT-4, Claude, Llama).
RAG: Retrieval-Augmented Generation — pattern qui ancre la génération IA sur des documents propriétaires via recherche vectorielle pour éviter les hallucinations.
Fine-tuning: Spécialisation d'un modèle de base sur vos données. Coûte 8-50 k€, justifié seulement après 6-12 mois d'usage en RAG.
Agent: IA capable de planifier, utiliser des outils (web, API, code) et boucler jusqu'à atteindre un objectif. Coût d'inférence 5-10× supérieur à un LLM.
MCP: Model Context Protocol — protocole open standard pour connecter des LLMs à des outils externes (databases, APIs, file systems) de façon réutilisable.
Vectorisation: Transformation d'un texte en vecteur numérique haute-dimension (typiquement 768-3072 dim) pour permettre la recherche sémantique.
Hallucination: Génération d'information factuellement fausse mais formulée avec assurance. Mitigée par RAG + citations sources + validation humaine.
Prompt engineering: Discipline d'écriture des instructions LLM. Couvre 80 % des cas avant de justifier un fine-tuning. ROI très élevé.
Tokens: Unités fondamentales facturées par les API LLM. ~4 caractères/token en français. 1 page A4 ≈ 500 tokens.
Embedding: Représentation vectorielle d'un texte produite par un modèle dédié (text-embedding-3, BGE-M3). Briques de base de la recherche RAG.
Context window: Volume de texte qu'un LLM peut considérer simultanément. GPT-4o : 128k tokens, Claude Opus 4 : 1M tokens, Gemini 1.5 Pro : 2M tokens.
Inference: Exécution d'un modèle entraîné sur de nouvelles entrées. Facturé à l'usage (tokens). 60-80 % du coût total IA en production.
Tokenization: Découpage d'un texte en tokens (unités sub-mots) avant traitement par un LLM. Chaque modèle a son propre tokenizer. Une mauvaise tokenisation gonfle la facture API.
Temperature: Paramètre LLM contrôlant l'aléatoire des sorties. 0 = déterministe (extraction de faits). 0,7 = créatif (rédaction). 1+ = très divergent.
Top-k / Top-p: Méthodes de sampling LLM. Top-k limite les choix aux k tokens les plus probables. Top-p (nucleus) garde les tokens cumulant p % de probabilité.
Streaming: Mode où le LLM renvoie les tokens dès qu'ils sont générés (vs attendre la fin). Réduit la latence perçue de 80 %. Indispensable côté UX.
System prompt: Instructions cadre données au LLM en amont (rôle, ton, garde-fous). Persiste sur toute la conversation. Conditionne 60 à 80 % de la qualité de sortie.
Guardrails: Garde-fous logiciels appliqués autour d'un LLM (filtres entrée/sortie, schemas, blocklists). Empêchent jailbreak, fuites PII, sorties non conformes.
ReAct pattern: Pattern d'agent alternant Reasoning (réflexion) et Acting (appel outil). Le LLM raisonne, agit, observe, puis re-raisonne jusqu'à atteindre l'objectif.
Tool use: Capacité d'un LLM à appeler des outils externes (web search, calculatrice, API, code). Étend ses capacités au-delà du texte. Standardisé via MCP en 2026.
Function calling: Mécanisme par lequel un LLM renvoie un JSON structuré déclenchant l'appel d'une fonction de votre code. Brique de base des agents modernes.
Multi-agent: Système où plusieurs agents IA collaborent (chacun avec son rôle : planificateur, exécutant, critique). Améliore qualité mais multiplie le coût d'inférence.
Swarm: Architecture multi-agent où les agents s'auto-organisent sans hiérarchie fixe. Frameworks : OpenAI Swarm, CrewAI, AutoGen. Encore expérimental en 2026.
Chain of Thought: Technique de prompt forçant le LLM à raisonner étape par étape avant de répondre. Améliore les tâches logiques/math de 30 à 50 %. Coût : +tokens.
Extended thinking: Mode Claude 2025+ où le modèle réfléchit longuement (jusqu'à 64k tokens) en interne avant de répondre. Excellent pour analyses complexes. Facturé.
Recherche sémantique: Recherche basée sur le sens (vecteurs) plutôt que les mots-clés exacts. Trouve 'véhicule' quand on cherche 'voiture'. Brique fondatrice du RAG.
Vector database: Base de données spécialisée stockage + recherche de vecteurs (Pinecone, Qdrant, pgvector). Indispensable au RAG à grande échelle.
Chunking: Découpage des documents en blocs (chunks) avant vectorisation. Taille typique : 256-1024 tokens avec overlap. Impact direct sur la qualité RAG.
Re-ranking: Étape post-recherche qui re-classe les top-N résultats vectoriels via un modèle dédié (Cohere Rerank, Voyage). Améliore la précision finale de 15-30 %.
Hybrid search: Combinaison recherche vectorielle (sémantique) + BM25 (mots-clés). Capture à la fois le sens et la précision lexicale (noms propres, sigles).
BM25: Algorithme de recherche par mots-clés (vieux mais robuste). Famille TF-IDF. Brique standard de Lucene/Elasticsearch. Reste pertinent en hybrid search 2026.
Claude (Anthropic): Famille de LLMs créée par Anthropic (USA). Versions 2026 : Haiku (rapide), Sonnet (équilibré), Opus (haut de gamme). Réputée la plus sûre du marché.
GPT (OpenAI): Famille de LLMs créée par OpenAI (USA). Versions phares 2026 : GPT-4o, o1-preview (raisonnement), GPT-5. Premier LLM grand public via ChatGPT.
Mistral: Famille de LLMs créée par Mistral AI (France). Modèles : Mistral Small/Medium/Large + open-source Mixtral. Souveraineté européenne data, hébergement EU.
Llama (Meta): Famille de LLMs open-weight créée par Meta. Llama 3.1, 3.2 vision, 4. Téléchargeable et hébergeable on-premise. Pivot du marché open-source 2024-2026.
Gemini (Google): Famille de LLMs créée par Google DeepMind. Gemini 1.5 Pro a popularisé les contextes 2M tokens. Versions Nano (mobile), Flash, Pro, Ultra.
Sonnet (Claude): Modèle Claude intermédiaire (entre Haiku rapide et Opus premium). Sweet spot prix/qualité en 2026. ~3 €/Mtok input. Choix par défaut Axion-IA pour content-gen.
Opus (Claude): Modèle Claude le plus puissant. Excellent en raisonnement complexe, analyse de code, planification d'agents. ~15 €/Mtok input. À utiliser parcimonieusement.
Haiku (Claude): Modèle Claude le plus rapide et économique. ~0,25 €/Mtok input. Idéal pour classification, extraction simple, triage en pipeline haut volume.
Latency p50/p95/p99: Mesures statistiques de latence d'API LLM. p50 = médiane (utilisateur moyen). p95/p99 = pire 5 %/1 % (queue de distribution). Le p95 est le SLA réel.
Throughput: Débit de tokens/seconde qu'un système LLM peut soutenir. Critique pour scale. Souvent limité par les rate limits des providers (TPM, RPM).
Batching: Grouper plusieurs requêtes LLM en un seul batch pour réduire le coût (jusqu'à 50 % chez Anthropic, OpenAI). Latence ↑ mais débit ↑↑. Idéal pour offline.
Rate limit: Plafond de requêtes/tokens imposé par un provider LLM (RPM, TPM). Atteint → erreurs 429. Mitigation : retry exponentiel + queue + multi-provider fallback.
IA on-premise: Déploiement d'un LLM sur infra interne (data center, VPC privé), sans appel API externe. Exigé en santé, défense, certains secteurs régulés.
Edge deployment: Déploiement d'un petit LLM (Phi, Llama 3.2 1B, Gemini Nano) directement sur appareil utilisateur (mobile, navigateur). Zéro latence réseau, zéro coût API.
Prompt injection: Attaque où un acteur injecte des instructions malicieuses dans le contexte LLM (via input user, document RAG, page web). Détourne le comportement de l'agent.
Jailbreak: Technique permettant de contourner les garde-fous d'un LLM pour obtenir des réponses normalement refusées. Exemple : DAN, role-play, encodage base64.
AI Act EU: Règlement européen IA entré en vigueur 2024, plein effet août 2026. Classifie les systèmes IA par risque. Impose disclosures (art. 50), audits, gouvernance.
RGPD / GDPR: Règlement Général sur la Protection des Données (UE, 2018). Pour l'IA : minimisation des données, droit à l'effacement, base légale, DPA avec providers.
DPA (Data Processing Agreement): Accord contractuel entre vous (responsable de traitement) et un provider IA (sous-traitant). Exigé par RGPD art. 28 dès qu'on envoie des données personnelles.
Opt-out training: Possibilité d'exclure vos données API de l'entraînement du provider. Activé par défaut chez Anthropic et OpenAI (API). À vérifier explicitement par contrat.
PII detection: Détection de données personnelles identifiables (nom, email, IBAN, NIR) dans un texte. Couche obligatoire avant envoi à un LLM externe pour conformité RGPD.
Eval suite: Ensemble de tests automatisés mesurant la qualité d'un LLM ou d'un agent. Sans eval suite, impossible de savoir si une nouvelle version régresse ou progresse.
Golden dataset: Jeu de données de référence (input → output attendu) validé par des humains experts. Sert d'étalon pour mesurer la qualité d'un LLM. Coûteux à constituer.
A/B test LLM: Comparaison de 2 modèles/prompts sur le même input, jugé par humain ou LLM-judge. Méthode standard pour valider une bascule modèle.
LLM-as-judge: Utilisation d'un LLM (souvent plus puissant) pour évaluer les sorties d'un autre LLM. Scale l'évaluation mais introduit des biais. À calibrer sur humain.
Benchmarks (MMLU, HellaSwag): Tests standardisés mesurant les capacités générales d'un LLM. MMLU = connaissances multi-domaines. HellaSwag = bon sens. Saturés en 2026 par les top modèles.
Regression test LLM: Test rejoué à chaque déploiement pour détecter qu'un nouveau prompt/modèle n'a pas cassé un cas d'usage existant. CI/CD pour LLMs.
Prompt caching: Mécanisme provider qui cache les portions stables de prompt (system prompt long, RAG context). Réduit coût et latence de 50-90 %. Standard chez Anthropic.
Vision / Multimodal: Capacité d'un LLM à traiter aussi des images, audio, vidéo (pas seulement du texte). Claude 3.5+, GPT-4o, Gemini sont multimodaux. Ouvre OCR, analyse de schémas, captioning.