GEO
La mécanique de compréhension des IA
Comment une machine lit, interprète et restitue votre entreprise
« Avant d'optimiser pour une intelligence, il faut comprendre comment elle pense. » — Florian Delage
Navigation GEO
Une plongée dans la machinerie
Le Volume I a établi le décor. Il a raconté la mutation du search, posé le vocabulaire du GEO, et esquissé les mécanismes par lesquels les moteurs génératifs construisent leurs réponses. C'était une carte.
Ce Volume II est une plongée.
Là où le premier ouvrage survolait, celui-ci descend dans la machinerie. Comment un texte devient-il, concrètement, un vecteur mathématique ? Que se passe-t-il, exactement, lorsque Perplexity « récupère » une source ? Pourquoi certaines pages sont-elles citées massivement, et d'autres jamais ? Quels signaux les modèles évaluent-ils réellement, et avec quelle pondération relative ?
Ces questions, beaucoup les esquivent. Soit parce qu'ils n'ont pas la culture technique pour y répondre, soit parce qu'ils préfèrent vendre une méthode plutôt qu'expliquer un mécanisme. Nous prenons ici le pari inverse : exposer la mécanique avec rigueur, sans la noyer dans le jargon, sans la trahir par la simplification.
Ce volume est plus technique que le précédent. Il assume cette densité. Il s'adresse aux dirigeants exigeants, aux responsables marketing senior, aux consultants, aux développeurs, aux éditeurs de contenu qui veulent comprendre — vraiment — sur quoi ils travaillent.
À la fin de ce volume, vous saurez ce qu'est un embedding, comment fonctionne un système RAG, ce que les modèles évaluent quand ils sélectionnent une source, et où placer vos efforts pour augmenter durablement votre lisibilité machine-readable.
C'est, à notre sens, le socle technique de toute pratique GEO sérieuse.
L'anatomie d'une entité
1.1 — Pourquoi commencer ici
Toute la mécanique de compréhension des IA repose sur une unité fondamentale : l'entité. Avant d'expliquer comment les modèles vectorisent, récupèrent et synthétisent, il faut comprendre ce qu'ils manipulent. Le Volume I a introduit la notion. Ce chapitre la dissèque.
1.2 — Définition rigoureuse
Une entité, au sens informatique, est un objet identifiable, distinct, et nommable, doté d'une existence propre dans une base de connaissances. Cette définition contient trois exigences.
L'identifiabilité suppose qu'on puisse pointer vers l'entité de manière non ambiguë. « Florian Delage » est une chaîne de caractères ; « Florian Delage, fondateur d'ENOV SEO » est une identification ; un identifiant unique, une URI ou une propriété sameAs fournit une référence stable.
La distinction suppose qu'on puisse séparer cette entité d'une autre portant un nom proche. Deux personnes peuvent s'appeler Florian Delage. Les moteurs doivent les désambiguïser.
La nommabilité suppose qu'on puisse y faire référence par un nom canonique, éventuellement enrichi d'alias, de variantes orthographiques, de surnoms ou de traductions.
1.3 — Typologie des entités
Les moteurs génératifs manipulent plusieurs grands types d'entités, codifiés notamment par schema.org : Person, Organization, LocalBusiness, Place, Product, Service, Event, CreativeWork et Concept.
───────────────────────────────────────────────────── TYPOLOGIE — ENTITÉS MAJEURES ───────────────────────────────────────────────────── 👤 Person Personnes physiques nommées 🏢 Organization Entreprises, institutions 📍 LocalBusiness Établissements géolocalisés 🗺 Place Lieux géographiques 📦 Product Produits commercialisés ⚙ Service Services proposés 📚 CreativeWork Articles, livres, vidéos 💡 Concept Idées, méthodes, frameworks ─────────────────────────────────────────────────────
1.4 — Le triplet sémantique
Sous la surface, les entités s'articulent en triplets : sujet — prédicat — objet. Exemple : Florian Delage — fondateur de — ENOV SEO ; ENOV SEO — spécialisé dans — GEO.
Cette structure, héritée du web sémantique, reste la grammaire profonde des bases de connaissances modernes : Knowledge Graph, Wikidata, représentations internes des LLM.
Pour le GEO, la conséquence est directe : chaque page doit produire des triplets clairs. Un contenu qui multiplie les affirmations factuelles, attribuables et structurables nourrit plus efficacement les modèles qu'un contenu fluide mais évasif.
1.5 — Désambiguïsation : le défi central
Le plus grand défi technique pour les moteurs n'est pas de reconnaître une entité, mais de savoir de quelle entité on parle. Le contexte sémantique, les identifiants explicites et la cohérence interne du site travaillent ensemble pour résoudre cette ambiguïté.
1.6 — Construction pratique d'une entité forte
─────────────────────────────────────────────────────
LES 5 COUCHES DE L'ÉPAISSEUR SÉMANTIQUE
─────────────────────────────────────────────────────
1. Déclaration interne
JSON-LD, type précis, propriétés riches
2. Cohérence on-site
Nom, expertise, périmètre, services
3. Attestation externe
LinkedIn, annuaires, presse, profils tiers
4. Production éditoriale
Articles signés, interviews, publications
5. Maintenance dans le temps
Mises à jour cohérentes, zéro contradiction
─────────────────────────────────────────────────────
Une entité forte n'est pas une entité bien nommée. C'est une entité multiplement déclarée, intrinsèquement cohérente, externellement attestée et stable dans le temps.
Embeddings — La géométrie du sens
2.1 — Le problème fondamental
Une machine ne comprend pas les mots. Elle manipule des nombres. Pour qu'un modèle de langage puisse raisonner sur du texte, il faut traduire ce texte en une représentation numérique exploitable. Cette traduction porte un nom : les embeddings.
2.2 — Définition technique
Un embedding est un vecteur de nombres réels, généralement de dimension 384, 768, 1536 ou plus, qui représente un texte dans un espace géométrique abstrait.
───────────────────────────────────────────────────── EMBEDDING — illustration simplifiée ───────────────────────────────────────────────────── "notaire à Lyon" → [ 0.18, -0.42, 0.91, 0.05, -0.33 ] "office notarial lyonnais" → [ 0.21, -0.39, 0.88, 0.07, -0.31 ] "restaurant à Marseille" → [ -0.45, 0.62, -0.11, 0.78, 0.23 ] ─────────────────────────────────────────────────────
Deux textes sémantiquement proches produisent des vecteurs géométriquement proches. Un texte éloigné produit un vecteur différent. C'est la propriété centrale des embeddings.
2.3 — La similarité cosinus
La similarité cosinus mesure l'angle entre deux vecteurs dans l'espace, indépendamment de leur longueur. Plus le cosinus est proche de 1, plus les contenus sont proches sémantiquement.
2.4 — D'où viennent les embeddings ?
Les embeddings résultent d'un modèle d'embedding, entraîné sur de gigantesques corpus de textes. Les modèles modernes apprennent à placer dans l'espace vectoriel des textes qui se ressemblent sémantiquement.
2.5 — Granularité et chunking
Les systèmes RAG ne vectorisent pas toujours une page entière. Ils la découpent souvent en fragments : mots, phrases, paragraphes ou chunks de plusieurs centaines de tokens. Pour le GEO, la conséquence est majeure : les moteurs ne lisent pas seulement votre page, ils réutilisent ses passages.
Un contenu chunk-friendly comporte des paragraphes autonomes, des titres descriptifs, une densité informationnelle forte et une structure lisible sans dépendre du paragraphe précédent.
Le retrieval expliqué de bout en bout
3.1 — Du vecteur à la réponse
Un embedding seul ne sert à rien. Sa valeur tient à ce qu'on en fait. Dans les systèmes génératifs modernes, cette exploitation s'appelle le retrieval : la récupération des sources les plus pertinentes.
─────────────────────────────────────────────────────
PIPELINE DE RETRIEVAL — 5 ÉTAPES
─────────────────────────────────────────────────────
1. Vectorisation de la question
↓
2. Recherche vectorielle top-k
↓
3. Re-ranking
↓
4. Assemblage du contexte
↓
5. Transmission au LLM
→ génération de la réponse
─────────────────────────────────────────────────────
3.2 — Recherche vectorielle top-k
L'index vectoriel contient potentiellement des millions ou milliards de vecteurs. Des structures spécialisées comme HNSW, IVF, PQ, ScaNN ou FAISS permettent de retrouver rapidement les vecteurs les plus proches d'une requête.
3.3 — Re-ranking
Le re-ranking réévalue les candidats selon des critères additionnels : fraîcheur, autorité de la source, pertinence contextuelle fine, diversité et signaux de confiance. Après cette étape, seules quelques sources constituent le contexte final.
C'est ici que se joue techniquement une grande partie du GEO. Pour être cité, un contenu doit être pertinent vectoriellement, mais aussi suffisamment fiable, structuré, frais et explicite.
Le RAG — Quand l'IA cite ses sources
L'architecture qui a transformé les LLM hallucinants en moteurs de réponse vérifiables.
Le RAG — Retrieval-Augmented Generation — est une brique stratégique du référencement à l'ère IA. Comprendre son fonctionnement, c'est comprendre pourquoi une marque est citée ou ignorée dans une réponse générative.
Un LLM seul génère à partir de sa mémoire interne. Avec RAG, le modèle interroge une base documentaire externe, récupère les passages pertinents, puis génère une réponse ancrée sur ces extraits.
─────────────────────────────────────────────────────
ARCHITECTURE RAG SIMPLIFIÉE
─────────────────────────────────────────────────────
Utilisateur → Question
↓
RETRIEVAL : vectorisation, top-k, re-ranking
↓
CONTEXTE : passages sélectionnés
↓
GENERATION : GPT, Gemini, Claude, Mistral
↓
Réponse + citations potentielles
─────────────────────────────────────────────────────
4.1 — Les variantes de RAG
RAG naïf. Une seule requête, une seule passe de retrieval, une seule génération.
RAG itératif. Le modèle pose plusieurs sous-questions, effectue plusieurs retrievals successifs et affine sa compréhension.
RAG agentique. Un agent décide quand interroger une base, chercher sur le web, appeler une API ou reformuler.
RAG hybride. Il combine recherche vectorielle sémantique et recherche par mots-clés.
« Un bon système RAG ne se contente pas de retrouver des documents pertinents : il retrouve les bons passages dans les bons documents. »
4.2 — Les sept principes d'un contenu RAG-ready
① Paragraphe autonome. Chaque paragraphe doit pouvoir être extrait et compris sans contexte.
② Densité informationnelle. Un paragraphe doit porter une idée claire, un fait utile et une information vérifiable.
③ Nommage explicite. Dire « GEO (Generative Engine Optimization) » plutôt que « cette discipline ».
④ Hiérarchie sémantique. Les titres H2/H3 doivent annoncer précisément le contenu du bloc.
⑤ Données structurées JSON-LD. Article, FAQPage, Organization, Person et BreadcrumbList.
⑥ Fraîcheur datée. Une date visible et cohérente dans le HTML et le JSON-LD.
⑦ Citabilité. Des phrases courtes, des affirmations claires et des chiffres sourcés.
Les signaux de confiance
Pourquoi une IA choisit-elle de citer une source plutôt qu'une autre ?
Parmi les milliers de documents que le retrieval peut remonter pour une requête donnée, seuls quelques-uns seront effectivement cités. Le re-ranker tranche selon une combinaison pondérée de signaux.
| Signal | Pondération indicative | Levier d'action |
|---|---|---|
| Autorité du domaine | ★★★★★ | Backlinks, ancienneté, mentions de marque |
| Cohérence des entités | ★★★★★ | NAP, sameAs, profils tiers, Knowledge Graph |
| Données structurées | ★★★★☆ | JSON-LD validé, schemas adaptés |
| Attestations externes | ★★★★☆ | Presse, plateformes, profils professionnels |
| Fraîcheur | ★★★★☆ | Dates visibles, mises à jour datées |
| Auteur identifié | ★★★☆☆ | Page auteur, JSON-LD Person, biographie |
5.1 — Construire l'autorité de domaine à l'ère IA
L'autorité ne se résume plus au PageRank. À l'ère générative, elle se mesure aussi à la récurrence des mentions de votre marque dans les corpus, les bases de retrieval et les sources externes indexables.
5.2 — La cohérence des entités
Le nom, l'adresse, le SIRET, le dirigeant, le site web, les services et les profils doivent converger. Toute incohérence fragilise le nœud entité.
« La cohérence n'est pas un détail administratif. C'est le contrat de confiance que vous signez avec les machines. »
5.3 — L'auteur, signal montant
Les systèmes de re-ranking accordent un poids croissant à l'identification de l'auteur, surtout sur les sujets exigeant expertise, confiance et responsabilité.
Cas pratique — Un cabinet comptable à Bordeaux
Du contenu publié à la citation IA, en sept étapes critiques.
Cabinet Lambert & Associés, expertise comptable, Bordeaux, douze collaborateurs, spécialisé en fiscalité internationale. En janvier 2026, le cabinet publie un article : « Fiscalité des expatriés français au Portugal : ce qui change en 2026 ».
Étape 1 — La publication
L'article est signé par une experte-comptable. La page contient un JSON-LD Article, un JSON-LD Person, un JSON-LD Organization et une FAQPage.
Étape 2 — L'indexation et la vectorisation
Les crawlers découpent le texte en chunks, les vectorisent et les ajoutent à leur base de retrieval.
Étape 3 — La requête utilisateur
Un utilisateur demande à Perplexity si le statut RNH au Portugal existe toujours en 2026 pour les Français.
Étape 4 — Le retrieval
Le moteur vectorise la question, remonte plusieurs documents candidats et les transmet au re-ranker.
Étape 5 — Le re-ranking
La fraîcheur, l'auteur identifié, les données structurées et la cohérence d'entité augmentent les chances d'intégrer le contexte final.
Étape 6 — La citation
La réponse générée intègre plusieurs sources. Si l'article est suffisamment pertinent et fiable, il peut être cité.
Étape 7 — L'impact à long terme
Une citation IA n'est pas seulement un clic. C'est un dépôt de capital sémantique qui renforce progressivement la représentation de l'entité.
Synthèse & prochaines étapes
Les sept piliers techniques à graver dans votre roadmap éditoriale.
Transition vers le Volume III
Le Volume II vous a donné la mécanique. Le Volume III vous donnera la méthode : le framework E-N-O-V — Entités, Narration sémantique, Optimisation structurelle, Validation externe.
Continuer la lecture
Le Framework E-N-O-V
La méthode opérationnelle propriétaire pour piloter un projet GEO de bout en bout.
