Florian Delage

GEO

Volume II

La mécanique de compréhension des IA

Comment une machine lit, interprète et restitue votre entreprise

Florian Delage

ENOV SEO — Volume II

« Avant d'optimiser pour une intelligence, il faut comprendre comment elle pense. » — Florian Delage

Navigation GEO

Bibliothèque GEORetour au hub des 5 volumes →

Volume ILire les fondations du GEO →

Volume IIIDécouvrir le framework E-N-O-V →

AccompagnementVoir la page consultant GEO France →

Avant-propos

Une plongée dans la machinerie

Le Volume I a établi le décor. Il a raconté la mutation du search, posé le vocabulaire du GEO, et esquissé les mécanismes par lesquels les moteurs génératifs construisent leurs réponses. C'était une carte.

Ce Volume II est une plongée.

Là où le premier ouvrage survolait, celui-ci descend dans la machinerie. Comment un texte devient-il, concrètement, un vecteur mathématique ? Que se passe-t-il, exactement, lorsque Perplexity « récupère » une source ? Pourquoi certaines pages sont-elles citées massivement, et d'autres jamais ? Quels signaux les modèles évaluent-ils réellement, et avec quelle pondération relative ?

Ces questions, beaucoup les esquivent. Soit parce qu'ils n'ont pas la culture technique pour y répondre, soit parce qu'ils préfèrent vendre une méthode plutôt qu'expliquer un mécanisme. Nous prenons ici le pari inverse : exposer la mécanique avec rigueur, sans la noyer dans le jargon, sans la trahir par la simplification.

Ce volume est plus technique que le précédent. Il assume cette densité. Il s'adresse aux dirigeants exigeants, aux responsables marketing senior, aux consultants, aux développeurs, aux éditeurs de contenu qui veulent comprendre — vraiment — sur quoi ils travaillent.

À la fin de ce volume, vous saurez ce qu'est un embedding, comment fonctionne un système RAG, ce que les modèles évaluent quand ils sélectionnent une source, et où placer vos efforts pour augmenter durablement votre lisibilité machine-readable.

C'est, à notre sens, le socle technique de toute pratique GEO sérieuse.

Partie I

L'anatomie d'une entité

1.1 — Pourquoi commencer ici

Toute la mécanique de compréhension des IA repose sur une unité fondamentale : l'entité. Avant d'expliquer comment les modèles vectorisent, récupèrent et synthétisent, il faut comprendre ce qu'ils manipulent. Le Volume I a introduit la notion. Ce chapitre la dissèque.

1.2 — Définition rigoureuse

Une entité, au sens informatique, est un objet identifiable, distinct, et nommable, doté d'une existence propre dans une base de connaissances. Cette définition contient trois exigences.

L'identifiabilité suppose qu'on puisse pointer vers l'entité de manière non ambiguë. « Florian Delage » est une chaîne de caractères ; « Florian Delage, fondateur d'ENOV SEO » est une identification ; un identifiant unique, une URI ou une propriété sameAs fournit une référence stable.

La distinction suppose qu'on puisse séparer cette entité d'une autre portant un nom proche. Deux personnes peuvent s'appeler Florian Delage. Les moteurs doivent les désambiguïser.

La nommabilité suppose qu'on puisse y faire référence par un nom canonique, éventuellement enrichi d'alias, de variantes orthographiques, de surnoms ou de traductions.

1.3 — Typologie des entités

Les moteurs génératifs manipulent plusieurs grands types d'entités, codifiés notamment par schema.org : Person, Organization, LocalBusiness, Place, Product, Service, Event, CreativeWork et Concept.

─────────────────────────────────────────────────────
  TYPOLOGIE — ENTITÉS MAJEURES
─────────────────────────────────────────────────────

  👤 Person              Personnes physiques nommées
  🏢 Organization        Entreprises, institutions
  📍 LocalBusiness       Établissements géolocalisés
  🗺  Place              Lieux géographiques
  📦 Product             Produits commercialisés
  ⚙  Service             Services proposés
  📚 CreativeWork        Articles, livres, vidéos
  💡 Concept             Idées, méthodes, frameworks

─────────────────────────────────────────────────────

1.4 — Le triplet sémantique

Sous la surface, les entités s'articulent en triplets : sujet — prédicat — objet. Exemple : Florian Delage — fondateur de — ENOV SEO ; ENOV SEO — spécialisé dans — GEO.

Cette structure, héritée du web sémantique, reste la grammaire profonde des bases de connaissances modernes : Knowledge Graph, Wikidata, représentations internes des LLM.

Pour le GEO, la conséquence est directe : chaque page doit produire des triplets clairs. Un contenu qui multiplie les affirmations factuelles, attribuables et structurables nourrit plus efficacement les modèles qu'un contenu fluide mais évasif.

1.5 — Désambiguïsation : le défi central

Le plus grand défi technique pour les moteurs n'est pas de reconnaître une entité, mais de savoir de quelle entité on parle. Le contexte sémantique, les identifiants explicites et la cohérence interne du site travaillent ensemble pour résoudre cette ambiguïté.

1.6 — Construction pratique d'une entité forte

─────────────────────────────────────────────────────
  LES 5 COUCHES DE L'ÉPAISSEUR SÉMANTIQUE
─────────────────────────────────────────────────────

  1. Déclaration interne
     JSON-LD, type précis, propriétés riches

  2. Cohérence on-site
     Nom, expertise, périmètre, services

  3. Attestation externe
     LinkedIn, annuaires, presse, profils tiers

  4. Production éditoriale
     Articles signés, interviews, publications

  5. Maintenance dans le temps
     Mises à jour cohérentes, zéro contradiction

─────────────────────────────────────────────────────

Une entité forte n'est pas une entité bien nommée. C'est une entité multiplement déclarée, intrinsèquement cohérente, externellement attestée et stable dans le temps.

Partie II

Embeddings — La géométrie du sens

2.1 — Le problème fondamental

Une machine ne comprend pas les mots. Elle manipule des nombres. Pour qu'un modèle de langage puisse raisonner sur du texte, il faut traduire ce texte en une représentation numérique exploitable. Cette traduction porte un nom : les embeddings.

2.2 — Définition technique

Un embedding est un vecteur de nombres réels, généralement de dimension 384, 768, 1536 ou plus, qui représente un texte dans un espace géométrique abstrait.

─────────────────────────────────────────────────────
  EMBEDDING — illustration simplifiée
─────────────────────────────────────────────────────

  "notaire à Lyon"
  → [ 0.18, -0.42, 0.91, 0.05, -0.33 ]

  "office notarial lyonnais"
  → [ 0.21, -0.39, 0.88, 0.07, -0.31 ]

  "restaurant à Marseille"
  → [ -0.45, 0.62, -0.11, 0.78, 0.23 ]

─────────────────────────────────────────────────────

Deux textes sémantiquement proches produisent des vecteurs géométriquement proches. Un texte éloigné produit un vecteur différent. C'est la propriété centrale des embeddings.

2.3 — La similarité cosinus

La similarité cosinus mesure l'angle entre deux vecteurs dans l'espace, indépendamment de leur longueur. Plus le cosinus est proche de 1, plus les contenus sont proches sémantiquement.

2.4 — D'où viennent les embeddings ?

Les embeddings résultent d'un modèle d'embedding, entraîné sur de gigantesques corpus de textes. Les modèles modernes apprennent à placer dans l'espace vectoriel des textes qui se ressemblent sémantiquement.

2.5 — Granularité et chunking

Les systèmes RAG ne vectorisent pas toujours une page entière. Ils la découpent souvent en fragments : mots, phrases, paragraphes ou chunks de plusieurs centaines de tokens. Pour le GEO, la conséquence est majeure : les moteurs ne lisent pas seulement votre page, ils réutilisent ses passages.

Un contenu chunk-friendly comporte des paragraphes autonomes, des titres descriptifs, une densité informationnelle forte et une structure lisible sans dépendre du paragraphe précédent.

Partie III

Le retrieval expliqué de bout en bout

3.1 — Du vecteur à la réponse

Un embedding seul ne sert à rien. Sa valeur tient à ce qu'on en fait. Dans les systèmes génératifs modernes, cette exploitation s'appelle le retrieval : la récupération des sources les plus pertinentes.

─────────────────────────────────────────────────────
  PIPELINE DE RETRIEVAL — 5 ÉTAPES
─────────────────────────────────────────────────────

  1. Vectorisation de la question
            ↓
  2. Recherche vectorielle top-k
            ↓
  3. Re-ranking
            ↓
  4. Assemblage du contexte
            ↓
  5. Transmission au LLM
     → génération de la réponse

─────────────────────────────────────────────────────

3.2 — Recherche vectorielle top-k

L'index vectoriel contient potentiellement des millions ou milliards de vecteurs. Des structures spécialisées comme HNSW, IVF, PQ, ScaNN ou FAISS permettent de retrouver rapidement les vecteurs les plus proches d'une requête.

3.3 — Re-ranking

Le re-ranking réévalue les candidats selon des critères additionnels : fraîcheur, autorité de la source, pertinence contextuelle fine, diversité et signaux de confiance. Après cette étape, seules quelques sources constituent le contexte final.

C'est ici que se joue techniquement une grande partie du GEO. Pour être cité, un contenu doit être pertinent vectoriellement, mais aussi suffisamment fiable, structuré, frais et explicite.

Partie IV

Le RAG — Quand l'IA cite ses sources

L'architecture qui a transformé les LLM hallucinants en moteurs de réponse vérifiables.

Le RAG — Retrieval-Augmented Generation — est une brique stratégique du référencement à l'ère IA. Comprendre son fonctionnement, c'est comprendre pourquoi une marque est citée ou ignorée dans une réponse générative.

Un LLM seul génère à partir de sa mémoire interne. Avec RAG, le modèle interroge une base documentaire externe, récupère les passages pertinents, puis génère une réponse ancrée sur ces extraits.

─────────────────────────────────────────────────────
  ARCHITECTURE RAG SIMPLIFIÉE
─────────────────────────────────────────────────────

  Utilisateur → Question
       ↓
  RETRIEVAL : vectorisation, top-k, re-ranking
       ↓
  CONTEXTE : passages sélectionnés
       ↓
  GENERATION : GPT, Gemini, Claude, Mistral
       ↓
  Réponse + citations potentielles

─────────────────────────────────────────────────────

4.1 — Les variantes de RAG

RAG naïf. Une seule requête, une seule passe de retrieval, une seule génération.

RAG itératif. Le modèle pose plusieurs sous-questions, effectue plusieurs retrievals successifs et affine sa compréhension.

RAG agentique. Un agent décide quand interroger une base, chercher sur le web, appeler une API ou reformuler.

RAG hybride. Il combine recherche vectorielle sémantique et recherche par mots-clés.

« Un bon système RAG ne se contente pas de retrouver des documents pertinents : il retrouve les bons passages dans les bons documents. »

4.2 — Les sept principes d'un contenu RAG-ready

① Paragraphe autonome. Chaque paragraphe doit pouvoir être extrait et compris sans contexte.

② Densité informationnelle. Un paragraphe doit porter une idée claire, un fait utile et une information vérifiable.

③ Nommage explicite. Dire « GEO (Generative Engine Optimization) » plutôt que « cette discipline ».

④ Hiérarchie sémantique. Les titres H2/H3 doivent annoncer précisément le contenu du bloc.

⑤ Données structurées JSON-LD. Article, FAQPage, Organization, Person et BreadcrumbList.

⑥ Fraîcheur datée. Une date visible et cohérente dans le HTML et le JSON-LD.

⑦ Citabilité. Des phrases courtes, des affirmations claires et des chiffres sourcés.

Partie V

Les signaux de confiance

Pourquoi une IA choisit-elle de citer une source plutôt qu'une autre ?

Parmi les milliers de documents que le retrieval peut remonter pour une requête donnée, seuls quelques-uns seront effectivement cités. Le re-ranker tranche selon une combinaison pondérée de signaux.

Signal	Pondération indicative	Levier d'action
Autorité du domaine	★★★★★	Backlinks, ancienneté, mentions de marque
Cohérence des entités	★★★★★	NAP, sameAs, profils tiers, Knowledge Graph
Données structurées	★★★★☆	JSON-LD validé, schemas adaptés
Attestations externes	★★★★☆	Presse, plateformes, profils professionnels
Fraîcheur	★★★★☆	Dates visibles, mises à jour datées
Auteur identifié	★★★☆☆	Page auteur, JSON-LD Person, biographie

5.1 — Construire l'autorité de domaine à l'ère IA

L'autorité ne se résume plus au PageRank. À l'ère générative, elle se mesure aussi à la récurrence des mentions de votre marque dans les corpus, les bases de retrieval et les sources externes indexables.

5.2 — La cohérence des entités

Le nom, l'adresse, le SIRET, le dirigeant, le site web, les services et les profils doivent converger. Toute incohérence fragilise le nœud entité.

« La cohérence n'est pas un détail administratif. C'est le contrat de confiance que vous signez avec les machines. »

5.3 — L'auteur, signal montant

Les systèmes de re-ranking accordent un poids croissant à l'identification de l'auteur, surtout sur les sujets exigeant expertise, confiance et responsabilité.

Partie VI

Cas pratique — Un cabinet comptable à Bordeaux

Du contenu publié à la citation IA, en sept étapes critiques.

Cabinet Lambert & Associés, expertise comptable, Bordeaux, douze collaborateurs, spécialisé en fiscalité internationale. En janvier 2026, le cabinet publie un article : « Fiscalité des expatriés français au Portugal : ce qui change en 2026 ».

Étape 1 — La publication

L'article est signé par une experte-comptable. La page contient un JSON-LD Article, un JSON-LD Person, un JSON-LD Organization et une FAQPage.

Étape 2 — L'indexation et la vectorisation

Les crawlers découpent le texte en chunks, les vectorisent et les ajoutent à leur base de retrieval.

Étape 3 — La requête utilisateur

Un utilisateur demande à Perplexity si le statut RNH au Portugal existe toujours en 2026 pour les Français.

Étape 4 — Le retrieval

Le moteur vectorise la question, remonte plusieurs documents candidats et les transmet au re-ranker.

Étape 5 — Le re-ranking

La fraîcheur, l'auteur identifié, les données structurées et la cohérence d'entité augmentent les chances d'intégrer le contexte final.

Étape 6 — La citation

La réponse générée intègre plusieurs sources. Si l'article est suffisamment pertinent et fiable, il peut être cité.

Étape 7 — L'impact à long terme

Une citation IA n'est pas seulement un clic. C'est un dépôt de capital sémantique qui renforce progressivement la représentation de l'entité.

Partie VII

Synthèse & prochaines étapes

Les sept piliers techniques à graver dans votre roadmap éditoriale.

Pilier 1

Entités fortes

Une marque, un dirigeant, une adresse et des informations identiques partout.

Pilier 2

Contenu chunk-friendly

Paragraphes autonomes, hiérarchie claire et densité informationnelle.

Pilier 3

JSON-LD complet

Organization, Person, Article, FAQPage, HowTo, BreadcrumbList.

Pilier 4

Cohérence transversale

Site, GBP, LinkedIn, annuaires, profils tiers : un seul récit.

Pilier 5

Auteur identifié

Page auteur, biographie, expertise, JSON-LD Person, sameAs.

Pilier 6

Maintenance active

Dates de mise à jour, contenus vivants, chiffres rafraîchis.

Pilier 7

Attestations externes

Presse, podcasts, profils tiers : chaque mention densifie le nœud entité.

Transition vers le Volume III

Le Volume II vous a donné la mécanique. Le Volume III vous donnera la méthode : le framework E-N-O-V — Entités, Narration sémantique, Optimisation structurelle, Validation externe.

Continuer la lecture

Volume IComprendre le référencement génératif →

Volume IIIDécouvrir le framework E-N-O-V →

Bibliothèque GEOVoir les 5 volumes GEO →

Audit GEODemander un diagnostic →

À venir — Volume III

Le Framework E-N-O-V

La méthode opérationnelle propriétaire pour piloter un projet GEO de bout en bout.

Lire le Volume III →