Technologie CVS — RAG hybride, 5 retrievers en parallèle, fusion RRF et abstention

Ingestion

Un pipeline d'ingestion en cinq étapes transforme un document en preuves recherchables.

CVS se connecte directement là où vos connaissances résident déjà — SharePoint, Google Drive, Confluence, S3 et serveurs de fichiers sur site — puis analyse chaque format grâce au triple OCR et à la vision : PDF, scans, DOCX, PPTX, XLSX et images. Tableaux, figures et ancres de page survivent intacts à l'analyse, afin que la preuve d'origine puisse être restituée plus tard, et non paraphrasée jusqu'à disparaître.

Le découpage intelligent produit des fragments sémantiquement cohérents plutôt que des coupures aveugles à largeur fixe. Chaque chunk est enrichi d'entités, de métadonnées, de diffs de documents et de faits temporels, puis écrit simultanément dans un index multi-couche : un magasin pgvector pour le rappel sémantique, un index plein texte BM25F pour les termes exacts, un graphe de connaissances temporel Neo4j pour les relations, ainsi que des index de métadonnées et temporels. Une seule passe, cinq surfaces de recherche.

Connecteurs pour SharePoint, Google Drive, Confluence, S3 et partages de fichiers locaux — aucune migration par copier-coller
Triple OCR et enrichissement par vision sur les PDF, PDF scannés, DOCX, PPTX, XLSX et images
Découpage sémantique qui préserve tableaux, figures et ancres de page comme preuves à part entière
Indexation multi-couche dans pgvector, BM25F, graphe de connaissances temporel Neo4j, métadonnées et magasins temporels

**Un pipeline d'ingestion en cinq étapes transforme un document en preuves recherchables..** CVS se connecte directement là où vos connaissances résident déjà — SharePoint, Google Drive, Confluence, S3 et serveurs de fichiers sur site — puis analyse chaque format grâce au triple OCR et à la vision : PDF, scans, DOCX, PPTX, XLSX et images. Tableaux, figures et ancres de page survivent intacts à l'analyse, afin que la preuve d'origine puisse être restituée plus tard, et non paraphrasée jusqu'à disparaître.

Routage

Un routeur d'intention envoie chaque requête sur le chemin le moins coûteux capable d'y répondre.

Toute question ne mérite pas un raisonnement complet. Un routeur d'intention central classe chaque requête et l'oriente vers l'une des quatre voies : un accès au cache instantané et sans token ; une recherche hybride rapide en mode standard ; une synthèse approfondie multi-documents ; ou une voie de raisonnement ultra qui décompose la question en un graphe orienté acyclique de sous-requêtes.

Cette cascade économe en tokens fait que les questions simples ne réveillent jamais un LLM coûteux, tandis que les questions réellement difficiles et multi-documents bénéficient d'une décomposition complète. Le résultat : une latence prévisible, un coût prévisible et aucune mauvaise surprise de tokens par requête — la cascade à elle seule réduit la dépense LLM de 85 à 95 % par rapport à un RAG naïf.

Voie instantanée : cache sans token pour les requêtes répétées ou triviales à résoudre
Voie standard : recherche hybride rapide pour la majorité des questions du quotidien
Voie approfondie : synthèse multi-documents lorsqu'une seule source ne suffit pas
Voie ultra : DAG de décomposition qui scinde les questions complexes en sous-étapes auditables

**Un routeur d'intention envoie chaque requête sur le chemin le moins coûteux capable d'y répondre..** Toute question ne mérite pas un raisonnement complet. Un routeur d'intention central classe chaque requête et l'oriente vers l'une des quatre voies : un accès au cache instantané et sans token ; une recherche hybride rapide en mode standard ; une synthèse approfondie multi-documents ; ou une voie de raisonnement ultra qui décompose la question en un graphe orienté acyclique de sous-requêtes.

Recherche

5 retrievers en parallèle, fusionnés par RRF, rerankés par un cross-encoder.

CVS exécute cinq retrievers à la fois — recherche vectorielle, parcours du graphe de connaissances, plein texte BM25F, recherche temporelle et filtrage par métadonnées. Chacun perçoit le corpus différemment et capte donc des preuves différentes : sémantique, relations, termes exacts, validité temporelle et attributs structurés. Aucun retriever pris isolément n'a besoin d'être parfait.

Leurs sorties classées fusionnent via Reciprocal Rank Fusion (k=60), puis un cross-encoder reranke les candidats fusionnés pour assembler un ensemble de preuves resserré destiné au générateur de réponses. C'est pourquoi CVS atteint 94,7 % de précision des réponses, contre les 67 à 73 % typiques des systèmes à un seul retriever comme un RAG basique ou Copilot.

Vectoriel (pgvector) + graphe de connaissances Neo4j + BM25F + temporel + métadonnées, le tout en parallèle
Reciprocal Rank Fusion (k=60) fusionne cinq classements indépendants en un consensus
Le reranking par cross-encoder affine l'ensemble de preuves final avant la génération de la réponse
94,7 % de précision des réponses contre 67 à 73 % pour les systèmes à un seul retriever

**5 retrievers en parallèle, fusionnés par RRF, rerankés par un cross-encoder..** CVS exécute cinq retrievers à la fois — recherche vectorielle, parcours du graphe de connaissances, plein texte BM25F, recherche temporelle et filtrage par métadonnées. Chacun perçoit le corpus différemment et capte donc des preuves différentes : sémantique, relations, termes exacts, validité temporelle et attributs structurés. Aucun retriever pris isolément n'a besoin d'être parfait.

Abstention

Abstention adverse : le système sait quand il ne sait pas.

Après la recherche, CVS pose une question avant de répondre : les preuves sont-elles suffisantes ? Si oui, il répond avec des citations en ligne et inscrit l'interaction dans un journal d'audit infalsifiable. Si non, il s'abstient franchement plutôt que de fabriquer une réponse plausible en apparence — le comportement même qui fait échouer la plupart des pilotes RAG en entreprise.

Une abstention n'est pas une impasse. La question sans réponse est routée vers l'expert métier désigné, sa réponse vérifiée est capturée et la base de connaissances est patchée pour que la personne suivante obtienne une réponse instantanée. En production, cela ramène les hallucinations sous les 2 %, contre environ 19 % pour un RAG ordinaire.

Un seuil de confiance évalue la suffisance des preuves avant toute génération de réponse
Preuves suffisantes → réponse citée et entrée complète dans le journal d'audit
Preuves insuffisantes → abstention claire, puis escalade vers l'expert
Les réponses d'experts capturées patchent la base — moins de 2 % d'hallucinations contre environ 19 % pour un RAG ordinaire

**Abstention adverse : le système sait quand il ne sait pas..** Après la recherche, CVS pose une question avant de répondre : les preuves sont-elles suffisantes ? Si oui, il répond avec des citations en ligne et inscrit l'interaction dans un journal d'audit infalsifiable. Si non, il s'abstient franchement plutôt que de fabriquer une réponse plausible en apparence — le comportement même qui fait échouer la plupart des pilotes RAG en entreprise.

Comment un document devient une réponse vérifiée et citable.

Un pipeline d'ingestion en cinq étapes transforme un document en preuves recherchables.

Un routeur d'intention envoie chaque requête sur le chemin le moins coûteux capable d'y répondre.

5 retrievers en parallèle, fusionnés par RRF, rerankés par un cross-encoder.

Abstention adverse : le système sait quand il ne sait pas.

Confrontez CVS à votre question la plus difficile.