CVS est un moteur RAG hybride conçu pour les entreprises qui ne peuvent tolérer une réponse fausse formulée avec assurance. Chaque étape — ingestion, routage, recherche et abstention — est pensée pour produire des preuves auditables, et non une prose qu'il faut croire sur parole.
CVS se connecte directement là où vos connaissances résident déjà — SharePoint, Google Drive, Confluence, S3 et serveurs de fichiers sur site — puis analyse chaque format grâce au triple OCR et à la vision : PDF, scans, DOCX, PPTX, XLSX et images. Tableaux, figures et ancres de page survivent intacts à l'analyse, afin que la preuve d'origine puisse être restituée plus tard, et non paraphrasée jusqu'à disparaître.
Le découpage intelligent produit des fragments sémantiquement cohérents plutôt que des coupures aveugles à largeur fixe. Chaque chunk est enrichi d'entités, de métadonnées, de diffs de documents et de faits temporels, puis écrit simultanément dans un index multi-couche : un magasin pgvector pour le rappel sémantique, un index plein texte BM25F pour les termes exacts, un graphe de connaissances temporel Neo4j pour les relations, ainsi que des index de métadonnées et temporels. Une seule passe, cinq surfaces de recherche.
Toute question ne mérite pas un raisonnement complet. Un routeur d'intention central classe chaque requête et l'oriente vers l'une des quatre voies : un accès au cache instantané et sans token ; une recherche hybride rapide en mode standard ; une synthèse approfondie multi-documents ; ou une voie de raisonnement ultra qui décompose la question en un graphe orienté acyclique de sous-requêtes.
Cette cascade économe en tokens fait que les questions simples ne réveillent jamais un LLM coûteux, tandis que les questions réellement difficiles et multi-documents bénéficient d'une décomposition complète. Le résultat : une latence prévisible, un coût prévisible et aucune mauvaise surprise de tokens par requête — la cascade à elle seule réduit la dépense LLM de 85 à 95 % par rapport à un RAG naïf.
CVS exécute cinq retrievers à la fois — recherche vectorielle, parcours du graphe de connaissances, plein texte BM25F, recherche temporelle et filtrage par métadonnées. Chacun perçoit le corpus différemment et capte donc des preuves différentes : sémantique, relations, termes exacts, validité temporelle et attributs structurés. Aucun retriever pris isolément n'a besoin d'être parfait.
Leurs sorties classées fusionnent via Reciprocal Rank Fusion (k=60), puis un cross-encoder reranke les candidats fusionnés pour assembler un ensemble de preuves resserré destiné au générateur de réponses. C'est pourquoi CVS atteint 94,7 % de précision des réponses, contre les 67 à 73 % typiques des systèmes à un seul retriever comme un RAG basique ou Copilot.
Après la recherche, CVS pose une question avant de répondre : les preuves sont-elles suffisantes ? Si oui, il répond avec des citations en ligne et inscrit l'interaction dans un journal d'audit infalsifiable. Si non, il s'abstient franchement plutôt que de fabriquer une réponse plausible en apparence — le comportement même qui fait échouer la plupart des pilotes RAG en entreprise.
Une abstention n'est pas une impasse. La question sans réponse est routée vers l'expert métier désigné, sa réponse vérifiée est capturée et la base de connaissances est patchée pour que la personne suivante obtienne une réponse instantanée. En production, cela ramène les hallucinations sous les 2 %, contre environ 19 % pour un RAG ordinaire.
Apportez votre spécification la plus obscure ou votre requête la plus souvent escaladée. Nous vous montrerons le chemin des preuves de bout en bout — et exactement ce qui se passe lorsque la base ne sait pas.