Base vectorielle n8n Pinecone : pipeline en 4 workflows

Tu peux continuer à empiler des liens dans Notion, des onglets dans ton navigateur et des bookmarks que tu ne rouvriras jamais.

Ou tu peux construire une vraie base vectorielle.

Une base vectorielle n8n + Pinecone, ce n’est pas “un endroit où stocker du contenu”. C’est un pipeline qui aspire des pages web ou des flux RSS, nettoie ce contenu automatiquement, l’organise dans Airtable, puis le vectorise pour le rendre interrogeable par une IA.

Tu passes d’un cimetière numérique à une mémoire exploitable. Pas dans six mois après trois recherches Google. Maintenant.

Et non, ça ne demande pas de coder. Ça demande une architecture propre.

C’est mathématique. Pas magique.

👉 Voir comment Cortex Web livre ce pipeline clé en main — 4 workflows JSON prêts à importer

Table des matières

Qu’est-ce qu’une base vectorielle — et pourquoi Notion ne joue pas dans la même cour ?
Comment construire une base vectorielle avec n8n et Pinecone en 4 workflows ?
Combien coûte une base vectorielle self-hosted avec N8N ?
N8N Cloud ou VPS : quelle option choisir pour ta base vectorielle ?
Questions fréquentes

Qu’est-ce qu’une base vectorielle — et pourquoi Notion ne joue pas dans la même cour ?

Une base de données classique — Notion, Google Sheets, Airtable — stocke du texte. Pour retrouver un contenu, tu cherches par mots-clés exacts, par tag, par filtre. C’est toi qui fais le travail de tri, à chaque fois.

Une base vectorielle transforme chaque contenu en vecteurs mathématiques qui encodent le sens du texte, pas ses mots exacts. Résultat : tu poses une question en langage naturel (“qu’est-ce que j’ai lu sur les stratégies de tokenisation ?”) et le système retrouve les passages pertinents — même si tu n’as jamais écrit ce mot.

La différence concrète avec Notion : Notion n’est pas conçu comme une mémoire RAG. Tu peux y stocker du texte, mais un agent IA ne peut pas le parcourir de façon sémantique comme il parcourt Pinecone. C’est un placard, pas une bibliothèque intelligente.

C’est exactement ce que fait Pinecone. Pinecone est une base vectorielle managée avec un free-tier utilisable jusqu’à plusieurs milliers de chunks. En pratique, pour démarrer un projet de veille, une documentation ou un premier chatbot RAG, tu ne dépasses pas ce seuil de sitôt.

Un point important sur la terminologie : un “document” dans Pinecone, c’est un article découpé en morceaux appelés chunks. Un article de blog = 1 document = 7 à 15 chunks selon sa longueur. C’est au niveau du chunk que la recherche sémantique opère, ce qui rend les résultats plus précis que sur un texte entier.

Comment construire une base vectorielle avec n8n et Pinecone en 4 workflows ?

Infographie du pipeline Cortex Web en 4 étapes : L'Aspirateur (aspiration de sites web), La Sentinelle (veille RSS), Le Raffineur (nettoyage OpenAI), Le Vectoriseur (Pinecone) — formation NANAKIA

Pour créer une base vectorielle souveraine, il faut aligner 4 briques : n8n (l’orchestrateur), Airtable (le sas logistique), OpenAI (le nettoyage et l’embedding) et Pinecone (la mémoire vectorielle). Ce pipeline transforme des pages web brutes en connaissances interrogeables par une IA, pour moins de 10€/mois de frais d’infrastructure.

👉 Cortex Web fournit les 4 workflows JSON prêts à l’emploi + guides PDF d’installation

Voici ce que fait chaque workflow.

Workflow 1 — L’Aspirateur : charger un site en une commande

Tu fournis une URL de sitemap, une catégorie et un nombre de pages à aspirer. L’agent n8n détecte automatiquement les URLs, extrait les pages, et les charge dans Airtable avec le statut “waiting scrape”.

Ce que ça donne : tu peux charger l’encyclopédie d’un site crypto, les fiches produits de ton e-commerce ou la documentation d’un outil. Tout rentre dans la base, catégorisé, en attente de traitement.

⚠️ Limite réelle à connaître : les sites avec des sitemaps imbriqués (un sitemap qui pointe vers d’autres sitemaps) nécessitent une identification manuelle du bon sous-sitemap. Ce n’est pas un obstacle technique, mais c’est 5 minutes de travail à l’initialisation. L’ingénierie a ses règles.

Workflow 2 — La Sentinelle : la veille RSS qui tourne pendant que tu dors

Tu configures tes flux RSS (autant que tu veux). Chaque nuit à 1h, le système récupère les nouveaux articles de tes sources et les injecte dans Airtable — statut “waiting scrape”.

Le lendemain matin, tu ouvres ta base : tu vois les nouveaux articles avec titre, source et date. Tu sélectionnes ce que tu gardes, tu supprimes le reste. Ce que tu supprimes ne pollue jamais ta base vectorielle.

5 sources qui publient 3 articles par jour = 15 articles à trier chaque matin en 5 minutes. Au lieu d’une heure à rouvrir des onglets.

Workflow 3 — Le Raffineur : OpenAI transforme le HTML brut en données propres

Envoyer du HTML brut dans Pinecone, c’est comme vouloir faire tourner un moteur avec du carburant non filtré. Avant la vectorisation, le contenu doit être nettoyé.

Ce workflow envoie chaque page à OpenAI (GPT-4o Nano — quelques centimes par page) qui : supprime le code HTML parasite, extrait le contenu utile, génère un résumé, catégorise automatiquement, identifie l’auteur si disponible. Airtable se met à jour. Le statut passe à “ready to vectorize”.

Pourquoi GPT-4o Nano ? Pour cette tâche de nettoyage, le Nano suffit largement. Le modèle standard coûte environ 20 fois plus cher sans apporter de valeur supplémentaire sur du raffinage de contenu. Garde les modèles puissants pour les tâches qui le justifient.

Workflow 4 — Le Vectoriseur : la mémoire longue

Ce workflow prend chaque contenu “ready to vectorize”, le découpe en chunks intelligents, génère les embeddings via OpenAI (text-embedding-3-small — le bon compromis coût/qualité), et les envoie dans Pinecone.

À partir de là, ta base est interrogeable en langage naturel par n’importe quel agent, chatbot ou workflow de ton écosystème. Tu ne cherches plus dans une liste. Tu poses une question. Le système comprend ce que tu veux dire.

Le rôle clé d’Airtable : le sas logistique du pipeline

Airtable n’est pas juste une base de données dans ce système. C’est le tableau de bord qui orchestre la progression de chaque contenu dans le pipeline. Chaque enregistrement a un statut : waiting scrape → ready to scrap → ready to vectorize → error.

C’est ce système de statuts qui te permet de contrôler ce qui entre dans ta base vectorielle. Tu peux décider manuellement, workflow par workflow, ce que tu veux vectoriser et ce que tu veux ignorer. Sans cette couche, tu vectorises du bruit. Avec elle, tu vectorises de la connaissance.

Combien coûte une base vectorielle self-hosted avec N8N ?

Composant	Self-hosted (ce système)	Stack SaaS équivalente
Orchestrateur	n8n VPS ~5€/mois (exécutions illimitées côté n8n)	n8n Cloud 24€/mois (5 workflows actifs max)
Base de données tampon	Airtable gratuit	Notion AI 10€/mois
Veille	RSS natif gratuit	Feedly Pro 6€/mois
Chatbot site	Inclus en bonus	Intercom/Drift 39€+/mois
Mémoire vectorielle	Pinecone gratuit + OpenAI quelques centimes/page	Pas d’équivalent SaaS simple

La stack SaaS équivalente approche les 55€/mois minimum — et elle ne te donne pas de base vectorielle souveraine ni de contrôle sur tes données.

Avec n8n self-hosted + Airtable + Pinecone : moins de 10€/mois, sans limite logicielle de workflows actifs côté n8n.

N8N Cloud ou VPS : quelle option choisir pour ta base vectorielle ?

n8n Cloud est plus simple à démarrer — 14 jours gratuits, aucune installation. Mais le plan à 24€/mois impose une limite de 5 workflows actifs simultanés. Le pipeline Cortex occupe 4 de ces 5 slots. Dès que tu veux brancher autre chose, tu es bloqué.

Sur un VPS DigitalOcean ou Hostinger (~5€/mois), tu as des exécutions sans limite logicielle, autant de workflows que ton serveur supporte, et tu contrôles tes données. C’est la différence entre louer un espace de travail et posséder ses outils.

La règle NANAKIA : tu construis sur ton infrastructure, tu ne paies pas au volume, tu ne dépends d’aucun éditeur SaaS pour maintenir tes automatisations en vie.

Ce que tu peux brancher sur cette base une fois en place

La base vectorielle est une infrastructure, pas une fin. Ce qu’elle rend possible :

Un chatbot RAG sur ton site — tu charges tes fiches produits dans Pinecone, tu installes le chatbot (inclus en bonus dans Cortex Web), et il répond aux questions de tes visiteurs avec tes propres données. Un système RAG réduit significativement les réponses inexactes par rapport à un LLM sans contexte, mais il ne les élimine pas. La qualité des données en entrée détermine la qualité des réponses en sortie.

Un agent de création de contenu — tu charges 200 articles sur ton sujet, tu demandes à un agent de générer des scripts, des newsletters, des posts ancrés dans TES données. La différence vs des prompts dans le vide est radicale.

Un système de recommandation — tu charges l’intégralité de ta documentation ou de tes formations, et un agent oriente chaque visiteur vers le bon contenu selon ses questions.

Questions fréquentes

Est-ce qu’il faut savoir coder pour installer ce système ?

Non. Les 4 workflows sont des fichiers JSON importables en 1 clic dans n8n. Le paramétrage consiste à connecter tes credentials (OpenAI, Airtable, Pinecone) et configurer tes catégories. Cortex Web inclut un bonus “Fondamentaux n8n” si tu n’as jamais ouvert l’outil.

Pinecone gratuit est-il vraiment suffisant pour démarrer ?

Oui. Le free-tier couvre largement un premier projet de veille, une base documentaire ou un petit chatbot RAG. Les plans payants Pinecone deviennent pertinents quand tu dépasses un volume significatif de documents — et à ce stade, tu sais déjà que le système t’apporte de la valeur.

Quelle est la vraie limite du système ?

Les sitemaps imbriqués des gros sites médias nécessitent une identification manuelle du bon sous-sitemap — 5 minutes de travail, pas un obstacle. Et le free-tier OpenAI a des limites de débit : si tu aspires un gros site en une seule fois, prévois de découper en lots.

Peut-on combiner Cortex Web avec d’autres sources de contenu ?

Oui. Il existe une formation complémentaire “Cortex YouTube” qui fait la même chose avec des transcriptions vidéo. Les deux alimentent la même base Pinecone. Une fois l’infrastructure en place, tu ajoutes des sources sans repartir de zéro.

Le placard numérique ou la mémoire intelligente — tu choisis

Le problème n’est pas que tu manques d’information. C’est que tu n’as pas l’infrastructure pour la capturer, la nettoyer et l’interroger quand tu en as besoin.

Un cerveau vectoriel ne se configure pas en cinq minutes. Ça se paramètre une fois, proprement. Et après, c’est un pipeline qui tourne pendant que tu dors, qui enrichit ta base, qui te rend l’information au moment où tu en as besoin.

❌ Bookmarks morts dans Notion que tu ne rouvriras jamais
✅ Base vectorielle souveraine, interrogeable en langage naturel, pour moins de 10€/mois

Comprendre le principe, c’est bien. Monter les 4 workflows sans repartir de zéro, c’est mieux. Cortex Web te montre comment brancher n8n, Airtable, Pinecone et OpenAI dans une architecture cohérente — avec les fichiers JSON, les guides PDF et le support pour chaque étape.

👉 Accéder à Cortex Web — 249€, accès immédiat, garantie 30 jours

Base vectorielle N8N + Pinecone : le pipeline en 4 workflows pour construire ton cerveau vectoriel

Table des matières

Qu’est-ce qu’une base vectorielle — et pourquoi Notion ne joue pas dans la même cour ?

Comment construire une base vectorielle avec n8n et Pinecone en 4 workflows ?

Workflow 1 — L’Aspirateur : charger un site en une commande

Workflow 2 — La Sentinelle : la veille RSS qui tourne pendant que tu dors

Workflow 3 — Le Raffineur : OpenAI transforme le HTML brut en données propres

Workflow 4 — Le Vectoriseur : la mémoire longue

Le rôle clé d’Airtable : le sas logistique du pipeline

Combien coûte une base vectorielle self-hosted avec N8N ?

N8N Cloud ou VPS : quelle option choisir pour ta base vectorielle ?

Ce que tu peux brancher sur cette base une fois en place

Questions fréquentes

Est-ce qu’il faut savoir coder pour installer ce système ?

Pinecone gratuit est-il vraiment suffisant pour démarrer ?

Quelle est la vraie limite du système ?

Peut-on combiner Cortex Web avec d’autres sources de contenu ?

Le placard numérique ou la mémoire intelligente — tu choisis

Cyril Bentz

Table des matières

Qu’est-ce qu’une base vectorielle — et pourquoi Notion ne joue pas dans la même cour ?

Comment construire une base vectorielle avec n8n et Pinecone en 4 workflows ?

Workflow 1 — L’Aspirateur : charger un site en une commande

Workflow 2 — La Sentinelle : la veille RSS qui tourne pendant que tu dors

Workflow 3 — Le Raffineur : OpenAI transforme le HTML brut en données propres

Workflow 4 — Le Vectoriseur : la mémoire longue

Le rôle clé d’Airtable : le sas logistique du pipeline

Combien coûte une base vectorielle self-hosted avec N8N ?

N8N Cloud ou VPS : quelle option choisir pour ta base vectorielle ?

Ce que tu peux brancher sur cette base une fois en place

Questions fréquentes

Est-ce qu’il faut savoir coder pour installer ce système ?

Pinecone gratuit est-il vraiment suffisant pour démarrer ?

Quelle est la vraie limite du système ?

Peut-on combiner Cortex Web avec d’autres sources de contenu ?

Le placard numérique ou la mémoire intelligente — tu choisis

Cyril Bentz

Vous aimerez aussi

Chatbot WhatsApp sans code : l’architecture en 3 couches pour automatiser SAV, FAQ et ventes

Make vs n8n : lequel choisir selon ton volume, ton niveau et ton vrai coût ?

Prompt Sora vidéo produit Amazon : le template en 8 piliers