Le scraping de données est légal, gratuit, et sous-utilisé par 95% des équipes commerciales françaises.
La plupart des commerciaux achètent des fichiers à 300€ pour des données vieilles de 18 mois, quand l’État met à disposition des bases de 10 millions d’entreprises mises à jour chaque jour. Sans abonnement. Sans condition. En open data.
Voici les 7 sources que vous pouvez exploiter aujourd’hui, plus un framework pour construire une liste de prospection propre en moins d’une heure.
Pourquoi le scraping sauvage est une mauvaise stratégie
Avant de lister les sources, un point sur la légalité. Non pas pour vous faire peur, mais pour que vous compreniez où est la ligne – et pourquoi rester en deçà est aussi une meilleure stratégie commerciale.
En 2021, la CNIL a sanctionné une société pour avoir constitué une base de 600 000 contacts via scraping LinkedIn sans base légale. Le RGPD distingue deux cas :
- Personne morale (entreprise, association) – les données d’identification (SIREN, adresse, secteur) sont publiques et librement réutilisables pour la prospection B2B.
- Personne physique (dirigeant, DRH, commercial) – même si son profil LinkedIn est public, vous ne pouvez pas constituer une base à son nom pour lui envoyer des emails sans base légale documentée (consentement ou intérêt légitime justifié).
La règle pratique : ciblez les organisations, pas les individus. Les 7 sources ci-dessous respectent ce cadre. Elles vous donnent tout ce qu’il faut pour identifier vos cibles, segmenter, et déclencher une approche commerciale propre.
Les 7 sources de données ouvertes gratuites
1. SIRENE / data.gouv.fr
URL : data.gouv.fr – Base SIRENE
C’est la base mère. L’INSEE y recense plus de 10 millions d’entreprises et 36 millions d’établissements enregistrés en France depuis 1973. Données disponibles : numéro SIREN/SIRET, dénomination sociale, code NAF, adresse complète, date de création, tranche d’effectifs, statut (actif/cessé).
Disponible en téléchargement CSV complet ou via API avec filtres par code postal, code NAF, date de création. Mis à jour quotidiennement. Gratuit.
Exemple de filtre utile : toutes les entreprises créées dans les 90 derniers jours dans votre secteur cible. Ce sont vos meilleurs prospects – ils cherchent des prestataires, leur budget n’est pas encore alloué.
2. BODACC – Bulletin Officiel des Annonces Civiles et Commerciales
URL : bodacc.fr – API open data
Le BODACC publie les annonces légales obligatoires : ventes et cessions de fonds de commerce, dépôts de bilan, procédures de sauvegarde, redressements judiciaires. Une mine pour deux cas d’usage :
- Prospection événementielle – une entreprise qui change de main est souvent un acheteur actif (nouveau dirigeant = nouveaux prestataires).
- Qualification négative – identifier les sociétés en procédure collective avant d’investir du temps commercial dessus.
API publique, données structurées, historique complet. Zéro coût.
3. Registre National des Entreprises (INPI)
URL : inpi.fr – Recherche entreprise
Depuis 2023, l’INPI centralise les données légales des entreprises dans un registre unique (fusion des anciens registres RCS, répertoire des métiers, etc.). Accès gratuit via l’interface de recherche ou l’API data.inpi.fr.
Ce que vous y trouvez que SIRENE ne donne pas : les actes déposés, les informations sur les dirigeants (nom, qualité), les statuts de la société, les bénéficiaires effectifs. Utile pour qualifier la structure capitalistique d’une cible avant un RDV.
4. Annuaire des Entreprises (portail officiel)
URL : annuaire-entreprises.data.gouv.fr
Interface de recherche grand public construite par l’État sur SIRENE + RNE. Pratique pour une recherche rapide par secteur, localisation, taille. Pas d’API directe, mais toutes les données sous-jacentes sont exportables via les sources mentionnées ci-dessus.
Utile pour valider manuellement une cible ou explorer un secteur inconnu avant de lancer un script de collecte automatisé.
5. Pappers.fr
URL : pappers.fr
Pappers agrège les données légales publiques (SIRENE, INPI, BODACC) et les enrichit avec les bilans financiers déposés, les dirigeants en poste, les actes, les marques et brevets. Le tout en accès gratuit pour les informations de base.
Ce que vous pouvez y faire gratuitement : accéder aux comptes annuels déposés (chiffre d’affaires, résultat), identifier les dirigeants actuels par entreprise, suivre les évolutions capitalistiques. Pappers propose aussi une API payante, mais l’interface gratuite suffit pour qualifier 80% de vos cibles.
6. Google Maps / Places
URL : Google Places API
Pour la prospection locale (PME, commerces, artisans, professions libérales), Google Maps est une base de données sous-estimée. Chaque fiche contient : nom, adresse, secteur, site web parfois, numéro de téléphone, avis.
Depuis mars 2025, Google a revu son système de facturation : les SKUs essentiels (dont la recherche de lieux) incluent 10 000 événements gratuits par mois. Au-delà, facturation à l’usage. Pour une prospection locale ciblée (ex : tous les cabinets d’expertise comptable de Cayenne ayant moins de 5 avis), c’est un outil redoutable et légal car les données sont celles que les professionnels ont eux-mêmes renseignées.
7. LinkedIn (approche manuelle et semi-automatique)
LinkedIn mérite une mention spéciale car c’est souvent la première source que les commerciaux veulent scraper, et la plus risquée si mal utilisée.
Ce qui est légal : la consultation manuelle de profils publics, l’export de vos propres connexions (Settings > Data Privacy > Get a copy of your data), l’utilisation de Sales Navigator avec ses filtres (pas de scraping de masse, mais extraction ciblée).
Ce qui est interdit par LinkedIn et par le RGPD : les scrapers de masse (PhantomBuster sur des milliers de profils, bots d’extraction automatique), la constitution de bases nominatives sans base légale documentée.
Stratégie adaptée : utilisez LinkedIn pour qualifier et identifier les interlocuteurs, pas pour constituer une base. Une fois le bon interlocuteur identifié, son email professionnel se trouve souvent via Hunter.io ou la technique d’enrichissement décrite dans notre guide cold outreach.
Le framework pour construire une liste propre en 1 heure
Voici la séquence opérationnelle. Elle part de SIRENE et se complète avec les sources ci-dessus.
Étape 1 – Définir votre segment cible (10 min)
Choisissez vos critères : code NAF (secteur), tranche d’effectifs, région, date de création. Soyez précis. « PME tech en Île-de-France créées après 2020 avec 10 à 49 salariés » est un segment. « PME françaises » n’en est pas un.
Étape 2 – Extraire depuis SIRENE (15 min)
« `bash
# Étape 1 : créer un compte gratuit sur portail-api.insee.fr (5 min)
# Étape 2 : générer votre clé API (consumer key / secret)
# Étape 3 : requête filtrée – ici, logiciels (6201*), 50-99 salariés, actifs
curl « https://api.insee.fr/api-sirene/3.11/siret?q=activitePrincipaleEtablissement:6201*+AND+trancheEffectifsEtablissement:21+AND+etatAdministratifEtablissement:A&nombre=100 » \
-H « Authorization: Bearer VOTRE_TOKEN » \
-H « Accept: application/json »
# Alternative sans compte : télécharger le fichier CSV complet sur data.gouv.fr
# et filtrer avec pandas ou Excel
« `
Résultat : 100 établissements actifs dans le développement logiciel (NAF 6201), tranche 50-99 salariés. Vous obtenez SIREN, SIRET, adresse, date de création. L’API nécessite un compte gratuit sur portail-api.insee.fr. Le fichier CSV complet est téléchargeable sans inscription sur data.gouv.fr.
Étape 3 – Qualifier avec Pappers et BODACC (20 min)
Pour chaque SIREN de votre liste, vérifiez sur Pappers.fr : résultat net positif ? Dirigeant en place depuis plus d’un an ? Pas de procédure collective sur BODACC ? Ces 3 filtres éliminent 30 à 40% des cibles non-pertinentes avant de dépenser une minute de temps commercial.
Étape 4 – Enrichir avec les coordonnées (15 min)
À ce stade, vous avez des organisations qualifiées. Pour trouver le bon interlocuteur : cherchez le dirigeant sur l’INPI (gratuit), validez son profil LinkedIn manuellement, trouvez son email via Hunter.io ou les formats standards d’email d’entreprise.
Résultat : une liste de 50 à 100 cibles qualifiées, à jour, exploitables légalement – pour le prix de votre temps.
Les 3 règles RGPD à ne pas oublier
Utiliser ces sources ne dispense pas d’une base légale pour la prospection. Voici les 3 points non-négociables :
- Ciblez les organisations, pas les personnes. SIREN, adresse entreprise, secteur = données de personne morale, librement utilisables. Nom + email d’un dirigeant = données personnelles, soumises au RGPD.
- Documentez votre intérêt légitime. Si vous prospectez des décideurs nominativement, notez dans votre CRM : source de la donnée, date de collecte, raison de la démarche. En cas de contrôle CNIL, c’est votre protection.
- Respectez robots.txt. Tout site affichant une interdiction de scraping dans son robots.txt ou ses CGU est hors jeu. Ne contournez pas cette règle – une décision de justice en 2022 a confirmé que l’ignorer constitue un accès frauduleux au sens de la loi.
Pour aller plus loin sur la conformité de votre dispositif, notre guide RGPD pour PME couvre la documentation des traitements en 10 étapes.
Le mot de la fin
Les données dont vous avez besoin pour prospecter existent. Elles sont gratuites, à jour, et légales. Ce qui manque, c’est rarement l’accès – c’est la méthode pour les transformer en pipeline commercial structuré.
Si vous voulez aller plus loin que la liste et construire un funnel B2B complet en 48h, la logique est la même : partir des données publiques, qualifier vite, approcher avec précision.
♚ 1D-D1 – One Day or Day One. Parlons stratégie →
