
Entretien avec l’IA : Vous posez une question à l’IA, elle vous répond… mais qui cite-t-elle, au juste ?
Avez-vous déjà remarqué que les IA vous proposent souvent du contenu provenant de sources récurrentes ? À l’heure où les intelligences artificielles évoluent à une vitesse vertigineuse, une question demeure : d’où viennent leurs informations ? Car derrière chaque réponse se cache une mécanique de sélection. Et cette mécanique ne semble pas toujours neutre. Alors, faut-il être publié sur Wikipédia pour exister aux yeux d’un modèle ? Les biais des bases de données contaminent-ils les résultats ? Et comment l’IA hiérarchise-t-elle les contenus qu’elle a ingérés ? Pour en avoir le cœur net, TNS a interrogé ChatGPT sur sa manière de choisir ses sources.
Quels critères déterminent le choix des sources par une IA ? Pourquoi une source est-elle privilégiée plus qu’une autre ?
“Les IA sélectionnent leurs sources en fonction de critères combinant qualité, accessibilité, fréquence de citation, structure et autorité perçue. Une source est privilégiée si elle est techniquement lisible (format structuré), fiable (issue d’institutions reconnues, bien référencée), fréquemment utilisée dans d’autres contenus (effet de réseau), et surtout si elle est cohérente avec les objectifs d’entraînement : clarté, volume, diversité des perspectives. Par exemple, une publication universitaire bien citée aura plus de « poids » qu’un blog anonyme. Ce n’est donc pas une sélection humaine fondée sur l’intention éditoriale, mais une optimisation algorithmique fondée sur la densité, la traçabilité et la cohérence du langage.” – ChatGPT
Certaines entreprises ou médias peuvent-ils monnayer leur visibilité dans vos réponses ?
“À ce jour, il n’existe pas de modèle économique direct permettant à une entreprise ou un média de payer pour apparaître plus souvent dans mes réponses. La sélection des sources n’est pas dictée par des accords commerciaux mais par des critères techniques et qualitatifs (pertinence, autorité, clarté). Cela dit, des partenariats peuvent exister en amont : par exemple, certaines entreprises (comme Stack Overflow ou des maisons d’édition) peuvent autoriser ou négocier l’usage de leurs contenus dans l’entraînement d’un modèle. En aval, des modèles pourraient intégrer des fonctions de citation sponsorisée ou des modules publicitaires, mais cela doit être clairement signalé à l’utilisateur.” – ChatGPT
Une sélection est-elle opérée en amont, lors de l’entraînement des modèles ?
“Oui, la sélection des sources se fait en amont, au moment de l’entraînement. Les équipes qui développent un modèle d’IA définissent un corpus d’entraînement filtré, composé de textes issus du web, de livres, d’articles scientifiques, de Wikipédia ou encore de dépôts de code, selon les cas. Ce corpus n’est pas pris au hasard : il est curé pour éliminer les données bruitées, les doublons, les contenus haineux, les spams ou les sources peu fiables. Cette étape de sélection est donc stratégique : elle façonne le “caractère” du modèle. Plus le corpus est riche, équilibré et bien filtré, plus le modèle sera pertinent et nuancé dans ses réponses.” – ChatGPT
Une source fiable, une source populaire, une source récente : comment toi, en tant qu’IA hiérarchises-tu ces critères dans ton raisonnement ?
“Dans mon raisonnement, la hiérarchie entre fiabilité, popularité et récence dépend du type de question posée. Fiabilité est prioritaire pour les sujets sensibles ou factuels (santé, droit, science). Popularité joue un rôle indirect : une source souvent citée ou structurée comme les autres peut peser plus lourd dans la construction statistique du langage. Récence, en revanche, n’est pas native : sauf accès au web, je ne « connais » pas les événements postérieurs à mon entraînement. Donc, en l’état, mon raisonnement repose d’abord sur la robustesse du contenu (source fiable), puis sur sa représentativité dans les corpus (popularité), mais je ne peux arbitrer par date réelle sans outil connecté.” – ChatGPT
Au moment de la réponse, les IA ont-elles accès à des sources actualisées ou se basent-elles uniquement sur leur base de données préexistante ?
“Par défaut, les IA comme moi se basent uniquement sur une base de connaissances préexistante, figée à la date de coupure de leur entraînement (dans mon cas, juin 2024). Cela signifie que, sans outil externe activé, je n’ai aucun accès direct au web ou à des sources en temps réel. Toutefois, certaines IA peuvent être connectées à des modules d’accès web (comme un navigateur intégré ou une API), leur permettant de consulter des sources actualisées au moment de la requête. Mais même dans ce cas, elles ne “lisent” pas Internet comme un humain : elles analysent les contenus récupérés, les croisent, puis synthétisent une réponse. L’accès à l’actualité dépend donc des capacités spécifiques activées dans la version utilisée.” – ChatGPT

Les + vues
Inscrivez-vous !
INSCRIVEZ-VOUS À
NOTRE NEWSLETTER !
Renseignez votre adresse mail
pour recevoir nos nouveautés
et rester informé de nos actualités.
Entrepreneuriat
Tout voirTop Mots Clés :
Laisser un commentaire