BLOG

Synthèse sur la déferlante ChatGPT

C’est quoi ChatGPT?

ChatGPT est un agent conversationnel: vous saisissez une question ou une demande de tâche liées au langage avec votre clavier, et l’agent utilise l’intelligence artificielle pour comprendre et répondre à l’écrit dans un langage naturel. On parle d’IA de type Large Language Model.

Une IA est formée de plusieurs couches. La première couche de ChatGPT est GPT-3 (dans sa version GPT-3.5) faite de 175’000 milliards de paramètres d’où la difficulté à comprendre son fonctionnement. On peut l’aborder en testant cet usine à gaz (par exemple en vérifiant les biais de sous représentation de certains groupes sociaux).

Ce modèle de langue est un modèle statistique, il ne raisonne pas. Il compose ses phrases de réponse selon la plus forte probabilité de présence d’un mot après l’autre qu’il a appris pendant son entrainement. D’où l’importance des données d’entrainement.

Qui l’a créé?

Open IA logo Open IA, société américaine leader de l’intelligence artificielle fondée en 2015 par notamment Reid Hoffman (fondateur de Linkedin), Peter Thiel (fondateur de Paypal et capital risker, ouvertement libertarien et trans-humaniste) ou encore Elon Musk qui s’est retiré conseil d’administration de l’entreprise en 2018.

Microsoft a investi à plusieurs reprises des milliards de dollars et a finalement conclu une licence d’exclusivité du modèle fin 2022. Microsoft compte très certainement sur un retour sur investissement et OpenIA ne sera certainement plus si open que ça dans quelque temps 😉 ChatGPT a été lancé en accès libre en novembre 2022, il est gratuit moyennant inscription (voir ci-dessous le business model).

Comme vous le découvrirez dans les chapitres suivant, les IA ont besoin d’une grande quantité de données pour être entrainées. C’est grâce à l’explosion quantitative des données numériques avec la multiplication des appareils connectés dont le mobile, l’utilisation massive des réseaux sociaux, l’essor de l’Internet des objets, et les progrès des capacités de stockage que les IA ont pu être nourris.

Comment fonctionne ChatGPT?

L’agent a besoin sur une grosse quantité de données, surtout textuelles écrites par des humains. Ces données ont été collectées pour permettre d’entrainer l’IA de l’agent.

L’entrainement se fait en plusieurs phase

Entrainement de l'IA
  • La première concerne la construction du modèle de langue qui nécessiterait environ 300’000 milliards de mots (noter que ChatGPT est disponible dans plusieurs langues). Le modèle de langue permet de prédire le mot venant après un autre mot selon des règles de régularité qu’il aura lu précédemment dans de grandes quantités de textes. Par exemple, quand vous écrivez un message Whatsapp, des suggestions apparaissent lorsque vous saisissez un mot. Ces mots sont suggérés selon leur probabilité connue d’apparition à la suite du mot précédent. Il s’agit donc de statistiques, l’IA n’a aucune compréhension de ce qu’il écrit.
  • La seconde phase est une phase d’éducation (finetuning) où l’humain intervient. De nombreux annotateurs vont guider le modèle lors de son entrainement ou en phase de test. Il faut noter que ces annotateurs sont souvent des personnes localisées dans des pays en développement payés 2$ de l’heure…
  • Au premier temps de l’utilisation, des annotateurs ré-écrivent et corrigent des réponses pour perfectionner le modèle, il s’agit de la phase de renforcement d’apprentissage de l’IA (renforcement learning with humans feedbacks). Si notion d’éthique il y a, c’est dans cette phase qu’elle peut intervenir. Mais il s’agit de l’éthique des développeurs, entraineurs ou de ceux qui leur donnent leurs consignes. Par exemple, quand on demande à ChatGPT “raconte moi une blague sur les blondes”, il refuse et répond que ceci est considéré comme discriminatoire comme pour tout groupe spécifique. Ce n’est pas la phase d’apprentissage qui a permis à ChatGPT de générer cette réponse, cette réponse a été programmée par les développeurs de l’IA.

Autrement dit l’IA a appris à imiter ce qui l’a entrainé en provenance du web. J’insiste ce modèle de langue est un modèle statistique, il ne raisonne pas, il compose ces phrases de réponse selon la plus forte probabilité de présence d’un mot après l’autre. D’où l’importance des données d’entrainement.

D’où proviennent les données d’entrainements?

  • Des données téléchargées sur le web par exemple celles de Wikipedia, de livres numérisés, des réseaux, etc… jusqu’en 2021. Des fakenews étaient-elles présentes dans les données d’entrainement? Impossible de l’assurer mais puisque les réseaux sociaux font parti des sources il est fort probable que oui… La phase de renforcement d’apprentissage a t’elle été suffisante pour exclure ces fakenews? Impossible à dire…
  • ChatGPT n’est pas directement connecté à Internet. Toutefois Microsoft a indiqué que la version qui sera intégré à son moteur de recherche Bing le sera.
  • Ces sources d’entrainement ne sont pas explicitement nommées par les créateurs (ce manque de transparence est problématique par rapport au point suivant) que ce soit au moment de la formulation de ses réponses ou que ce soit sur son site vitrine de présentation.
  • Des données d’entrainement résultent la qualité de réponse d’une IA. Quand on regarde l’orthographe, la grammaire et la syntaxe des réponses de ChatGPT, on peut en conclure que ses sources des données étaient assez bonnes de ce point de vue (sans être non plus extraordinaire). Les réponses sont très convaincantes d’un point de vue de l’écriture mais elles peuvent êtes erronées dans leur exactitude.

Quel est le business model de ChatGPT?

Business model Conception, entrainement, annotations, serveurs (consommation électrique importante) et service Cloud (Google Cloud couterait 120 millions par an à OpenIA) représentent des centaines de millions de dollars d’investissement… L’engagement de ces coûts importants serait motiver par la distanciation de la concurrence.

Mais quid de la rentabilité? Historiquement les IA des grosses plateformes numérique sont utilisés pour le placement publicitaire. Est-ce que ChatGPT suivra le même chemin à terme? Au lancement en novembre 2022, ChatGPT est gratuit (moyennant inscription). Mais depuis le 10 février, une version ChatGPT Plus est disponible pour 20$/mois. Cette version propose une plus grande accessibilité en cas de grand nombre d’utilisateurs, une vitesse de réponse plus rapide, une priorité d’accès aux nouvelles fonctionnalités.

David Chavalarias, directeur de recherche au CNRS et auteur de Toxic Data, suggère que seuls les auteurs de ChatGPT seront à même de distinguer si un texte a été généré ou non par ChatGPT. Ces auteurs pourront donc vendre leur service de détection; un service qui sera fort utile aux réseaux sociaux par exemple qui risquent d’être inondés de textes générés par ChatGPT.

Quelles utilisations de ChatGPT?

Utilisations de ChatGPT Pour le moment, ChatGPT est disponible en test via https://chat.openai.com moyennant création d’un compte. Ces tests libres, assez bluffants, permettent d’entrainer encore l’IA et certainement aussi d’encourager l’acceptation du concept par le grand public pour de futures applications plus controversées 😉.

ChatGPT peut rendre de nombreux services dès que l’écrit est en jeu. Il suffit de regarder le nombre de posts Linkedin qui traitent des astuces de création de contenu et autres optimisations de mailings ou de CRM… L’enthousiasme est là…. et les craintes aussi (voir les enjeux ci-dessous). Des articles concernant ChatGPT sortent tous les jours dans les médias (et il m’a d’ailleurs été difficile de stopper mon exploration pour rédiger cet article tant les révélations sont infernales 😅).

ChatGPT peut être utile pour: brainstormer, s’inspirer, aider à formuler ses pensées, résumer un texte long (que l’on a écrit soit même!), créer des brouillons de mails, d’articles ou même de lignes de code mais ces brouillons seront à fiabiliser et à adapter pour ne pas risquer de diffuser de fausses informations (voir ci-dessous l’exemple de l’annonce de Google Dart). ChatGPT n’est pas conçu pour rechercher la vérité ou générer un contenu prêt à être publié sans l’examiner d’abord. Nombreux vantent le gain de temps qu’il apporte dans la rédaction… Il faut toutefois considérer que du temps est nécessaire pour vérifier la validité des réponses faites par ChatGPT, pour re-travailler le texte généré, pour le personnaliser au risque de diffuser de fausses informations ou de multiplier les textes uniformes sans âme et sans portée SEO.

On peut dire que ChatGPT met du “savoir” à disposition, ce qui est une bonne chose, tout comme l’a fait Wikipedia à l’époque de son lancement. Mais le “savoir” généré par ChatGPT n’est pas sûr bien qu’il soit cohérent, plausible et parfois très convaincant. Ce “savoir” doit être fact-checké. Microsoft promet l’intégration à sa suite de logiciels: génération de textes dans Word, Excel, Powerpoint ou génération de codes dans Visual Studio… A tester en temps voulu.

Notion.so IA La couche GPT3 d’OpenIA est utilisable sous licence par d’autres entreprises dont les objectifs leur sont propres. Par exemple Notion.so (plateforme très utilisée dans le numérique qui offre des outils puissants pour la collaboration, l’organisation et la gestion des projets) intègre la version GPT-3.0 dans son Notion AI.

A noter que pour utiliser ChatGPT, il est important de savoir le faire, d’un point de vue technique et éthique. Une bonne formulation des questions est clé pour obtenir de meilleures réponses, petit conseil: les questions doivent comporter une tâche précise, avec un contexte, des consignes précises et le style attendu.

Qui sont les concurrents?

Google Google lancera sous peu son propre agent conversationnel qui se nommera Google Bard. Les différences:

  • Cet agent conversationnel sera connecté à Internet.
  • Les données sources d’entrainements proviendront sans doute de l’ensemble de l’éco-système Google: Google Search, Google Books, Youtube, Google Drive et ses documents, Google Car, etc… Imaginez l’étendue des données disponibles pour entrainer Google Dart 😬.
  • Début février 2023, Google a voulu rassurer ses investisseurs face à la déferlante ChatGPT, et a annoncé le lancement prochain de Google Bard lors de son Live from Paris. Sundar Pichai a posé une question sur les dernières découvertes du télescope James Weeb et une des 3 réponses était erronée comme l’on remarqué les passionnés d’astronomie. Cette erreur n’a pas rassuré du tout les investisseurs ce qui a entrainé une baisse de 7% de la valeur de l’action Alphabet. Est ce que cette défiance des investisseurs est justifiée? TechCrunch pense que Google est en train de perdre le contrôle de certains de ses produits et services les plus importants, tels que YouTube et la plateforme publicitaire. En cause un manque de leadership et de direction claire de la part de la société, ainsi qu’à la pression croissante des régulateurs et des concurrents. Google fait face à des défis importants. Cependant, Google est une entreprise très large et puissante, dont la base de données est gigantesque, sources de richesse pour nourrir une (et plusieurs) IA.

Baidu prévoit de lancer aussi son agent conversationnel, Ernie Bot, en Mars de cette année. Baidu est un moteur de recherche et aussi un chef de file dans l’extraction de données. Il a de quoi entraîner une intelligence artificielle. Sachant que la Chine est également experte en matière de collecte de données personnelles et sensibles de ses citoyens, espérons que ces données ne servent pas à entraîner cet agent 😬.

Meta et Amazon sont également en course avec leur propre recherche en IA. Affaires à suivre.

Quels sont les enjeux?

Face aux enjeux Tous les métiers liés à la rédaction sont interpellés: les rédacteurs, les éditeurs, les traducteurs, les relecteurs, les romanciers, les journalistes, les scénaristes, les blogueurs et les écrivains, les métiers de la communication, de la publicité, du marketing, (même les fermes de trolls 😜)… Et également les métiers qui réalisent de nombreux rapports, articles, ou communiqués comme les avocats, les médecins, les scientifiques, ou le monde de l’enseignement. Tout le monde s’interroge sur cette nouvelle situation.

Quelques exemples:

  • Concernant l’enseignement, des professeurs suisses se sont réuni pour trouver le talon d’Achille de ChatGPT. Certains se sentant démunis face à ce nouveau type d’anti-sèches. Lors du séminaire ils ont cherché des moyens de piéger les tricheurs et de réévaluer leur enseignement; les examens oraux pourraient devenir plus fréquents. Malgré les inquiétudes, certains voient aussi des applications positives potentielles dans l’utilisation de ChatGPT pour créer des base de discussion sur les textes générés.
  • La revue Nature s’inquiète de l’influence d’un tel outil sur les publications scientifiques. Une étude a révélé que les relecteurs n’avaient détecté l’utilisation de chatGPT que dans 68% des résumés de publication (un logiciel n’a pas fait mieux avec 66% des cas). Intégrité des chercheurs, validité des publications, risque d’hyper-publication (plus de publications = plus de notoriété), ces principes fondamentaux risquent d’être malmenés…
  • ChatGPT est sur le point d’intégrer MS Bing, Dart sera intégrer à Google Search. Ce sont des moteurs de recherches. Ils deviendraient donc des moteurs de rechercher et de questionnement. Les pages de résultats seront donc bouleversées. Sur le web, un ensemble de techniques destinées à améliorer la visibilité et le classement des sites web dans les résultats des moteurs de recherche est appelé la SEO. Les professionnels du domaine ont comme objectif d’améliorer le classement d’un site web dans les résultats des moteurs de recherche en optimisant le contenu, le code et le design du site car plus un site est en haut de la liste des résultats, plus il obtiendra de visiteurs. L’ajout de la brique agent conversationnel dans les moteurs de recherche, risque de focaliser les utilisateurs sur les réponses générées et ils ne cliqueront peut être plus sur les liens vers les sites web pertinents à leur recherche. Les sites des médias ont déjà fait face à cette problématique avec Google News. Sachant que la page des résultats des moteurs de recherche inclus également des résultats sponsorisés (les annonceurs payent pour que leur site apparaissent au dessus des résultats naturels), que ce sponsoring est un revenu important pour les moteurs de recherches, comment vont-ils gérer ces conflits entre utilisateurs et annonceurs? Que de défis d’un point de vue business et UX Design 🤯 On comprend mieux pourquoi les plateformes n’ont pas encore implémenter cette fonctionnalité d’agent conversationnel dans leur moteur de recherche.

La Confédération helvétique considère avec attention ces agents conversationnels. Le secrétariat d’Etat à la formation, à la recherche et à l’innovation a déclaré que la capacité d’utiliser l’intelligence artificielle de manière adéquate est déterminante pour participer à la société et au monde du travail.

Ces outils existent et il est essentiel de comprendre leur fonctionnement, se questionner sur leur éthique (et la notre en cas d’utilisation), savoir les utiliser si tel est le besoin, voir les réguler si cela s’avère nécessaire. Que de matières à réflexion pour nous à l’Institut du Numérique Responsable suisse.

Ma conclusion à ce stade

Conclusion

ChatGPT est un outil et doit le rester: ce n’est ni un collaborateur, ni un collègue. Si vous utilisez ChatGPT (ou tout autre agent conversationnel à venir), n’oubliez jamais que ses réponses sont formulées selon leur probabilité d’apparition et non de vérité, une étape de vérification et validation de votre part sera indispensable. Et interrogez-vous sur l’éthique de votre usage de cette technologie avant de l’utiliser 😉.

Bibliographie

Ethique et responsabilité

Vous vous interrogez sur les enjeux de vos services numériques.

Discutons numérique responsable
 

Autres billets

🌱 Ce site est éco-conçu.
Il est éco-responsable et basse consommation.

  • Sa notation moyenne A est maximale, obtenue selon l'outil de performance environnementale www.ecoindex.fr. Pour un ordre de grandeur, 100 visites par mois consomment 2.02 l d’eau bleue et émettent 135 gCO2e de gaz à effet de serre.
  • Le poids moyen des pages du site est de moins de 500 Ko.
  • Scores Lighthouse: Performance 95%, Accessibilité 94%, Bonnes pratiques 100%, SEO 92%
  • Hébergement vert chez www.infomaniak.ch.