Les œuvres soumises au droit d’auteur indispensables pour entraîner ChatGPT, admet OpenAI

0


Accusé d’avoir utilisé des millions d’articles, de livres et d’autres textes pour entraîner le grand modèle de langage alimentant l’agent conversationnel ChatGPT, OpenAI a tenté de prouver sa bonne foi ce 8 janvier. Se targuant de défendre le journalisme et prônant la collaboration avec des agences de presse, la start-up américaine avance que « le procès du New York Times est sans fondement ».

ChatGPT est un succès, donc tout est permis ?

« Notre objectif est de développer des outils d’IA qui permettent aux gens de résoudre des problèmes autrement hors de portée. Des personnes du monde entier utilisent déjà notre technologie pour améliorer leur vie quotidienne. Des millions de développeurs et plus de 92 % des entreprises du classement Fortune 500 s’appuient aujourd’hui sur nos produits » annonce OpenAI en préambule de son communiqué.

Le créateur de ChatGPT a aussi rappelé son travail de collaboration avec les organismes de presse, notamment ses récents partenariats avec l’Associated Press, Axel Springer, l’American Journalism Project et l’Université NYU. Pas sûr néanmoins que des accords passés avec des concurrents du NYT ne dissuadent le journal de cette action en justice pour l’utilisation frauduleuse de ses contenus.

OpenAI s’abrite derrière le principe de « fair use »…

OpenAI insiste que « l’entraînement de modèles d’IA à l’aide de contenus accessibles au public sur Internet est couvert par le principe de fair use », une provision du droit américain qui permet l’utilisation d’œuvres protégées dans certains cas de figure bien définis (par exemple l’illustration d’un propos). L’entreprise se met en scène comme étant magnanime malgré ce droit auto-proclamé, rappelant qu’elle propose depuis l’été 2023 une option de refus d’inclusion (que le New York Times a adoptée en août 2023) dans ses bases d’entraînement. Option qui est arrivée après les faits, et après plusieurs procès de la part d’auteurs (toujours en cours).

En parallèle, dans le cadre d’une enquête de la commission des communications et du numérique de la Chambre des Lords du Royaume-Uni sur les grands modèles de langage, OpenAI a été invité à témoigner par écrit. A la question de savoir quelle est la position de l’entreprise sur l’utilisation d’œuvres protégées par le droit d’auteur dans les données d’entraînement des grands modèles de langage (LLM), la firme indique « respecter les droits des créateurs et des propriétaires de contenu ».

…Mais admet que ses modèles ne pourraient pas être entraînés sans contenus copyrightés

Interrogée ensuite sur les possibilités de construire des modèles sans utiliser de données protégées par le droit d’auteur, OpenAI admet « qu’il serait impossible d’entraîner les meilleurs modèles d’IA d’aujourd’hui sans utiliser de documents protégés par le droit d’auteur ». De même, « limiter les données d’entraînement aux livres et dessins du domaine public créés il y a plus d’un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas de fournir des systèmes d’IA répondant aux besoins des citoyens d’aujourd’hui ».

Et si les accusations du New York Times portent précisément sur l’utilisation sans aucune autorisation ni rémunération de millions de ses articles pour entraîner les grands modèles de langage d’OpenAI, ce dernier n’en démord pas. « Nos discussions avec le New York Times semblaient progresser de manière constructive jusqu’à notre dernière communication du 19 décembre. Les négociations portaient sur un partenariat de grande valeur autour de l’affichage en temps réel avec attribution dans ChatGPT, dans lequel le New York Times gagnerait un nouveau moyen de se connecter avec ses lecteurs existants et nouveaux, et nos utilisateurs auraient accès à leurs reportages » relate OpenAI.

OpenAI ne veut pas payer les auteurs dont il utilise les œuvres

La start-up a déclaré au New York Times que son contenu, comme toute source unique, ne contribuait « pas de manière significative » à l’entraînement de ses modèles existants et n’aurait pas non plus suffisamment d’impact pour les entraînements futurs. En résumé, comme le modèle s’appuie sur un grand nombre de sources, aucune d’entre elles ne nécessite d’accord ni ne mérite d’être rémunérée. « Le procès qu’ils ont intenté le 27 décembre – dont nous avons pris connaissance en lisant le New York Times – nous a surpris et déçus » conclut le géant de l’IA.

Rappelons que le titre de presse réclame des « milliards de dollars de dommages et intérêts » à OpenAI ainsi que la mise hors ligne des modèles alimentés par ses contenus. De nombreux autres auteurs et entreprises sont en procès avec la start-up pour des faits similaires, et d’autres outils d’IA générative, comme Midjourney ou Stable Diffusion, qui permettent de générer des images, sont aussi en conflits avec les artistes dont ils ont utilisé les œuvres pour entraîner leurs modèles, là encore sans autorisation ni rémunération.

Sélectionné pour vous

HPE pourrait racheter Juniper Networks pour 13 milliards de dollars



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.