Quand l’intelligence artificielle se prend pour un bibliothécaire trop zélé, cela finit par poser des questions éthiques – et juridiques. Surtout quand elle se met à réciter Harry Potter quasiment par cœur.
L’ombre d’Harry Potter plane sur l’IA de Meta
Imaginez : vous demandez à un chatbot de vous compléter une citation du célèbre sorcier à lunettes, et celui-ci vous répond… mot pour mot, comme si vous étiez plongé dans les pages du livre. Ce n’est pas de la magie, c’est Llama 3.1, le dernier modèle de Meta, capable de réciter près de 42 % du premier tome d’Harry Potter presque sans se tromper.
Et il n’est pas le seul. D’autres modèles de langage de la même génération présentent la même capacité à restituer des passages entiers de romans encore protégés par le droit d’auteur. Une situation qui commence sérieusement à inquiéter les spécialistes de la propriété intellectuelle.
Une IA qui mémorise… un peu trop bien
Pour entraîner leurs modèles, les géants de l’IA s’appuient sur une immense quantité de textes disponibles sur Internet. Mais entre les encyclopédies collaboratives, les forums, les articles de presse et les classiques littéraires, il semble que certaines frontières aient été joyeusement ignorées.
Une étude statistique récente a passé au crible plusieurs modèles d’IA. Résultat : quand on leur demande de compléter un extrait de roman, ils le font mot à mot dans un nombre bien trop élevé de cas pour que ce soit le fruit du hasard. « C’est de la mémorisation pure et simple« , affirment les chercheurs. Les œuvres les plus concernées ? Harry Potter, Le Hobbit, 1984, et d’autres piliers de la littérature anglo-saxonne encore bien loin de tomber dans le domaine public.
Le droit d’auteur, une ligne rouge franchie ?
C’est là que les choses se compliquent pour Meta et consorts. Ces contenus, toujours protégés par le droit d’auteur, ne peuvent être intégrés dans des bases d’entraînement sans l’accord explicite des ayants droit. Or, selon plusieurs enquêtes, les données utilisées par certains modèles d’IA proviennent de sites où la légalité laisse à désirer.
Des millions de livres auraient été récupérés, téléchargés et « digérés » par les IA sans aucun feu vert de leurs auteurs ou maisons d’édition. Pour les défenseurs de la propriété intellectuelle, c’est une ligne rouge franchie. On n’est plus dans la citation ou l’inspiration, mais dans une restitution directe de contenu protégé.
Le défi de l’éthique dans l’ère de l’IA générative
Ce cas n’est pas isolé. La course à l’efficacité dans l’IA pousse certains acteurs à intégrer des contenus protégés sans discernement, au mépris des règles élémentaires de droit d’auteur. Cela remet en question le modèle économique même de ces intelligences artificielles, qui, pour être performantes, ont besoin de données… en grande quantité.
Mais à l’ère de la création assistée par machine, où faut-il placer le curseur ? Jusqu’où peut-on tolérer que des œuvres soient utilisées pour « former » des IA, sans compensation ni reconnaissance pour leurs créateurs ? Ces questions ne relèvent plus seulement du débat technique, elles touchent directement à la propriété intellectuelle, au respect des artistes, et à la responsabilité des entreprises technologiques.
Une régulation plus que jamais nécessaire
Si des régulations comme le DMA européen ou le Digital Services Act commencent à encadrer certains usages numériques, le flou demeure autour de la réutilisation massive d’œuvres protégées. Les affaires comme celle de Meta ne feront qu’accélérer la réflexion.
Le paradoxe est là : les IA génératives fascinent par leur puissance, mais elles reposent encore trop souvent sur des fondations juridiques fragiles. Et s’il faut à l’avenir former des IA sur des données libres de droits ou avec des licences claires, cela pourrait bien redistribuer les cartes dans le paysage de l’intelligence artificielle.
En attendant, Harry Potter continue de faire des miracles… mais cette fois, dans les circuits d’une machine. À quel prix ? C’est désormais à la justice – et à la société – d’en décider.