Fouille de données par l’IA générative : enjeux juridiques et techniques

L’intelligence artificielle générative, ou IA générative, est devenue un sujet brûlant ces dernières années. Bien que ses capacités à créer des contenus textuels, visuels et audio transforment de nombreux secteurs, elle suscite également des inquiétudes sur les plans éthique, juridique, et artistique. Ces questions ont conduit à des initiatives pour réguler son utilisation, rencontrant toutefois des résistances croissantes.

Nous allons examiner les différentes réactions contre l’IA générative, les raisons de ces oppositions, ainsi que les mesures concrètes mises en place pour limiter son exploitation non autorisée.

1. Les critiques contre l’IA générative : atteinte aux droits d’auteur

L’un des principaux points de friction entourant l’IA générative concerne l’utilisation de contenus protégés par le droit d’auteur pour entraîner les modèles. Les grandes entreprises technologiques comme Google, Meta et OpenAI utilisent de vastes quantités de données pour entraîner leurs modèles d’IA, ce qui inclut souvent des œuvres créatives comme des articles, des livres, de la musique, des images, et d’autres contenus protégés.

Les auteurs, artistes et maisons d’édition sont de plus en plus préoccupés par le fait que leurs œuvres sont exploitées sans leur consentement ni rémunération, un phénomène qui soulève des questions sur le respect du droit d’auteur.

Récemment, Penguin Random House, l’un des plus grands éditeurs au monde, a pris la décision de modifier les pages relatives aux droits d’auteur insérées dans ses livres pour interdire explicitement l’utilisation des ouvrages pour l’entraînement des modèles d’IA générative. Cette attitude contraste avec celle d’autres éditeurs, qui ont plutôt choisi de monétiser leurs œuvres en concluant des accords de licence avec les entreprises d’IA. En adoptant cette approche, ces éditeurs génèrent un flux de revenus direct, tout en encadrant l’utilisation de leurs contenus par les systèmes d’intelligence artificielle. Ainsi, au lieu de simplement interdire l’accès à leurs œuvres, ils tirent parti de cette technologie pour diversifier leurs sources de financement.

2. Les règles relatives à l’intelligence artificielle

Les règles entourant l’intelligence artificielle sont encore en pleine évolution, mais certaines mesures sont déjà en place, notamment en Europe. La directive européenne 2019/790 sur le droit d’auteur dans le marché unique numérique a autorisé par deux exceptions particulières la fouille de données (data mining), tout en prévoyant, pour une seule de ces exceptions, la possibilité pour les auteurs et titulaires de droits de s’y opposer. Cela signifie que les créateurs de contenu peuvent exercer un droit d’opt-out, c’est-à-dire réserver l’utilisation de leurs œuvres contre le data mining, empêchant ainsi leur utilisation sans autorisation.

Toutefois, ce cadre juridique ne vise pas spécifiquement l’utilisation de l’IA générative, d’autant qu’il a été adopté avant l’émergence des grands modèles génératifs comme ChatGPT ou MidJourney. Son application à l’intelligence artificielle fait l’objet de contestations estimant qu’il n’est pas totalement adapté à la complexité actuelle de ces technologies. Dans ce raisonnement, l’opt-out n’est pas nécessaire puisque l’IA générative ne disposerait pas de l’autorisation de procéder à la fouille des données.

Dans une décision en date du 27 septembre 2024, le tribunal régional de Hambourg a estimé que la directive 2019/790 est applicable en cas de fouille des données par une IA générative. Cependant, il est regrettable que cette juridiction se soit abstenue d’interroger la Cour de justice de l’Union européenne dans le cadre d’une question préjudicielle. En raison du rang « mineur » de la juridiction de Hambourg, une incertitude continue à planer sur les règles véritablement applicables à l’IA générative, d’autant plus que la juridiction de Hambourg a appliqué largement une des exceptions prévues par la directive, alors qu’une exception doit s’interpréter restrictivement.

3. Les contestations aux États-Unis

Des contestations relatives à la fouille des données par l’IA générative se sont également élevées aux États-Unis, qui appliquent d’autres règles avec, en particulier, une absence d’opt-out. Les grandes entreprises technologiques comme OpenAI, Google, et Meta défendent leur usage des données en invoquant la doctrine du fair use (usage équitable), notamment pour les critiques, les nouvelles ou l’éducation. Elles affirment également que les œuvres utilisées dans l’entraînement des IA génératives sont transformées de manière substantielle, ce qui, selon elles, justifie cet usage sans autorisation préalable.

Cependant, cette notion de transformation substantielle est encore très contestée par de nombreux ayants droit, qui estiment que les œuvres ne sont pas assez modifiées pour justifier une telle utilisation. Les tribunaux américains n’ont pas encore tranché sur la question de savoir si entraîner une IA avec des données protégées relève ou non du fair use, en particulier lorsqu’il s’agit d’œuvres protégées par le droit d’auteur. Les litiges sur ce sujet sont nombreux, et il est probable que les décisions à venir auront un impact majeur sur la manière dont les entreprises technologiques pourront ou ne pourront pas exploiter des œuvres protégées à l’avenir. Là aussi, bien que sur des fondements différents, une incertitude persiste aux États-Unis, à l’instar de la situation en Europe.

4. Produits recommandés pour comprendre l’intelligence artificielle et ses enjeux

Pour mieux comprendre les enjeux de l’intelligence artificielle générative et de ses implications, il peut être utile de consulter certains ouvrages spécialisés disponibles sur Amazon :

L’intelligence artificielle expliquée – Des concepts de base aux applications avancées de l’IA, de David Brenet.

Le Petit Livre L’IA (intelligence artificielle) en 5 minutes par jour, de Stéphane d’ Ascoli.

Guide de l’IA générative: Transformez votre quotidien professionnel à l’ère de ChatGPT, Bing, Bard, Bloom, Claude, de Cyril de Sousa Cardoso et Fanny Parise.

5. Les mesures techniques pour empêcher la fouille de contenus

La décision de Penguin Random House de prévoir dans les livres qu’elle édite une interdiction de les utiliser pour l’entraînement d’une IA générative constitue déjà une mesure technique. Toutefois, d’autres mesures sont nécessaires pour empêcher la fouille des données lorsque celles-ci sont disponibles sur Internet.

Un paywall, bien que cela introduise d’autres considérations économiques, ou l’exclusion du contenu via un fichier robots.txt, sont des moyens efficaces pour interdire aux IA génératives d’explorer les données d’un site. Des solutions comme IMATAG permettent également de taguer les données, notamment en insérant un marquage dans les pixels des images. Il est aussi recommandé d’adapter les conditions d’utilisation des sites Internet pour y inclure explicitement une interdiction pour les IA de fouiller les données du site, partant du principe que les IA doivent être capables de lire et de comprendre ces conditions. La décision précitée du tribunal régional de Hambourg a validé la possibilité d’interdire la fouille de données dans les conditions d’utilisation d’un site Internet, ce qui soulève les mêmes réserves que celles déjà formulées concernant ce jugement.

6. L’incertitude juridique persistante

L’absence de décisions rendues par des juridictions majeures, tant en Europe qu’aux États-Unis, laisse planer une grande incertitude quant aux règles applicables à l’IA générative. En Europe, la décision du tribunal régional de Hambourg a apporté quelques éclaircissements, mais en raison de son rang mineur et de l’absence d’une intervention de la Cour de justice de l’Union européenne, des doutes subsistent sur l’interprétation à donner à la directive 2019/790.

Aux États-Unis, la doctrine du fair use est encore floue en ce qui concerne l’entraînement des modèles d’IA avec des données protégées. Les décisions judiciaires à venir auront donc un rôle crucial pour lever ces incertitudes et établir des règles plus claires sur l’exploitation des œuvres par les systèmes d’intelligence artificielle.

Source 1. Source 2. Source 3.