Selon l'Agence France-Presse, le site de réseaux sociaux Reddit a porté plainte mercredi devant le tribunal fédéral de New York contre l'entreprise d'intelligence artificielle Perplexity AI et trois entités associées, l'accusant de recueillir illégalement en masse les commentaires de millions d'utilisateurs de Reddit sans autorisation afin de tirer un profit commercial.

Dans sa poursuite, Reddit affirme que les défendeurs comprennent Perplexity AI, entreprise basée à San Francisco, la société lituanienne de collecte de données Oxylabs UAB, le domaine AWMProxy supposément lié au réseau de bots russe, ainsi que le fournisseur de services de recherche basé au Texas aux États-Unis SerpApi. Reddit accuse ces entreprises d'avoir commis des pratiques commerciales déloyales, de violer les droits d'auteur et de s'être enrichis indûment, en contournant les mécanismes de protection pour extraire le contenu de Reddit depuis les résultats de Google et en utilisant des outils d'agents pour cacher leur identité.

reddit, capture d'écran du logo officiel

Ben Lee, directeur juridique de Reddit, a déclaré que ces entreprises agissaient comme des voleurs de banque potentiels qui pénètrent dans un « camion blindé » pour voler des données. Il a expliqué que Reddit est devenu une cible principale car il possède la plus grande collection mondiale de conversations humaines actives. Il a ajouté que Perplexity a choisi d'acheter les données volées plutôt que d'obtenir légalement l'autorisation.

Perplexity a répondu qu'elle n'avait pas encore reçu la plainte, mais a affirmé qu'elle « défendrait activement le droit du public à un accès équitable aux connaissances », et qu'elle utilisait toujours l'IA de manière responsable. SerpApi et Oxylabs ont tous deux nié les allégations, affirmant qu'ils se battraient activement. La dernière a souligné que les données publiques ne devraient pas être monopolisées ou vendues à prix élevé. AWMProxy n’a pas encore répondu.

Cette poursuite est le deuxième cas similaire après celle portée contre Anthropic en juin. Reddit avait déjà conclu des accords d'autorisation avec des entreprises telles que Google et OpenAI, permettant à ces dernières d'utiliser les contenus de Reddit pour entraîner leurs modèles d'IA moyennant un paiement. Les experts considèrent que ce cas pourrait devenir un tournant clé pour la conformité des données des systèmes d'intelligence artificielle générative, et que les entreprises d'IA feront face à une surveillance plus stricte concernant les sources de leurs données d'entraînement et les autorisations de droits d'auteur à l'avenir.