AccueilBlockchainInterviewsReddit data DAO et tout ce qu'il faut savoir sur la formation...

Reddit data DAO et tout ce qu’il faut savoir sur la formation des modèles Gen AI

Le Cryptonomist a interviewé Anna Kazlauskas, CEO et co-fondatrice de Vana’s, qui Reddit Data DAO, qui, la première semaine, a vu 140k utilisateurs s’inscrire avec des comptes Reddit vérifiés. Anna travaille maintenant avec des développeurs pour créer des Data DAOs pour d’autres plateformes, comme LinkedIn et ChatGPT. 

En plus des DAOs, ils ont d’autres moyens pour les utilisateurs de regrouper leurs données dans des ensembles de données qui peuvent ensuite être utilisés pour l’entraînement de modèles GenAI, comme la création de portraits ou avatars.

Au-delà de ce que Vana fait, avec Anna nous avons parlé de la croissance de l’espace IA décentralisé, car les plateformes aident les gens à utiliser et à monétiser leurs données pour de nouvelles applications. 

Summary

Pouvez-vous fournir un aperçu de Vana et de sa mission dans l’espace IA décentralisé ?

Vana est une plateforme d’IA détenue par les utilisateurs et alimentée par des données détenues par les utilisateurs. Notre mission est que les utilisateurs possèdent leurs données et la valeur qu’elles créent grâce aux modèles d’IA. Il y a un besoin croissant de plus de données d’entraînement pour améliorer les performances des modèles d’IA, car en fin de compte, les modèles d’IA ne sont aussi bons que leurs données. 

Par exemple, LLaMA 3 est entraîné sur environ 15 trillions de mots, ce qui correspond à peu près à la quantité de données disponibles sur l’internet public. Les entreprises essaient maintenant d’acquérir plus de données, parfois en payant des centaines de millions de dollars pour cela. Les grandes plateformes technologiques accumulent des données utilisateur précieuses et construisent de nouvelles technologies sans tenir compte des autorisations des utilisateurs, ce qui freine l’innovation. 

Chez Vana, nous libérons les données de ces jardins clos en les mettant sous le contrôle des utilisateurs. Nous permettons aux utilisateurs de contribuer directement aux modèles d’IA, de choisir comment leurs données sont utilisées et comment l’IA est utilisée. Nous croyons que nous pouvons réellement surpasser les modèles de pointe si nous pouvons accéder aux meilleures données – surpassant la performance des modèles comme GPT-6 en accédant aux données disponibles uniquement directement auprès des utilisateurs. Vana est architecturé comme une blockchain de couche 1 conçue dès le départ pour des données privées et détenues par les utilisateurs. 

Le Reddit Data DAO a vu 140k utilisateurs s’inscrire lors de sa première semaine. Qu’est-ce qui, selon vous, a conduit à cette adoption rapide, et quelles leçons avez-vous tirées de ce lancement ?

Le Reddit Data DAO a été un succès incroyable du point de vue de l’adoption, avec plus de 140k utilisateurs s’inscrivant la première semaine. Ce niveau d’adoption est inhabituel pour les DAOs–c’est maintenant le plus grand data DAO de l’histoire. 

Une des choses qui a conduit à une adoption rapide est que tant de l’histoire avait déjà été exposée, car les utilisateurs deviennent de plus en plus conscients de la valeur de leurs données grâce à la couverture médiatique des ventes de données. Réaliser que Reddit vend vos données pour 200M$ ou qu’Apple achète des données pour 50M$ vous rend beaucoup plus conscient de leur valeur. 

Il y a également un fort appétit pour les produits détenus par les utilisateurs construits dans le web3 qui vont au-delà des produits DeFi familiers vers une nouvelle frontière de la propriété. Nous voyons cette tendance dans des projets comme Farcaster, les réseaux DePIN et les DAOs de données construits sur Vana, qui représentent une nouvelle vague de produits détenus par les utilisateurs.

Une leçon importante était la nécessité de preuves des exigences de contribution. Plus d’un million de personnes ont essayé de rejoindre le Reddit Data DAO, mais beaucoup ne remplissaient pas les critères d’avoir un compte Reddit qui existe depuis un certain temps et qui a une quantité minimale de données. Cela souligne l’importance d’avoir des mécanismes pour garantir des contributions de qualité.

Vous avez mentionné des plans pour créer des Data DAOs pour des plateformes comme LinkedIn et Chat GPT. Quels défis et opportunités uniques voyez-vous dans l’expansion vers ces plateformes ?

Vana est un réseau peer to peer pour les données détenues par les utilisateurs, et les développeurs ont créé divers DAOs de données comme le Reddit Data DAO, le LinkedIn Data DAO, et le ChatGPT Data DAO. 

Ces différentes sources de données sont incroyablement précieuses pour former des modèles AI, mais elles sont actuellement enfermées dans des jardins clos. Chacune de ces plateformes peut être difficile pour extraire des données, mais c’est toujours possible grâce à la régulation des données.

Comment Vana permet-elle aux utilisateurs de monétiser leurs données, et quels sont quelques exemples de la manière dont les utilisateurs en ont bénéficié ?

Notre objectif est d’aider les utilisateurs à monétiser et protéger leurs données simultanément. Par exemple, avec le Reddit Data DAO, ils entraînent maintenant un modèle détenu par les utilisateurs (principalement axé sur le shitposting à ce stade, mais c’est un début). Les utilisateurs sont payés chaque fois que le modèle est utilisé, créant ainsi une incitation économique à la propriété conjointe du modèle. 

Et les données des utilisateurs restent entièrement privées – plutôt que de vendre les données, les données sont simplement « louées » où les données sous-jacentes ne quittent jamais l’environnement sécurisé. 

Avec la préoccupation croissante concernant la confidentialité des données, comment Vana s’assure-t-elle que les données des utilisateurs sont sécurisées et utilisées de manière éthique au sein des Data DAOs ?

La confidentialité des données est passée d’une simple question idéologique ou de préférence à une question économique. Si quelqu’un possède vos données, il peut potentiellement créer une version IA de vous qui est économiquement précieuse, générant des revenus et pouvant potentiellement rivaliser avec vous. C’est pourquoi la confidentialité est si importante et au cœur de Vana. 

Nous avons inventé un concept appelé « données non-custodiales », qui est similaire à un portefeuille non-custodial mais pour vos données personnelles. Il garde vos données sous votre contrôle total, autorisées par votre clé privée. Cela permet à vos données d’être portables entre les applications et ajoute une couche financière native par-dessus, permettant de construire des choses comme des DAOs de données.

Comment les ensembles de données créés par les Data DAOs de Vana améliorent-ils l’entraînement des modèles d’IA générative, et quels avantages offrent-ils par rapport aux ensembles de données traditionnels ?

Typiquement, les modèles d’IA sont entraînés avec des données extraites de l’internet public – des données disponibles sans se connecter nulle part. Mais si vous y pensez du point de vue d’enseigner à un enfant sur le monde, vous ne voudriez pas qu’il erre simplement sur l’internet public au hasard. Vous voudriez lui donner des informations de haute qualité qui pourraient ne pas être disponibles publiquement – des choses comme des écrits de haute qualité, des processus de pensée, ou des messages. L’IA est principalement entraînée sur des données publiques, mais elle a vraiment besoin de données privées pour repousser les frontières. C’est ce que permettent les DAOs de données : les utilisateurs contribuent leurs données privées pour créer une IA détenue par les utilisateurs. 

Nous croyons que l’IA devrait être créée davantage comme un logiciel open source, par une communauté. Notre objectif est de donner aux chercheurs accès aux meilleurs ensembles de données qui sont actuellement retenus captifs à l’intérieur de jardins clos pour repousser les frontières de la performance de l’IA.

Quelles tendances prévoyez-vous dans le domaine de l’IA décentralisée au cours des 5 à 10 prochaines années, et comment Vana se positionne-t-elle pour être leader dans ce paysage en évolution ?

L’espace IA décentralisé a vraiment accéléré au cours de l’année écoulée. Par exemple, à EthCC cette année, il y avait un événement IA décentralisé presque tous les jours, contre aucun l’année dernière. Les gens découvrent comment appliquer des technologies souveraines qui ont bien fonctionné pour la finance à l’espace IA. Chez Vana, nous croyons que la base fondamentale de tout cela est les données. Pour construire une IA détenue par les utilisateurs et une IA souveraine, vous avez besoin de données détenues par les utilisateurs, donc notre objectif est sur cette partie des données.

Au cours des 5 à 10 prochaines années, je suis enthousiaste à propos de quelques étapes importantes : 1) Un modèle de fondation détenu par les utilisateurs, collectivement possédé par 100 millions de personnes. 2) Des agents IA plus autonomes qui peuvent gagner par eux-mêmes, et s’assurer que ces agents sont véritablement possédés par les utilisateurs qui ont contribué à leur formation. 

Alors que l’IA joue un rôle économique de plus en plus important, il est essentiel de veiller à ce que le pouvoir soit largement distribué à la fois d’un point de vue technique et social. 

Pouvez-vous en dire plus sur votre collaboration avec les développeurs pour construire des Data DAOs ? Quels sont certains des projets innovants actuellement en cours de réalisation ?

Vana est un réseau sans permission, donc n’importe qui peut construire un data DAO. C’est une blockchain de couche un conçue dès le départ pour des données privées et détenues par l’utilisateur. Il y a plus de 100 data DAOs déployés sur le testnet Satori aujourd’hui. Beaucoup des constructeurs sont des participants précoces dans l’écosystème Bittensor qui comprennent profondément l’intersection de la crypto et de l’IA. Certains projets notables incluent le Twitter Data DAO, LinkedIn Data DAO, et GitHub Data DAO. Nous nous associons également à des projets dans l’espace ZK et l’espace d’outillage DAO pour rendre les data DAOs encore plus faciles à créer et à gérer.

Quelles considérations éthiques sont les plus pressantes dans le développement de l’IA décentralisée, et comment Vana aborde-t-elle ces questions ?

Je pense que l’une des plus grandes questions en IA aujourd’hui est de savoir qui devrait posséder les modèles et décider quelles données y sont intégrées. Alors que nous commençons à dépendre de plus en plus de l’IA pour obtenir des informations, elles deviennent notre source de vérité. Quiconque décide de ce qui entre dans l’IA décide essentiellement de la vérité. Il est effrayant d’avoir une seule entité contrôlant cela. Notre point de vue chez Vana est que la communauté, et non une seule entreprise, devrait prendre ces décisions.

Une autre question qui se pose dans l’IA décentralisée est la suivante : si l’IA est entièrement décentralisée, que se passe-t-il si l’IA devient incontrôlable et qu’il n’y a pas de bouton d’arrêt ? La façon dont nous abordons cela chez Vana est que les modèles d’IA sont finalement possédés par les utilisateurs qui y ont contribué, de sorte qu’ils restent toujours sous leur contrôle total. 

Quels conseils donneriez-vous aux entrepreneurs en herbe cherchant à entrer dans le domaine de l’IA décentralisée, basés sur vos expériences avec Vana et les Data DAOs ?

C’est un moment idéal pour commencer à construire dans le domaine de l’IA décentralisée. Il y a beaucoup d’opportunités pour appliquer certains des primitifs économiques crypto qui ont bien fonctionné pour DeFi à la nouvelle catégorie émergente des données et de l’IA décentralisées. Je recommanderais également de passer du temps à plonger dans l’espace de l’IA open source non crypto pour apprendre certaines des approches que les gens adoptent en dehors d’un contexte crypto. Je plongerais directement dans certains des projets existants pour voir quels types de primitifs sont disponibles pour construire, y compris essayer de démarrer un data DAO sur Vana. 

RELATED ARTICLES

MOST POPULARS