Source : Cointelegraph
Texte original : « Les données OORT AI décentralisées figurent parmi les meilleures sur Google Kaggle »
Le jeu de données d'images d'entraînement en intelligence artificielle développé par le fournisseur de solutions d'IA décentralisées OORT a connu un succès significatif sur la plateforme Kaggle de Google.
La liste des ensembles de données "Diverse Tools Kaggle" d'OORT a été publiée début avril ; depuis, elle a grimpé en tête de plusieurs catégories. Kaggle est une plateforme en ligne appartenant à Google, utilisée pour des compétitions en science des données et en apprentissage automatique, ainsi que pour l'apprentissage et la collaboration.
Le contributeur principal du projet de crypto-AI OpenLedger, Ramkumar Subramaniam, a déclaré à Cointelegraph : "Le classement sur la page d'accueil de Kaggle est un signal social puissant, indiquant que ce jeu de données attire la participation active de communautés clés telles que les data scientists, les ingénieurs en apprentissage automatique et les praticiens."
Le fondateur et PDG d’OORT, Max Li, a déclaré à Cointelegraph que l’entreprise « a observé des indicateurs d’engagement encourageants, qui ont vérifié » que les données de formation qu’elle a collectées par le biais de son modèle décentralisé « ont effectivement une demande et une pertinence précoces du marché ». Il a ajouté :
"L'intérêt spontané de la communauté, y compris l'utilisation active et les contributions, démontre clairement comment des pipelines de données décentralisés et pilotés par la communauté, comme OORT, peuvent réaliser une distribution rapide et une large participation sans dépendre d'intermédiaires centralisés."
Li a également déclaré que le projet OORT publiera plusieurs ensembles de données dans les mois à venir. Cela inclut un ensemble de données sur les commandes vocales dans la voiture, un ensemble de données sur les commandes vocales pour la maison intelligente, ainsi qu'un ensemble de données vidéo de deepfake destiné à améliorer la capacité de vérification de l'authenticité des médias alimentés par l'IA.
Cointelegraph a confirmé de manière indépendante que l'ensemble de données mentionné a réussi à se classer en tête de la page d'accueil dans les catégories IA générale, vente au détail et achats, industrie et ingénierie sur Kaggle plus tôt ce mois-ci. Au moment de la publication, cet ensemble de données ne maintenait plus ces classements après une mise à jour d'un ensemble de données potentiellement non pertinent le 6 mai et une autre mise à jour le 14 mai.
Bien qu'il reconnaisse cette réalisation, Subramaniam a déclaré à Cointelegraph : "Ce n'est pas un indicateur décisif d'application réelle ou de qualité d'entreprise." Il a souligné que l'unicité du jeu de données OORT "réside non seulement dans le classement, mais aussi dans les canaux de provenance et les mécanismes d'incitation derrière le jeu de données." Il a expliqué davantage :
"Contrairement aux fournisseurs centralisés qui peuvent dépendre de processus opaques, un système transparent basé sur des incitations par jetons peut offrir la traçabilité, une gestion communautaire conjointe et la possibilité d'optimisation continue, à condition d'établir une structure de gouvernance appropriée."
Lex Sokolin, partenaire de Generative Ventures, une société de capital-risque en intelligence artificielle, a déclaré que bien qu'il pense que ces résultats ne sont pas difficiles à reproduire, "cela prouve en effet que les projets cryptographiques peuvent utiliser des mécanismes d'incitation décentralisés pour organiser des activités ayant une valeur économique."
Les données publiées par l'institut de recherche en intelligence artificielle Epoch AI indiquent que les données d'entraînement textuelles générées par l'homme devraient s'épuiser d'ici 2028. La pression est telle que les investisseurs facilitent actuellement des transactions pour permettre aux entreprises d'IA d'obtenir des droits d'utilisation de matériaux protégés par le droit d'auteur.
Des rapports de recherche sur la pénurie croissante de données d'entraînement pour l'IA et la manière dont cela pourrait limiter le développement de ce domaine circulent depuis des années. Bien que les données générées par l'IA synthétique ( soient de plus en plus utilisées et aient montré des résultats prometteurs, les données générées par les humains sont toujours largement considérées comme un choix supérieur, car ces données de haute qualité peuvent former des modèles d'IA avec de meilleures performances.
Dans le domaine des images entraînées par l’IA, la situation devient plus complexe et les artistes sabotent consciemment l’effort de formation. Pour protéger leur travail contre toute utilisation non autorisée dans la formation de l’IA, l’outil Nightshade permet aux créateurs d'« empoisonner » leurs images, ce qui a un impact sévère sur les performances du modèle.
Subramaniam a souligné : "Nous entrons dans une époque où les données d'images de haute qualité deviennent de plus en plus rares." Il a également souligné que l'application généralisée des techniques de poisoning d'images rend ce défi encore plus sévère :
"Avec l'émergence des techniques de dissimulation d'images et des méthodes d'empoisonnement de l'entraînement par des filigranes adverses, les ensembles de données open source font face à un double défi en termes de quantité et de crédibilité."
Face à cette situation, Subramaniam a déclaré que les ensembles de données incitatifs, vérifiables et contribué par la communauté "sont plus précieux que jamais auparavant". Il estime que ce type de projet "peut non seulement servir d'alternative, mais deviendra également un pilier important pour l'alignement de l'IA et la traçabilité des données dans l'économie des données."
Articles connexes : Kima rejoint le sandbox de Mastercard pour permettre le rechargement de cartes de stablecoin
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Les données OORT AI décentralisées se classent parmi les meilleures sur Google Kaggle.
Source : Cointelegraph Texte original : « Les données OORT AI décentralisées figurent parmi les meilleures sur Google Kaggle »
Le jeu de données d'images d'entraînement en intelligence artificielle développé par le fournisseur de solutions d'IA décentralisées OORT a connu un succès significatif sur la plateforme Kaggle de Google.
La liste des ensembles de données "Diverse Tools Kaggle" d'OORT a été publiée début avril ; depuis, elle a grimpé en tête de plusieurs catégories. Kaggle est une plateforme en ligne appartenant à Google, utilisée pour des compétitions en science des données et en apprentissage automatique, ainsi que pour l'apprentissage et la collaboration.
Le contributeur principal du projet de crypto-AI OpenLedger, Ramkumar Subramaniam, a déclaré à Cointelegraph : "Le classement sur la page d'accueil de Kaggle est un signal social puissant, indiquant que ce jeu de données attire la participation active de communautés clés telles que les data scientists, les ingénieurs en apprentissage automatique et les praticiens."
Le fondateur et PDG d’OORT, Max Li, a déclaré à Cointelegraph que l’entreprise « a observé des indicateurs d’engagement encourageants, qui ont vérifié » que les données de formation qu’elle a collectées par le biais de son modèle décentralisé « ont effectivement une demande et une pertinence précoces du marché ». Il a ajouté :
"L'intérêt spontané de la communauté, y compris l'utilisation active et les contributions, démontre clairement comment des pipelines de données décentralisés et pilotés par la communauté, comme OORT, peuvent réaliser une distribution rapide et une large participation sans dépendre d'intermédiaires centralisés."
Li a également déclaré que le projet OORT publiera plusieurs ensembles de données dans les mois à venir. Cela inclut un ensemble de données sur les commandes vocales dans la voiture, un ensemble de données sur les commandes vocales pour la maison intelligente, ainsi qu'un ensemble de données vidéo de deepfake destiné à améliorer la capacité de vérification de l'authenticité des médias alimentés par l'IA.
Cointelegraph a confirmé de manière indépendante que l'ensemble de données mentionné a réussi à se classer en tête de la page d'accueil dans les catégories IA générale, vente au détail et achats, industrie et ingénierie sur Kaggle plus tôt ce mois-ci. Au moment de la publication, cet ensemble de données ne maintenait plus ces classements après une mise à jour d'un ensemble de données potentiellement non pertinent le 6 mai et une autre mise à jour le 14 mai.
Bien qu'il reconnaisse cette réalisation, Subramaniam a déclaré à Cointelegraph : "Ce n'est pas un indicateur décisif d'application réelle ou de qualité d'entreprise." Il a souligné que l'unicité du jeu de données OORT "réside non seulement dans le classement, mais aussi dans les canaux de provenance et les mécanismes d'incitation derrière le jeu de données." Il a expliqué davantage :
"Contrairement aux fournisseurs centralisés qui peuvent dépendre de processus opaques, un système transparent basé sur des incitations par jetons peut offrir la traçabilité, une gestion communautaire conjointe et la possibilité d'optimisation continue, à condition d'établir une structure de gouvernance appropriée."
Lex Sokolin, partenaire de Generative Ventures, une société de capital-risque en intelligence artificielle, a déclaré que bien qu'il pense que ces résultats ne sont pas difficiles à reproduire, "cela prouve en effet que les projets cryptographiques peuvent utiliser des mécanismes d'incitation décentralisés pour organiser des activités ayant une valeur économique."
Les données publiées par l'institut de recherche en intelligence artificielle Epoch AI indiquent que les données d'entraînement textuelles générées par l'homme devraient s'épuiser d'ici 2028. La pression est telle que les investisseurs facilitent actuellement des transactions pour permettre aux entreprises d'IA d'obtenir des droits d'utilisation de matériaux protégés par le droit d'auteur.
Des rapports de recherche sur la pénurie croissante de données d'entraînement pour l'IA et la manière dont cela pourrait limiter le développement de ce domaine circulent depuis des années. Bien que les données générées par l'IA synthétique ( soient de plus en plus utilisées et aient montré des résultats prometteurs, les données générées par les humains sont toujours largement considérées comme un choix supérieur, car ces données de haute qualité peuvent former des modèles d'IA avec de meilleures performances.
Dans le domaine des images entraînées par l’IA, la situation devient plus complexe et les artistes sabotent consciemment l’effort de formation. Pour protéger leur travail contre toute utilisation non autorisée dans la formation de l’IA, l’outil Nightshade permet aux créateurs d'« empoisonner » leurs images, ce qui a un impact sévère sur les performances du modèle.
Subramaniam a souligné : "Nous entrons dans une époque où les données d'images de haute qualité deviennent de plus en plus rares." Il a également souligné que l'application généralisée des techniques de poisoning d'images rend ce défi encore plus sévère :
"Avec l'émergence des techniques de dissimulation d'images et des méthodes d'empoisonnement de l'entraînement par des filigranes adverses, les ensembles de données open source font face à un double défi en termes de quantité et de crédibilité."
Face à cette situation, Subramaniam a déclaré que les ensembles de données incitatifs, vérifiables et contribué par la communauté "sont plus précieux que jamais auparavant". Il estime que ce type de projet "peut non seulement servir d'alternative, mais deviendra également un pilier important pour l'alignement de l'IA et la traçabilité des données dans l'économie des données."
Articles connexes : Kima rejoint le sandbox de Mastercard pour permettre le rechargement de cartes de stablecoin