Los proyectos Web3 con concepto de IA se han convertido en un objetivo de atracción de capital en los mercados primario y secundario.
Las oportunidades de Web3 en la industria de la IA se manifiestan en: utilizar incentivos distribuidos para coordinar el suministro potencial en la larga cola — a través de datos, almacenamiento y computación; al mismo tiempo, establecer modelos de código abierto y un mercado descentralizado para Agentes de IA.
La IA se utiliza principalmente en la industria Web3 para finanzas en cadena ( pagos criptográficos, comercio, análisis de datos ) y asistencia en el desarrollo.
La utilidad de AI+Web3 se refleja en la complementariedad de ambos: Web3 tiene la esperanza de combatir la centralización de AI, y AI tiene la esperanza de ayudar a Web3 a romper barreras.
Introducción
En los últimos dos años, el desarrollo de la IA ha parecido presionar el botón de aceleración, y este efecto mariposa provocado por Chatgpt no solo ha abierto un nuevo mundo para la inteligencia artificial generativa, sino que también ha desatado una corriente en el ámbito de Web3.
Bajo el concepto de IA, el financiamiento en el mercado de criptomonedas, que se ha desacelerado, ha mostrado un aumento notable. Según estadísticas, solo en la primera mitad de 2024, 64 proyectos de Web3+IA completaron financiamiento, y el sistema operativo basado en inteligencia artificial Zyber365 logró un monto máximo de financiamiento de 100 millones de dólares en su ronda A.
El mercado secundario es más próspero, el sitio de agregación de criptomonedas Coingecko muestra que en poco más de un año, el valor total del mercado de la pista de IA ha alcanzado los 48,5 mil millones de dólares, con un volumen de transacciones de 8,6 mil millones de dólares en 24 horas; los avances en tecnologías de IA han traído beneficios evidentes, después del lanzamiento del modelo de OpenAI Sora para convertir texto en video, el precio promedio del sector de IA ha aumentado un 151%; el efecto de la IA también se ha extendido a uno de los sectores de atracción de capital en criptomonedas, Meme: el primer concepto de MemeCoin de Agente de IA, GOAT, ha ganado popularidad rápidamente y ha alcanzado una valoración de 1.400 millones de dólares, provocando un auge en los Memes de IA.
La investigación y los temas sobre AI+Web3 también están en auge, desde AI+Depin hasta AI Memecoin y ahora AI Agent y AI DAO, la sensación de FOMO ya no puede seguir el ritmo de la rotación de las nuevas narrativas.
AI+Web3, esta combinación de términos llena de dinero caliente, oportunidades y fantasías futuras, inevitablemente es vista por algunos como un matrimonio concertado entre capitales, parece que es difícil distinguir, bajo esta hermosa túnica, si realmente es el terreno de los especuladores o la víspera de una explosión en el amanecer.
Para responder a esta pregunta, una reflexión clave para ambas partes es: ¿será mejor con el otro? ¿Podrá beneficiarse de los patrones del otro? En este artículo, también intentamos examinar este patrón desde la perspectiva de quienes nos precedieron: ¿cómo puede Web3 desempeñar un papel en cada etapa de la pila de tecnología de IA, y qué nueva vitalidad puede aportar la IA a Web3?
Parte 1 ¿Qué oportunidades ofrece Web3 bajo la pila de IA?
Antes de abordar este tema, necesitamos entender la pila técnica de los grandes modelos de IA:
Expresar todo el proceso en un lenguaje más sencillo: "El gran modelo" es como el cerebro humano; en las primeras etapas, este cerebro pertenece a un bebé que acaba de llegar al mundo y necesita observar e incorporar una gran cantidad de información del entorno para entender este mundo, esta es la fase de "recopilación" de datos; dado que las computadoras no tienen los sentidos humanos de la vista, el oído y otros, antes del entrenamiento, la gran cantidad de información no etiquetada del exterior necesita ser transformada a través de "preprocesamiento" en un formato de información que la computadora pueda entender y utilizar.
Después de ingresar los datos, la IA construyó un modelo con capacidad de comprensión y predicción a través del "entrenamiento", lo que se puede ver como el proceso en el que un bebé gradualmente comprende y aprende sobre el mundo exterior. Los parámetros del modelo son como la capacidad lingüística que el bebé ajusta continuamente a medida que aprende. Cuando el contenido del aprendizaje comienza a especializarse, o cuando interactúa con personas y recibe retroalimentación y correcciones, entra en la fase de "ajuste fino" del gran modelo.
A medida que los niños crecen y aprenden a hablar, pueden entender el significado en nuevas conversaciones y expresar sus sentimientos e ideas. Esta etapa es similar a la "razonamiento" de los modelos de IA de gran tamaño, donde el modelo puede predecir y analizar nuevos inputs de lenguaje y texto. Los bebés expresan sus sentimientos, describen objetos y resuelven diversos problemas a través de su capacidad lingüística, lo que también es similar a cómo los modelos de IA de gran tamaño, tras completar el entrenamiento, se aplican en la fase de razonamiento a diversas tareas específicas, como clasificación de imágenes, reconocimiento de voz, etc.
Y el Agente de IA se acerca más a la próxima forma de los grandes modelos: capaz de ejecutar tareas de forma independiente y perseguir objetivos complejos, no solo tiene capacidad de pensamiento, sino que también puede recordar, planificar y utilizar herramientas para interactuar con el mundo.
Actualmente, en respuesta a los puntos débiles de la IA en varias pilas, Web3 ha comenzado a formar un ecosistema multidimensional e interconectado que abarca todas las etapas del proceso de modelos de IA.
Uno, Capa Básica: Airbnb de Potencia de Cálculo y Datos
Poder de cómputo
Actualmente, uno de los mayores costos de la IA es la potencia de cálculo y la energía necesarias para entrenar modelos y realizar inferencias.
Un ejemplo es que LLAMA3 de Meta necesita 16,000 H100 GPUs producidas por NVIDIA(, que son unidades de procesamiento gráfico de primera clase diseñadas específicamente para cargas de trabajo de inteligencia artificial y computación de alto rendimiento, y toma 30 días completar el entrenamiento. El precio unitario de la versión de 80 GB oscila entre 30,000 y 40,000 dólares, lo que requiere una inversión en hardware de computación de 400 a 700 millones de dólares)GPU + chips de red(. Al mismo tiempo, el entrenamiento mensual consume 1,600 millones de kilovatios-hora, con un gasto energético de casi 20 millones de dólares al mes.
La descompresión de la potencia de cálculo de IA es precisamente el primer campo donde Web3 se cruza con la IA: la red de infraestructura física descentralizada DePin). Actualmente, el sitio de datos DePin Ninja ha listado más de 1400 proyectos, entre los cuales los proyectos representativos de compartición de potencia de cálculo GPU incluyen io.net, Aethir, Akash, Render Network, entre otros.
Su lógica principal radica en: la plataforma permite a individuos o entidades con recursos GPU ociosos contribuir con su capacidad de cálculo de manera descentralizada y sin necesidad de permisos, a través de un mercado en línea para compradores y vendedores similar a Uber o Airbnb, aumentando la tasa de utilización de los recursos GPU que no se están aprovechando plenamente, y los usuarios finales obtienen así recursos de cálculo eficientes a un costo mucho más bajo; al mismo tiempo, el mecanismo de staking también asegura que si se produce una violación del mecanismo de control de calidad o una interrupción de la red, el proveedor de recursos enfrente las sanciones correspondientes.
Sus características son:
Agregar recursos GPU ociosos: Los proveedores son principalmente operadores de centros de datos independientes de terceros, como centros de datos pequeños y medianos, y minas de criptomonedas, que tienen recursos de poder de cálculo excedentes, y el mecanismo de consenso es hardware de minería PoS, como las máquinas mineras de FileCoin y ETH. Actualmente, también hay proyectos dedicados a iniciar dispositivos con un umbral de entrada más bajo, como exolab, que utiliza dispositivos locales como MacBook, iPhone, iPad, etc., para establecer una red de poder de cálculo para la inferencia de grandes modelos.
Frente al mercado de larga cola de la potencia de cálculo de IA:
a. "Desde el punto de vista técnico", el mercado de potencia de cómputo descentralizado es más adecuado para los pasos de inferencia. El entrenamiento depende más de la capacidad de procesamiento de datos que ofrecen los clústeres de GPU de gran escala, mientras que la inferencia tiene un rendimiento de cómputo de GPU relativamente bajo, como Aethir, que se centra en trabajos de renderizado de baja latencia y aplicaciones de inferencia de IA.
b. "Desde el lado de la demanda", los demandantes de potencia de cálculo media no entrenarán sus propios grandes modelos de forma independiente, sino que elegirán optimizar y ajustar finamente alrededor de unos pocos grandes modelos principales, y estos escenarios son naturalmente adecuados para los recursos de potencia de cálculo inactiva distribuidos.
Propiedad descentralizada: el significado técnico de la blockchain radica en que los propietarios de recursos siempre mantienen el control sobre sus recursos, ajustándolos de manera flexible según la demanda y obteniendo beneficios.
(# Datos
Los datos son la base de la IA. Sin datos, el cálculo es tan inútil como una hoja flotante, y la relación entre los datos y el modelo es como el dicho "Garbage in, Garbage out"; la cantidad de datos y la calidad de la entrada determinan la calidad de la salida del modelo final. En cuanto al entrenamiento de los modelos de IA actuales, los datos determinan la capacidad lingüística del modelo, su capacidad de comprensión, e incluso sus valores y representaciones humanizadas. Actualmente, las dificultades en la demanda de datos de IA se centran principalmente en los siguientes cuatro aspectos:
Sed de datos: el entrenamiento de modelos de IA depende de una gran cantidad de datos de entrada. Según datos públicos, OpenAI entrenó a GPT-4 con un número de parámetros que alcanzó el nivel de billones.
Calidad de los datos: Con la integración de la IA y diversas industrias, la actualidad de los datos, la diversidad de los datos, la especialización de los datos por sector y la incorporación de nuevas fuentes de datos, como las emociones en las redes sociales, han planteado nuevos requisitos para su calidad.
Problemas de privacidad y cumplimiento: Actualmente, varios países y empresas están prestando cada vez más atención a la importancia de los conjuntos de datos de alta calidad, y están imponiendo restricciones a la recopilación de conjuntos de datos.
Costos de procesamiento de datos elevados: gran volumen de datos, proceso de manejo complejo. Los datos públicos muestran que más del 30% de los costos de investigación y desarrollo de las empresas de IA se destinan a la recolección y procesamiento de datos básicos.
Actualmente, las soluciones web3 se reflejan en los siguientes cuatro aspectos:
Recolección de datos: La disponibilidad de datos del mundo real que se pueden extraer de forma gratuita se está agotando rápidamente, y los gastos que las empresas de IA destinan al pago de datos aumentan año tras año. Pero, al mismo tiempo, este gasto no se está reinvirtiendo en los verdaderos contribuyentes de los datos; las plataformas disfrutan por completo del valor creado por los datos.
Permitir que los usuarios que realmente contribuyen participen en la creación de valor que genera los datos, así como obtener datos más privados y valiosos a un costo bajo a través de redes distribuidas y mecanismos de incentivos, es la visión de Web3.
Grass es una capa de datos y red descentralizada, donde los usuarios pueden ejecutar nodos de Grass, contribuir con ancho de banda ocioso y retransmitir tráfico para capturar datos en tiempo real de toda Internet y obtener recompensas en tokens;
Vana ha introducido un concepto único de fondo de liquidez de datos )DLP###, donde los usuarios pueden subir sus datos privados ( como registros de compras, hábitos de navegación, actividades en redes sociales, etc. ) a un DLP específico, y elegir de manera flexible si autorizan el uso de estos datos a terceros específicos;
En PublicAI, los usuarios pueden usar (Web3 como etiqueta de clasificación en X y @PublicAI para realizar la recolección de datos.
Preprocesamiento de datos: En el proceso de manejo de datos de IA, debido a que los datos recopilados suelen ser ruidosos y contener errores, deben ser limpiados y convertidos a un formato utilizable antes de entrenar el modelo, lo que implica tareas repetitivas de normalización, filtrado y manejo de valores faltantes. Esta etapa es uno de los pocos eslabones manuales en la industria de IA, y ha dado lugar a la profesión de etiquetador de datos. A medida que las exigencias de calidad de datos de los modelos aumentan, también lo hace el umbral para convertirse en etiquetador de datos, y esta tarea es naturalmente adecuada para el mecanismo de incentivos descentralizado de Web3.
Actualmente, Grass y OpenLayer están considerando unirse a esta etapa clave de la anotación de datos.
Synesis ha propuesto el concepto de "Train2earn", enfatizando la calidad de los datos, los usuarios pueden obtener recompensas al proporcionar datos etiquetados, anotaciones u otras formas de entrada.
El proyecto de etiquetado de datos Sapien gamifica las tareas de etiquetado y permite a los usuarios apostar puntos para ganar más puntos.
Privacidad y seguridad de los datos: es necesario aclarar que la privacidad de los datos y la seguridad son dos conceptos diferentes. La privacidad de los datos se refiere al manejo de datos sensibles, mientras que la seguridad de los datos protege la información contra el acceso no autorizado, la destrucción y el robo. Así, las ventajas de la tecnología de privacidad de Web3 y sus posibles escenarios de aplicación se reflejan en dos aspectos: ) entrenamiento de datos sensibles; #AI或# colaboración de datos: múltiples propietarios de datos pueden participar conjuntamente en el entrenamiento de IA, sin necesidad de compartir sus datos originales.
Las tecnologías de privacidad más comunes en Web3 actualmente incluyen:
Entorno de ejecución confiable ( TEE ), como Super Protocol;
Criptografía homomórfica completamente homomórfica (FHE), como BasedAI, Fhenix.io o Inco Network;
Tecnología de conocimiento cero ( zk), como el protocolo Reclaim que utiliza la tecnología zkTLS, genera pruebas de conocimiento cero del tráfico HTTPS, permitiendo a los usuarios importar de forma segura actividades, reputación y datos de identidad desde sitios web externos sin exponer información sensible.
Sin embargo, actualmente este campo todavía se encuentra en una etapa temprana, la mayoría de los proyectos aún están en exploración, uno de los dilemas actuales es que el costo de cálculo es demasiado alto, algunos ejemplos son:
El marco zkML EZKL necesita aproximadamente 80 minutos para generar una prueba de un modelo 1M-nanoGPT.
Según los datos de Modulus Labs, el costo de zkML es más de 1000 veces superior al de la computación pura.
Almacenamiento de datos: Una vez que se tienen los datos, se necesita un lugar para almacenar los datos en la cadena y el LLM generado a partir de esos datos. Con la disponibilidad de datos (DA) como el problema central, antes de la actualización de Danksharding de Ethereum, su capacidad de procesamiento era de 0.08MB. Al mismo tiempo, el entrenamiento de modelos de IA y la inferencia en tiempo real generalmente requieren un rendimiento de datos de 50 a 100GB por segundo. Esta diferencia de magnitud deja a las soluciones existentes en la cadena incapaces de enfrentar "aplicaciones de IA que consumen muchos recursos".
0g.AI es el proyecto representativo de esta categoría. Es un enfoque hacia
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
9 me gusta
Recompensa
9
5
Compartir
Comentar
0/400
wagmi_eventually
· hace19h
Otra vez vienen a tomar a la gente por tonta.
Ver originalesResponder0
GasWaster
· hace19h
bruh l2s podría en realidad salvar a la ia de convertirse en una pesadilla de gas ngl...
Ver originalesResponder0
consensus_whisperer
· hace19h
Solo es especulación. El siguiente.
Ver originalesResponder0
OPsychology
· hace20h
Tsk, solo es una nueva trampa de especulación.
Ver originalesResponder0
BearMarketBarber
· hace20h
Todo es solo una burbuja de conceptos para hacer dinero~
La fusión de AI y Web3 es imparable: un nuevo patrón desde la Potencia computacional compartida hasta los incentivos de datos.
AI+Web3: Torres y plazas
TL;DR
Los proyectos Web3 con concepto de IA se han convertido en un objetivo de atracción de capital en los mercados primario y secundario.
Las oportunidades de Web3 en la industria de la IA se manifiestan en: utilizar incentivos distribuidos para coordinar el suministro potencial en la larga cola — a través de datos, almacenamiento y computación; al mismo tiempo, establecer modelos de código abierto y un mercado descentralizado para Agentes de IA.
La IA se utiliza principalmente en la industria Web3 para finanzas en cadena ( pagos criptográficos, comercio, análisis de datos ) y asistencia en el desarrollo.
La utilidad de AI+Web3 se refleja en la complementariedad de ambos: Web3 tiene la esperanza de combatir la centralización de AI, y AI tiene la esperanza de ayudar a Web3 a romper barreras.
Introducción
En los últimos dos años, el desarrollo de la IA ha parecido presionar el botón de aceleración, y este efecto mariposa provocado por Chatgpt no solo ha abierto un nuevo mundo para la inteligencia artificial generativa, sino que también ha desatado una corriente en el ámbito de Web3.
Bajo el concepto de IA, el financiamiento en el mercado de criptomonedas, que se ha desacelerado, ha mostrado un aumento notable. Según estadísticas, solo en la primera mitad de 2024, 64 proyectos de Web3+IA completaron financiamiento, y el sistema operativo basado en inteligencia artificial Zyber365 logró un monto máximo de financiamiento de 100 millones de dólares en su ronda A.
El mercado secundario es más próspero, el sitio de agregación de criptomonedas Coingecko muestra que en poco más de un año, el valor total del mercado de la pista de IA ha alcanzado los 48,5 mil millones de dólares, con un volumen de transacciones de 8,6 mil millones de dólares en 24 horas; los avances en tecnologías de IA han traído beneficios evidentes, después del lanzamiento del modelo de OpenAI Sora para convertir texto en video, el precio promedio del sector de IA ha aumentado un 151%; el efecto de la IA también se ha extendido a uno de los sectores de atracción de capital en criptomonedas, Meme: el primer concepto de MemeCoin de Agente de IA, GOAT, ha ganado popularidad rápidamente y ha alcanzado una valoración de 1.400 millones de dólares, provocando un auge en los Memes de IA.
La investigación y los temas sobre AI+Web3 también están en auge, desde AI+Depin hasta AI Memecoin y ahora AI Agent y AI DAO, la sensación de FOMO ya no puede seguir el ritmo de la rotación de las nuevas narrativas.
AI+Web3, esta combinación de términos llena de dinero caliente, oportunidades y fantasías futuras, inevitablemente es vista por algunos como un matrimonio concertado entre capitales, parece que es difícil distinguir, bajo esta hermosa túnica, si realmente es el terreno de los especuladores o la víspera de una explosión en el amanecer.
Para responder a esta pregunta, una reflexión clave para ambas partes es: ¿será mejor con el otro? ¿Podrá beneficiarse de los patrones del otro? En este artículo, también intentamos examinar este patrón desde la perspectiva de quienes nos precedieron: ¿cómo puede Web3 desempeñar un papel en cada etapa de la pila de tecnología de IA, y qué nueva vitalidad puede aportar la IA a Web3?
Parte 1 ¿Qué oportunidades ofrece Web3 bajo la pila de IA?
Antes de abordar este tema, necesitamos entender la pila técnica de los grandes modelos de IA:
Expresar todo el proceso en un lenguaje más sencillo: "El gran modelo" es como el cerebro humano; en las primeras etapas, este cerebro pertenece a un bebé que acaba de llegar al mundo y necesita observar e incorporar una gran cantidad de información del entorno para entender este mundo, esta es la fase de "recopilación" de datos; dado que las computadoras no tienen los sentidos humanos de la vista, el oído y otros, antes del entrenamiento, la gran cantidad de información no etiquetada del exterior necesita ser transformada a través de "preprocesamiento" en un formato de información que la computadora pueda entender y utilizar.
Después de ingresar los datos, la IA construyó un modelo con capacidad de comprensión y predicción a través del "entrenamiento", lo que se puede ver como el proceso en el que un bebé gradualmente comprende y aprende sobre el mundo exterior. Los parámetros del modelo son como la capacidad lingüística que el bebé ajusta continuamente a medida que aprende. Cuando el contenido del aprendizaje comienza a especializarse, o cuando interactúa con personas y recibe retroalimentación y correcciones, entra en la fase de "ajuste fino" del gran modelo.
A medida que los niños crecen y aprenden a hablar, pueden entender el significado en nuevas conversaciones y expresar sus sentimientos e ideas. Esta etapa es similar a la "razonamiento" de los modelos de IA de gran tamaño, donde el modelo puede predecir y analizar nuevos inputs de lenguaje y texto. Los bebés expresan sus sentimientos, describen objetos y resuelven diversos problemas a través de su capacidad lingüística, lo que también es similar a cómo los modelos de IA de gran tamaño, tras completar el entrenamiento, se aplican en la fase de razonamiento a diversas tareas específicas, como clasificación de imágenes, reconocimiento de voz, etc.
Y el Agente de IA se acerca más a la próxima forma de los grandes modelos: capaz de ejecutar tareas de forma independiente y perseguir objetivos complejos, no solo tiene capacidad de pensamiento, sino que también puede recordar, planificar y utilizar herramientas para interactuar con el mundo.
Actualmente, en respuesta a los puntos débiles de la IA en varias pilas, Web3 ha comenzado a formar un ecosistema multidimensional e interconectado que abarca todas las etapas del proceso de modelos de IA.
Uno, Capa Básica: Airbnb de Potencia de Cálculo y Datos
Poder de cómputo
Actualmente, uno de los mayores costos de la IA es la potencia de cálculo y la energía necesarias para entrenar modelos y realizar inferencias.
Un ejemplo es que LLAMA3 de Meta necesita 16,000 H100 GPUs producidas por NVIDIA(, que son unidades de procesamiento gráfico de primera clase diseñadas específicamente para cargas de trabajo de inteligencia artificial y computación de alto rendimiento, y toma 30 días completar el entrenamiento. El precio unitario de la versión de 80 GB oscila entre 30,000 y 40,000 dólares, lo que requiere una inversión en hardware de computación de 400 a 700 millones de dólares)GPU + chips de red(. Al mismo tiempo, el entrenamiento mensual consume 1,600 millones de kilovatios-hora, con un gasto energético de casi 20 millones de dólares al mes.
La descompresión de la potencia de cálculo de IA es precisamente el primer campo donde Web3 se cruza con la IA: la red de infraestructura física descentralizada DePin). Actualmente, el sitio de datos DePin Ninja ha listado más de 1400 proyectos, entre los cuales los proyectos representativos de compartición de potencia de cálculo GPU incluyen io.net, Aethir, Akash, Render Network, entre otros.
Su lógica principal radica en: la plataforma permite a individuos o entidades con recursos GPU ociosos contribuir con su capacidad de cálculo de manera descentralizada y sin necesidad de permisos, a través de un mercado en línea para compradores y vendedores similar a Uber o Airbnb, aumentando la tasa de utilización de los recursos GPU que no se están aprovechando plenamente, y los usuarios finales obtienen así recursos de cálculo eficientes a un costo mucho más bajo; al mismo tiempo, el mecanismo de staking también asegura que si se produce una violación del mecanismo de control de calidad o una interrupción de la red, el proveedor de recursos enfrente las sanciones correspondientes.
Sus características son:
Agregar recursos GPU ociosos: Los proveedores son principalmente operadores de centros de datos independientes de terceros, como centros de datos pequeños y medianos, y minas de criptomonedas, que tienen recursos de poder de cálculo excedentes, y el mecanismo de consenso es hardware de minería PoS, como las máquinas mineras de FileCoin y ETH. Actualmente, también hay proyectos dedicados a iniciar dispositivos con un umbral de entrada más bajo, como exolab, que utiliza dispositivos locales como MacBook, iPhone, iPad, etc., para establecer una red de poder de cálculo para la inferencia de grandes modelos.
Frente al mercado de larga cola de la potencia de cálculo de IA:
a. "Desde el punto de vista técnico", el mercado de potencia de cómputo descentralizado es más adecuado para los pasos de inferencia. El entrenamiento depende más de la capacidad de procesamiento de datos que ofrecen los clústeres de GPU de gran escala, mientras que la inferencia tiene un rendimiento de cómputo de GPU relativamente bajo, como Aethir, que se centra en trabajos de renderizado de baja latencia y aplicaciones de inferencia de IA.
b. "Desde el lado de la demanda", los demandantes de potencia de cálculo media no entrenarán sus propios grandes modelos de forma independiente, sino que elegirán optimizar y ajustar finamente alrededor de unos pocos grandes modelos principales, y estos escenarios son naturalmente adecuados para los recursos de potencia de cálculo inactiva distribuidos.
(# Datos
Los datos son la base de la IA. Sin datos, el cálculo es tan inútil como una hoja flotante, y la relación entre los datos y el modelo es como el dicho "Garbage in, Garbage out"; la cantidad de datos y la calidad de la entrada determinan la calidad de la salida del modelo final. En cuanto al entrenamiento de los modelos de IA actuales, los datos determinan la capacidad lingüística del modelo, su capacidad de comprensión, e incluso sus valores y representaciones humanizadas. Actualmente, las dificultades en la demanda de datos de IA se centran principalmente en los siguientes cuatro aspectos:
Sed de datos: el entrenamiento de modelos de IA depende de una gran cantidad de datos de entrada. Según datos públicos, OpenAI entrenó a GPT-4 con un número de parámetros que alcanzó el nivel de billones.
Calidad de los datos: Con la integración de la IA y diversas industrias, la actualidad de los datos, la diversidad de los datos, la especialización de los datos por sector y la incorporación de nuevas fuentes de datos, como las emociones en las redes sociales, han planteado nuevos requisitos para su calidad.
Problemas de privacidad y cumplimiento: Actualmente, varios países y empresas están prestando cada vez más atención a la importancia de los conjuntos de datos de alta calidad, y están imponiendo restricciones a la recopilación de conjuntos de datos.
Costos de procesamiento de datos elevados: gran volumen de datos, proceso de manejo complejo. Los datos públicos muestran que más del 30% de los costos de investigación y desarrollo de las empresas de IA se destinan a la recolección y procesamiento de datos básicos.
Actualmente, las soluciones web3 se reflejan en los siguientes cuatro aspectos:
Permitir que los usuarios que realmente contribuyen participen en la creación de valor que genera los datos, así como obtener datos más privados y valiosos a un costo bajo a través de redes distribuidas y mecanismos de incentivos, es la visión de Web3.
Grass es una capa de datos y red descentralizada, donde los usuarios pueden ejecutar nodos de Grass, contribuir con ancho de banda ocioso y retransmitir tráfico para capturar datos en tiempo real de toda Internet y obtener recompensas en tokens;
Vana ha introducido un concepto único de fondo de liquidez de datos )DLP###, donde los usuarios pueden subir sus datos privados ( como registros de compras, hábitos de navegación, actividades en redes sociales, etc. ) a un DLP específico, y elegir de manera flexible si autorizan el uso de estos datos a terceros específicos;
En PublicAI, los usuarios pueden usar (Web3 como etiqueta de clasificación en X y @PublicAI para realizar la recolección de datos.
Actualmente, Grass y OpenLayer están considerando unirse a esta etapa clave de la anotación de datos.
Synesis ha propuesto el concepto de "Train2earn", enfatizando la calidad de los datos, los usuarios pueden obtener recompensas al proporcionar datos etiquetados, anotaciones u otras formas de entrada.
El proyecto de etiquetado de datos Sapien gamifica las tareas de etiquetado y permite a los usuarios apostar puntos para ganar más puntos.
Las tecnologías de privacidad más comunes en Web3 actualmente incluyen:
Entorno de ejecución confiable ( TEE ), como Super Protocol;
Criptografía homomórfica completamente homomórfica (FHE), como BasedAI, Fhenix.io o Inco Network;
Tecnología de conocimiento cero ( zk), como el protocolo Reclaim que utiliza la tecnología zkTLS, genera pruebas de conocimiento cero del tráfico HTTPS, permitiendo a los usuarios importar de forma segura actividades, reputación y datos de identidad desde sitios web externos sin exponer información sensible.
Sin embargo, actualmente este campo todavía se encuentra en una etapa temprana, la mayoría de los proyectos aún están en exploración, uno de los dilemas actuales es que el costo de cálculo es demasiado alto, algunos ejemplos son:
El marco zkML EZKL necesita aproximadamente 80 minutos para generar una prueba de un modelo 1M-nanoGPT.
Según los datos de Modulus Labs, el costo de zkML es más de 1000 veces superior al de la computación pura.