La guerra de los cien modelos en el campo de la IA: ¿problemas de ingeniería o desafíos de investigación?
El mes pasado, estalló una "guerra de animales" en la industria de la IA.
Por un lado está Llama, lanzado por Meta, que es muy popular entre la comunidad de desarrolladores debido a su característica de código abierto. Por otro lado, está el modelo grande llamado Falcon. En mayo de este año, Falcon-40B fue lanzado y alcanzó la cima de la "clasificación de LLM de código abierto".
Esta lista fue creada por la comunidad de modelos de código abierto y proporciona un conjunto de estándares para medir las capacidades de los LLM y realizar clasificaciones. La clasificación básicamente se alterna entre Llama y Falcon. Después del lanzamiento de Llama 2, la familia Llama recuperó una posición; a principios de septiembre, Falcon lanzó la versión 180B y logró una clasificación aún más alta.
Curiosamente, los desarrolladores de "Falcon" están en el Instituto de Innovación Tecnológica en Abu Dhabi, la capital de los Emiratos Árabes Unidos. Funcionarios del gobierno dijeron: "Participamos en este juego para revolucionar a los jugadores centrales".
Al día siguiente del lanzamiento de la versión 180B, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos, Omar, fue seleccionado para la lista de las "100 personas más influyentes en el campo de la IA" de la revista Time.
Hoy en día, el campo de la IA ya ha entrado en la etapa de "baile de demonios": los países y empresas con recursos financieros tienen planes para crear su propia versión de ChatGPT. Solo en el círculo de los países del Golfo, ya hay más de un jugador: en agosto, Arabia Saudita compró más de 3000 H100 para universidades nacionales, con el fin de entrenar LLM.
El capitalista de riesgo Zhu Xiaohu de Jinsha River se quejó: "En aquel entonces despreciaba la innovación en los modelos de negocio de Internet, pensando que no había barreras: la batalla de los cien grupos, la batalla de los cien coches, la batalla de los cien medios; no esperaba que el emprendimiento en grandes modelos de tecnología dura, aún fuera una batalla de los cien modelos..."
¿Cómo es que lo que se prometió como alta tecnología difícil se ha convertido en un modelo de producción de cien mil jin por país?
Transformer devorando el mundo
Las startups estadounidenses, los gigantes tecnológicos chinos y los magnates del petróleo de Oriente Medio pueden perseguir sus sueños de modelos grandes, gracias a ese famoso artículo: "La atención es todo lo que necesitas".
En 2017, ocho científicos informáticos de Google hicieron público el algoritmo Transformer en este artículo. Este artículo es actualmente el tercero más citado en la historia de la inteligencia artificial, y la aparición del Transformer disparó la actual ola de entusiasmo por la inteligencia artificial.
Independientemente de la nacionalidad del modelo grande actual, incluidos los impactantes series GPT, todos se han construido sobre los hombros de Transformer.
Antes de esto, "enseñar a las máquinas a leer" había sido un problema académico reconocido. A diferencia del reconocimiento de imágenes, los humanos al leer texto no solo se centran en las palabras y frases que ven en ese momento, sino que también combinan el contexto para entender.
En los primeros años, las entradas de las redes neuronales eran independientes entre sí y no tenían la capacidad de entender un gran fragmento de texto, e incluso un artículo completo, por lo que surgían problemas como traducir "开水间" como "open water room".
Hasta 2014, el científico informático Ilya, que trabajaba en Google y luego se trasladó a OpenAI, fue el primero en lograr resultados. Utilizó redes neuronales recurrentes (RNN) para procesar el lenguaje natural, lo que permitió que el rendimiento de una plataforma de traducción se diferenciara rápidamente de sus competidores.
RNN propuso un "diseño cíclico" que permite que cada neurona reciba tanto la información de entrada en el momento actual como la información de entrada del momento anterior, lo que permite que la red neuronal tenga la capacidad de "combinar el contexto".
La aparición de RNN encendió el entusiasmo de investigación en el mundo académico, y más tarde el autor del artículo de Transformer, Ashish Vaswani, también se sumergió en ello. Sin embargo, los desarrolladores pronto se dieron cuenta de que RNN tiene un defecto grave:
El algoritmo utiliza cálculos secuenciales, lo que ciertamente puede resolver los problemas de contexto, pero la eficiencia de ejecución no es alta y es difícil manejar una gran cantidad de parámetros.
El complicado diseño de RNN pronto aburría a Shazell. Por lo tanto, a partir de 2015, Shazell y 7 entusiastas comenzaron a desarrollar un reemplazo para RNN, cuyo resultado fue el Transformer.
En comparación con RNN, la revolución del Transformer tiene dos puntos:
Primero, se reemplazó el diseño cíclico de RNN por un método de codificación de posición, lo que permitió el cálculo en paralelo. Este cambio mejoró significativamente la eficiencia de entrenamiento del Transformer, permitiéndole manejar grandes volúmenes de datos y llevando la IA a la era de los grandes modelos; en segundo lugar, se fortaleció aún más la capacidad de contexto.
Con el Transformer solucionando de un solo golpe numerosas deficiencias, ha ido evolucionando hasta convertirse en la única solución para NLP (procesamiento del lenguaje natural), dando la sensación de que "si no existiera el Transformer, el NLP seguiría siendo una larga noche eterna". Incluso Ilia ha abandonado la RNN que él mismo había puesto en el pedestal, y se ha volcado hacia el Transformer.
En otras palabras, el Transformer es el abuelo de todos los grandes modelos de hoy, ya que convirtió el gran modelo de un problema de investigación teórica en un problema puramente ingenieril.
En 2019, OpenAI desarrolló GPT-2 basado en Transformer, lo que sorprendió al mundo académico. En respuesta, Google lanzó rápidamente una IA más potente llamada Meena.
En comparación con GPT-2, Meena no tiene innovaciones en los algoritmos subyacentes, simplemente tiene 8.5 veces más parámetros de entrenamiento y 14 veces más potencia de cálculo que GPT-2. Geoffrey Hinton, uno de los autores del artículo sobre Transformers, quedó muy impresionado por la "acumulación violenta" y escribió de inmediato un memorando titulado "Meena devora el mundo".
La aparición de Transformer ha ralentizado considerablemente la velocidad de innovación de los algoritmos fundamentales en el ámbito académico. Elementos de ingeniería como la ingeniería de datos, la escala de cálculo y la arquitectura del modelo se han convertido en factores cruciales en la competencia de IA; cualquier empresa tecnológica con cierto nivel de capacidad técnica puede crear un gran modelo por sí sola.
Por lo tanto, el científico informático Andrew Ng mencionó un punto durante su charla en la Universidad de Stanford: "La IA es un conjunto de herramientas que incluye el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y la inteligencia artificial generativa actual. Todas estas son tecnologías generales, similares a otras tecnologías generales como la electricidad y el internet."
OpenAI sigue siendo el referente de los LLM, pero las instituciones de análisis de semiconductores creen que la competitividad de GPT-4 proviene de soluciones ingenieriles; si se abre el código, cualquier competidor podría replicarlo rápidamente.
El analista espera que, quizás no pase mucho tiempo, otras grandes empresas tecnológicas también puedan crear modelos grandes equivalentes en rendimiento a GPT-4.
Un foso construido sobre vidrio
En la actualidad, la "guerra de los cien modelos" ya no es una figura retórica, sino una realidad objetiva.
Los informes relacionados muestran que, hasta julio de este año, el número de grandes modelos en el país ha alcanzado los 130, superando los 114 de Estados Unidos, logrando así un adelantamiento en la curva. Ya no hay suficientes mitos y leyendas para que las empresas tecnológicas nacionales elijan nombres.
Y más allá de China y Estados Unidos, varios países relativamente ricos también han implementado inicialmente el "modelo único por país": además de Japón y los Emiratos Árabes Unidos, están el modelo de gran escala Bhashini liderado por el gobierno de India, HyperClova X desarrollado por una empresa de internet de Corea del Sur, entre otros.
La situación actual parece haber regresado a aquella era de expansión de internet, llena de burbujas y donde la "capacidad monetaria" chocaba de frente.
Como se mencionó anteriormente, el Transformer ha convertido los grandes modelos en un problema puramente ingenieril; mientras haya alguien con dinero y tarjetas gráficas, el resto se deja a los parámetros. Pero aunque no es difícil conseguir la entrada, tampoco significa que todos tengan la oportunidad de convertirse en el BAT de la era de la IA.
El "guerra de los animales" mencionado al principio es un caso típico: aunque Falcon supera a Llama en el ranking, es difícil decir cuánto impacto ha tenido en Meta.
Como es bien sabido, las empresas que hacen públicas sus logros de investigación lo hacen tanto para compartir los beneficios de la tecnología con el público en general como para estimular la sabiduría de la gente. A medida que profesores universitarios, instituciones de investigación y pequeñas y medianas empresas continúan utilizando y mejorando Llama, Meta puede aplicar estos logros en sus propios productos.
Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es su principal ventaja competitiva.
Y ya en 2015, cuando se formó el laboratorio de IA, Meta había establecido el tono principal de ser de código abierto; Zuckerberg, quien hizo su fortuna con el negocio de las redes sociales, también comprende bien la importancia de "mantener buenas relaciones con el público".
Por ejemplo, en octubre, Meta organizó un evento especial llamado "Incentivo para Creadores en Versión AI": los desarrolladores que utilicen Llama 2 para abordar problemas sociales como la educación y el medio ambiente tendrán la oportunidad de recibir una subvención de 500,000 dólares.
Hoy en día, la serie Llama de Meta se ha convertido en un referente para los LLM de código abierto.
Hasta principios de octubre, en el Top 10 de clasificaciones de LLM de código abierto, hay 8 que están construidos sobre Llama 2, todos utilizan su protocolo de código abierto. Solo en esta plataforma, ya hay más de 1500 LLM que utilizan el protocolo de código abierto de Llama 2.
Por supuesto, mejorar el rendimiento como Falcon no estaría de más, pero hasta el día de hoy, la mayoría de los LLM en el mercado todavía tienen una diferencia de rendimiento visible a simple vista en comparación con GPT-4.
Por ejemplo, hace unos días, GPT-4 alcanzó el primer lugar en la prueba AgentBench con una puntuación de 4.41. El estándar de AgentBench fue lanzado conjuntamente por la Universidad Tsinghua, la Universidad Estatal de Ohio y la Universidad de California en Berkeley, y se utiliza para evaluar la capacidad de razonamiento y toma de decisiones de los LLM en entornos de generación abierta multidimensionales. El contenido de la prueba incluye tareas en 8 entornos diferentes, como sistemas operativos, bases de datos, gráficos de conocimiento y batallas de cartas.
Los resultados de la prueba muestran que Claude, en segundo lugar, solo obtuvo 2.77 puntos, lo que muestra una diferencia bastante notable. En cuanto a esos LLM de código abierto tan ruidosos, sus resultados de prueba oscilan alrededor de 1 punto, ni siquiera alcanzan 1/4 de GPT-4.
Hay que saber que GPT-4 se lanzó en marzo de este año, y esto es el resultado de medio año de competencia global. La razón de esta diferencia es el equipo de científicos de OpenAI, que tiene una "densidad de inteligencia" extremadamente alta, junto con la experiencia acumulada a lo largo de años de investigación en LLM, lo que les permite estar siempre muy por delante.
Es decir, la capacidad central de un gran modelo no son los parámetros, sino la construcción del ecosistema (código abierto) o la capacidad de inferencia pura (código cerrado).
A medida que la comunidad de código abierto se vuelve cada vez más activa, el rendimiento de los distintos LLM puede converger, ya que todos están utilizando arquitecturas de modelos y conjuntos de datos similares.
Otro problema más intuitivo es: además de Midjourney, parece que ningún otro gran modelo ha podido ganar dinero.
Puntos de anclaje del valor
En agosto de este año, un artículo titulado "OpenAI podría declararse en bancarrota a finales de 2024" llamó bastante la atención. La idea principal del artículo se puede resumir en una frase: la velocidad a la que OpenAI quema dinero es demasiado rápida.
El texto menciona que, desde el desarrollo de ChatGPT, las pérdidas de OpenAI están aumentando rápidamente, con una pérdida de aproximadamente 540 millones de dólares solo en 2022, y solo pueden esperar que los inversores de Microsoft cubran los costos.
El título del artículo puede parecer sensacionalista, pero también refleja la situación actual de muchos proveedores de grandes modelos: un grave desequilibrio entre costos e ingresos.
Los costos excesivamente altos han llevado a que actualmente solo NVIDIA, y a lo sumo Broadcom, estén ganando mucho dinero gracias a la inteligencia artificial.
Según estimaciones de consultoras, Nvidia vendió más de 300,000 unidades del H100 en el segundo trimestre de este año. Este es un chip de IA, cuya eficiencia para entrenar IA es increíblemente alta, y empresas tecnológicas e instituciones de investigación de todo el mundo están comprando a raudales. Si apiláramos las 300,000 unidades vendidas del H100, su peso equivaldría al de 4.5 aviones Boeing 747.
El rendimiento de Nvidia también se ha disparado, con un aumento interanual de los ingresos del 854%, lo que sorprendió a Wall Street. Cabe mencionar que actualmente el precio del H100 en el mercado de segunda mano ha sido elevado a entre 40,000 y 50,000 dólares, aunque su costo de materiales es de poco más de 3,000 dólares.
El alto costo de la potencia de cálculo se ha convertido en un obstáculo para el desarrollo de la industria en cierta medida. Sequoia Capital realizó un cálculo: se espera que las empresas tecnológicas de todo el mundo gasten anualmente 200 mil millones de dólares en la construcción de infraestructura para grandes modelos; en comparación, los grandes modelos solo pueden generar hasta 75 mil millones de dólares de ingresos al año, lo que deja un déficit de al menos 125 mil millones de dólares.
Además, aparte de unos pocos casos como Midjourney, la mayoría de las empresas de software, después de haber invertido enormes costos, aún no han encontrado la manera de monetizar sus productos. Especialmente los dos líderes de la industria: Microsoft y Adobe, que han estado avanzando con cierta torpeza.
Microsoft y OpenAI colaboraron en el desarrollo de una herramienta de generación de código de IA llamada GitHub Copilot. Aunque se cobra una tarifa mensual de 10 dólares, debido a los costos de infraestructura, Microsoft en realidad está perdiendo 20 dólares, y los usuarios intensivos incluso pueden hacer que Microsoft pierda 80 dólares al mes. A partir de esto, se puede suponer que el Microsoft 365 Copilot, que tiene un precio de 30 dólares, podría resultar en una pérdida aún mayor.
No es casualidad que Adobe, que acaba de lanzar la herramienta Firefly AI, también haya puesto en marcha rápidamente un sistema de puntos complementario para evitar pérdidas a la empresa por el uso intensivo de los usuarios. Si un usuario excede los puntos asignados mensualmente, Adobe reducirá la velocidad del servicio.
Es importante saber que Microsoft y Adobe ya son gigantes del software con escenarios de negocio claros y una gran cantidad de usuarios de pago existentes. Mientras que la mayoría de los grandes modelos, que acumulan parámetros, tienen el mayor objetivo.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
10 me gusta
Recompensa
10
8
Compartir
Comentar
0/400
TheShibaWhisperer
· 07-12 03:20
Montar en la pared viendo al halcón desgarrar a la llama
Ver originalesResponder0
GasFeeTears
· 07-12 03:06
Los parámetros son menos útiles que el dinero.
Ver originalesResponder0
OnchainGossiper
· 07-11 01:47
Pensé que dos aviones estaban peleando, solo esto.
Ver originalesResponder0
TeaTimeTrader
· 07-09 03:48
Quiero ver el modelo grande, ya está solo.
Ver originalesResponder0
BlockDetective
· 07-09 03:45
El mundo de los grandes modelos de cultivo inmortal es realmente gracioso.
Ver originalesResponder0
Hash_Bandit
· 07-09 03:32
al igual que las guerras de minería en '17... pero con apuestas mucho más altas, la verdad
Ver originalesResponder0
PonziDetector
· 07-09 03:31
Detrás de la batalla por el ranking, todo se trata de jugar con los parámetros.
Ver originalesResponder0
AirdropFreedom
· 07-09 03:29
Estos ricos están haciendo que el algoritmo se intensifique.
La batalla de los grandes modelos de IA: ¿victoria de la ingeniería o reino del algoritmo?
La guerra de los cien modelos en el campo de la IA: ¿problemas de ingeniería o desafíos de investigación?
El mes pasado, estalló una "guerra de animales" en la industria de la IA.
Por un lado está Llama, lanzado por Meta, que es muy popular entre la comunidad de desarrolladores debido a su característica de código abierto. Por otro lado, está el modelo grande llamado Falcon. En mayo de este año, Falcon-40B fue lanzado y alcanzó la cima de la "clasificación de LLM de código abierto".
Esta lista fue creada por la comunidad de modelos de código abierto y proporciona un conjunto de estándares para medir las capacidades de los LLM y realizar clasificaciones. La clasificación básicamente se alterna entre Llama y Falcon. Después del lanzamiento de Llama 2, la familia Llama recuperó una posición; a principios de septiembre, Falcon lanzó la versión 180B y logró una clasificación aún más alta.
Curiosamente, los desarrolladores de "Falcon" están en el Instituto de Innovación Tecnológica en Abu Dhabi, la capital de los Emiratos Árabes Unidos. Funcionarios del gobierno dijeron: "Participamos en este juego para revolucionar a los jugadores centrales".
Al día siguiente del lanzamiento de la versión 180B, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos, Omar, fue seleccionado para la lista de las "100 personas más influyentes en el campo de la IA" de la revista Time.
Hoy en día, el campo de la IA ya ha entrado en la etapa de "baile de demonios": los países y empresas con recursos financieros tienen planes para crear su propia versión de ChatGPT. Solo en el círculo de los países del Golfo, ya hay más de un jugador: en agosto, Arabia Saudita compró más de 3000 H100 para universidades nacionales, con el fin de entrenar LLM.
El capitalista de riesgo Zhu Xiaohu de Jinsha River se quejó: "En aquel entonces despreciaba la innovación en los modelos de negocio de Internet, pensando que no había barreras: la batalla de los cien grupos, la batalla de los cien coches, la batalla de los cien medios; no esperaba que el emprendimiento en grandes modelos de tecnología dura, aún fuera una batalla de los cien modelos..."
¿Cómo es que lo que se prometió como alta tecnología difícil se ha convertido en un modelo de producción de cien mil jin por país?
Transformer devorando el mundo
Las startups estadounidenses, los gigantes tecnológicos chinos y los magnates del petróleo de Oriente Medio pueden perseguir sus sueños de modelos grandes, gracias a ese famoso artículo: "La atención es todo lo que necesitas".
En 2017, ocho científicos informáticos de Google hicieron público el algoritmo Transformer en este artículo. Este artículo es actualmente el tercero más citado en la historia de la inteligencia artificial, y la aparición del Transformer disparó la actual ola de entusiasmo por la inteligencia artificial.
Independientemente de la nacionalidad del modelo grande actual, incluidos los impactantes series GPT, todos se han construido sobre los hombros de Transformer.
Antes de esto, "enseñar a las máquinas a leer" había sido un problema académico reconocido. A diferencia del reconocimiento de imágenes, los humanos al leer texto no solo se centran en las palabras y frases que ven en ese momento, sino que también combinan el contexto para entender.
En los primeros años, las entradas de las redes neuronales eran independientes entre sí y no tenían la capacidad de entender un gran fragmento de texto, e incluso un artículo completo, por lo que surgían problemas como traducir "开水间" como "open water room".
Hasta 2014, el científico informático Ilya, que trabajaba en Google y luego se trasladó a OpenAI, fue el primero en lograr resultados. Utilizó redes neuronales recurrentes (RNN) para procesar el lenguaje natural, lo que permitió que el rendimiento de una plataforma de traducción se diferenciara rápidamente de sus competidores.
RNN propuso un "diseño cíclico" que permite que cada neurona reciba tanto la información de entrada en el momento actual como la información de entrada del momento anterior, lo que permite que la red neuronal tenga la capacidad de "combinar el contexto".
La aparición de RNN encendió el entusiasmo de investigación en el mundo académico, y más tarde el autor del artículo de Transformer, Ashish Vaswani, también se sumergió en ello. Sin embargo, los desarrolladores pronto se dieron cuenta de que RNN tiene un defecto grave:
El algoritmo utiliza cálculos secuenciales, lo que ciertamente puede resolver los problemas de contexto, pero la eficiencia de ejecución no es alta y es difícil manejar una gran cantidad de parámetros.
El complicado diseño de RNN pronto aburría a Shazell. Por lo tanto, a partir de 2015, Shazell y 7 entusiastas comenzaron a desarrollar un reemplazo para RNN, cuyo resultado fue el Transformer.
En comparación con RNN, la revolución del Transformer tiene dos puntos:
Primero, se reemplazó el diseño cíclico de RNN por un método de codificación de posición, lo que permitió el cálculo en paralelo. Este cambio mejoró significativamente la eficiencia de entrenamiento del Transformer, permitiéndole manejar grandes volúmenes de datos y llevando la IA a la era de los grandes modelos; en segundo lugar, se fortaleció aún más la capacidad de contexto.
Con el Transformer solucionando de un solo golpe numerosas deficiencias, ha ido evolucionando hasta convertirse en la única solución para NLP (procesamiento del lenguaje natural), dando la sensación de que "si no existiera el Transformer, el NLP seguiría siendo una larga noche eterna". Incluso Ilia ha abandonado la RNN que él mismo había puesto en el pedestal, y se ha volcado hacia el Transformer.
En otras palabras, el Transformer es el abuelo de todos los grandes modelos de hoy, ya que convirtió el gran modelo de un problema de investigación teórica en un problema puramente ingenieril.
En 2019, OpenAI desarrolló GPT-2 basado en Transformer, lo que sorprendió al mundo académico. En respuesta, Google lanzó rápidamente una IA más potente llamada Meena.
En comparación con GPT-2, Meena no tiene innovaciones en los algoritmos subyacentes, simplemente tiene 8.5 veces más parámetros de entrenamiento y 14 veces más potencia de cálculo que GPT-2. Geoffrey Hinton, uno de los autores del artículo sobre Transformers, quedó muy impresionado por la "acumulación violenta" y escribió de inmediato un memorando titulado "Meena devora el mundo".
La aparición de Transformer ha ralentizado considerablemente la velocidad de innovación de los algoritmos fundamentales en el ámbito académico. Elementos de ingeniería como la ingeniería de datos, la escala de cálculo y la arquitectura del modelo se han convertido en factores cruciales en la competencia de IA; cualquier empresa tecnológica con cierto nivel de capacidad técnica puede crear un gran modelo por sí sola.
Por lo tanto, el científico informático Andrew Ng mencionó un punto durante su charla en la Universidad de Stanford: "La IA es un conjunto de herramientas que incluye el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y la inteligencia artificial generativa actual. Todas estas son tecnologías generales, similares a otras tecnologías generales como la electricidad y el internet."
OpenAI sigue siendo el referente de los LLM, pero las instituciones de análisis de semiconductores creen que la competitividad de GPT-4 proviene de soluciones ingenieriles; si se abre el código, cualquier competidor podría replicarlo rápidamente.
El analista espera que, quizás no pase mucho tiempo, otras grandes empresas tecnológicas también puedan crear modelos grandes equivalentes en rendimiento a GPT-4.
Un foso construido sobre vidrio
En la actualidad, la "guerra de los cien modelos" ya no es una figura retórica, sino una realidad objetiva.
Los informes relacionados muestran que, hasta julio de este año, el número de grandes modelos en el país ha alcanzado los 130, superando los 114 de Estados Unidos, logrando así un adelantamiento en la curva. Ya no hay suficientes mitos y leyendas para que las empresas tecnológicas nacionales elijan nombres.
Y más allá de China y Estados Unidos, varios países relativamente ricos también han implementado inicialmente el "modelo único por país": además de Japón y los Emiratos Árabes Unidos, están el modelo de gran escala Bhashini liderado por el gobierno de India, HyperClova X desarrollado por una empresa de internet de Corea del Sur, entre otros.
La situación actual parece haber regresado a aquella era de expansión de internet, llena de burbujas y donde la "capacidad monetaria" chocaba de frente.
Como se mencionó anteriormente, el Transformer ha convertido los grandes modelos en un problema puramente ingenieril; mientras haya alguien con dinero y tarjetas gráficas, el resto se deja a los parámetros. Pero aunque no es difícil conseguir la entrada, tampoco significa que todos tengan la oportunidad de convertirse en el BAT de la era de la IA.
El "guerra de los animales" mencionado al principio es un caso típico: aunque Falcon supera a Llama en el ranking, es difícil decir cuánto impacto ha tenido en Meta.
Como es bien sabido, las empresas que hacen públicas sus logros de investigación lo hacen tanto para compartir los beneficios de la tecnología con el público en general como para estimular la sabiduría de la gente. A medida que profesores universitarios, instituciones de investigación y pequeñas y medianas empresas continúan utilizando y mejorando Llama, Meta puede aplicar estos logros en sus propios productos.
Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es su principal ventaja competitiva.
Y ya en 2015, cuando se formó el laboratorio de IA, Meta había establecido el tono principal de ser de código abierto; Zuckerberg, quien hizo su fortuna con el negocio de las redes sociales, también comprende bien la importancia de "mantener buenas relaciones con el público".
Por ejemplo, en octubre, Meta organizó un evento especial llamado "Incentivo para Creadores en Versión AI": los desarrolladores que utilicen Llama 2 para abordar problemas sociales como la educación y el medio ambiente tendrán la oportunidad de recibir una subvención de 500,000 dólares.
Hoy en día, la serie Llama de Meta se ha convertido en un referente para los LLM de código abierto.
Hasta principios de octubre, en el Top 10 de clasificaciones de LLM de código abierto, hay 8 que están construidos sobre Llama 2, todos utilizan su protocolo de código abierto. Solo en esta plataforma, ya hay más de 1500 LLM que utilizan el protocolo de código abierto de Llama 2.
Por supuesto, mejorar el rendimiento como Falcon no estaría de más, pero hasta el día de hoy, la mayoría de los LLM en el mercado todavía tienen una diferencia de rendimiento visible a simple vista en comparación con GPT-4.
Por ejemplo, hace unos días, GPT-4 alcanzó el primer lugar en la prueba AgentBench con una puntuación de 4.41. El estándar de AgentBench fue lanzado conjuntamente por la Universidad Tsinghua, la Universidad Estatal de Ohio y la Universidad de California en Berkeley, y se utiliza para evaluar la capacidad de razonamiento y toma de decisiones de los LLM en entornos de generación abierta multidimensionales. El contenido de la prueba incluye tareas en 8 entornos diferentes, como sistemas operativos, bases de datos, gráficos de conocimiento y batallas de cartas.
Los resultados de la prueba muestran que Claude, en segundo lugar, solo obtuvo 2.77 puntos, lo que muestra una diferencia bastante notable. En cuanto a esos LLM de código abierto tan ruidosos, sus resultados de prueba oscilan alrededor de 1 punto, ni siquiera alcanzan 1/4 de GPT-4.
Hay que saber que GPT-4 se lanzó en marzo de este año, y esto es el resultado de medio año de competencia global. La razón de esta diferencia es el equipo de científicos de OpenAI, que tiene una "densidad de inteligencia" extremadamente alta, junto con la experiencia acumulada a lo largo de años de investigación en LLM, lo que les permite estar siempre muy por delante.
Es decir, la capacidad central de un gran modelo no son los parámetros, sino la construcción del ecosistema (código abierto) o la capacidad de inferencia pura (código cerrado).
A medida que la comunidad de código abierto se vuelve cada vez más activa, el rendimiento de los distintos LLM puede converger, ya que todos están utilizando arquitecturas de modelos y conjuntos de datos similares.
Otro problema más intuitivo es: además de Midjourney, parece que ningún otro gran modelo ha podido ganar dinero.
Puntos de anclaje del valor
En agosto de este año, un artículo titulado "OpenAI podría declararse en bancarrota a finales de 2024" llamó bastante la atención. La idea principal del artículo se puede resumir en una frase: la velocidad a la que OpenAI quema dinero es demasiado rápida.
El texto menciona que, desde el desarrollo de ChatGPT, las pérdidas de OpenAI están aumentando rápidamente, con una pérdida de aproximadamente 540 millones de dólares solo en 2022, y solo pueden esperar que los inversores de Microsoft cubran los costos.
El título del artículo puede parecer sensacionalista, pero también refleja la situación actual de muchos proveedores de grandes modelos: un grave desequilibrio entre costos e ingresos.
Los costos excesivamente altos han llevado a que actualmente solo NVIDIA, y a lo sumo Broadcom, estén ganando mucho dinero gracias a la inteligencia artificial.
Según estimaciones de consultoras, Nvidia vendió más de 300,000 unidades del H100 en el segundo trimestre de este año. Este es un chip de IA, cuya eficiencia para entrenar IA es increíblemente alta, y empresas tecnológicas e instituciones de investigación de todo el mundo están comprando a raudales. Si apiláramos las 300,000 unidades vendidas del H100, su peso equivaldría al de 4.5 aviones Boeing 747.
El rendimiento de Nvidia también se ha disparado, con un aumento interanual de los ingresos del 854%, lo que sorprendió a Wall Street. Cabe mencionar que actualmente el precio del H100 en el mercado de segunda mano ha sido elevado a entre 40,000 y 50,000 dólares, aunque su costo de materiales es de poco más de 3,000 dólares.
El alto costo de la potencia de cálculo se ha convertido en un obstáculo para el desarrollo de la industria en cierta medida. Sequoia Capital realizó un cálculo: se espera que las empresas tecnológicas de todo el mundo gasten anualmente 200 mil millones de dólares en la construcción de infraestructura para grandes modelos; en comparación, los grandes modelos solo pueden generar hasta 75 mil millones de dólares de ingresos al año, lo que deja un déficit de al menos 125 mil millones de dólares.
Además, aparte de unos pocos casos como Midjourney, la mayoría de las empresas de software, después de haber invertido enormes costos, aún no han encontrado la manera de monetizar sus productos. Especialmente los dos líderes de la industria: Microsoft y Adobe, que han estado avanzando con cierta torpeza.
Microsoft y OpenAI colaboraron en el desarrollo de una herramienta de generación de código de IA llamada GitHub Copilot. Aunque se cobra una tarifa mensual de 10 dólares, debido a los costos de infraestructura, Microsoft en realidad está perdiendo 20 dólares, y los usuarios intensivos incluso pueden hacer que Microsoft pierda 80 dólares al mes. A partir de esto, se puede suponer que el Microsoft 365 Copilot, que tiene un precio de 30 dólares, podría resultar en una pérdida aún mayor.
No es casualidad que Adobe, que acaba de lanzar la herramienta Firefly AI, también haya puesto en marcha rápidamente un sistema de puntos complementario para evitar pérdidas a la empresa por el uso intensivo de los usuarios. Si un usuario excede los puntos asignados mensualmente, Adobe reducirá la velocidad del servicio.
Es importante saber que Microsoft y Adobe ya son gigantes del software con escenarios de negocio claros y una gran cantidad de usuarios de pago existentes. Mientras que la mayoría de los grandes modelos, que acumulan parámetros, tienen el mayor objetivo.