Era de los grandes modelos de IA: análisis de la explosión de la demanda de dispositivos de red y oportunidades de inversión

La posición clave de la red en la era de los grandes modelos de IA

La era de los grandes modelos ya ha comenzado a mostrar una explosión en la demanda de dispositivos de red. Este artículo explorará por qué la red se ha convertido en un eslabón central en la era de la IA y discutirá las oportunidades de innovación e inversión en el lado de la red en el futuro.

Origen de la demanda de red

Entrando en la era de los grandes modelos, la diferencia entre el tamaño del modelo y el límite de una sola tarjeta se amplía rápidamente, convirtiendo los clústeres de múltiples servidores en la solución para los problemas de entrenamiento. La red no solo se utiliza para transmitir datos, sino que se utiliza más para sincronizar los parámetros del modelo entre las tarjetas gráficas, lo que plantea mayores exigencias sobre la densidad y la capacidad de la red.

El gran tamaño del modelo significa:

  1. Tiempo de entrenamiento = Escala de datos de entrenamiento × Cantidad de parámetros del modelo / Velocidad de cálculo
  2. Tasa de cálculo = Tasa de cálculo por dispositivo × Número de dispositivos × Eficiencia de paralelismo de múltiples dispositivos

Al buscar un mayor volumen de datos y parámetros, mejorar la eficiencia computacional se convierte en la clave para reducir el tiempo de entrenamiento. Aumentar el "número de dispositivos" y mejorar la "eficiencia de paralelismo" determina directamente la potencia de cálculo.

Comunicación compleja de múltiples tarjetas en sincronización

Durante el entrenamiento de grandes modelos, después de dividir el modelo en tarjetas individuales, es necesario realizar una alineación después de cada cálculo. Operaciones como All-to-All son bastante comunes y plantean mayores requisitos para la transmisión y el intercambio de redes.

Costos de fallo costosos

El entrenamiento de modelos grandes a menudo dura varios meses, y una interrupción puede requerir regresar a un punto de interrupción de hace unos días para volver a entrenar. Una falla o alta latencia en alguna parte de la red puede causar interrupciones, lo que resulta en un retraso en el progreso y altos costos. Las redes de IA modernas se han convertido en la prueba de la capacidad de ingeniería de sistemas de la humanidad.

Dirección de la innovación en la red

El hardware se adapta a la demanda, la escala de inversión en poder de cómputo a nivel mundial ha alcanzado cientos de miles de millones de dólares. La "reducción de costos", la "apertura" y el equilibrio en la escala del poder de cómputo serán los principales temas de innovación en la red.

Cambio de medio de comunicación

La luz, el cobre y el silicio son los tres principales medios de transmisión. Los módulos ópticos, mientras persiguen velocidades más altas, también han comenzado a explorar caminos de reducción de costos como LPO, LRO y fotónica de silicio. Los cables de cobre dominan la conexión dentro del armario gracias a su relación calidad-precio. Nuevas tecnologías como Chiplet y Wafer-scaling aceleran la exploración de los límites de la interconexión basada en silicio.

Competencia de protocolos de red

El protocolo de comunicación entre placas está fuertemente vinculado a las tarjetas gráficas, como NV-LINK de Nvidia y Infinity Fabric de AMD, lo que determina el límite de capacidad de un solo nodo. La competencia entre IB y Ethernet es la melodía principal de la comunicación entre nodos.

Cambio en la arquitectura de la red

Actualmente se utiliza comúnmente la arquitectura de hoja y espina, pero a medida que aumenta el número de nodos, esta arquitectura tiene un costo relativamente alto en clústeres muy grandes. La arquitectura de Dragonfly, la arquitectura solo de rail, entre otras, se espera que sean direcciones evolutivas para la próxima generación de clústeres muy grandes.

Sugerencias de inversión

Elementos clave del sistema de comunicación: Zhongji Xuchuang, Xinyi Sheng, Tianfu Communication, Industrial Fulian, Yingweike, Hu Dian Co.

Innovación en el sistema de comunicación: Yangtze Optical Fiber, Taiyuan Optics, Yuanjie Technology, Shengke Communication, Cambrian, Dekor.

Advertencia de Riesgo: La demanda de IA no cumple con las expectativas, la ley de escalado falla, la competencia en la industria aumenta.

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 4
  • Compartir
Comentar
0/400
Layer3Dreamervip
· hace19h
Hablando teóricamente, el cuello de botella de escalado de la red refleja los desafíos de sincronización de estado de L2. Así como la comunicación entre rollups cruzados requiere protocolos de puenteo optimizados, el entrenamiento de modelos de IA demanda una sincronización sofisticada de parámetros entre clústeres de GPU. Este paralelismo sugiere una posible convergencia entre las soluciones de interoperabilidad de blockchain y la arquitectura de redes de IA.
Ver originalesResponder0
LayerHoppervip
· hace19h
El rendimiento de la tarjeta de red es un cuello de botella.
Ver originalesResponder0
FloorPriceNightmarevip
· hace20h
Los requisitos de ancho de banda son cada vez más altos.
Ver originalesResponder0
defi_detectivevip
· hace20h
La red es, de hecho, un cuello de botella.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)