Era dos grandes modelos de IA: Análise da explosão da demanda por dispositivos de rede e oportunidades de investimento

A posição chave da rede na era dos grandes modelos de IA

A era dos grandes modelos já começou a revelar uma explosão na demanda por dispositivos de rede. Este artigo irá explorar por que a rede se tornou um elemento central na era da IA e discutir as inovações e oportunidades de investimento futuras no lado da rede.

Fonte da demanda de rede

Entramos na era dos grandes modelos, onde a diferença de volume dos modelos e o limite de uma única placa gráfica aumentam rapidamente, e clusters de múltiplos servidores tornam-se a solução para os problemas de treinamento. A rede não é usada apenas para transmitir dados, mas cada vez mais para sincronizar os parâmetros do modelo entre as placas gráficas, o que impõe requisitos mais elevados à densidade e capacidade da rede.

O grande volume do modelo significa:

  1. Tempo de treino = Tamanho do conjunto de dados de treino × Quantidade de parâmetros do modelo / Taxa de cálculo
  2. Taxa de cálculo = Taxa de cálculo por dispositivo × Número de dispositivos × Eficiência de paralelismo de múltiplos dispositivos

Enquanto se busca uma maior escala de dados e parâmetros, aumentar a eficiência de cálculo torna-se a chave para reduzir o tempo de treinamento. E aumentar o "número de dispositivos" e melhorar a "eficiência de paralelismo" determina diretamente o poder de computação.

Comunicação complexa de múltiplas placas

Durante o treinamento do grande modelo, após dividir o modelo para uma única placa, é necessário realizar o alinhamento após cada cálculo. Operações como All-to-All são bastante comuns e impõem maiores exigências à transmissão e troca de rede.

Custo de falha caro

O treinamento de grandes modelos geralmente dura meses, e uma interrupção pode exigir que voltemos a um ponto de verificação de alguns dias atrás para recomeçar o treinamento. Uma falha em algum componente da rede ou uma alta latência pode levar a interrupções, resultando em atrasos no progresso e altos custos. As redes modernas de IA tornaram-se a prova da capacidade de engenharia de sistemas dos humanos.

Direção da inovação na rede

O hardware adapta-se à demanda, e o investimento global em poder computacional já atingiu a casa das centenas de bilhões de dólares. A "redução de custos", a "abertura" e o equilíbrio da escala de poder computacional serão os principais temas da inovação na rede.

Mudança de meio de comunicação

A luz, o cobre e o silício são os três principais meios de transmissão. Os módulos ópticos buscam taxas de transmissão mais altas, enquanto também começam a explorar caminhos de redução de custos como LPO, LRO e silício fotônico. O cabo de cobre domina a conectividade dentro dos gabinetes devido à sua relação custo-benefício. Novas tecnologias como Chiplet e Wafer-scaling aceleram a exploração dos limites da interconexão baseada em silício.

Competição de Protocolos de Rede

Os protocolos de comunicação entre placas e a forte ligação com as placas gráficas, como NV-LINK da NVIDIA e Infinity Fabric da AMD, determinam o limite de capacidade de um único nó. A competição entre IB e Ethernet é o tema principal da comunicação entre nós.

Mudança na arquitetura da rede

Atualmente, a arquitetura Leaf-Spine é amplamente utilizada, mas à medida que o número de nós aumenta, o custo da arquitetura Leaf-Spine em super grandes clusters é elevado. Arquiteturas como Dragonfly e rail-only têm potencial para se tornarem direções evolutivas para a próxima geração de super grandes clusters.

Sugestões de investimento

Elementos centrais do sistema de comunicação: Zhongji Xuchuang, Xinyi Sheng, Tianfu Communication, Indústria Fulin, Invec, Hu Dian Co.

Inovações no sistema de comunicação: Yangtze Optical Fibre and Cable, Taichin Technology, Yuanjie Technology, Shengke Communication, Cambricon, Dekor.

Aviso de risco: A demanda por IA não atende às expectativas, a lei de escalonamento falha, a concorrência no setor aumenta.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 7
  • Compartilhar
Comentário
0/400
BtcDailyResearchervip
· 07-11 16:33
O cluster é o verdadeiro núcleo.
Ver originalResponder0
FortuneTeller42vip
· 07-10 20:33
A rede é a base.
Ver originalResponder0
HashBrowniesvip
· 07-10 16:53
Como resolver o problema de armazenamento
Ver originalResponder0
Layer3Dreamervip
· 07-09 14:22
Falando teoricamente, o gargalo de escalabilidade da rede reflete os desafios de sincronização de estado do L2. Assim como a comunicação entre rollups requer protocolos de ponte otimizados, o treinamento de modelos de IA exige uma sincronização sofisticada de parâmetros entre clusters de GPU. Este paralelo sugere uma potencial convergência entre soluções de interoperabilidade de blockchain e a arquitetura de rede de IA.
Ver originalResponder0
LayerHoppervip
· 07-09 14:16
O desempenho da placa de rede é um gargalo.
Ver originalResponder0
FloorPriceNightmarevip
· 07-09 14:14
As exigências de largura de banda estão a aumentar.
Ver originalResponder0
defi_detectivevip
· 07-09 14:02
A rede é realmente um gargalo.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)