A série de GPUs Instinct da AMD está se tornando popular na comunidade de computação e IA. Aqui está o porquê.

Não há dúvida de que a NVIDIA continua a dominar o espaço da computação paralela com suas várias séries populares de GPU. Mas com os aceleradores Instinct AI da AMD equipando dois dos maiores e mais novos supercomputadores (Frontier e El Capitan) e o crescente suporte da comunidade para sua plataforma ROCm de código aberto, a NVIDIA pode ter encontrado seu maior rival até agora.

Então, o que exatamente são os aceleradores Instinct AI da AMD? O que os torna poderosos e como eles se comparam às GPUs Tensor da NVIDIA?

O que é um processador AMD Instinct?

Os processadores Instinct da AMD são hardware de nível empresarial usado para computação de alto desempenho (HPC) e processamento acelerado por IA. Ao contrário das GPUs comuns de nível de consumo, as GPUs Instinct são especializadas para lidar melhor com o aprendizado de IA e outras tarefas de alto desempenho por meio de inovações de software e hardware.

instagram viewer

A série de GPUs Instinct da AMD foi usada para alimentar o primeiro supercomputador a quebrar a barreira Exascale, com desempenho de 1,1 EFLOPs em operações de precisão dupla por segundo. Atualmente, supercomputadores que usam GPUs Instinct estão sendo utilizados para pesquisar tratamentos contra o câncer, energia sustentável e mudanças climáticas.

Como os processadores Instinct aceleram a IA e o HPC

Para os servidores e supercomputadores convencionais mais poderosos do mundo para atingir o nível de processamento Exascale, os aceleradores Instinct da AMD tiveram que ser equipados com várias atualizações e inovações tecnológicas.

Vamos discutir algumas das tecnologias novas e atualizadas usadas nas GPUs AMD Instinct.

1. Computar DNA (CDNA)

Crédito da imagem: Pascal Liebart/AMDLibraryGenericName

Os recentes aceleradores AMD Instinct (a partir do MI100) empregaram a arquitetura CDNA da empresa.

O CDNA se concentra principalmente em recursos como processamento paralelo, hierarquia de memória e desempenhos de computação otimizados por meio de sua tecnologia Matrix Core. Mesmo HPC e IA ou aprendizado de máquina executados em servidores únicos podem ser suportados por CDNA, bem como grandes computadores Exascale.

A tecnologia Matrix Core da AMD acelera o aprendizado de IA ao oferecer suporte a operações de precisão mista. A capacidade de calcular com precisão diferente permite que as GPUs Instinct calculem operações de matriz com eficiência com base no nível de precisão necessário.

Os formatos de precisão de computação mais populares incluem FP64, FP32, FP16, BF16 e INT8. FP significa Floating Point, BF para Brain Floating Point e INT para Integer. Quanto maior o número correspondente ao formato, mais precisa é a computação. Operar em 64 bits é conhecido como precisão dupla. Com 32 bits é precisão simples, 16 bits é meia precisão e assim por diante.

Como uma grande parte dos modelos de aprendizado profundo de treinamento não requer muita precisão, ter a capacidade de calcular a matriz as operações com meia precisão ou mesmo um quarto de precisão para inferência reduzem significativamente a carga de trabalho, acelerando assim a IA aprendizado.

2. Memória de alta largura de banda (HBM)

Crédito da imagem: Jason De Vos/AMDLibraryGenericName

Cada acelerador AMD Instinct AI vem com até 880 núcleos de matriz. Com os processadores Matrix Core da AMD capazes de fazer 383 TFLOPs de cálculos de meia precisão, é necessário ter memória ultrarrápida. As últimas ofertas Instinct da AMD vêm equipadas com High Bandwidth Memory (HBM) em vez da habitual RAM DDR4 ou DDR5.

Ao contrário da memória convencional, a HBM usa o que é conhecido como arquitetura 3D empilhada. Esse tipo de arquitetura refere-se a uma abordagem de design em que as matrizes DRAM são empilhadas verticalmente umas sobre as outras. Isso permite que as matrizes sejam empilhadas nos eixos vertical e horizontal, daí o termo empilhamento 3D.

Com esta tecnologia de empilhamento 3D, os HBMs podem ter capacidades de memória física tão grandes quanto algumas centenas de gigabytes por módulo, enquanto o DRR5 só pode fazer até dezenas de gigabytes por módulo. Além da capacidade, os HBMs também são conhecidos por terem maior desempenho em termos de taxa de transferência e melhor eficiência de energia do que a memória DDR regular.

3. Tecido Infinito

Outra inovação incluída nas GPUs Instinct é a tecnologia Infinity Fabric da AMD. O Infinity Fabric é um tipo de sistema de interconexão que liga CPUs e GPUs de forma inteligente e dinâmica. Isso permite que os componentes se comuniquem uns com os outros de forma eficiente.

Com o Infinity Fabric, em vez de conectar componentes com um barramento regular, os componentes agora são conectados em uma rede semelhante a uma malha, onde as larguras de banda podem chegar a várias centenas de gigabytes por segundo.

Além da interconexão semelhante a uma malha, o Infinity Fabric também usa sensores embutidos em cada matriz para dinamicamente frequência de controle, taxas de transferência de dados e outros comportamentos adaptativos, otimizando o desempenho e minimizando latência.

4. Plataforma de Desenvolvimento ROCM

A CUDA (arquitetura unificada de dispositivo de computação) da NVIDIA é a plataforma de desenvolvimento mais usada para treinar modelos de IA. O problema com o CUDA é que ele só funciona com GPUs NVIDIA. Esta é uma das principais razões pelas quais a NVIDIA tem a esmagadora maioria das quotas de mercado para aceleradores de GPU HPC e AI.

Com a AMD querendo obter uma fatia maior do mercado de HPC e IA, eles tiveram que desenvolver sua própria plataforma, ROCm (Radeon Open Compute). O ROCm é uma plataforma de software de código aberto que permite que as GPUs Instinct sejam usadas como aceleradores de IA.

Embora não necessariamente faça parte do hardware Instinct, o ROCm é fundamental quando se trata da sobrevivência da linha Instinct de GPUs. Com o ROCm, desenvolvedores e os pesquisadores obtêm as ferramentas ROCm, compilador, drivers de kernel, toda uma série de bibliotecas e acesso a estruturas como TensorFlow e PyTorch para desenvolver com seus preferido Linguagem de programação IA.

Como os aceleradores Instinct AI se comparam aos aceleradores Radeon GPU AI?

A AMD oferece sua linha Instinct de GPUs para empresas e GPUs Radeon para consumidores regulares. Conforme discutido anteriormente, a GPU Instinct usa a arquitetura CDNA da AMD, HBM e a interconexão Infinity Fabric. Por outro lado, a Radeon usa a arquitetura RDNA da AMD, memória DDR6 e Infinity Cache.

Embora menos capaz, a série Radeon de aceleradores de IA ainda oferece um impacto implementando um ou dois núcleos de acelerador de IA por unidade de computação. O mais recente GPU Radeon RX7900 XT tem dois núcleos aceleradores de IA por unidade de computação, permitindo 103 TFLOPs de meia precisão de pico e 52 TFLOPs de computação de precisão única de pico.

Embora a série Instinct de GPUs seja mais adequada para LLMs e HPC, os aceleradores Radeon AI podem ser usados ​​para ajustar modelos pré-treinados, inferências e tarefas com uso intensivo de gráficos.

AMD Instinto vs. NVIDIA tensor

De acordo com um pesquisa TrendForce, a NVIDIA tem 80% do mercado de GPUs para servidores, enquanto a AMD tem apenas 20%. Este grande sucesso da NVIDIA é porque eles são uma empresa especializada em design e montagem de GPU. Isso permite que eles projetem GPUs com desempenho significativamente melhor, incomparáveis ​​com outras ofertas.

Vamos comparar o Instinct MI205X da AMD e o H100SXM5 da NVIDIA usando especificações de Site oficial da AMD e Folha de dados da própria NVIDIA:

Modelo de GPU

FP64 (TFLOPs)

FP32 (TFLOPs)

FP16 (TFLOPs)

INT8 (TFLOPs)

AMD Instinct MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

Como você pode ver na tabela, o MI250X da AMD tem melhor desempenho em termos de precisão dupla e meia precisão computacionais, enquanto o H100SXMS da NVIDIA é muito melhor em termos de matriz de meia precisão e precisão de um quarto cálculos. Isso torna o MI250X da AMD mais adequado para HPC, enquanto o H100SXMS da NVIDIA com aprendizado e inferência de IA.

O futuro dos processadores Instinct da AMD

Embora a oferta mais recente da AMD, o MI250X, seja projetada para HPC, o próximo MI300 é mais orientado para o treinamento de IA. Este acelerador AI é anunciado como um APU, combinando GPU e CPU em um único pacote. Isso permite que o MI300 use sua arquitetura APU de memória unificada CNDA3, onde a GPU e a CPU usarão apenas uma memória, aumentando a eficiência e reduzindo o preço.

Embora a AMD não esteja competindo com a NVIDIA no mercado de aceleradores de IA hoje, assim que o MI300 for lançado e o ROCm se tornar polida, a série Instinct da AMD pode ser boa o suficiente para arrebatar uma parcela significativa do mercado de aceleradores de IA de NVIDIA.