Исследование архитектуры AMD Instinct MI300 — огромная производительность искусственного интеллекта

AndreyEx

2 года назад

Исследование архитектуры AMD Instinct MI300 — огромная производительность искусственного интеллекта

Время чтения: 1 мин.

Самыми сложными и большими чипами, когда-либо созданными AMD, являются семейство Instinct MI300, оптимизированное для центров обработки данных. Компания AMD, анонсированная в прошлом году и призванная занять центральное место в грядущем суперкомпьютере El Capitan, теперь снимает с себя архитектурные покровы. Если вам нравятся огромные цифры, продуманная упаковка и впечатляющая конструкция, семейство Instinct MI300 с чипсетами — настоящий зверь. Они также важны для дальнейшего роста прибыли AMD, поскольку захват большего куска прибыльного и постоянно расширяющегося пирога ИИ в центрах обработки данных является серьезным приоритетом.

Семья представлена в двух разных вкусах. Это MI300A с 13 микросхемами, использующая колоссальную конструкцию из 146 миллиардов транзисторов, в которой размещены 24 ядра процессора Epyc 4-го поколения, графика CDNA 3 и многостековая 128 ГБ памяти HBM3. Учитывая, что большая часть генеративной обработки искусственного интеллекта лучше всего работает исключительно на графических процессорах, MI300X со 153 миллиардами транзисторов размещает часть Epyc с тремя чипами и выделяет все ресурсы для вычислений на графическом процессоре через два дополнительных графических чиплета.

Высокопроизводительный кремний

Кроме того, MI300X увеличивает объем памяти HBM3 до 192 ГБ на чип, что достаточно для размещения моделей с большим языком, таких как Falcon-40B (модель с 40 миллиардами параметров), на одном ускорителе графического процессора. Этот больший объем памяти рассматривается как ключевое преимущество перед Nvidia, где требуется меньше ускорителей AMD для обработки рабочей нагрузки вывода LLM заданного размера. Фактически, один MI300X запускает модели с числом параметров до 80 миллиардов. Достаточно большой, чтобы вместить самые большие параметры Llama 2.

Давайте сначала заглянем под капот MI300 с высокопроизводительными вычислениями. Вкратце: 6-нм кристаллы ввода-вывода (IOD) являются сердцем чипсета. В отличие от обычных серверных процессоров и сложности этого чипа, в каждом пакете имеется четыре IOD, соединенных друг с другом с помощью новой технологии, известной как Infinity Fabric AP. Необходимые для увеличения внутренней и внешней пропускной способности, они объединяются для обработки 128 каналов пропускной способности памяти HBM3. Заимствовав что-то из потребительской графики, это поколение Instinct также использует Infinity Cache для экономии полосы пропускания и энергопотребления.

Говоря о памяти, восемь стеков HBM3 по 16 ГБ дают общий объем 128 ГБ. AMD разделяет соединение таким образом, что устройства с двумя стеками подключаются к одному IOD через 32-канальный интерфейс. То же самое верно и для MI300X, хотя каждый стек имеет на 50% больше емкости.

Масштаб – важный лозунг. Эти чипы предназначены для объединения вместе в большие узлы (суперкомпьютер El Capitan является ярким примером этой философии), поэтому на каждом процессоре имеется 64 линии Infinity Fabric. Кроме того, 64 линии PCIe 5.0 предоставляют возможности расширения для конкретных ускорителей.

Читать Хакеры используют искусственный интеллект на всех этапах кибератак — предупреждение Microsoft

Модульная CDNA 3

Сложность упаковки, должно быть, вызвала у AMD серьезные головные боли, поскольку объединение нескольких технологий на разных узлах — непростая задача. Хотя 24-ядерная часть Epyc MI300A использует ту же ISA, что и широко распространенные серверные процессоры, способ ее подключения к пакету совершенно другой. Гибридное 3D-соединение заменяет традиционные соединения глобальной памяти. Еще одним необходимым отличием является адресное пространство, уменьшенное с 57 бит на автономном Epyc до 48 бит здесь, и причиной этого является непрерывность работы с графическим процессором.

Переходя к сути чипов, MI300 представляет собой первый раз, когда AMD разделяет вычислительные блоки на чиплеты, во многом так же, как новейшие потребительские видеокарты решают проблему обеспечения большей производительности при разумной цене. Напомним, если хотите, предыдущее поколение Instinct MI2xx использовало монолитный подход.

На этот раз масштаб снова приводит к переходу на 5-нм ускорительные комплексные кристаллы (XCD). AMD активирует 38 из возможных 40 вычислительных блоков на XCD, а оставшиеся два остаются неиспользованными, как я полагаю, из соображений производительности и стоимости. Идея состоит в том, что несколько XCD работают в тандеме и представляются для рабочих нагрузок как монолитный кристалл. Конечно, этот подход требует первоклассного планирования кристаллов, но AMD уже продемонстрировала эту экспертную способность на потребительской серии Radeon RX 7900.

Учитывая новые рабочие нагрузки, архитектура CDNA 3 обеспечивает поддержку двух числовых форматов, известных как оптимизированный для искусственного интеллекта TensorFloat TF32 и FP8. Гибридный TF32, в частности, имеет тот же диапазон, что и традиционный FP32, и ту же точность, что и современный FP16. Конечным результатом является значительное ускорение (6x) для фреймворков машинного обучения по сравнению с запуском только более интенсивного FP32.

Также существует возможность совместной выдачи определенных инструкций для повышения пропускной способности, и это одна из причин, почему в крайних случаях наблюдается больший, чем ожидалось, прирост по сравнению с последним поколением.

Связывая это вместе

Так как же все это сочетается? Хороший вопрос. Помните, что MI300X представляет собой конструкцию с одним APU, состоящую из 12 микросхем. Проще говоря, все ресурсы ориентированы на графические процессоры XCD. Два блока XCD 38CU и два стека HBM подключаются к одному из четырех IOD. Сохраняя согласованность в различных аспектах, напомним, что каждый стек HBM3 подключается через 16-канальный интерфейс. То же самое относится и к XCD, который также использует 16 каналов, то есть один XCD может конфиденциально взаимодействовать с одним стеком HBM, хотя уровни их пропускной способности не одинаковы, как я объясню ниже.

Читать TensorFlow - оптимизаторы

Конечно, ни один стек XCD или HBM не является изолированным. Внутричиповая связь осуществляется через каналы AP Infinity Fabric, поэтому данные или рабочая нагрузка на любой части чипа могут быть доступны в другом месте. Например, верхний левый XCD может перепрыгнуть через IF и получить содержимое нижнего правого стека HBM посредством обхода IOD.

Присмотритесь повнимательнее, чтобы узнать, где находится совершенно новый бесконечный тайник. Неудивительно, что пиковая пропускная способность Infinity Cache, представленная зелеными прямоугольниками и расположенная перед контроллером памяти, соответствует пиковой пропускной способности XCD, отмеченной на уровне 17 ТБ/с.

В общей сложности MI300X содержит 304 вычислительных блока, 128-канальный интерфейс памяти с 192 ГБ памяти HBM3 и 256 МБ бесконечного кэша.

При переходе на гибридный MI300A два верхних XCD заменяются процессором Epyc с тремя ПЗС-матрицами, также построенным по 5-нм техпроцессу. Все остальное осталось прежним, за исключением уменьшения объема памяти HBM3 со 192 ГБ до 128 ГБ. На первый взгляд это звучит тривиально, но AMD спроектировала достаточно места на обычных чипах Epyc, чтобы в будущем их можно было подключать к 3D-решениям, таким как MI300.

Почему чиплеты имеют смысл

Если разобраться дальше, легко увидеть, как AMD может переключаться между производством MI300A и MI300X, поскольку смена чипсета относительно проста. Умная инженерия. На этот раз Infinity Cache обслуживает как XCD, так и CCD и сохраняет единую согласованность между ними. В результате кэшированные данные становятся общими и сокращают перемещение, которое приводит к ненужному расходу энергии.

Если подвести итоги, то MI300A имеет 228 вычислительных блоков, 128-канальную память и 128 ГБ памяти HBM3, 256 МБ кэш-памяти Infinity и 24-ядерный процессор, подобный Epyc.

Объединение пропускной способности — это удобный слайд, на котором вы видите четыре симметричных IOD. Каждый стек памяти HBM3 работает со скоростью 5,2 Гбит/с и выдает суммарную скорость 665 ГБ/с, которая поступает в IOD. Два стека обеспечивают пропускную способность около 1,3 ТБ/с. Между тем, XCD обеспечивают совокупную скорость 4,2 ТБ/с на IOD. Снаружи вы видите скорость Infinity Fabric и PCIe 5.0 для периферийных устройств или других чипов.

Фиолетовые прямоугольники обозначают каналы AP Infinity Fabric, которые связывают эти четыре IOD вместе. По горизонтали оно выше, поскольку имеется дополнительное распределение трафика ввода-вывода поверх обычного трафика памяти, проходящего между XCD и IOD.

MI300A поддерживает либо один раздел, в котором все шесть или восемь устройств XCD работают как один, либо три раздела, разделенные на группы по два. Между тем MI300X поддерживает один, два, четыре или восемь разделов, каждому из которых выделяется одинаковый объем памяти. Можно было бы рассмотреть пространственное разделение блоков обработки для операций SR-IOV.

Читать Grok 2.5 не является открытым исходным кодом, несмотря на то, что Маск говорит, что да

Проблемы с упаковкой

Ранее я упоминал о головных болях, связанных с упаковкой, и их очень много для продукта с 13 микросхемами, такого как MI300A. Объединение стольких разрозненных технологий в энергоэффективный и экономичный пакет, пожалуй, более впечатляет, чем сами отдельные чиплеты. «Не существует другого способа интегрировать количество кремния, HBM, кэша, вычислений, процессоров и графических процессоров без 3D-стекинга», — сказал Сэм Наффзигер из AMD.

Фактически невозможно существование MI300A/X в его нынешнем виде без 3D-стекинга и связанных с ним технологий упаковки, поскольку использование традиционных технологий оставило бы гораздо меньший запас мощности для работы вычислительных блоков на приемлемых скоростях.

Часть существования упаковки MI300 уходит корнями в 3D V-Cache, впервые представленный на серверных Epyc и потребительских процессорах Ryzen. Система стекирования на интегральных схемах (SoIC), чем-то аналогичная Intel Foveros, на этот раз намного больше, хотя она сохраняет тот же шаг сквозного кремния 9 микрометров, что и 3D V-Cache.

Вот так выглядит чип, если рассматривать его сбоку. Матрицы IOD физически располагаются внизу, а XCD (MI300X) или комбинация XCD/CCD (MI300A) — сверху. Справа вы видите реальный масштаб каждой составной части, а также различные TSV, проходящие к выступам внизу.

Обертка

Линейка суперпроцессоров AMD MI300 является кульминацией многих выдающихся технологий. Модульные микросхемы, расширяемые IOD, память HBM3, процессоры Epyc, улучшенные Infinity Fabrics и передовая упаковка — все это играет свою роль в создании этих гигантов с более чем 100 миллиардами транзисторов. Их бы просто не существовало, если бы какая-либо из этих технологий не оправдала первоначальных обещаний. Хотя эту фразу часто обсуждают, это чудо инженерной мысли насквозь.

Если не считать передовых технологий, MI300A и MI300X вряд ли скоро появятся как самостоятельные продукты. Сама их природа связана с высокой производительностью при обучении высокопроизводительных вычислений и искусственном интеллекте, а также рабочих нагрузках по выводу. Как MI300X сражается со всемогущим H100 от Nvidia при запуске моделей с большим количеством языков, в настоящее время неизвестно, но, судя по спецификациям, признаки обнадеживают. Заглянув под капот, можно увидеть, что новейший процессор AMD, ориентированный на искусственный интеллект, обладает большой огневой мощью благодаря перспективному дизайну.

Поставщики облачных услуг покупают в больших масштабах. Если AMD сможет продемонстрировать, что MI300 выполняет определенный объем логических выводов или обучения с меньшим количеством экземпляров, чем H100, и что они станут доступны раньше (в отчетах говорится, что лучший чип Nvidia придется ждать год), у MI300 появится огромная возможность получить немедленный доход и выгода.