Поиск по сайту:
В конце концов, не скажешь ничего уже, что не было б другими раньше сказано (Теренций).

Исследование архитектуры AMD Instinct MI300 — огромная производительность искусственного интеллекта

07.12.2023
Исследование архитектуры AMD Instinct MI300 — огромная производительность искусственного интеллекта

Самыми сложными и большими чипами, когда-либо созданными AMD, являются семейство Instinct MI300, оптимизированное для центров обработки данных. Компания AMD, анонсированная в прошлом году и призванная занять центральное место в грядущем суперкомпьютере El Capitan, теперь снимает с себя архитектурные покровы. Если вам нравятся огромные цифры, продуманная упаковка и впечатляющая конструкция, семейство Instinct MI300 с чипсетами — настоящий зверь. Они также важны для дальнейшего роста прибыли AMD, поскольку захват большего куска прибыльного и постоянно расширяющегося пирога ИИ в центрах обработки данных является серьезным приоритетом.

Семья представлена ​​в двух разных вкусах. Это MI300A с 13 микросхемами, использующая колоссальную конструкцию из 146 миллиардов транзисторов, в которой размещены 24 ядра процессора Epyc 4-го поколения, графика CDNA 3 и многостековая 128 ГБ памяти HBM3. Учитывая, что большая часть генеративной обработки искусственного интеллекта лучше всего работает исключительно на графических процессорах, MI300X со 153 миллиардами транзисторов размещает часть Epyc с тремя чипами и выделяет все ресурсы для вычислений на графическом процессоре через два дополнительных графических чиплета.

 

Высокопроизводительный кремний

Кроме того, MI300X увеличивает объем памяти HBM3 до 192 ГБ на чип, что достаточно для размещения моделей с большим языком, таких как Falcon-40B (модель с 40 миллиардами параметров), на одном ускорителе графического процессора. Этот больший объем памяти рассматривается как ключевое преимущество перед Nvidia, где требуется меньше ускорителей AMD для обработки рабочей нагрузки вывода LLM заданного размера. Фактически, один MI300X запускает модели с числом параметров до 80 миллиардов. Достаточно большой, чтобы вместить самые большие параметры Llama 2.

Исследование архитектуры AMD Instinct MI300 — огромная производительность искусственного интеллекта

 

Давайте сначала заглянем под капот MI300 с высокопроизводительными вычислениями. Вкратце: 6-нм кристаллы ввода-вывода (IOD) являются сердцем чипсета. В отличие от обычных серверных процессоров и сложности этого чипа, в каждом пакете имеется четыре IOD, соединенных друг с другом с помощью новой технологии, известной как Infinity Fabric AP. Необходимые для увеличения внутренней и внешней пропускной способности, они объединяются для обработки 128 каналов пропускной способности памяти HBM3. Заимствовав что-то из потребительской графики, это поколение Instinct также использует Infinity Cache для экономии полосы пропускания и энергопотребления.

Говоря о памяти, восемь стеков HBM3 по 16 ГБ дают общий объем 128 ГБ. AMD разделяет соединение таким образом, что устройства с двумя стеками подключаются к одному IOD через 32-канальный интерфейс. То же самое верно и для MI300X, хотя каждый стек имеет на 50% больше емкости.

Масштаб – важный лозунг. Эти чипы предназначены для объединения вместе в большие узлы (суперкомпьютер El Capitan является ярким примером этой философии), поэтому на каждом процессоре имеется 64 линии Infinity Fabric. Кроме того, 64 линии PCIe 5.0 предоставляют возможности расширения для конкретных ускорителей.

Читать  TensorFlow - сверточные нейронные сети

 

Модульная CDNA 3

Сложность упаковки, должно быть, вызвала у AMD серьезные головные боли, поскольку объединение нескольких технологий на разных узлах — непростая задача. Хотя 24-ядерная часть Epyc MI300A использует ту же ISA, что и широко распространенные серверные процессоры, способ ее подключения к пакету совершенно другой. Гибридное 3D-соединение заменяет традиционные соединения глобальной памяти. Еще одним необходимым отличием является адресное пространство, уменьшенное с 57 бит на автономном Epyc до 48 бит здесь, и причиной этого является непрерывность работы с графическим процессором.

Исследование архитектуры AMD Instinct MI300 — огромная производительность искусственного интеллекта

 

Переходя к сути чипов, MI300 представляет собой первый раз, когда AMD разделяет вычислительные блоки на чиплеты, во многом так же, как новейшие потребительские видеокарты решают проблему обеспечения большей производительности при разумной цене. Напомним, если хотите, предыдущее поколение Instinct MI2xx использовало монолитный подход.

На этот раз масштаб снова приводит к переходу на 5-нм ускорительные комплексные кристаллы (XCD). AMD активирует 38 из возможных 40 вычислительных блоков на XCD, а оставшиеся два остаются неиспользованными, как я полагаю, из соображений производительности и стоимости. Идея состоит в том, что несколько XCD работают в тандеме и представляются для рабочих нагрузок как монолитный кристалл. Конечно, этот подход требует первоклассного планирования кристаллов, но AMD уже продемонстрировала эту экспертную способность на потребительской серии Radeon RX 7900.

Исследование архитектуры AMD Instinct MI300 — огромная производительность искусственного интеллекта

 

Учитывая новые рабочие нагрузки, архитектура CDNA 3 обеспечивает поддержку двух числовых форматов, известных как оптимизированный для искусственного интеллекта TensorFloat TF32 и FP8. Гибридный TF32, в частности, имеет тот же диапазон, что и традиционный FP32, и ту же точность, что и современный FP16. Конечным результатом является значительное ускорение (6x) для фреймворков машинного обучения по сравнению с запуском только более интенсивного FP32.

Также существует возможность совместной выдачи определенных инструкций для повышения пропускной способности, и это одна из причин, почему в крайних случаях наблюдается больший, чем ожидалось, прирост по сравнению с последним поколением.

 

Связывая это вместе

Исследование архитектуры AMD Instinct MI300 — огромная производительность искусственного интеллекта

 

Так как же все это сочетается? Хороший вопрос. Помните, что MI300X представляет собой конструкцию с одним APU, состоящую из 12 микросхем. Проще говоря, все ресурсы ориентированы на графические процессоры XCD. Два блока XCD 38CU и два стека HBM подключаются к одному из четырех IOD. Сохраняя согласованность в различных аспектах, напомним, что каждый стек HBM3 подключается через 16-канальный интерфейс. То же самое относится и к XCD, который также использует 16 каналов, то есть один XCD может конфиденциально взаимодействовать с одним стеком HBM, хотя уровни их пропускной способности не одинаковы, как я объясню ниже.

Конечно, ни один стек XCD или HBM не является изолированным. Внутричиповая связь осуществляется через каналы AP Infinity Fabric, поэтому данные или рабочая нагрузка на любой части чипа могут быть доступны в другом месте. Например, верхний левый XCD может перепрыгнуть через IF и получить содержимое нижнего правого стека HBM посредством обхода IOD.

Читать  Cyberpunk 2077 получает мод AMD FSR 3 Frame Generation

Присмотритесь повнимательнее, чтобы узнать, где находится совершенно новый бесконечный тайник. Неудивительно, что пиковая пропускная способность Infinity Cache, представленная зелеными прямоугольниками и расположенная перед контроллером памяти, соответствует пиковой пропускной способности XCD, отмеченной на уровне 17 ТБ/с.

В общей сложности MI300X содержит 304 вычислительных блока, 128-канальный интерфейс памяти с 192 ГБ памяти HBM3 и 256 МБ бесконечного кэша.

Исследование архитектуры AMD Instinct MI300 — огромная производительность искусственного интеллекта

 

При переходе на гибридный MI300A два верхних XCD заменяются процессором Epyc с тремя ПЗС-матрицами, также построенным по 5-нм техпроцессу. Все остальное осталось прежним, за исключением уменьшения объема памяти HBM3 со 192 ГБ до 128 ГБ. На первый взгляд это звучит тривиально, но AMD спроектировала достаточно места на обычных чипах Epyc, чтобы в будущем их можно было подключать к 3D-решениям, таким как MI300.

 

Почему чиплеты имеют смысл

Если разобраться дальше, легко увидеть, как AMD может переключаться между производством MI300A и MI300X, поскольку смена чипсета относительно проста. Умная инженерия. На этот раз Infinity Cache обслуживает как XCD, так и CCD и сохраняет единую согласованность между ними. В результате кэшированные данные становятся общими и сокращают перемещение, которое приводит к ненужному расходу энергии.

Если подвести итоги, то MI300A имеет 228 вычислительных блоков, 128-канальную память и 128 ГБ памяти HBM3, 256 МБ кэш-памяти Infinity и 24-ядерный процессор, подобный Epyc.

Исследование архитектуры AMD Instinct MI300 — огромная производительность искусственного интеллекта

 

Объединение пропускной способности — это удобный слайд, на котором вы видите четыре симметричных IOD. Каждый стек памяти HBM3 работает со скоростью 5,2 Гбит/с и выдает суммарную скорость 665 ГБ/с, которая поступает в IOD. Два стека обеспечивают пропускную способность около 1,3 ТБ/с. Между тем, XCD обеспечивают совокупную скорость 4,2 ТБ/с на IOD. Снаружи вы видите скорость Infinity Fabric и PCIe 5.0 для периферийных устройств или других чипов.

Фиолетовые прямоугольники обозначают каналы AP Infinity Fabric, которые связывают эти четыре IOD вместе. По горизонтали оно выше, поскольку имеется дополнительное распределение трафика ввода-вывода поверх обычного трафика памяти, проходящего между XCD и IOD.

MI300A поддерживает либо один раздел, в котором все шесть или восемь устройств XCD работают как один, либо три раздела, разделенные на группы по два. Между тем MI300X поддерживает один, два, четыре или восемь разделов, каждому из которых выделяется одинаковый объем памяти. Можно было бы рассмотреть пространственное разделение блоков обработки для операций SR-IOV.

 

Читать  7 Истин и ложь: реалии, стоящие за резким ростом сетевых тенденций в области искусственного интеллекта

Проблемы с упаковкой

Исследование архитектуры AMD Instinct MI300 — огромная производительность искусственного интеллекта

 

Ранее я упоминал о головных болях, связанных с упаковкой, и их очень много для продукта с 13 микросхемами, такого как MI300A. Объединение стольких разрозненных технологий в энергоэффективный и экономичный пакет, пожалуй, более впечатляет, чем сами отдельные чиплеты. «Не существует другого способа интегрировать количество кремния, HBM, кэша, вычислений, процессоров и графических процессоров без 3D-стекинга», — сказал Сэм Наффзигер из AMD.

Фактически невозможно существование MI300A/X в его нынешнем виде без 3D-стекинга и связанных с ним технологий упаковки, поскольку использование традиционных технологий оставило бы гораздо меньший запас мощности для работы вычислительных блоков на приемлемых скоростях.

Исследование архитектуры AMD Instinct MI300 — огромная производительность искусственного интеллекта

 

Часть существования упаковки MI300 уходит корнями в 3D V-Cache, впервые представленный на серверных Epyc и потребительских процессорах Ryzen. Система стекирования на интегральных схемах (SoIC), чем-то аналогичная Intel Foveros, на этот раз намного больше, хотя она сохраняет тот же шаг сквозного кремния 9 микрометров, что и 3D V-Cache.

Исследование архитектуры AMD Instinct MI300 — огромная производительность искусственного интеллекта

 

Вот так выглядит чип, если рассматривать его сбоку. Матрицы IOD физически располагаются внизу, а XCD (MI300X) или комбинация XCD/CCD (MI300A) — сверху. Справа вы видите реальный масштаб каждой составной части, а также различные TSV, проходящие к выступам внизу.

 

Обертка

Линейка суперпроцессоров AMD MI300 является кульминацией многих выдающихся технологий. Модульные микросхемы, расширяемые IOD, память HBM3, процессоры Epyc, улучшенные Infinity Fabrics и передовая упаковка — все это играет свою роль в создании этих гигантов с более чем 100 миллиардами транзисторов. Их бы просто не существовало, если бы какая-либо из этих технологий не оправдала первоначальных обещаний. Хотя эту фразу часто обсуждают, это чудо инженерной мысли насквозь.

Если не считать передовых технологий, MI300A и MI300X вряд ли скоро появятся как самостоятельные продукты. Сама их природа связана с высокой производительностью при обучении высокопроизводительных вычислений и искусственном интеллекте, а также рабочих нагрузках по выводу. Как MI300X сражается со всемогущим H100 от Nvidia при запуске моделей с большим количеством языков, в настоящее время неизвестно, но, судя по спецификациям, признаки обнадеживают. Заглянув под капот, можно увидеть, что новейший процессор AMD, ориентированный на искусственный интеллект, обладает большой огневой мощью благодаря перспективному дизайну.

Поставщики облачных услуг покупают в больших масштабах. Если AMD сможет продемонстрировать, что MI300 выполняет определенный объем логических выводов или обучения с меньшим количеством экземпляров, чем H100, и что они станут доступны раньше (в отчетах говорится, что лучший чип Nvidia придется ждать год), у MI300 появится огромная возможность получить немедленный доход и выгода.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (1 оценок, среднее: 5,00 из 5)
Загрузка...
Поделиться в соц. сетях:


5 2 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest

**ссылки nofollow

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Это может быть вам интересно


Рекомендуемое
AMD раскрыла подробности о том, как она планирует реализовать возможности…

Спасибо!

Теперь редакторы в курсе.