Постоянно расширяющееся присутствие AMD в среде центров обработки данных в последний раз подкреплялось выпуском процессоров Epyc 4-го поколения в ноябре прошлого года. В то время AMD уведомила о намерении расширить портфолио серверов ЦП с более плотным вариантом, известным под кодовым названием Bergamo, наряду с версией с большим объемом кэш-памяти, называемой Genoa-X. Сегодня это обещание выполнено на ЦОД компании и премьере технологии искусственного интеллекта.
Компания AMD уже вышла на рынок с лучшими в своем классе серверными процессорами с 96-ядерными и 192-потоковыми процессорами Epyc Genoa 9654 4-го поколения, которые сегодня используются Amazon для своих инстансов EC2 M7a в качестве предварительного просмотра. его портфолио для сегментов центров обработки данных, для которых требуются более специализированные варианты Epyc. Созданный для облачных вычислений, где плотность ядра и ценность, возможно, важнее, чем частота и пропускная способность, рождается Бергамо на базе Zen 4c.
Более подробные сведения будут обнародованы позже, но важно подчеркнуть, что действующая Генуя и новоявленный Бергамо используют один и тот же сокет и имеют одинаковый набор функций ISA, а это означает, что клиент может легко переключаться с одного на другой без необходимости возиться с базовые материнские платы или оптимизация программного обеспечения.
Известная как серия Epyc 97×4, AMD увеличивает максимальное количество сокетов до 128 по сравнению с 96 на обычной Genoa. Поскольку на одной материнской плате размещается до двух чипов, это первый случай, когда 256-ядерный ЦП с 512-потоковыми вычислительными возможностями был засвидетельствован в пространстве x86.
Ходят слухи, что AMD удалось увеличить плотность вычислений без повышения мощности за счет многочисленных оптимизаций архитектуры, позволяющих экономить кремний, включая уменьшение вдвое объема кэш-памяти L3 для каждого CCX при использовании более плотных, но одинаковой емкости кэшей L1 и L2. По сравнению с Zen 4 Regular, площадь которого составляет 3,84 мм² по ядру и L2, Zen 4c на 35% меньше — 2,48 мм², основанный на том же 5-нанометровом техпроцессе.
Кроме того, руководитель AMD Лиза Су объяснила, что Бергамо использует 16 ядер на ПЗС — за счет удвоения числа ядер CCX — по сравнению с восемью в Генуе. Это означает, что топовый чип будет использовать восемь ПЗС вместо нынешних 12 ПЗС. Меньше ПЗС, больше ядер. «Zen 4c на самом деле оптимизирован для оптимального сочетания производительности и мощности», — пояснил Су.
AMD считает, что Epyc 9754 «Bergamo» обеспечивает производительность до 2,6 раз выше, чем у конкурирующего процессора Intel Xeon Platinum 8490H в облачных приложениях.
По словам AMD, серверы в Бергамо теперь поставляются гипермасштабируемым клиентам. Meta готовится к развертыванию Bergamo в качестве общей вычислительной платформы следующего поколения для больших объемов. «Мы наблюдаем значительное улучшение производительности в Бергамо по сравнению с Миланом примерно в 2,5 раза», — сказал вице-президент Meta по инфраструктуре Алексис Блэк Бьорлин.
Третьей «плавательной дорожкой» для 4-го поколения Epyc являются чипы, обозначенные как Genoa-X. Они следуют той же стратегии, что и Milan-X, где кэш-память L3 увеличена в три раза по сравнению с процессорами, отличными от X. Используя новую технологию стекирования кэш-памяти, впервые реализованную в последнем поколении, Genoa-X увеличивает максимальный объем кэш-памяти на процессор с 384 МБ до 1152 МБ.
Многие рабочие нагрузки технических вычислений используют большие наборы данных, которые в противном случае не помещаются в кэш-память обычных процессоров Epyc. Наличие трехкратного объема L3 — достаточного для размещения большего количества рабочего кода рядом с процессорами — гораздо более выгодно, чем добавление дополнительных ядер. Это было верно для Милана-X и еще более верно для Генуи-X.
Подчеркнув это, AMD воспользовалась возможностью сравнить 96-ядерный процессор Genoa-X с топовым 60-ядерным чипом Intel Sapphire Rapids (8490H) в тесте технических вычислений, а также показать, как 32-ядерный процессор Intel Sapphire Rapids (8490H) основные процессоры от каждой компании выполняют одну и ту же задачу. Результаты, естественно, показывают убедительную убедительную победу Epyc. AMD считает, что Genoa-X хорошо подходит для профессионального программного обеспечения, лицензируемого по количеству ядер. Платформы с Genoa-X будут доступны у партнеров со следующего квартала.
ЦП — это часть истории центров обработки данных AMD, и их роль хорошо известна. Однако ИИ стал самым модным словом в отрасли. В всеобъемлющей экосистеме наибольшее внимание уделяется генеративному ИИ, при котором новый, казалось бы, реалистичный контент создается на основе обучающих данных, о чем свидетельствуют ChatGPT и Google Bard.
В настоящее время подавляющее большинство аппаратного и программного обеспечения, используемого для генеративного ИИ, работает на конкурирующих решениях Nvidia. AMD прекрасно осознает это — и к 2027 году ускоритель искусственного интеллекта для центров обработки данных стоимостью 150 миллиардов долларов — и вместо этого отстаивает подход с открытым исходным кодом, работающий на оборудовании Instinct, последним из которых является ускоритель MI300, который займет почетное место в грядущем суперкомпьютере El Capitan.
MI300(A) — это 13-чиплетная конструкция с 146 миллиардами транзисторов, которая включает в себя 24 ядра ЦП Epyc 4-го поколения, графику CDNA 3 и многостековую память HBM3 объемом 128 ГБ. Используя этот мощный дизайн в качестве основы, AMD раскрыла предварительные подробности о генеративной модели, оптимизированной для рабочих нагрузок ИИ, известной как Instinct MI300X.
Понимая, что генеративная обработка ИИ лучше всего работает на графических процессорах, а не на центральных процессорах, MI300X со 153 миллиардами транзисторов убирает часть Epyc с тремя чипами и выделяет все ресурсы для вычислений на графическом процессоре с помощью двух дополнительных чиплетов графического процессора, хотя никаких точных и быстрых подробностей о спецификациях не было предоставлено. дополнительные спецификации. Учитывая, что обучающие модели могут быть большими, MI300X увеличивает память HBM3 до 192 ГБ на экземпляр, что достаточно для размещения моделей с большим языком, таких как Falcon-40B, модель с 40 миллиардами параметров, на одном графическом ускорителе MI300X мощностью 750 Вт, сообщает AMD. Этот больший объем памяти рассматривается как ключевое преимущество по сравнению с Nvidia, где требуется меньшее количество ускорителей AMD для обработки рабочей нагрузки вывода LLM заданного размера. Нам сообщили, что один MI300X может запускать модели с 80 миллиардами параметров.
По словам Лизы Су, AMD будет поставлять графические процессоры MI300X в форм-факторе Universal Baseboard (UBB), который физически и логически совместим с восьмипроцессорной платой Nvidia DGX. Цель состоит в том, чтобы максимально упростить внедрение решений AMD для клиентов, которым нужна альтернатива безудержной гегемонии Nvidia. Графические процессоры MI300X начнут поставляться в третьем квартале 2023 года, и мы ожидаем более подробных сведений позднее.
Подпитывая импульс 4-го поколения Epyc, AMD представляет более высокую плотность ядра и значительно расширенные модели кэш-памяти L3 с Bergamo и Genoa-X соответственно, а также позволяет взглянуть на аппаратное обеспечение, стоящее за его зарождающимся генеративным продвижением ИИ.
Стратегия и исполнение со стороны Epyc кажутся более надежными, чем для обработки ИИ, но этого следовало ожидать, поскольку AMD имеет более долгую историю убеждения крупных клиентов в преимуществах, получаемых от ее технологии серверных ЦП. Обычный бизнес для Epyc, генерирующая обработка ИИ — это соблазнительно богатый потенциальный пласт доходов, который требует майнинга с акцентом на лазер, если мы хотим отобрать долю рынка у бегемота Nvidia.