10 января 2023 года Intel назначила дату дебюта процессоров Xeon 4-го поколения, ранее известных как Sapphire Rapids. Столкнувшись с многочисленными задержками в то время, когда конкурирующая AMD добилась предсказуемых успехов с чипами Epyc, Intel выходит из игры по мере того, как мы приближаемся к запуску. Предоставляя дополнительную информацию о моделях с HBM2e, известных как Xeon Max, заявления о производительности граничат с удивительными.
Прежде всего, не обращая внимания на основные характеристики, Intel выпускает два варианта процессоров Sapphire Rapids Xeon — со встроенной памятью HBM2e (памятью с высокой пропускной способностью) и без нее. Чипы без HBM2e масштабируются до 60 (P) ядер и 120 потоков на сокет, в то время как модели HBM2e имеют максимальное количество ядер 56 и 112 потоков. Аргументы Intel в пользу сокращения ядер основаны на дополнительном соке, необходимом для работы с кучами встроенного кэша.
Максимальное энергопотребление запланировано на уровне 350 Вт, что значительно выше, чем 270 Вт у лучшего в своем классе Xeon Platinum 8380, но соответствует конкурирующим процессорам Epyc и предложениям серверов на модулях Xeon. Sapphire Rapids — это прогрессивная архитектура, дополненная расширяющим память соединением CXL 1.1, PCIe Gen 5 — кстати, обе они также присутствуют в грядущей Epyc Genoa — и она построена с использованием нескольких плиток, соединенных вместе через упаковку EMIB.
Ключом к успеху Xeon Max в серверной среде являются совершенно новые технологии вычислений и памяти. Intel делает большие ставки на машинное обучение и искусственный интеллект, предоставляя микросхемы для расширений AMX. Сохраняя восемь каналов памяти в существующих решениях, переход на DDR5-4800 увеличивает бумажную пропускную способность на 50% по сравнению с Ice Lake-SP.
Создание с использованием мозаичного подхода означает, что Intel может быть гибким в том, что она добавляет к конкретным SKU. Однако на данный момент основное отклонение заключается только в том, имеют ли Xeon память HBM2e или нет.
Кроме того, процессоры Xeon Max имеют 64 ГБ памяти HBM2e, а это означает, что на каждое ядро всегда готово более 1 ГБ. Благодаря кэш-памяти последнего уровня (LLC) объемом до 112,5 МБ, Intel значительно увеличивает объем встроенной памяти по сравнению с любым серверным процессором предыдущего поколения.
Наличие большого количества быстрой памяти является благом для приложений высокопроизводительных вычислений, искусственного интеллекта и анализа данных, позволяя рабочему набору помещаться в кэш-память процессора. По оценкам Intel, Xeon Max, организованный в четыре стека по 16 ГБ в дополнение к восьмиканальной памяти DDR5, имеет пропускную способность памяти примерно 1 ТБ/с по сравнению с примерно 200 ГБ у Xeon Ice Lake-SP.
HBM устроен в трех режимах. Первый интересен тем, что сервер работает вообще без DDR5; все операции с памятью выполняются через 64 ГБ HBM2e. Если требуется более 64 ГБ, приложение охватывает несколько сокетов и узлов, что является обычным явлением в пространстве высокопроизводительных вычислений. Второй, известный как Flat Mode, где и HBM2e, и DDR5 выставляются программному обеспечению как два разных режима NUMA. Операционная система и службы работают в основном на памяти DDR5, поэтому HBM2e не используется для приложений. Однако в режиме кэширования HBM кэширует содержимое DDR. Это означает, что он прозрачен, что приводит к двум вещам: отсутствие изменений кода из-за прозрачности, и все обращения обрабатываются контроллерами памяти.
Поразительные преимущества наличия HBM2e на чипе иллюстрируются предоставленными Intel бенчмарками, сравнивающими топовый Xeon Max с имеющимся на рынке AMD Epyc 7773X . Intel естественно и намеренно выбирает приложения, которые очень чувствительны к изменениям пропускной способности и близости памяти, поэтому вполне возможно, что все они поместятся в 64 ГБ HBM2e. При тестировании в режиме только HBM мы видим масштабирование в диапазоне от 1,2x до примерно 2x, с выбросами, приближающимися к 5x.
Здесь больше оговорок, чем мы можем поколебать большую палку. Большой слон в комнате — это то, что Intel еще не выпустила Xeon Max 4-го поколения. Настроенный в первую очередь для демонстрации преимуществ наличия 64 ГБ памяти HBM2e, не все приложения будут масштабироваться таким образом. Задачи, связанные с вычислениями, вероятно, будут выполняться быстрее на Epyc из-за большего количества ядер, а с учетом того, что 96-ядерный 192-поточный Epyc Genoa 4-го поколения будет выпущен завтра, сравнения быстро станут недействительными. Тем не менее, Intel выдвигает веские доводы в пользу использования HBM2e в приложениях, привязанных к памяти.
История производительности почти такая же, как и при сравнении грядущего 4-го поколения Xeon Max с сегодняшним 40C80T Xeon 8380 Platinum.
Производительность серверов выходит на новый уровень с неизбежным выпуском моделей 4-го поколения от AMD и Intel. Epyc ориентирован на производительность, ориентированную на вычисления, в то время как Xeon Max стремится преуспеть в сценариях с интенсивным использованием памяти. Идеальным серверным процессором вполне может быть смесь Genoa и Sapphire Rapids. Кто-нибудь хочет построить один?