Ежедневные новости о ситуации в мире и России, сводка о пандемии Коронавируса, новости культуры, науки и шоу бизнеса

Китай создал 384-ядерный чип Sunway SW26010-Pro для суперкомпьютеров, который в 4 раза быстрее предшественника

В этом году Национальный суперкомпьютерный центр в Уси (Китай) запустил мощнейший суперкомпьютер на базе усовершенствованных 384-ядерных процессоров Sunway SW26010-Pro, разработанных в стране. По сравнению с предшественником — 256-ядерной моделью Sunway SW26010 без приставки «Pro» — его производительность выросла до четырёх раз, сообщает ресурс Chips and Cheese.

Китай создал 384-ядерный чип Sunway SW26010-Pro для суперкомпьютеров, который в 4 раза быстрее предшественника

Впервые о процессоре Sunway SW26010-Pro и суперкомпьютерах на его основе стало известно ещё в 2021 году, но только в этом году на конференции по высокопроизводительным вычислениям SC23 разработчик публично продемонстрировал этот чип и рассказал о его архитектуре. Максимальная FP64-производительность каждого Sunway SW26010-Pro составляет 13,8 Тфлопс — для сравнения, 96-ядерный AMD EPYC 9654 демонстрирует около 5,4 Тфлопс.

Sunway SW26010-Pro основан на совершенно новой проприетарной RISC-архитектуре — он включает в себя шесть групп ядер (CG) и блок обработки протоколов (Protocol Processing Unit — PPU). Каждый CG-кластер объединяет 64 вычислительных ядра (Compute Processing Elements — CPE) с 512-битным векторным движком, 256 кбайт сверхскоростного кеша для данных и 16 кбайт для инструкций; одно управляющее ядро (Management Processing Element — MPE) — суперскалярное ядро внеочередного действия с векторным движком, по 32 Кбайт кеша L1 для данных и инструкций, 512 Кбайт кеша L2; а также 128-битный интерфейс памяти DDR4-3200.

MPE и CPE используют протокол на основе директорий — он обеспечивает согласованный обмен данными, чтобы сократить объём их перемещения между ядрами и поддержать точное взаимодействие между ними. Это особенно важно для приложений с нерегулярным доступом к совместно используемым данным. Каждый 6-кластерный процессор имеет 384 вычислительных и 6 управляющих ядер — всего 390 ядер. Sunway SW26010-Pro отличается от предшественника более высокой скоростью работы (2,25 ГГц у CPE и 2,10 ГГц у MPE против 1,45 ГГц у обоих на предыдущей модели) и полностью переработанной 64-разрядной RISC-архитектурой, которая помогла увеличить FP64-производительность в четыре раза. Разработчик повысил пропускную способность памяти, заменив контроллеры DDR3 на DDR4. Если у предыдущей версии процессора на один CPE-кластер приходились 8 Гбайт DDR3, то сейчас это 16 Гбайт DDR4 — соответственно, общий объём поддерживаемой процессором памяти вырос с 32 Гбайт у SW26010 до 96 Гбайт в SW26010-Pro.

Читать также:
Google представила мощную нейросеть Lumiere для генерации реалистичных видео

При этом, как отмечает Tom’s Hardware, слабым местом обоих версий процессора являются кеш и оперативная память. В модели SW26010-Pro проблему с кешем попытались решить, увеличив объём сверхскоростной памяти с 64 до 256 Кбайт, но при отсутствии надлежащего L2 этого всё равно недостаточно. Двухканальной подсистемы памяти DDR4-3200 (51,2 Гбайт/с), кроме того, едва хватает на 64 ядра, каждое из которых имеет 512-битный векторный FPU и обеспечивает производительность до 16 FP64-флопс за цикл. Проблему кеша можно частично компенсировать за счёт дорогостоящей и трудозатратной программной оптимизации, но с учётом недостаточной пропускной способности ОЗУ непонятно, насколько в итоге обновлённый процессор окажется эффективным для задач, которые призваны решать экзафлопсные суперкомпьютеры.