Cerebras Systems, американский производитель специализированных процессоров для искусственного интеллекта, совершил очередной прорыв в области высокоскоростных вычислений. Компания, известная своими гигантскими чипами Wafer-Scale Engine (WSE), объявила о запуске нового поколения ускорителей и облачных сервисов, ориентированных на ускорение обучения и инференса больших языковых моделей. Основной акцент сделан на снижение задержек и повышение пропускной способности, что критически важно для задач реального времени, включая генеративные ИИ-приложения. Новая платформа Cerebras CS-3, по заявлениям разработчиков, способна обрабатывать модели с триллионами параметров, сохраняя при этом рекордную скорость обмена данными между ядрами.
Архитектурные инновации и ключевые характеристики
В основе нового решения лежит процессор Cerebras WSE-3, который представляет собой единый кремниевый кристалл площадью более 46 000 квадратных миллиметров. Этот чип содержит 4 триллиона транзисторов и 900 000 вычислительных ядер, соединенных в высокоскоростную сеть на кристалле. Ключевое отличие от традиционных графических процессоров (GPU) заключается в отказе от внешней памяти HBM. Cerebras использует интегрированную SRAM-память объемом 44 гигабайта, расположенную непосредственно на кристалле, что позволяет достичь пропускной способности 21 петабайт в секунду. Это многократно превышает показатели даже самых производительных GPU-кластеров, где узким местом часто является шина передачи данных между чипами и памятью.
Для инференса (выполнения уже обученных моделей) Cerebras предлагает специализированное решение Cerebras Inference. Платформа демонстрирует скорость генерации текста до 1830 токенов в секунду для моделей семейства Llama 2 (7B и 13B параметров). Для сравнения, типичные GPU-решения на базе NVIDIA H100 показывают показатели в диапазоне 100-200 токенов в секунду на одно ядро. Такая производительность достигается за счет архитектуры, минимизирующей паузы на загрузку весов модели из внешней памяти. Веса полностью размещаются в быстрой SRAM, что устраняет задержки, связанные с подкачкой данных через PCIe или NVLink.
Программная экосистема и совместимость
Для работы с новым оборудованием компания развивает собственный стек программного обеспечения Cerebras Software Framework (CSF). Он включает компилятор, который автоматически оптимизирует вычисления под архитектуру WSE. Важно, что CSF поддерживает популярные фреймворки машинного обучения, такие как PyTorch и TensorFlow, что упрощает миграцию для разработчиков. Также анонсирована интеграция с библиотекой Hugging Face, что позволяет запускать предобученные модели без существенных изменений кода. В отличие от GPU, где распараллеливание модели на множество чипов требует ручного тюнинга (например, через Megatron-LM), CSF берет на себя распределение вычислений по 900 000 ядрам автоматически.
Отдельного внимания заслуживает система охлаждения. Из-за высокой плотности тепловыделения (до 15 кВт на один чип) Cerebras использует жидкостное охлаждение с прямым контактом хладагента с подложкой. Это позволяет поддерживать стабильную работу в дата-центрах с плотностью стоек до 100 кВт. Компания уже заключила контракты с несколькими операторами гиперскейлеров, включая партнерство с CoreWeave для развертывания кластеров на базе WSE-3 в облачной инфраструктуре.
Рыночный контекст и конкуренция
Рынок ускорителей ИИ продолжает доминировать NVIDIA, контролирующая, по разным оценкам, от 80% до 90% сегмента обучения моделей. Однако спрос на специализированные решения для инференса растет опережающими темпами, поскольку компании стремятся снизить стоимость эксплуатации ИИ-сервисов. Cerebras позиционирует себя как альтернативу в нише, где критична низкая задержка: чат-боты реального времени, финансовый трейдинг, автономные системы. Прямые конкуренты — стартапы Groq (с архитектурой LPU) и SambaNova Systems, а также крупные игроки вроде AMD и Intel с их ускорителями Instinct и Gaudi.
Согласно отчету IDC, рынок полузаказных ИИ-чипов (ASIC) вырастет до 52 миллиардов долларов к 2027 году. Cerebras уже привлекла более 750 миллионов долларов инвестиций, а ее оценка по данным последнего раунда в 2023 году составила около 4 миллиардов долларов. Ключевыми заказчиками выступают государственные исследовательские лаборатории, включая Аргоннскую национальную лабораторию (США), где CS-2 используется для моделирования климата и задач вычислительной биологии.
Сравнение с GPU-решениями
Тесты производительности, опубликованные Cerebras, показывают, что для задач инференса с пакетной обработкой (batch size = 1) WSE-3 превосходит NVIDIA H100 в 10-20 раз по скорости при сопоставимой точности. Однако при обучении больших моделей с использованием распределенных вычислений разрыв сокращается. GPU-кластеры с тысячами чипов, соединенных через NVLink
Таким образом, Cerebras Systems уверенно занимает свою нишу на рынке ИИ-ускорителей, предлагая альтернативу доминирующим GPU-решениям за счет уникальной архитектуры с интегрированной памятью и рекордной пропускной способностью. Хотя компания пока не может конкурировать с NVIDIA в универсальности обучения моделей, ее фокус на снижение задержек и энергоэффективность делает платформу WSE-3 особенно привлекательной для задач реального времени, где каждая миллисекунда имеет значение.
В условиях растущего спроса на специализированные чипы для инференса и прогнозируемого роста рынка ASIC, Cerebras имеет все шансы укрепить свои позиции. Успех будет зависеть от масштабирования облачной инфраструктуры, дальнейшей оптимизации программного стека и способности привлекать крупных корпоративных клиентов, заинтересованных в снижении затрат на эксплуатацию генеративных ИИ-сервисов.