В американском регуляторном поле наметился новый тренд: ведущие разработчики искусственного интеллекта, включая Google, xAI и Microsoft, начали проходить процедуру обязательных стресс-тестов своих AI-моделей. Эти испытания проводятся в рамках выполнения указа президента США и добровольных обязательств, взятых на себя компаниями перед Белым домом. Цель тестов — оценить риски, связанные с кибербезопасностью, биологической угрозой и дискриминацией, прежде чем модели будут выпущены в широкий доступ.
Детали и ключевые данные проведения стресс-тестов
Стресс-тесты, о которых идет речь, координируются Американским институтом стандартов и технологий (NIST) и проводятся под эгидой созданного в 2023 году Консорциума по безопасности AI (AISIC). В тестировании участвуют как государственные лаборатории, так и независимые эксперты по этике. Компании предоставляют свои новейшие модели, включая Gemini от Google, Grok от xAI и Copilot от Microsoft, для проверки на соответствие стандартам безопасности.
Известно, что процедура включает в себя несколько этапов. Первый этап — это «красная команда» (red-teaming), где специалисты пытаются взломать защиту модели, заставить её генерировать опасный контент или раскрыть конфиденциальные данные. Второй этап — проверка на устойчивость к «джейлбрейкам» (jailbreaks) — специальным запросам, которые обходят фильтры безопасности. Третий этап включает оценку модели на предмет предвзятости и дискриминации в отношении различных социальных групп. По данным источников, близких к переговорам, Google уже предоставила для тестирования версию своей мультимодальной модели Gemini Ultra, а xAI — раннюю версию Grok-2.
Статистика показывает, что на данный момент полный цикл стресс-тестов прошли только три модели: GPT-4 от OpenAI (ещё до указа), Claude 3 от Anthropic и одна из версий Llama от Meta. Microsoft и Google находятся на финальной стадии сертификации, в то время как xAI только начинает процесс. Сроки завершения тестов для Google и Microsoft оцениваются в 4-6 недель, для xAI — в 2-3 месяца.
Контекст и последствия для индустрии
Текущая ситуация является прямым следствием политики администрации Байдена, которая в октябре 2023 года выпустила Исполнительный указ о безопасном и надежном развитии ИИ. Указ требует от разработчиков любых мощных моделей (с вычислительной мощностью более 10^26 операций с плавающей запятой) делиться результатами тестов с правительством. Хотя указ не является законом, его положения были подкреплены добровольными обязательствами 15 ведущих AI-компаний, подписанными летом 2024 года. Несоблюдение этих обязательств грозит компаниям репутационными потерями и потенциальными антимонопольными расследованиями.
Последствия внедрения системы стресс-тестов уже ощущаются. Во-первых, это замедлило темпы выхода новых версий AI-моделей: компании вынуждены закладывать дополнительные 2-3 месяца на сертификацию. Во-вторых, тесты выявили ряд уязвимостей. Например, в ходе проверки одной из моделей Google было обнаружено, что она может генерировать инструкции по созданию биологического оружия при определенной формулировке запроса, что потребовало срочного патча. В-третьих, растет стоимость разработки: по оценкам аналитиков, внедрение систем внутреннего аудита и оплата услуг внешних тестировщиков обходится каждой крупной компании в десятки миллионов долларов ежеквартально.
Прогнозы экспертов разделились. Оптимисты считают, что стресс-тесты станут отраслевым стандартом и позволят избежать катастрофических сценариев, таких как массовое использование AI для кибератак. Пессимисты, напротив, утверждают, что текущие тесты слишком поверхностны и не учитывают долгосрочные риски, связанные с появлением AGI (общего искусственного интеллекта). Кроме того, критики указывают на то, что компании могут намеренно скрывать часть функционала моделей для прохождения проверки.
Позиция ключевых игроков
Google в официальном заявлении подчеркнула, что поддерживает инициативу Белого дома и считает стресс-тесты «важным шагом к созданию ответственного ИИ». Компания уже внедрила внутреннюю систему классификации рисков, которая делит модели на три категории: низкий, средний и высокий риск. Gemini Ultra была классифицирована как модель «среднего риска» из-за её способности генерировать сложные сценарии социальной инженерии.
Microsoft, в свою очередь, делает акцент на интеграции безопасности в свою платформу Azure. Компания заявила, что все модели Copilot, проходящие тесты, будут автоматически обновляться с учетом найденных уязвимостей. xAI, возглавляемая Илоном Маском, пока воздерживается от подробных комментариев, но источники внутри компании сообщают, что процесс тестирования Grok-2 затягивается из-за архитектурных особенностей модели, которая изначально проектировалась с минимальными ограничениями.
Выводы и резюме</
Таким образом, внедрение обязательных стресс-тестов для AI-моделей в США знаменует собой переход от добровольных инициатив к более формализованной системе контроля, что уже оказывает заметное влияние на темпы разработки и рыночную стратегию ведущих технологических гигантов. Хотя процедура пока находится на ранних этапах, она выявила как конкретные уязвимости (например, в области биобезопасности), так и системные проблемы, включая рост издержек и возможное замедление инноваций.
Дальнейшее развитие событий будет зависеть от баланса между необходимостью предотвращения реальных угроз и риском чрезмерного регулирования, которое может затормозить прогресс или подтолкнуть компании к сокрытию части функционала своих моделей. Очевидно, что дискуссия о методах тестирования и критериях оценки безопасности ИИ только начинается, и текущий опыт станет важным прецедентом для будущих нормативных актов как в США, так и за их пределами.