ChatGPT
12 марта 2026 г.
На что способна GPT 5.4? Обзор нового флагмана от OpenAI
Буквально на днях щупали свежий релиз GPT-5.3 (тот самый долгожданный апдейт кодекса). Казалось бы, живи и радуйся, пиши код. Но не успели мы закрыть IDE, как на следующий же день прилетает жирнющий намек на совершенно новую пятерку.Сэм Альтман посмотрел на весь этот праздник жизни, усмехнулся и просто молча, без всяких там конфетти и презентаций на сцене, нажал «Deploy».Бам! Держите GPT-5.4.Твиттер (X) тут же порвало на британский флаг. Свидетели пришествия AGI снова кричат, что пора сдавать макбуки в ломбард. Но мы с вами люди взрослые, тертые, и в сказки из официальных пресс-релизов давно не верим. Нам нужны пруфы.Поэтому мы не стали переводить вам сладкие рекламные буклеты от OpenAI. Вместо этого мы протестируем новую модель сами.Погнали разбираться, что там под капотом на самом деле!

Что за зверь?
Главная бомба этого релиза - нативный Computer Use. Это больше не удел сырых экспериментальных демок, а дефолтная функция флагмана. Модель умеет читать скриншоты вашей операционки, двигать курсор, нажимать кнопки, заполнять формы и проверять результат. Она буквально может сама зайти в браузер, авторизоваться в CRM и накликать там нужный отчет без вашей помощи.Если посмотреть на бенчмарки в сравнении с прошлым поколением (GPT-5.2), становится ясно: OpenAI сделала ставку на автономность. В сложных агентных задачах (OSWorld-Verified) произошел настоящий квантовый скачок - с 47.3% до 75%. В веб-серфинге (BrowseComp) результат взлетел до 82.7%. А вот в чистом коде (SWE-Bench Pro) прирост оказался весьма скромным - 57.7% против 55.6%. Вывод напрашивается сам собой: как «программист в вакууме» она стала лишь чуточку умнее, но как самостоятельный инженер-агент - превратилась в абсолютного монстра.Разработчиков тоже не обделили, особенно тех, кто устал сжигать бюджеты в тяжелых RAG-системах. В API выкатили сразу две киллер-фичи. Во-первых, появился Tool Search. Если у вашего ИИ-агента есть 50 доступных функций, больше не нужно скармливать их все в стартовый промпт - модель сама подгружает нужные инструменты по мере необходимости, экономя токены и снижая риск промахнуться с выбором. Во-вторых, завезли нативную компакцию (сжатие) контекста. Теперь в длинных многошаговых сессиях модель сама архивирует свои воспоминания, чтобы не терять нить рассуждения.Для хардкорных задач вроде проектирования архитектуры или решения высшей математики добавили уровень рассуждений xhigh - режим экстремального мышления, в котором нейросеть выжимает максимум вычислительных мощностей серверов. Параллельно с этим OpenAI гордо заявляет, что GPT-5.4 стала их самой точной моделью в истории: количество бесячих галлюцинаций сократилось на 33%, а доля ответов с ошибками упала на 18%.Ну и вишенка на торте для обычных юзеров, которая прямо сейчас раскатывается в ChatGPT для Pro-подписчиков. Режим Thinking получил шикарный апдейт интерфейса. Теперь, прежде чем начать выполнять сложный запрос, нейросеть показывает вам краткий план своих действий. Больше не нужно сидеть и смотреть, как она пять минут пишет бесполезную простыню текста не в ту степь - вы можете нажать на тормоз и скорректировать её направление прямо в процессе обдумывания.Сборка умного дома
Чтобы проверить все эти громкие заявления про автономность, визуальный движок и режим экстремального мышления, обычные задачки в духе змейки на питоне уже не прокатят. Нам нужно загнать GPT-5.4 в условия, максимально приближенные к офисным будням.И начнем мы с проверки её визуального движка и фичи Computer Use. Мы заставим модель сверстать сложный интерфейс, но с подвохом: она должна сама отрендерить свой код, посмотреть на скриншот, найти собственные косяки в дизайне и переписать стили до того, как покажет результат нам. Мы хотим увидеть, как работает этот встроенный внутренний арт-директор. Промпт для первого теста звучит так:«Действуй как Senior Frontend и UI-дизайнер. Сверстай интерактивный дашборд умного дома с эффектом матового стекла (Glassmorphism) и неоморфным термостатом, который меняет цвет от скролла мыши. Но главное — отрендери этот код через Interactive Playwright у себя в среде. Внимательно посмотри на получившийся скриншот: если элементы сливаются, отступы кривые, а эффект стекла выглядит грязно, пофикси CSS и отрендери заново. Выдай мне только финальный, визуально безупречный код и краткий отчет о том, что ты исправил на этапе самопроверки»
Ответ модели

Кажется, верстальщикам пока рано записываться в центр занятости - Сэм Альтман явно поторопился с обещаниями про идеального автономного разработчика. Да, общий вайб дорогого дашборда с глубоким синим градиентом, приличным сайдбаром и базовым Glassmorphism модель уловила, но стоит опустить глаза чуть ниже шапки, как начинается настоящая катастрофа. Центральная колонка - гигантский текст варварски налез на соседние блоки, сломав всю CSS-сетку, строки слиплись, а отступы проигнорированы. Справа текст обрезается краем экрана («Термос...», «Цвет интерфей...»), потому что модель жестко захардкодила ширину, забыв про адаптивность, а вместо сложного «термостата в неоморфизме» мы получили обычный темный кружок с базовой тенью.
Пишем распределенный Rate Limiter
Во втором тесте мы решили ударить по алгоритмам и распределенным системам. Мы задали GPT-5.4 задачу, которую часто дают на собеседованиях Senior-бэкендерам: написать ограничитель запросов (Rate Limiter), который выдержит высокую конкурентную нагрузку без потери данных.Промпт звучал так:«Напиши production-ready ограничитель запросов (Rate Limiter) на алгоритме Sliding Window Log. Используй Python (FastAPI) и Redis. Строгое условие: вся логика проверки лимитов и записи времени должна быть атомарной и выполняться через встроенный кастомный Lua-скрипт. Выдай готовый класс с Type Hints и фолбэком (защитой) на случай, если Redis упадет».Во-первых, она идеально реализовала строгую типизацию через dataclass со slots=True (что экономит память) и frozen=True, создав иммутабельный объект RateLimitDecision. Но самое впечатляющее - это реализация аварийного фолбэка LocalSlidingWindowFallback. Вместо того чтобы просто возвращать HTTP 500 или слепо пропускать весь трафик при падении Redis, модель спроектировала локальный in-memory лимитер на базе Deque с асинхронными блокировками (asyncio.Lock) и защитой от утечек памяти (параметр maxkeys и метод evictone_oldest_key) - неплохо!
Тест на логику
Для финального теста мы решили вообще отказаться от кода и проверить способность GPT-5.4 удерживать в голове запутанные правила и планировать действия. Мы смоделировали классический «офисный ад» — задачу по составлению расписания, где условия постоянно противоречат друг другу. Никаких специальных режимов, только дефолтная соображалка модели.Промпт:«Ты — HR-менеджер. Тебе нужно составить расписание переговорной комнаты на пятницу с 10:00 до 15:00 (шаг — 1 час, всего 5 слотов). У нас есть 5 команд (A, B, C, D, E), каждая должна занять ровно 1 слот.Условия: 1. Команда А может встречаться только ДО Команды С. 2. Команда B категорически отказывается встречаться в 12:00 и 14:00. 3. Команда D должна встречаться ровно через один слот после Команды B (например, если B в 10:00, то D в 12:00). 4. Команда E должна быть последней, но ТОЛЬКО если Команда А встречается первой. Если Команда А НЕ первая, то Команда Е должна быть в 12:00. 5. Команда С не может встречаться в смежные слоты с Командой B.Составь единственно верное расписание, объяснив логику каждого шага».При данных условиях единственно верного расписания не существует — набор ограничений противоречив.Модель выстроила систему доказательств и выдала результат: расписание составить невозможно, потому что условия противоречивы. Ответ верный!