Именно поэтому появилась идея создания мировой модели внутреннего представления о физической реальности, которая позволит ИИ не просто знать об этом мире по описанию из интернета, а понимать его на собственном опыте. Возможно, когда такая модель будет реализована, ИИ обретёт нечто большее, чем просто умение писать код и разговаривать. Он обретёт сознание. Но разве можно создать такую модель? Можно. И этим уже занимается компания NVIDIA и её проект «Космос».
Сегодня вы узнаете, может ли неживое стать живым, почему каждый из нас живёт в симуляции внутри, снятся ли андроидам электро-овцы и как NVIDIA построила фабрику снов для машин.
Эмерджентность и сознание
В 2017 году трое инженеров из OpenAI, тогда ещё малоизвестной некоммерческой организации, тренировали очередную языковую модель на отзывах с Amazon. Задача была банальной — научить ИИ предсказывать следующий символ в тексте. Ничего необычного. Но вдруг они заметили нечто странное. В процессе обучения модель начинала угадывать не только символы, но и настроение текста. Без какой-либо команды, без дополнительного обучения. Внутри неё активировался нейрон, который с пугающей точностью определял, позитивен текст или негативен.
Эта находка потрясла инженеров OpenAI, среди которых Илья Су́цкевер, сооснователь OpenAI и главный архитектор модели Чаджи-5. Су́цкевер и коллеги начали изучать этот феномен и копать глубже. Они создали OpenAI-майкроскоп — инструмент, позволяющий заглянуть в глубинные слои нейросетей. И там они нашли настоящее сокровище: мультимодальные нейроны, которые активировались на данные разного типа. Например, нейрон, реагирующий на фото актрисы Хелли Берри в образе женщины-кошки, независимо от того, представлен ли он в виде примитивного рисунка или текста.
Так нейросеть сама начала структурировать реальность, находить в ней закономерности и ассоциации. Чем больше модель и данных, тем больше появляется таких нейронов. В теории систем это называется эмерджентностью — способностью системы проявлять свойства, которых нет у её отдельных частей. Илья Су́цкевер пришёл к выводу, что сознание — это не вопрос магии, а вопрос масштаба: больше данных, параметров, вычислений и ресурсов могут привести к появлению сознательных свойств в ИИ.
Ограничения больших языковых моделей
Несмотря на впечатляющие достижения, большие языковые модели (LLM) достигли определённого предела. Они обладают огромным архивом знаний, но этого недостаточно. Во-первых, объём данных, с которым работает человеческий мозг, существенно превышает объём интернета. Во-вторых, природа данных отличается: реальный мир — это не текст, и знания о нём основываются на опыте взаимодействия, а не на описаниях.
Человеческий мозг обладает интуитивным пониманием физического мира, позволяющим предсказывать его поведение. Нейросети же этого не делают. Мозг постоянно задаётся вопросами «Что будет, если?» и предсказывает будущие состояния мира. Это позволяет нам ориентироваться и взаимодействовать с окружающей средой на интуитивном уровне.
Путь к искусственному сознанию: NVIDIA Cosmos
Чтобы ИИ мог строить внутреннюю мировую модель, необходим опыт взаимодействия с реальностью. Однако собрать такой опыт для роботов в реальном мире дорого и опасно. Альтернативой является создание симуляции — синтетических миров, где ИИ может переживать и обучаться без рисков.
Именно здесь на сцену выходит NVIDIA с проектом «Cosmos» — фабрикой по производству снов для роботов. Но что это такое?
NVIDIA Cosmos — это система, которая генерирует синтетические миры, позволяющие роботам учиться и обучаться в симуляции. Она создаёт тысячи альтернативных сценариев, в которых роботы могут тренироваться, переигрывать неудачи и совершенствовать свои навыки с невероятной скоростью.

Как работает NVIDIA Cosmos?
- Сбор данных: NVIDIA собрала гигантский массив видеоданных с камер роботов, автопилотов, записей человеческих движений и природных явлений.
- Обработка данных: Видео разбиваются на фрагменты, удаляются нежелательные части, разметиваются и переводятся в понятный для машин формат. В итоге получается 20 миллионов часов видео и 9 миллиардов токенов.
- Использование видеокарт: Для обработки этого гигантского объёма данных NVIDIA использовала 10 тысяч видеокарт H100, что позволило создать базовые мировые модели (World Foundation Models, WFM).
Три ключевые модели NVIDIA Cosmos
- Cosmos Predict: Модель, предсказывающая, как изменится мир на основе мультимодального ввода (видео, текст, сенсорные данные). Например, она может показать, как робот должен поставить чашку на полку с правильной физикой и траекторией движения.
- Cosmos Transfer: Модель, отвечающая за реализм синтетических данных. Она преобразует любые видеоданные в живую картинку, добавляя текстуры, освещение и другие реалистичные элементы.
- Cosmos Reason: Рассуждающая нейросеть, которая понимает физические законы и телесное мышление. Она способна прогнозировать действия и оценивать физическую корректность сгенерированных видео.
Вместе эти три модели образуют полный цикл генерации и фильтрации синтетического опыта, создавая «сны», в которых роботы учатся и обобщают свой опыт, подобно людям.
Будущее искусственного сознания
На основе предобученных моделей NVIDIA Cosmos лидеры отрасли создают бесконечные потоки снов для роботов всех размеров и типов, ускоряя их обучение в сотни раз. И всё это open source, что позволяет ускорить развитие технологий искусственного интеллекта.
Но возникает вопрос: что, если после очередного цикла синтетических снов робот проснётся по-настоящему? Создание сознательного ИИ остаётся предметом дискуссий, но возможности, предоставляемые проектом NVIDIA Cosmos, приближают нас к пониманию того, как можно достичь искусственного сознания.
Мы стоим на пороге новой эры, где границы между живым и неживым, между реальностью и симуляцией становятся всё более размытыми. NVIDIA уже сегодня закладывает фундамент для будущего, где искусственный интеллект может не только знать, но и понимать и чувствовать мир вокруг себя.