Этот алгоритм описывает содержание изображений. С кляксами из знаменитого теста он тоже справился, и врач подготовил заключение.
Смотрели супергеройский фильм «Хранители»? Самый запоминающийся герой, Роршах, пугал преступников жуткой маской с переливающимися пятнами. Фильм снят по комиксам 80-х годов. Тогда в психиатрии всё ещё был популярен диагностический тест Роршаха.
Швейцарский учёный Герман Роршах считал свою методику ключом к познанию личности человека. Респондент должен описать, что он видит в чернильных кляксах неправильной формы. Проанализировав эти ассоциации, специалист делает выводы о характере человека, особенностях его поведения и врождённых способностях. В своё время тест Роршаха часто применяли в сфере управления персоналом.
Мы попросили психотерапевта смахнуть пыль с методички и привели на приём необычного пациента — модель компьютерного зрения от Microsoft.
В прошлом году «пациент» стал более понятливым
Этот алгоритм умеет генерировать подписи к изображениям. И после недавнего обновления зачастую справляется не хуже человека. Это подтверждает тест nocaps, основной бенчмарк в отрасли.
Разработчики добились серьёзного прогресса в точности распознавания, предварительно обучив модель на массиве изображений в паре со словами-тегами. Каждый тег был привязан к конкретному объекту на фотографии.
Затем работу модели откорректировали на наборе изображений с полноценными подписями. Так она научилась составлять целые предложения и находить связи между объектами, а не просто их идентифицировать. Скажем, вместо обычного для нейросетей «ребёнок, стол, микроскоп» модель сгенерирует «ребёнок сидит за столом и смотрит в микроскоп».
На основе этого алгоритма работает мобильное приложение Seeing AI, предназначенное для слабовидящих и слепых людей. Его мы и использовали для проведения теста.
По характеру нейросеть похожа на Дарвина и Чехова
Тест Роршаха состоит из десяти цветных и чёрно-белых аморфных изображений, симметричных по вертикальной оси. Респондент рассматривает карточки в строгой очерёдности, но может крутить их как угодно.
Вот что увидела модель компьютерного зрения.
Интерпретация результатов заняла у психотерапевта около трёх часов. Приводим заключение с некоторыми упрощениями, но без искажения смыслов.
Респондент пребывает в хорошем психическом тонусе — не уклоняется от участия в тестировании и быстро реагирует.
80% ответов основаны на форме пятен, многие связаны с образами животных. Это говорит о том, что респондент привык оперировать общепринятыми категориями, мышление — практически ориентированное. Между чувственным и логическим он опирается на последнее.
Два ответа содержат детерминанты движения — «руки держат сердце», «сидящая кошка». Согласно теории Роршаха, умеренное количество таких ассоциаций свидетельствует о творческой продуктивности, развитом формальном интеллекте и эмоциональной стабильности.
В пользу ровного эмоционального фона говорит и отсутствие в ответах детерминант цвета. Респондент не сталкивается с «эмоциональными качелями», склонность к импульсивности и демонстративному поведению не выражена.
Малый удельный вес человеческих образов — признак интроверсии. По Роршаху, у интровертов хорошо развито воображение, а мотивы чаще всего продиктованы внутренним состоянием, а не внешней средой.
Таким образом, мы имеем дело с высокопродуктивной «личностью», творческой и умеренно меланхоличной, обладающей устойчивой психикой.
Картина типична для психастенического типа: насыщенность внутренних переживаний сочетается с тягой к познаниям и требовательностью к себе. Высшие формы удовольствия связаны с академической деятельностью.
Стиль жизни таких индивидов можно описать поговоркой «семь раз отмерь — один раз отрежь». Они не проявляют импульсивность ни в делах, ни в эмоциональных реакциях. Но способны добиваться больших успехов в искусстве и науке. К психастеническому типу относят, например, Дарвина, Моне и Чехова.
Филипп Попов
клинический психолог и психотерапевт медицинского центра «Корсаков»
Высокопродуктивная «личность» работает по API
Описание фотографий — далеко не единственный сценарий использования Seeing AI. Например, если навести камеру смартфона на человека, приложение определит его примерный возраст, черты внешности и опишет выражение лица. Алгоритм распознаёт восемь эмоций — радость, грусть, удивление и другие.
Seeing AI использует когнитивные сервисы Microsoft — готовые модели машинного обучения, доступные для разработчиков на облачной платформе Azure. SaaS-решения позволяют клиентам реализовать в своих продуктах возможности в сферах компьютерного зрения, обработки речи и текстов, по уровню сравнимые с человеческими. Некоторые из них:
- Распознавание предметов, людей и их эмоций на изображениях и видео.
- Распознавание речи для приложений, ботов и устройств интернета вещей.
- Преобразование речи в текст и обратно, перевод в реальном времени.
- Индексатор для автоматического извлечения метаданных из звуковых и видеофайлов.
- Определение тональности текста, выделение ключевых фраз и именованных сущностей.
Когнитивные сервисы можно развернуть с помощью контейнеров в любой среде — от облака до граничных устройств. От разработчиков не требуются знания по машинному обучению: достаточно вызвать API сервиса несколькими строчками кода, чтобы передать материалы на веб-сервер для обработки. Стоимость услуг зависит от количества операций.
За канальную безопасность отвечает технология TLS (англ. transport layer security — протокол защиты транспортного уровня). Она предотвращает перехват контента, шифруя канал. Microsoft гарантирует поддержку этой технологии, а клиенты не должны забывать про неё в программном коде.
Если готовые модели не подходят, можно сделать свою в Azure ML
Когнитивные сервисы универсальны и охватывают самые популярные бизнес-запросы в области машинного обучения. Их часто используют в прототипировании и для разовых проектов. Например, чтобы провести исследование, как пользователи отзываются о бренде в социальных сетях.
Другое дело — стратегически важные, долгосрочные проекты, под которые не подойдут готовые решения. Для них нужны кастомные модели машинного обучения. Их создают в сервисе Azure ML. Код можно писать самостоятельно с помощью пакетов SDK для Python и R. Или работать в «Студии» — портале для обучения, развёртывания и управления моделями с минимальным кодингом или вовсе без него.
«Студия» — это визуальный конструктор, в котором можно настроить логику работы модели, соединяя функциональные блоки. Этот инструмент сильно снижает входной барьер в машинное обучение. В «Студии» легко освоятся дата-сайентисты, сконцентрированные на математике и моделировании, а не на программировании.
Недавно компания Dodo Brands, владеющая сетью пиццерий «Додо Пицца», внедрила интеллектуальную предиктивную модель на базе сервиса Azure ML. Технологическими партнёрами выступили Microsoft и Crayon. Система прогнозирует расходы ингредиентов, учитывая множество факторов, в том числе сезонность спроса и маркетинговую активность. Разработчики использовали Azure ML для анализа данных, выбора фреймворков и тренировки тестовых моделей.
Раньше управляющий каждой пиццерии вручную вычислял объём закупок и тратил на это до пяти часов в неделю. Неизбежные ошибки в расчётах приводили к перезакупкам или нехватке ингредиентов. Некоторые позиции приходилось временно убирать из меню, а это финансовые потери и ухудшение клиентского опыта.
Централизованная модель упростила прогнозирование и повысила точность на 18%. Пока система работает в 50 ресторанах компании. Масштабирование решения на всю сеть позволит экономить до 54 млн рублей в год.
Microsoft вкладывает много ресурсов в обеспечение конфиденциальности данных, которые обрабатывают модели. Были случаи, когда хакеры или энтузиасты из сообщества умудрялись деанонимизировать данные исследований, сличая их с публичной информацией. Сейчас пользователям Azure ML доступны инструменты, которые вносят в данные так называемый шум — рекомбинирование полей. Изменение логики построения массива исключает возможность реверс-инжиниринга.
Создание приложений без навыков программирования
Нарастающая автоматизация инструментов разработки вылилась в целое направление под названием Citizenship development. В рамках этого подхода Microsoft создаёт продукты, открывающие доступ к разработке людям, которые не занимаются этим профессионально или вообще не умеют программировать. Яркий пример — платформа Azure Power Apps, где для создания бизнес-приложений не нужно писать ни строчки кода.
Это набор инструментов, служб и соединителей, объединённых в конструктор на основе готовых шаблонов. Сборка приложения напоминает создание слайдов в PowerPoint. Дизайн — адаптивный, так что приложения могут выполняться в браузере или на мобильных устройствах.
Элементарный пример: маркетолог решил провести конференцию и подготовить приложение со списком докладов. Но отдел разработки занят или на это нет бюджета. Используя Power Apps, маркетолог может сделать приложение самостоятельно — составить базу данных, создать графический интерфейс и связать базу с интерфейсом. Для этого нужно указать логику, по которой каждая запись из файла будет моментально отображаться на интерфейсе.
С точки зрения разработчиков PowerApps — это возможность сконцентрироваться на сложных процессах, избавившись от типовых проектов. Профессиональный разработчик может подключиться к созданию приложения, чтобы помочь интегрировать продвинутые инструменты — например, те же когнитивные сервисы.
Это лишь малая часть возможностей, доступных разработчикам на платформе Microsoft Azure. Облачная платформа включает сотни сервисов для разработки, развёртывания приложений и хранения данных.
Их можно протестировать, создав бесплатную учётную запись — она откроет доступ к ресурсам в объёме, эквивалентном 12 500 рублей, на 12 месяцев. За 25 популярных служб в течение года вовсе не придётся платить, а некоторые инструменты бесплатны всегда.