The_Codeine

Нейросеть Microsoft отправили на приём к психотерапевту — пройти тест Роршаха

25.03.2021

Этот алгоритм описывает содержание изображений. С кляксами из знаменитого теста он тоже справился, и врач подготовил заключение.

Смотрели супергеройский фильм «Хранители»? Самый запоминающийся герой, Роршах, пугал преступников жуткой маской с переливающимися пятнами. Фильм снят по комиксам 80-х годов. Тогда в психиатрии всё ещё был популярен диагностический тест Роршаха.

Швейцарский учёный Герман Роршах считал свою методику ключом к познанию личности человека. Респондент должен описать, что он видит в чернильных кляксах неправильной формы. Проанализировав эти ассоциации, специалист делает выводы о характере человека, особенностях его поведения и врождённых способностях. В своё время тест Роршаха часто применяли в сфере управления персоналом.

Мы попросили психотерапевта смахнуть пыль с методички и привели на приём необычного пациента — модель компьютерного зрения от Microsoft.

В прошлом году «пациент» стал более понятливым

Этот алгоритм умеет генерировать подписи к изображениям. И после недавнего обновления зачастую справляется не хуже человека. Это подтверждает тест nocaps, основной бенчмарк в отрасли.

Разработчики добились серьёзного прогресса в точности распознавания, предварительно обучив модель на массиве изображений в паре со словами-тегами. Каждый тег был привязан к конкретному объекту на фотографии.

Затем работу модели откорректировали на наборе изображений с полноценными подписями. Так она научилась составлять целые предложения и находить связи между объектами, а не просто их идентифицировать. Скажем, вместо обычного для нейросетей «ребёнок, стол, микроскоп» модель сгенерирует «ребёнок сидит за столом и смотрит в микроскоп».

На основе этого алгоритма работает мобильное приложение Seeing AI, предназначенное для слабовидящих и слепых людей. Его мы и использовали для проведения теста.

По характеру нейросеть похожа на Дарвина и Чехова

Тест Роршаха состоит из десяти цветных и чёрно-белых аморфных изображений, симметричных по вертикальной оси. Респондент рассматривает карточки в строгой очерёдности, но может крутить их как угодно.

Вот что увидела модель компьютерного зрения.

«Лист дерева»
«Несколько цветных кристаллов»
«Руки держат сердце»
«Сидящая кошка»
«Летучая мышь»
«Мохнатое животное»
«Отпечатки лап на снегу»
«Бабочка»
«Дерево с листьями»
«Цветок»

Интерпретация результатов заняла у психотерапевта около трёх часов. Приводим заключение с некоторыми упрощениями, но без искажения смыслов.

Респондент пребывает в хорошем психическом тонусе — не уклоняется от участия в тестировании и быстро реагирует.

80% ответов основаны на форме пятен, многие связаны с образами животных. Это говорит о том, что респондент привык оперировать общепринятыми категориями, мышление — практически ориентированное. Между чувственным и логическим он опирается на последнее.

Два ответа содержат детерминанты движения — «руки держат сердце», «сидящая кошка». Согласно теории Роршаха, умеренное количество таких ассоциаций свидетельствует о творческой продуктивности, развитом формальном интеллекте и эмоциональной стабильности.

В пользу ровного эмоционального фона говорит и отсутствие в ответах детерминант цвета. Респондент не сталкивается с «эмоциональными качелями», склонность к импульсивности и демонстративному поведению не выражена.

Малый удельный вес человеческих образов — признак интроверсии. По Роршаху, у интровертов хорошо развито воображение, а мотивы чаще всего продиктованы внутренним состоянием, а не внешней средой.

Таким образом, мы имеем дело с высокопродуктивной «личностью», творческой и умеренно меланхоличной, обладающей устойчивой психикой.

Картина типична для психастенического типа: насыщенность внутренних переживаний сочетается с тягой к познаниям и требовательностью к себе. Высшие формы удовольствия связаны с академической деятельностью.

Стиль жизни таких индивидов можно описать поговоркой «семь раз отмерь — один раз отрежь». Они не проявляют импульсивность ни в делах, ни в эмоциональных реакциях. Но способны добиваться больших успехов в искусстве и науке. К психастеническому типу относят, например, Дарвина, Моне и Чехова.

Филипп Попов
клинический психолог и психотерапевт медицинского центра «Корсаков»

Высокопродуктивная «личность» работает по API

Описание фотографий — далеко не единственный сценарий использования Seeing AI. Например, если навести камеру смартфона на человека, приложение определит его примерный возраст, черты внешности и опишет выражение лица. Алгоритм распознаёт восемь эмоций — радость, грусть, удивление и другие.

Seeing AI использует когнитивные сервисы Microsoft — готовые модели машинного обучения, доступные для разработчиков на облачной платформе Azure. SaaS-решения позволяют клиентам реализовать в своих продуктах возможности в сферах компьютерного зрения, обработки речи и текстов, по уровню сравнимые с человеческими. Некоторые из них:

  • Распознавание предметов, людей и их эмоций на изображениях и видео.
  • Распознавание речи для приложений, ботов и устройств интернета вещей.
  • Преобразование речи в текст и обратно, перевод в реальном времени.
  • Индексатор для автоматического извлечения метаданных из звуковых и видеофайлов.
  • Определение тональности текста, выделение ключевых фраз и именованных сущностей.

Когнитивные сервисы можно развернуть с помощью контейнеров в любой среде — от облака до граничных устройств. От разработчиков не требуются знания по машинному обучению: достаточно вызвать API сервиса несколькими строчками кода, чтобы передать материалы на веб-сервер для обработки. Стоимость услуг зависит от количества операций.

За канальную безопасность отвечает технология TLS (англ. transport layer security — протокол защиты транспортного уровня). Она предотвращает перехват контента, шифруя канал. Microsoft гарантирует поддержку этой технологии, а клиенты не должны забывать про неё в программном коде.

Если готовые модели не подходят, можно сделать свою в Azure ML

Когнитивные сервисы универсальны и охватывают самые популярные бизнес-запросы в области машинного обучения. Их часто используют в прототипировании и для разовых проектов. Например, чтобы провести исследование, как пользователи отзываются о бренде в социальных сетях.

Другое дело — стратегически важные, долгосрочные проекты, под которые не подойдут готовые решения. Для них нужны кастомные модели машинного обучения. Их создают в сервисе Azure ML. Код можно писать самостоятельно с помощью пакетов SDK для Python и R. Или работать в «Студии» — портале для обучения, развёртывания и управления моделями с минимальным кодингом или вовсе без него.

«Студия» — это визуальный конструктор, в котором можно настроить логику работы модели, соединяя функциональные блоки. Этот инструмент сильно снижает входной барьер в машинное обучение. В «Студии» легко освоятся дата-сайентисты, сконцентрированные на математике и моделировании, а не на программировании.

Интерфейс «Студии» Azure ML

Недавно компания Dodo Brands, владеющая сетью пиццерий «Додо Пицца», внедрила интеллектуальную предиктивную модель на базе сервиса Azure ML. Технологическими партнёрами выступили Microsoft и Crayon. Система прогнозирует расходы ингредиентов, учитывая множество факторов, в том числе сезонность спроса и маркетинговую активность. Разработчики использовали Azure ML для анализа данных, выбора фреймворков и тренировки тестовых моделей.

Раньше управляющий каждой пиццерии вручную вычислял объём закупок и тратил на это до пяти часов в неделю. Неизбежные ошибки в расчётах приводили к перезакупкам или нехватке ингредиентов. Некоторые позиции приходилось временно убирать из меню, а это финансовые потери и ухудшение клиентского опыта.

Централизованная модель упростила прогнозирование и повысила точность на 18%. Пока система работает в 50 ресторанах компании. Масштабирование решения на всю сеть позволит экономить до 54 млн рублей в год.

Microsoft вкладывает много ресурсов в обеспечение конфиденциальности данных, которые обрабатывают модели. Были случаи, когда хакеры или энтузиасты из сообщества умудрялись деанонимизировать данные исследований, сличая их с публичной информацией. Сейчас пользователям Azure ML доступны инструменты, которые вносят в данные так называемый шум — рекомбинирование полей. Изменение логики построения массива исключает возможность реверс-инжиниринга.

Создание приложений без навыков программирования

Нарастающая автоматизация инструментов разработки вылилась в целое направление под названием Citizenship development. В рамках этого подхода Microsoft создаёт продукты, открывающие доступ к разработке людям, которые не занимаются этим профессионально или вообще не умеют программировать. Яркий пример — платформа Azure Power Apps, где для создания бизнес-приложений не нужно писать ни строчки кода.

Это набор инструментов, служб и соединителей, объединённых в конструктор на основе готовых шаблонов. Сборка приложения напоминает создание слайдов в PowerPoint. Дизайн — адаптивный, так что приложения могут выполняться в браузере или на мобильных устройствах.

Интерфейс PowerApps

Элементарный пример: маркетолог решил провести конференцию и подготовить приложение со списком докладов. Но отдел разработки занят или на это нет бюджета. Используя Power Apps, маркетолог может сделать приложение самостоятельно — составить базу данных, создать графический интерфейс и связать базу с интерфейсом. Для этого нужно указать логику, по которой каждая запись из файла будет моментально отображаться на интерфейсе.

С точки зрения разработчиков PowerApps — это возможность сконцентрироваться на сложных процессах, избавившись от типовых проектов. Профессиональный разработчик может подключиться к созданию приложения, чтобы помочь интегрировать продвинутые инструменты — например, те же когнитивные сервисы.

Это лишь малая часть возможностей, доступных разработчикам на платформе Microsoft Azure. Облачная платформа включает сотни сервисов для разработки, развёртывания приложений и хранения данных.

Их можно протестировать, создав бесплатную учётную запись — она откроет доступ к ресурсам в объёме, эквивалентном 12 500 рублей, на 12 месяцев. За 25 популярных служб в течение года вовсе не придётся платить, а некоторые инструменты бесплатны всегда.

Источник