Улыбнитесь, вы опознаны

Благодаря сильной научной базе российский стартап стал лучшим в мире в решении одной из сложнейших математических задач — компьютерном распознавании лиц. Теперь ему предстоит монетизировать успех
Улыбнитесь, вы опознаны
Артем Кухаренко, сооснователь NTechLab
Фотография: Gettyimages

А мериканская разведка назвала лучшей российскую технологию распознавания лиц. Конкурс Face Recognition Prize Challenge был проведен американским Агентством передовых исследований в сфере разведки (IARPA) совместно с Национальным институтом стандартов и технологий США (NIST). Российская компания NTechLab победила в двух номинациях из трех — «Скорость идентификации» и «Точность верификации». В третьей категории — «Точность идентификации» — россияне уступили только китайской компании Yitu. Лидирует NTechLab и в Face Recognition Vendor Test — другом соревновании NIST, которое является отраслевой метрикой. В нем компания уже девять месяцев держится на первом месте по самым сложным задачам, решаемым по фотографиям в неконтролируемых условиях.


Как узнать собаку

Главный автор этих побед — Артем Кухаренко — на вид простой парень в клетчатой рубахе, выпускник факультета вычислительной математики и кибернетики МГУ 2012 года. Для него эта история началась с не самой серьезной затеи: во время долгих новогодних праздников 2015 года он ради развлечения написал программу для распознавания пород собак. Опыт в этой области у него уже был: еще студентом он работал в лаборатории компьютерной графики и мультимедиа МГУ и защитил диплом по распознаванию лиц. После учебы сотрудничал с лабораторией машинного зрения e-Lab в Университете Пердью в США, а в 2014 году стал сотрудником исследовательского центра в Москве.

На забавной наскоро написанной программе он попытался обкатать технологию использования нейронной сети для мобильных приложений. Но результат оказался куда масштабнее. Увидевшие приложение знакомые свели его с Александром Кабаковым, который в дальнейшем стал сооснователем и инвестором NTechLab. Он сразу понял, каков потенциал этой технологии. Обсудив несколько вариантов ее использования, остановились на распознавании лиц людей как наиболее коммерчески привлекательном варианте. Компанию учредили уже через две недели после знакомства. Помимо Кабакова соучредителями стали еще несколько человек, имеющих опыт венчурных инвестиций, в том числе владеющих фондом Typhoon Digital Development. Артем, получивший в компании 25%, нашел двух инженеров и начал разрабатывать алгоритм распознавания лиц.

magnifier (1).png На тот момент все конкуренты решали только задачу верификации, то есть сравнивали две фотографии и делали вывод, один и тот же на них человек или нет. Артем замахнулся на куда более сложную задачу — идентификацию, то есть опознание случайных людей

На тот момент все конкуренты решали только задачу верификации, то есть сравнивали две фотографии и делали вывод, один и тот же на них человек или нет. Чаще всего это используется при организации пропускного режима — человек предъявляет удостоверение, а компьютер проверяет, действительно ли это его владелец. Артем замахнулся на куда более сложную задачу — идентификацию, то есть опознание случайных людей. Он поставил целью сделать алгоритм, который должен эффективно работать с большими объемами данных в режиме поиска, то есть опознавать человека в базах из сотен миллионов фотографий.

Успех пришел почти так же быстро, как и инвесторы. Уже через полгода NTechLab выиграла конкурс The MegaFace Benchmark, проводимый Вашингтонским университетом. Этот конкурс приближен к реальным условиям, его тестовая база состоит из миллиона фотографий людей, снятых в естественных условиях: в произвольных позах при разном освещении и разных параметрах экспозиции. Молодая компания сумела обойти даже команду из Google, показав точность 73% против 70% у ИТ-гиганта. При этом Артему помогали только два коллеги-инженера, а алгоритм обучали лишь на трех машинах — ресурсы конкурентов были несопоставимо больше. Эта победа принесла известность и интерес клиентов, инвесторов, прессы.

Первым клиентом стал австралийский парк развлечений. В нем, как и в других подобных заведениях, посетителей фотографировали в процессе посещения, а затем выставляли фото на выходе. Но руководство парка решило пойти более прогрессивным путем. Было написано специальное мобильное приложение, включающее алгоритм NTechLab. Каждый посетитель на входе делал с его помощью селфи, а затем получал на свой смартфон все фотографии, на которых он попал в кадр, находясь в парке.

magnifier (1).png Молодая компания сумела обойти даже команду из Google, показав точность 73% против 70% у ИТ-гиганта. При этом Артему помогали только два коллеги-инженера, а алгоритм обучали лишь на трех машинах — ресурсы конкурентов были несопоставимо больше

Следующим шагом к известности стал запуск сервиса FindFace в феврале 2016 года. Загрузив любую фотографию человека, с помощью FindFace можно было найти его страницу во «ВКонтакте». Поиск по 250 миллионам страниц со множеством фотографий занимал всего 0,3 секунды. Сервис задумывался лишь для демонстрации возможности технологии. Но использовать его стали не только для поиска случайно запечатленной незнакомки или двойника вожделенной кинозвезды.

Вскоре при помощи FindFace были опознаны двое молодых людей, устроивших поджог многоквартирного дома в Санкт-Петербурге и попавших на запись камеры видеонаблюдения в лифте. А в августе 2016 года с помощью FindFace журналисты установили личность московского предпринимателя Арама Петросяна, который захватил отделение Ситибанка в центре Москвы. Однако наибольший резонанс вызвала акция пользователей по деанонимизации российских порноактрис с помощью FindFace. По загруженным с порносайтов фото они находили аккаунты актрис во «ВКонтакте» и рассылали их друзьям и родственникам фотоинформацию о необычной работе девушек.

Все это способствовало привлечению внимания к компании, менее чем за три месяца FindFace собрал более миллиона пользователей и очередь из инвесторов. После обстоятельных смотрин основатели согласились на полтора миллиона долларов от фонда Impulse и группы частных инвесторов во главе с первым заместителем гендиректора Tele2 Александром Провоторовым. Деньги были нужны стартапу на дальнейшее совершенствование технологии, расширение ее возможностей за счет определения пола, возраста и эмоций человека и на международную экспансию.


Взгляд из «черного ящика»

До последнего времени работа с лицами, например создание фотороботов, велась на основе типизации отдельных элементов: формы носа, разреза глаз, цвета глаз. Это позволяло составлять упорядоченные классификаторы. Нейронная сеть работает совсем иначе. По сути это «черный ящик» даже для ее создателя. Сеть состоит из многих слоев, каждый из которых выделяет признаки: области разной освещенности, геометрические фигуры, повторяющиеся области и тому подобное и представляет их в цифровом виде. Каждый следующий слой использует информацию из предыдущих и работает на все более абстрактном уровне. Результатом работы сети являются цифровые отпечатки лиц — векторы в многомерном пространстве признаков, а сравнение изображений происходит путем нахождения векторов с наименьшей разностью. Точность определяется архитектурой нейронной сети и методами ее обучения. Еще лет семь-десять назад задача распознавания лиц считалась неразрешимой для компьютера. Сейчас поиск по базе в миллиард изображений занимает меньше секунды. Скорость поиска достигается за счет специального поискового индекса. У традиционных алгоритмов при увеличении базы в десять раз время поиска возрастает во столько же, а у алгоритма NTechLab — всего в полтора раза.

КУХ ТОЛСТ.jpg
Десятки лет разницы в фотографиях одного и того же человека могут снизить долю точных ответов, но усы, борода, изменения прически практически не снижают точность опознания
Иллюстрация: Wikipedia

Точность довольно высока. «При верификации у нас False Positive Rate — десять в минус шестой степени. Это одно ложное распознавание на миллион, то есть мы, грубо говоря, из миллиона нарушителей одного пропустим через границу. False Negative Rate у нас один из ста, то есть мы одного человека из ста отправляем на дополнительную проверку», — объясняет Артем.

С идентификацией сложнее, точность сильно зависит от размера базы и качества изображений, далеко не всегда фотографии настолько идеальны и стандартны, как в паспортах. Но усы, борода, изменения прически практически не снижают точность опознания. А вот разные ракурсы, десятки лет разницы в фотографиях одного и того же человека могут снизить долю точных ответов. Но даже на базе из полумиллиарда фотографий доля верной идентификации превышает 80%. А при 10 тыс. фотографий, что вполне нормально для среднего магазина, точность составляет более 99%.

Традиционное распознавание лиц не всегда полностью безопасно — уже было немало сообщений об успешных взломах систем. Поэтому NTechLab работает над Life Detection — технологией, которая позволяет определить, живой ли человек перед камерой. Для этого достаточно попросить его улыбнуться, сказать фразу или трижды моргнуть. Обмануть такую систему, например, напечатанной фотографией или маской уже невозможно.

В точности распознавания играет роль и обучающая выборка: когда NTechLab стала работать с Китаем, выяснилось, что первоначальные версии алгоритма с азиатскими лицами работают хуже, чем с европейскими. Пришлось менять настройки нейронной сети, и новая версия с китайскими лицами работает даже чуть точнее, чем с европейскими.

Помимо повышения скорости и точности распознавания компании приходится уделять много внимания уменьшению ресурсоемкости алгоритма, что позволяет серьезно снижать стоимость требуемого оборудования для клиентов: использование обычных офисных компьютеров вместо серьезных серверов увеличивает количество пользователей.

Фотография: Gettyimages // «Верификацией занимаются многие компании. Но в идентификации по большим базам данных мы являемся мировыми технологическими лидерами, — уверен Артем Кухаренко. — Наша цель — поставить наш алгоритм на все камеры мира»
«Верификацией занимаются многие компании. Но в идентификации по большим базам данных мы являемся мировыми технологическими лидерами, — уверен Артем Кухаренко. — Наша цель — поставить наш алгоритм на все камеры мира»
Фотография: Gettyimages


Плата за опознание

Через год после участия в MegaFace у NTechLab было уже более 500 запросов на сотрудничество, при этом 80% из них — из-за рубежа. Однако в 2016 году выручка компании составила всего четыре миллиона рублей — спрос существенно опережал ее готовность выпускать решения на основе своей технологии. Только в конце 2016 года компания запустила облачный сервис по распознаванию лиц FindFace.Pro, в котором тысяча запросов стоит от двух до шести долларов. Чуть позже было выпущено «коробочное» решение, которое пользуется куда большей популярностью, чем работы с облаком: «Все хотят держать данные внутри своего контура безопасности», — поясняет Артем Кухаренко.

В качестве фокуса NTechLab выбрала видеонаблюдение в общественных местах и системы лояльности для ритейла, для которых она делает конечные решения. Компания считает, что именно в этих двух областях может создать максимальную ценность для клиентов, поскольку может идентифицировать людей в огромных потоках данных от систем видеонаблюдения в режиме реального времени.

КУХ КАМЕРЫ.jpg
Видеонаблюдение в общественных местах уже позволяет ловить преступников и вести поиск пропавших людей
Фотография: Gettyimage

Идентификация в общественных местах уже позволяет ловить преступников и вести поиск пропавших людей. В 2017 году алгоритмы распознавания лиц NTechLab были встроены в московскую городскую систему видеонаблюдения. В ходе пилотного эксперимента на трех тысячах камер департамент информационных технологий Москвы убедился в эффективности технологии: за два месяца правоохранительные органы смогли найти шесть человек, по многу лет находившихся в федеральном розыске. В итоге было принято решение включить в системы идентификации все 160 тысяч городских камер в Москве.

Лакомым куском может стать участие в создании в России Единой биометрической системы, предназначенной для юридически значимой идентификации граждан. Ее концепцию и «дорожную карту» развития уже утвердило Минкомсвязи. Ответственный за создание биометрической системы — «Ростелеком», который должен при условии готовности законодательной базы запустить ее в 2018 году. В качестве одного из критериев идентификации будет использоваться распознавание лиц. NTechLab уже в марте 2017 года заключила контракт с «Ростелекомом» на НИОКР на 11,6 млн рублей.

Кроме того, среди клиентов NTechLab аэропорты, банки, ее систему планируется внедрить в пунктах прохождения границы в США, в нескольких европейских и азиатских странах, в частности в Турции, где NTechLab работает с компанией Papilon Savunma, поставляющей турецкому правительству и полиции биометрические продукты для идентификации беженцев. Всех своих конечных потребителей не знает даже сама NTechLab — зачастую работа идет не напрямую с государственными структурами, а через интеграторов.

magnifier (1).png  При помощи FindFace были опознаны двое молодых людей, устроивших поджог многоквартирного дома в Санкт-Петербурге и попавших на запись камеры видеонаблюдения в лифте. А в августе 2016 была установлен захватчик отделения Ситибанка в центре Москвы

Ритейлеры восприняли новую технологию очень тепло. У NTechLab запущены пилотные проекты почти со всеми крупными российскими торговыми сетями. Использование технологии распознавания лиц позволит ритейлерам отказаться от традиционных карт лояльности — камеры на кассах и в зале будут автоматически идентифицировать всех попавших в кадр, это позволит отслеживать историю покупок каждого покупателя, их маршруты по магазину, эмоции, появляющиеся при контакте с товарами и рекламными материалами. Со временем это позволит перейти к тотальному маркетингу: неотступно предлагать персонализированные спецпредложения и рекламные объявления, преследовать покупателей на протяжении всего их нахождения в магазине и за его пределами благодаря внешней сети собственных и партнерских камер.

Для других задач NTechLab предлагает свой SDK — набор средств разработки, включающий алгоритмы для детектирования лиц, построения вектора признаков, базы и поиска в этой базе, на основании которого другие разработчики могут создавать конечные решения. Например, лицевую биометрию от компании NTechLab интегрировал российский поставщик IT-решений «Диасофт Платформа». Пользователи его платформы для автоматизации бизнес-процессов получили возможность распознавания лиц, определения пола, возраста и эмоций человека. Это позволит персонализировать сервис и обеспечить безопасность операций. Среди клиентов NTechLab также лидирующий в России поставщик CRM-решений компания «1С Битрикс». А совместно с Center Novation and Technology компания создала сервис для поиска моделей и актеров нужного типажа: загрузив фото необходимого типа лица, можно получить список кандидатов.

NTechLab изначально ориентирована на мировой рынок распознавания лиц. Его объем, по данным компании MarketsandMarkets, в 2017 году составит 4,05 млрд долларов, а к 2022 году должен вырасти до 7,76 млрд долларов. У NTechLab уже есть небольшой филиал в США, компании-партнеры в Турции, Китае и в тех же США. Но вся разработка сосредоточена в Москве. Сейчас в компании почти полсотни сотрудников, девять из которых занимаются базовыми технологиями, еще 15 — продуктовые разработчики. «На Западе то, что мы российская компания, отчасти мешает: к российским компаниям относятся недоверчиво, но работа через партнеров-представителей снимает эти сложности», — говорит Артем Кухаренко.


Проникая в душу

У NTechLab большие амбиции. «На рынке немало компаний, которые занимаются верификацией. Но в идентификации по большим базам данных мы являемся мировыми технологическими лидерами, — уверен Артем Кухаренко. — Наша цель — поставить наш алгоритм на все камеры в мире». При этом NTechlab должна стать крупнейшим международным игроком, предлагающим весь спектр решений по распознаванию лиц, определению эмоций, пола и возраста человека.

magnifier (1).png Научить машину заглядывать в душу человеку оказалось сложнейшей задачей. Но награда того стоит. Самое очевидное применение этой технологии — ритейл, в котором важно определять, например, степень отвращения покупателей при дегустации или улыбчивость продавцов

Распознание эмоций стало наиболее серьезным вызовом после освоения идентификации лиц. Научить машину заглядывать в душу человеку оказалось сложнейшей задачей. Но награда того стоит. Самое очевидное применение этой технологии — ритейл, в котором важно определять, например, степень отвращения покупателей при дегустации или улыбчивость продавцов. И в этой области компания тоже начала с побед — она уже выиграла в конкурсе EmotionNet Challenge, который провел Университет штата Огайо весной 2017 года. В нем использовалась база из миллиона фотографий с размеченными вручную эмоциями. Разработанным участниками алгоритмам нужно было распознать одну из семи базовых эмоций — «счастье», «печаль», «сердитость» и др. и одну из 50 составных, например «сердитость и удивление». Алгоритм NTechLab сумел верно определить базовые эмоции в 90% случаев фотографий, а составные — в 60%. При этом Артем не вдается в психологические нюансы и даже не задумывался, есть ли у проявления эмоций национальные особенности. Он просто сгружает своей нейронной сети огромное количество фотографий, размеченных тегами «радость», «грусть», «злость», и ждет, что она сама научится находить сходства и различия.

Но пока у NTechlab есть и совсем приземленные задачи. Все сотрудники в офисе до сих пор используют архаичную систему доступа на основе электронных пропусков. «Сапожник без сапог», — разводят руками они и надеются, что скоро нейронная сеть будет контролировать и их передвижения, решая, пускать их на порог или нет.



Темы: Компания

Еще по теме
Стремительная цифровизация торговли заставляет ИТ-гигантов и крупнейших ритейлеров идти на технологическое сотрудничеств...
Крупнейший китайский поисковик вышел на зарождающийся рынок беспилотных электробусов. Получить автопромовские компетенци...
Технологическое развитие компании «Роснефть» зиждется на трех китах: активном применении цифровых технологий, постоянных...