Определение лица: Что такое распознавание лиц и как оно работает?
Что такое распознавание лиц и как оно работает?
Что такое распознавание лиц?
Распознавание лиц – это способ идентификации или подтверждения личности человека по его лицу. Систему распознавания лиц можно использовать для идентификации людей на фотографиях, видео или в режиме реального времени.
Распознавание лиц – это категория биометрических систем аутентификации. Другие виды биометрических систем аутентификации включают распознавание голоса, распознавание отпечатков пальцев и распознавание сетчатки или радужной оболочки глаза. Эти технологии в основном используются для обеспечения безопасности и соблюдения правопорядка, однако наблюдается рост интереса к другим областям использования.
Как работает распознавание лиц?
Многим знакома технология распознавания лиц FaceID, используемая для разблокировки iPhone (это только один из примеров применения технологи распознавания лиц). Как правило, технология распознавания лиц не использует огромную базу данных фотографий для определения личности человека. Она идентифицирует и распознает одного человека как единственного владельца устройства и ограничивает доступ для других людей.
В общем случае, технология распознавания лиц работает путем сопоставления лиц людей, проходящих мимо специальных камер, с изображениями людей в списке наблюдения. Списки наблюдения могут содержать фотографии кого угодно, в том числе людей, которые не подозреваются в каких-либо правонарушениях. Изображения могут поступать из любых источников, даже из учетных записей в социальных сетях. Существуют различные технологии распознавания лиц, но в целом они работают следующим образом:
Шаг 1. Обнаружение лица
Камера обнаруживает и фиксирует положение изображения лица, как одного, так и в толпе. На изображении может быть человек, смотрящий в анфас или в профиль.
Шаг 2. Анализ лица
Затем выполняется снимок и проводится анализ изображения лица. Большинство технологий распознавания лиц используют 2D, а не 3D-изображения, поскольку 2D-изображения удобнее сопоставлять с общедоступными фотографиями или фотографиями в базе данных. Программа считывает геометрию лица. Ключевые факторы включают расстояние между глазами, глубину глазниц, расстояние от лба до подбородка, форму скул и контуры губ, ушей и подбородка. Цель состоит в том, чтобы определить черты, отличающие данное конкретное лицо.
Шаг 3. Преобразование изображения в данные
В процессе анализа аналоговая информация (лицо) преобразуется в набор цифровой информации (данных) на основе черт лица человека. По сути, анализ лица представляет собой математическую формулу. Цифровой код называется «отпечатком лица». У каждого человека есть свой уникальный отпечаток лица, так же как и отпечатки пальцев.
Шаг 4. Поиск совпадения
Затем отпечаток лица сравнивается с данными в базе известных лиц. Например, у ФБР есть доступ к 650 миллионам фотографий, взятых из баз данных различных государств. В Facebook все фотографии, на которых отмечены люди, становятся частью базы данных Facebook, которая также может использоваться для распознавания лиц. Если отпечаток лица совпадает с изображением в базе данных для распознавания лиц, устанавливается, чье это лицо.
Из всех биометрических систем идентификации распознавание лиц считается наиболее естественным. Это интуитивно понятно, поскольку мы обычно узнаем себя и других по лицам, а не по отпечаткам пальцев и радужной оболочке глаз. По оценкам, более половины населения мира регулярно сталкивается с технологиями распознавания лиц.
Где используется распознавание лиц?
w3.org/1999/xhtml»>Технология распознавания лиц используется для самых разных целей. К ним относятся:Разблокировка телефонов
Различные телефоны, включая последние модели iPhone, используют технологию распознавания лиц для разблокировки устройств. Эта технология обеспечивает мощный способ защиты личных данных и гарантирует недоступность конфиденциальных данных в случае кражи телефона. Apple утверждает, что шанс разблокировки телефона случайным лицом составляет примерно один из миллиона.
Соблюдение правопорядка
Технология распознавания лиц используется правоохранительными органами. Согласно отчету NBC, использование этой технологии распространено в правоохранительных органах США и других стран. Полиция собирает фотографии задержанных и сравнивает их с местными, государственными и федеральными базами данных распознавания лиц. Фотографии задержанных добавляются в базы данных, по которым впоследствии полиция выполняет поиск преступников.
Кроме того, мобильное распознавание лиц позволяет полицейским использовать смартфоны, планшеты и другие портативные устройства, чтобы фотографировать водителей и пешеходов на месте и сразу же сравнивать их фотографии с базами данных распознавания лиц, чтобы попытаться их идентифицировать.
Аэропорты и пограничный контроль
Распознавание лиц стало привычным явлением во многих аэропортах по всему миру. Все больше путешественников имеют биометрические паспорта. Это позволяют им не стоять в длинных очередях, а проходить автоматизированный контроль электронных паспортов и быстрее добираться до выхода на посадку. Распознавание лиц не только сокращает время ожидания, но и позволяет повысить безопасность в аэропортах. Министерство внутренней безопасности США прогнозирует, что к 2023 году распознавание лиц будет использоваться для 97% путешественников. Эта технология используется не только в аэропортах и на пограничном контроле, но и для повышения безопасности на крупных мероприятиях, таких как Олимпийские игры.
Поиск пропавших без вести
Распознавание лиц можно использовать для поиска пропавших без вести и жертв торговли людьми. Предположим, пропавшие люди добавлены в базу данных распознавания лиц. В этом случае правоохранительные органы могут получить уведомление, как только эти люди будут идентифицированы системой распознавания лиц в аэропорту, магазине или другом общественном месте.
Снижение уровня преступности в розничной торговле
Распознавание лиц используется для идентификации покупателей, ворующих товары, организованных преступников в сфере розничной торговли или людей, попадавшихся в прошлом на мошенничестве, при входе в магазин. Фотографии людей сопоставляются с крупными базами данных преступников, и, когда покупатели, представляющие потенциальную угрозу, входят в магазин, сотрудники службы предотвращения потерь и обеспечения безопасности розничной торговли получают уведомление.
Улучшение качества розничной торговли
Технология распознавания лиц предлагает возможности улучшения качества обслуживания клиентов в розничной торговле. Например, терминалы в торговых центрах могут распознавать покупателей, предлагать товары на основе их истории покупок и указывать им правильное направление. Технология Face Pay позволит покупателям избегать длинных очередей в кассы с более медленными способами оплаты.
Банки
Биометрический онлайн-банкинг – еще одно преимущество технологии распознавания лиц. Вместо использования одноразовых паролей станет возможно авторизовать транзакции, глядя на смартфон или компьютер. Благодаря технологии распознаванию лиц злоумышленники не смогут взламывать пароли. Если злоумышленники украдут базу данных фотографий, «оценка витальности» – метод, используемый для определения, является ли источник биометрического образца живым человеком или поддельным изображением – должна (теоретически) помешать им использовать фотографии из базы для имитации живого человека. Благодаря технологии распознавания лиц дебетовые карты и подписи могут уйти в прошлое.
Маркетинг и реклама
Маркетологи используют распознавание лиц для повышения качества обслуживания клиентов. Например, бренд замороженной пиццы DiGiorno использовал распознавание лиц в маркетинговой кампании 2017 года, в ходе которой проводился анализ выражений лиц на вечеринках, посвященных DiGiorno, и оценивалась эмоциональная реакция людей на пиццу. Медиа-компании также используют технологию распознавания лиц для проверки реакции аудитории на трейлеры к фильмам, персонажей пилотных серий телевизионных проектов и оптимального размещения рекламы на телевидении. Рекламные щиты с технологией распознавания лиц, такие как на площади Пикадилли в Лондоне, позволяют брендам запускать персонализированную рекламу.
Здравоохранение
Больницы используют распознавание лиц для оказания помощи пациентам. Медицинские организации тестируют использование технологии распознавания лиц для доступа к картам пациентов, упрощения регистрации пациентов, выявления эмоций и боли у пациентов и даже для выявления определенных генетических заболеваний. Компания AiCure разработала приложение, использующее технологию распознавания лиц, чтобы пациенты принимали лекарства в соответствии с предписаниями. По мере того, как биометрические технологии становятся менее дорогими, ожидается рост их внедрения в секторе здравоохранения.
Отслеживание посещаемости студентами или работниками
Некоторые учебные заведения Китая используют технологию распознавания лиц, чтобы учащиеся не пропускали занятия. Для сканирования лиц учащихся и сопоставления их с фотографиями в базе данных для подтверждения личности используются специальные планшеты. В более широком смысле эту технологию можно использовать для регистрации работников на рабочих местах, чтобы работодатели могли отслеживать посещаемость.
Распознавание водителей
Согласно потребительским отчетам, автомобильные компании экспериментируют с технологией распознавания лиц, чтобы заменить ключи от машины. Эта технология заменит ключ для открытия и запуска автомобиля. Она также запоминает предпочтения водителей относительно положения сиденья и зеркал, а также настроек радиостанций.
Отслеживание игровой зависимости
Распознавание лиц может помочь игорным компаниям в большей степени защитить своих клиентов. Наблюдать за теми, кто входит в игровые залы и перемещается по ним, сложно для персонала, особенно в больших людных местах, таких как казино. Технология распознавания лиц позволяет игорным компаниям идентифицировать клиентов, являющихся заядлыми игроманами, и вести учет их игры, чтобы сотрудники могли посоветовать, когда пора остановиться. Казино могут столкнуться с серьезными штрафами, если игроки из списков добровольного исключения будут уличены в азартных играх.
Примеры технологии распознавания лиц
- Amazon ранее продвигал свой облачный сервис распознавания лиц Rekognition для правоохранительных органов. Однако в июне 2020 года в блоге компании было опубликовано, что она планирует ввести годичный мораторий на использование своей технологии полицией. Причина заключалась в том, что необходимо время для принятия федеральных законов США по защите прав и гражданских свобод человека.
- Apple использует распознавание лиц, чтобы пользователи могли быстро разблокировать телефоны, входить в приложения и совершать покупки.
- British Airways выполняет распознавание лиц пассажиров, вылетающих рейсами из США. Лица путешественников могут быть отсканированы камерой для подтверждения их личности при посадке в самолет без предъявления паспорта или посадочного талона. Авиакомпания использует эту технологию на внутренних рейсах по Великобритании, вылетающих из аэропорта Хитроу, и работает над посадкой с использованием биометрических данных на международные рейсы.
- Cigna, американская страховая компания в сфере здравоохранения, позволяет клиентам в Китае подавать заявки на медицинское страхование, подписанные с использованием фотографии, а не рукописной подписи, чтобы сократить количество случаев мошенничества.
- Coca-Cola по-разному использовала распознавание лиц в разных странах мира. Примеры включают вознаграждение клиентов за сдачу тары в переработку в торговых автоматах в Китае, размещение персонализированной рекламы на торговых автоматах в Австралии и маркетинговые мероприятия в Израиле.
- Facebook начал использовать распознавание лиц в США в 2010 году, когда он автоматически отмечал людей на фотографиях с помощью встроенного инструмента, предлагая соответствующие теги. Этот инструмент сканирует лицо пользователя и предлагает варианты, кто этот человек. С 2019 года Facebook сделал эту функцию опциональной, поскольку стремится стать более ориентированным на конфиденциальность. Здесь описано, как включить или отключить распознавание лиц в Facebook.
- Google включает эту технологию в приложение Google Фото и использует для сортировки изображений и автоматической отметки распознанных людей на фото.
- Косметическая фирма MAC использует технологию распознавания лиц в некоторых офлайн-магазинах, позволяя покупателям виртуально «примерить» макияж с помощью имеющихся в магазине зеркал с дополненной реальностью.
- McDonald’s использует распознавание лиц в своих японских ресторанах для оценки качества обслуживания клиентов, в том числе для анализа того, улыбаются ли сотрудники, помогая клиентам.
- Snapchat – один из пионеров в разработке программного обеспечения для распознавания лиц: он позволяет брендам и организациям создавать фильтры, повторяющие лицо пользователя. Отсюда и повсеместное увлечение масками с мордами щенков и цветочными коронами в социальных сетях.
Компании-разработчики технологий распознавания лиц включают:
- Kairos
- Noldus
- Affectiva
- Sightcorp
- Nviso
Преимущества технологии распознавания лиц
Помимо разблокировки смартфона, распознавание лиц дает и другие преимущества:
Повышение безопасности
На государственном уровне распознавание лиц может помочь идентифицировать террористов или других преступников. На личном уровне распознавание лиц можно использовать как инструмент безопасности для блокировки устройств и в личных камерах видеонаблюдения.
Снижение уровня преступности
Распознавание лиц упрощает поиск грабителей, воров и правонарушителей. Одно только знание о присутствии системы распознавания лиц может служить сдерживающим фактором, особенно в отношении мелких преступлений. Помимо физической безопасности, имеются преимущества и в сфере кибербезопасности. Компании могут использовать технологию распознавания лиц вместо паролей для доступа к компьютерам. Теоретически эту технологию невозможно взломать, поскольку красть или менять, как в случае с паролем, нечего.
Устранение предвзятости при остановке и обысках
Обеспокоенность общественности по поводу необоснованных остановок и обысков является источником разногласий в полиции. Технология распознавания лиц может улучшить этот процесс. Выявление подозрительных личностей в толпе с помощью автоматизированного, а не управляемого человеком процесса, такого как технология распознавания лиц, может снизить потенциальную предвзятость и сократить количество остановок и обысков законопослушных граждан.
Удобство
По мере распространения технологии распознавания лиц, покупатели смогут расплачиваться в магазинах, используя собственное лицо, и не вынимать кредитные карты или наличные деньги. Это позволит сэкономить время в очереди к кассе. Поскольку для распознавания лиц не требуется никакого контакта, как при снятии отпечатков пальцев или выполнении других мер безопасности, эта технология особенно полезна во время эпидемии COVID. Распознавание лиц обеспечивает быструю, автоматическую и беспроблемную проверку.
Быстрая обработка
Процесс распознавания лица занимает всего секунду, что дает преимущества компаниям, использующим технологию распознавания лиц. В эпоху кибератак и продвинутых инструментов взлома компаниям нужны безопасные быстрые технологии. Распознавание лиц позволяет быстро и эффективно проверить личность человека.
Интеграция с другими технологиями
Большинство решений для распознавания лиц совместимы с программами обеспечения безопасности. Фактически, эта технология легко интегрируется. Это снижает объем дополнительных инвестиций, необходимых для ее внедрения.
Недостатки технологии распознавания лиц
Некоторые люди не возражают, когда их снимают, и не имеют ничего против использования распознавания лиц там, где от этого есть явная выгода или необходимость. Однако использование этой технологии может вызвать бурную реакцию у других людей. Некоторые из недостатков или проблем распознавания лиц:
Тотальная слежка
Некоторые опасаются, что использование технологии распознавания лиц, повсеместные видеокамеры, искусственный интеллект и анализ данных создадут предпосылки для массового наблюдения и могут ограничить свободу личности. Хотя технология распознавания лиц позволяет правительствам выслеживать преступников, она также может позволить им выслеживать обычных законопослушных людей.
Возможные ошибки
Результат распознавания лиц не исключает ошибок, а это может привести к обвинению людей в преступлениях, которых они не совершали. Например, к ошибке может привести небольшое изменение ракурса камеры или изменение внешнего вида, например прически. В 2018 году издание Newsweek сообщило, что технология распознавания лиц Amazon ложно идентифицировала 28 членов Конгресса США как лиц, арестованных за преступления.
Нарушение конфиденциальности
Вопрос этики и конфиденциальности – самый спорный. Известно, что правительства хранят фотографии граждан без их согласия. В 2020 году Европейская комиссия заявила, что рассматривает вопрос запрета использования технологии распознавания лиц в общественных местах на срок до пяти лет, чтобы дать время на разработку нормативной базы для предотвращения нарушений конфиденциальности и этических норм.
Огромное хранилище данных
Программное обеспечение для распознавания лиц основано на технологии машинного обучения, требующей огромных наборов данных для обучения и получения точных результатов. Такие огромные наборы данных требуют надежного хранилища. Малые и средние компании могут не располагать достаточными ресурсами для хранения необходимых данных.
Хотя биометрические данные обычно считаются одним из самых надежных методов аутентификации, их использование также сопряжено со значительным риском. Это связано с тем, что в случае взлома данных кредитной карты ее хозяин может заблокировать свой кредитный счет и принять меры для изменения украденной личной информации. А что делать, если вы потеряете свое «цифровое лицо»?
Во всем мире собираются, хранятся и анализируются растущие объемы биометрических данных. Часто это делается организациями и правительствами, имеющими неоднозначную репутацию в области кибербезопасности. Все чаще задается вопрос, насколько безопасна инфраструктура, в которой хранятся и обрабатываются эти данные?
Поскольку программное обеспечение для распознавания лиц все еще находится в зачаточном состоянии, законы, регулирующие эту область, только разрабатываются (а иногда и полностью отсутствуют). Обычные граждане, данные которых скомпрометированы, имеют относительно немного законных возможностей для действия. Киберпреступники часто ускользают от властей или получают обвинительные приговоры спустя годы после преступлений, а их жертвы не получают компенсаций и вынуждены сами заботиться о себе.
По мере распространения технологии распознавания лиц, возрастают и возможности злоумышленников красть данные о лицах для совершения мошеннических действий.
Комплексный пакет кибербезопасности – необходимая часть защиты конфиденциальных данных и обеспечения безопасности в интернете. Рекомендуется использовать решение Kaspersky Security Cloud, обеспечивающее защиту всех устройств и включающее антивирус, защиту от программ-вымогателей, защиту мобильных устройств, управление паролями, VPN и родительский контроль.
Биометрические технологии являются интересными решениями в области безопасности. Несмотря на риски, эти решения весьма удобны и их сложно дублировать. Они будут развиваться и в будущем, а задача будет заключаться в усилении их преимуществ и минимизации рисков.
Статьи по теме:
- Что такое приватность данных?
- Интернет вещей: что это такое?
- Что такое безопасность облака?
- Надежные пароли: как их создать и какие они имеют преимущества?
- Дипфейки и другие поддельные видео – как защитить себя?
Распознавание лиц покупателей для ритейла | Алгоритм опознания посетителей и покупателей FindFace
РАССЧИТАТЬ РЕШЕНИЕ Сценарии использования
Повышайте продажи и снижайте издержки с FindFace. «Узнавайте клиентов», как только они зашли в магазин. Идентифицируйте шоплифтеров, предотвращайте кражи и убытки бизнеса. Предоставляйте персональный сервис VIP-клиентам, повышая лояльность и чек покупки. Алгоритм распознавания лиц проводит гендерно-возрастной анализ посетителей, позволяя оценить эффективность маркетинговых кампаний и определить целевую аудиторию.
до 75% потерь от краж
сокращает бизнес благодаря защите от шоплифтеров
2−4 месяца
средний срок окупаемости решения по распознаванию лиц
1 сделка
обычно позволяет окупить расходы интегратора
Возможности бизнеса с FindFace
Снижение воровства и предупреждение финансовых потерь
FindFace детектирует и распознаёт лица клиентов в видеопотоке, сравнивает их с лицами из чёрных списков шоплифтеров. При обнаружении совпадения система распознавания лиц в магазине немедленно уведомит о появлении нежелательных посетителей службу безопасности для принятия оперативных мер. Это позволяет идентифицировать мошенника еще до того, как он совершит кражу, а бизнес понесет убытки.
Биометрическая идентификация сотрудников компании
Бизнес теряет прибыль и клиентов в том числе потому, что покупатели не получили качественное обслуживание и своевременную помощь консультантов. Повышайте продуктивность работы сотрудников, будьте в курсе их перемещений по торговому залу и времени пребывания на рабочем месте. FindFace не получится обмануть с помощью фото или видеоизображения с лицом авторизованного посетителя благодаря антиспуфинг-защите Liveness.
Точный подсчет клиентов, определение пола и возраста посетителей
Установите систему распознавания покупателей в магазине и собирайте информацию о визитах и перемещении клиентов в торговом зале для дальнейшего анализа и оптимизации мерчандайзинга. Кроме того, эти данные позволят детализировать информацию о целевой аудитории и сформировать персональные предложения. Повышайте конверсию продаж и лояльность клиентов.
Показ таргетированной рекламы
Повышайте эффективность маркетинговых кампаний с помощью с технологии распознавания покупателей FindFace. Настраивайте системы показа рекламного контента online под конкретного покупателя на основании гендерно-возрастного анализа, предпочтений и истории покупок. Повышайте продажи за счёт эффективности рекламы, более точно отвечающей потребностям целевой аудитории.
Идентификация VIP-клиентов «с порога»
VIP-клиенты приносят значительную часть в оборот бизнеса. Распознавайте важных гостей прямо на входе в магазин и удивляйте уровнем сервиса. Повышайте лояльность и сумму покупки с помощью технологии распознавания лиц для ритейла, предлагайте любимые товары.
Полная информация о клиентах
FindFace в составе программы лояльности поможет собирать полную информацию о клиенте и всех его взаимодействиях с компанией. В рамках отдельного проекта система FindFace может быть интегрирована с различными программами лояльности, CRM и кассовыми системами. Изучение истории визитов, покупок и предпочтений поможет напомнить о тех товарах, которые покупатель смотрел, но не выбрал, с помощью их выведения на экране Digital Signage. Эффективный инструмент для бизнеса.
Геотаргетинг
Используйте FindFace, чтобы сделать вашим клиентам лучшее предложение в режиме реального времени. Система распознавания идентифицирует клиента — это позволяет получить информацию о предпочтениях, историю покупок. Совместно с партнёром, например, банком, магазин может доставлять привлекательные предложения клиенту online, отправив смс или push-сообщение.
Почему FindFace
Точность и скорость распознавания
Точность идентификации — свыше 99%. Поиск лица в миллиардной базе изображений займет доли секунды, что делает возможным коммуникации с клиентом в реальном времени.
мобильные и web-уведомления
Сотрудники моментально получат уведомления при появлении людей из чёрного списка. Уведомления приходят адресно: службе безопасности — о шоплифтерах, а VIP-менеджерам — о появлении важных гостей.
Поиск лиц в архивном видео
Позволяет получать данные о визитах и действиях покупателей в торговом зале. Анализируйте действия нужных групп клиентов, проводите эффективные расследования краж и правонарушений.
Защита персональных данных
FindFace работает на сервере заказчика, при этом все данные хранятся локально. Можно не беспокоиться о том, что данные вашей компании попадут к третьим лицам.
Гибкая архитектура
Технология анализа лиц позволяет обрабатывать видео локально, в магазине. Если нет возможности разместить оборудование в торговой точке, можно реализовать распознавание в частном облаке.
Простота интеграции
В рамках отдельного проекта система по распознаванию лиц может быть проинтегрирована с CRM, BI и другими бизнес-системами с помощью API. Лёгкое внедрение.
Снижение затрат
Высочайшая эффективность алгоритма означает, что системе распознавания лиц FindFace требуется меньше аппаратных ресурсов для работы.
Liveness
Встроенная разработчиком технология Liveness защищает систему распознавания посетителей от взлома. Отличает лицо живого человека перед камерой от фотографии или видеоизображения.
Станьте лидером
с FindFace
Распознавание и поиск лиц Домашняя страница
доктора Роберта Фришгольца
Эта страница посвящена задаче автоматического обнаружения лиц на изображениях.
Это дань уважения домашней странице Peter Kruizinga Face Recognition
(которая, к сожалению, исчезла много лет назад… Нажмите на эту ссылку, чтобы продолжить просмотр сайта, используя архив Wayback Machine)
Вот преемник домашняя страница распознавания лиц
Предисловие: Распознавание человеческих лиц — это не столько распознавание лиц , сколько распознавание лиц / поиск лиц! Было доказано, что первый шаг в автоматическом распознавании лиц — точное обнаружение человеческих лиц в произвольных сценах — является наиболее важным процессом. Когда лица могут быть расположены точно в любой сцене, последующий этап распознавания уже не так сложен. Вот почему эта страница пытается собрать всю доступную информацию о процессе автоматического обнаружение лиц !
Последние новости: февраль 2022 г. — Новые и обновленные системы поиска изображений
Добро пожаловать, исследователи в области распознавания и обнаружения лиц со всего мира!
Этот сайт пытается собрать всю полезную информацию о поиске человеческого лица на изображении. В этой области проводится очень много исследований. Поэтому информация сгруппирована в несколько категорий, которые перечислены в меню страницы. Пожалуйста, следуйте этим кнопкам навигации, чтобы изучить содержимое этого сайта. Краткое описание категорий:
Программное обеспечение | Программное обеспечение для обнаружения лиц: ссылки на общедоступное или коммерческое программное обеспечение (SDK, API, веб-служба) |
Наборы данных | Наборы данных обнаружения лиц: базы данных изображений лиц (наборы данных), полезные для поиска лиц |
Ссылки | Исследования по обнаружению лиц: ссылки на исследовательские сайты по локализации лиц |
Алгоритмы | Алгоритмы обнаружения лиц: пояснения и ссылки на общие принципы обнаружения лиц |
Публикации | Публикации по распознаванию лиц: Избранные публикации о распознавании лиц |
Онлайн-поиск изображений лиц | Демонстрации веб-поиска лиц, также для поиска изображений людей |
Обнаружение атак на презентации | Все о живых или поддельных изображениях лиц |
Разное | Несколько разных, но, возможно, интересных вещей |
Обратите внимание, что эта страница посвящена обнаружению, т. е. определению местоположения человеческого лица на изображении. Распознавание их — это шаг, сделанный после того, как они были обнаружены. Несмотря на то, что многие алгоритмы или наборы данных подходят для обеих задач, этот сайт больше концентрируется на этапе (предварительной обработки) поиска лиц.
Результатом этого шага являются координаты: В простейшем случае это ограничивающий прямоугольник. Или x/y расположение глаз. Или набор координат для многих черт лица (ориентиры), которые помогают соответствующим образом нормализовать каждое лицо.
Некоторая справочная информация об этой странице: Меня зовут Роберт, и я занимаюсь обнаружением/распознаванием лиц примерно с 1995 года. Я начал эту страницу как хобби в 1998 году. Хотя я все еще профессионально занимаюсь биометрией, это страница всегда должна быть научной, а не коммерческой. Без всякой предвзятости.
Если я забыл какие-либо важные ресурсы, пришлите мне все материалы, которые, по вашему мнению, следует разместить здесь, написав электронное письмо по адресу webmaster@facedetection. com. Благодарю вас!
Выберите то, что вы ищете, в верхнем меню или просто введите то, что вам нужно здесь:
Глубокая нейронная сеть на устройстве для распознавания лиц
Apple начала использовать глубокое обучение для распознавания лиц в iOS 10. С выпуском фреймворка Vision разработчики теперь могут использовать эту технологию и многие другие алгоритмы компьютерного зрения в своих приложениях. Мы столкнулись с серьезными проблемами при разработке платформы, чтобы мы могли сохранить конфиденциальность пользователей и эффективно работать на устройстве. В этой статье обсуждаются эти проблемы и описывается алгоритм обнаружения лиц.
Введение
Apple впервые выпустила распознавание лиц в общедоступном API в структуре Core Image через класс CIDetector. Этот API также использовался внутри приложений Apple, таких как Photos. В самом раннем выпуске CIDetector использовался метод, основанный на алгоритме обнаружения Виолы-Джонса [1]. Мы основывали последующие усовершенствования CIDetector на достижениях в традиционном компьютерном зрении.
С появлением глубокого обучения и его применения к задачам компьютерного зрения, современное состояние точности распознавания лиц сделало огромный скачок вперед. Нам пришлось полностью переосмыслить наш подход, чтобы мы могли воспользоваться этим сдвигом парадигмы. По сравнению с традиционным компьютерным зрением обучаемые модели в глубоком обучении требуют на порядки больше памяти, гораздо больше места на диске и больше вычислительных ресурсов.
Какими бы функциональными ни были современные мобильные телефоны, типичный мобильный телефон высокого класса не был жизнеспособной платформой для моделей машинного зрения с глубоким обучением. Большая часть отрасли решила эту проблему, предоставив решения для глубокого обучения через облачный API. В облачном решении изображения отправляются на сервер для анализа с использованием вывода глубокого обучения для обнаружения лиц. Облачные сервисы обычно используют мощные графические процессоры настольного класса с большим объемом доступной памяти. Очень большие сетевые модели и потенциально ансамбли больших моделей могут работать на стороне сервера, позволяя клиентам (которые могут быть мобильными телефонами) использовать преимущества больших архитектур глубокого обучения, которые было бы нецелесообразно запускать локально.
iCloud Photo Library от Apple — это облачное решение для хранения фотографий и видео. Однако из-за строгой приверженности Apple конфиденциальности пользователей мы не могли использовать серверы iCloud для вычислений компьютерного зрения. Каждая фотография и видео, отправляемые в библиотеку фотографий iCloud, шифруются на устройстве перед отправкой в облачное хранилище и могут быть расшифрованы только устройствами, зарегистрированными в учетной записи iCloud. Поэтому, чтобы предложить нашим клиентам решения компьютерного зрения на основе глубокого обучения, нам пришлось решать проблемы запуска алгоритмов глубокого обучения на iPhone напрямую.
Мы столкнулись с несколькими проблемами. Модели глубокого обучения должны поставляться как часть операционной системы, занимая ценное место в памяти NAND. Они также должны быть загружены в ОЗУ и требуют значительного вычислительного времени на GPU и/или CPU. В отличие от облачных сервисов, ресурсы которых могут быть выделены исключительно для решения проблем со зрением, вычисления на устройстве должны выполняться при совместном использовании этих системных ресурсов с другими работающими приложениями. Наконец, вычисления должны быть достаточно эффективными, чтобы обработать большую библиотеку фотографий за достаточно короткое время, но без значительного энергопотребления или повышения температуры.
В оставшейся части этой статьи обсуждается наш алгоритмический подход к распознаванию лиц на основе глубокого обучения, а также то, как мы успешно справились с задачами для достижения современной точности. Мы обсуждаем:
- как мы полностью используем наши GPU и CPU (используя BNNS и Metal)
- оптимизация памяти для сетевых выводов, загрузки и кэширования изображений
- , как мы внедрили сеть так, чтобы она не мешала множеству других одновременных задач, ожидаемых от iPhone.
Переход от Виолы-Джонса к глубокому обучению
В 2014 году, когда мы начали работать над подходом глубокого обучения к обнаружению лиц на изображениях, глубокие сверточные сети (DCN) только начинали давать многообещающие результаты в задачах обнаружения объектов. Наиболее заметным среди них был подход под названием «OverFeat» [2], который популяризировал некоторые простые идеи, которые показали, что DCN достаточно эффективны при сканировании изображения в поисках объекта.
OverFeat нарисовал эквивалентность между полносвязными слоями нейронной сети и сверточными слоями с допустимыми свертками фильтров тех же пространственных размеров, что и входные данные. Эта работа показала, что сеть бинарной классификации с фиксированным рецептивным полем (например, 32×32 с естественным шагом 16 пикселей) может быть эффективно применена к изображению произвольного размера (например, 320×320) для создания выходной карты соответствующего размера ( 20×20 в этом примере). В документе OverFeat также были даны умные рецепты для создания более плотных выходных карт за счет эффективного уменьшения шага сети.
Мы построили нашу первоначальную архитектуру на основе некоторых выводов из статьи OverFeat, в результате чего была создана полностью сверточная сеть (см. рис. 1) с многозадачной целью, состоящей из:
- бинарной классификации для прогнозирования наличия или отсутствия лицо на входе и
- регрессия для прогнозирования параметров ограничивающей рамки, которые лучше всего локализовали лицо во входных данных.
Мы экспериментировали с несколькими способами обучения такой сети. Например, простой процедурой обучения является создание большого набора данных плиток изображений фиксированного размера, соответствующего наименьшему допустимому входу в сеть, так что каждая плитка дает один выход из сети. Набор обучающих данных идеально сбалансирован, так что половина плиток содержит лицо (положительный класс), а другая половина не содержит лица (отрицательный класс). Для каждой положительной плитки мы указываем истинное местоположение (x, y, w, h) лица. Мы обучаем сеть оптимизации многозадачной задачи, описанной ранее. После обучения сеть способна предсказывать, содержит ли плитка лицо, и если да, то она также предоставляет координаты и масштаб лица в плитке.
Рис. 1. Пересмотренная архитектура DCN для распознавания лиц
Поскольку сеть является полностью сверточной, она может эффективно обрабатывать изображение произвольного размера и создавать выходную двумерную карту. Каждая точка на карте соответствует фрагменту входного изображения и содержит предсказание сети относительно наличия или отсутствия лица в этом заголовке и его местоположения/масштаба во входном фрагменте (см. входные и выходные данные DCN на рис. 1).
Имея такую сеть, мы могли бы затем построить довольно стандартный конвейер обработки для обнаружения лиц, состоящий из многомасштабной пирамиды изображений, сети детекторов лиц и модуля постобработки. Нам нужна была многомасштабная пирамида для работы с лицами самых разных размеров. Мы применяем сеть к каждому уровню пирамиды, и с каждого уровня собираются обнаруженные кандидаты. (См. рис. 2.) Затем модуль постобработки объединяет эти обнаружения-кандидаты в разных масштабах, чтобы создать список ограничительных рамок, соответствующих окончательному предсказанию сети лиц на изображении.
Рисунок 2. Рабочий процесс обнаружения лиц
Эта стратегия приблизила нас к запуску глубокой сверточной сети на устройстве для исчерпывающего сканирования изображения. Но сложность и размер сети оставались ключевыми узкими местами для производительности. Преодоление этой проблемы означало не только ограничение сети простой топологией, но также ограничение количества слоев сети, количества каналов на уровне и размера ядра сверточных фильтров. Эти ограничения подняли серьезную проблему: наши сети, которые давали приемлемую точность, были совсем не простыми, большинство из них имело более 20 уровней и состояло из нескольких модулей «сеть в сети» [3]. Использование таких сетей в структуре сканирования изображений, описанной ранее, было бы совершенно невозможным. Они привели к неприемлемой производительности и энергопотреблению. На самом деле мы даже не смогли бы загрузить сеть в память. Тогда задача заключалась в том, как обучить простую и компактную сеть, которая могла бы имитировать поведение точных, но очень сложных сетей.
Мы решили использовать подход, неофициально называемый обучением «учитель-ученик»[4]. Этот подход предоставил нам механизм для обучения второй тонкой и глубокой сети («ученик») таким образом, чтобы она очень точно соответствовала выходным данным большой сложной сети («учитель»), которую мы обучали в качестве описано ранее. Студенческая сеть состояла из простой повторяющейся структуры сверток 3×3 и объединенных слоев, а ее архитектура была тщательно адаптирована для наилучшего использования нашего механизма вывода нейронной сети. (См. рис. 1.)
Наконец-то у нас появился алгоритм глубокой нейронной сети для распознавания лиц, который можно было выполнять на устройстве. Мы повторили несколько циклов обучения, чтобы получить модель сети, которая была достаточно точной для включения нужных приложений. Несмотря на то, что эта сеть была точной и осуществимой, оставалось еще проделать огромный объем работы, чтобы сделать ее практичной для развертывания на миллионах пользовательских устройств.
Оптимизация конвейера обработки изображений
Практические соображения, связанные с глубоким обучением, в значительной степени повлияли на наш выбор дизайна простой в использовании платформы для разработчиков, которую мы называем Vision. Вскоре стало очевидно, что хороших алгоритмов недостаточно для создания отличного фреймворка. Нам нужно было иметь высоко оптимизированный конвейер обработки изображений.
Мы не хотели, чтобы разработчики думали о масштабировании, преобразовании цветов или источниках изображения. Обнаружение лиц должно работать хорошо, независимо от того, используется ли оно в потоках захвата камеры в реальном времени, при обработке видео или при обработке изображений с диска или из Интернета. Он должен работать независимо от представления и формата изображения.
Нас беспокоило энергопотребление и использование памяти, особенно для потоковой передачи и захвата изображений. Нас беспокоил объем памяти, такой большой, как для 64-мегапиксельной панорамы. Мы решили эти проблемы, используя методы частичного субдискретизированного декодирования и автоматического тайлинга для выполнения задач компьютерного зрения на больших изображениях даже с нестандартными соотношениями сторон.
Еще одной проблемой было согласование цветового пространства. У Apple есть широкий набор API-интерфейсов цветового пространства, но мы не хотели обременять разработчиков задачей сопоставления цветов. Платформа Vision обрабатывает сопоставление цветов, тем самым снижая порог успешного внедрения компьютерного зрения в любое приложение.
Vision также оптимизируется за счет эффективной обработки и повторного использования промежуточных продуктов. Обнаружение лиц, обнаружение ориентиров лица и несколько других задач компьютерного зрения работают с одним и тем же масштабированным промежуточным изображением. Абстрагируя интерфейс от алгоритмов и находя место собственности для обрабатываемого изображения или буфера, Vision может создавать и кэшировать промежуточные изображения для повышения производительности для множества задач компьютерного зрения без необходимости выполнения какой-либо работы разработчиком.
Верна и обратная сторона. С точки зрения центрального интерфейса мы могли бы направить разработку алгоритма в направлении, позволяющем лучше повторно использовать или совместно использовать промежуточные продукты. Vision содержит несколько различных и независимых алгоритмов компьютерного зрения. Чтобы различные алгоритмы хорошо работали вместе, реализации используют входные разрешения и цветовые пространства, которые являются общими для максимально возможного количества алгоритмов
Оптимизация для производительности на устройстве
Радость простоты использования быстро рассеется, если наше распознавание лиц API нельзя было использовать как в приложениях реального времени, так и в фоновых системных процессах. Пользователи хотят, чтобы распознавание лиц работало гладко при обработке их фотобиблиотек для распознавания лиц или при анализе изображения сразу после снимка. Они не хотят, чтобы батарея разряжалась или производительность системы снижалась до минимума. Мобильные устройства Apple — это многозадачные устройства. Таким образом, фоновая обработка компьютерного зрения не должна существенно влиять на остальные функции системы.
Мы реализуем несколько стратегий для минимизации использования памяти и графического процессора. Чтобы уменьшить объем памяти, мы выделяем промежуточные слои наших нейронных сетей, анализируя граф вычислений. Это позволяет нам связать несколько слоев с одним и тем же буфером. Будучи полностью детерминированным, этот метод уменьшает объем памяти, не влияя на производительность или фрагментацию распределения, и может использоваться как на ЦП, так и на графическом процессоре.
Для Vision детектор работает с 5 сетями (по одной для каждого масштаба пирамиды изображений, как показано на рис. 2). Эти 5 сетей имеют одинаковые веса и параметры, но разные формы входных, выходных и промежуточных слоев. Чтобы еще больше уменьшить занимаемую площадь, мы запускаем алгоритм оптимизации памяти на основе живучести на совместном графе, состоящем из этих 5 сетей, что значительно сокращает занимаемую площадь. Кроме того, несколько сетей повторно используют одни и те же буферы весов и параметров, что снижает потребность в памяти.
Для повышения производительности мы используем полностью сверточный характер сети: все масштабы динамически изменяются в соответствии с разрешением входного изображения. По сравнению с подгонкой изображения к квадратным сетчатым сетчаткам (дополненным пустыми полосами), подгонка сети к размеру изображения позволяет нам резко сократить общее количество операций. Поскольку топология операции не изменяется при изменении формы и высокой производительности остальной части распределителя, динамическое изменение формы не приводит к снижению производительности, связанному с выделением.
Чтобы обеспечить отзывчивость и плавность пользовательского интерфейса, когда глубокие нейронные сети работают в фоновом режиме, мы разделяем рабочие элементы графического процессора для каждого слоя сети, пока каждое отдельное время не станет меньше миллисекунды. Это позволяет драйверу своевременно переключать контексты на задачи с более высоким приоритетом, такие как анимация пользовательского интерфейса, тем самым уменьшая, а иногда и устраняя потерю кадров.
В совокупности все эти стратегии гарантируют, что наши пользователи могут наслаждаться локальным, частным выводом глубокого обучения с малой задержкой, не зная, что их телефон использует нейронные сети со скоростью несколько сотен гигафлопс в секунду.
Использование Vision Framework
Достигли ли мы того, что поставили перед собой, разработав эффективный, простой в использовании API для распознавания лиц? Вы можете попробовать фреймворк Vision и оценить сами. Вот как начать:
- Посмотрите презентацию WWDC: Vision Framework: на основе Core ML
- Прочтите справочник по концепции концепции.