Визуальный поиск — будущее мобильных технологий или забавная игрушка?

Фотопоиск Google Goggles, поразивший воображение многих, появился на андроидных телефонах около года назад. Совсем недавно сервис Goggles заработал и на iPhone. Что произошло в сфере визуального поиска за год? Какие появились новые мобильные приложения? Стали ли они действительно мощными инструментами добычи информации? F5 выяснил о визуальном поиске все!

КАК ЭТО РАБОТАЕТ?

Визуальный поиск на самом деле не является чем-то экстраординарным. Умением идентифицировать фотоизображения по определенным признакам и затем по этим признакам искать подобные электронные устройства обладают достаточно давно. Хотя по-настоящему достоянием широких масс технология распознавания образов стала в 2008 году с появлением канадского сайта-сервиса TiniEye. TiniEye представлял (и успешно представляет собой по сей день) поисковую машину с огромной базой изображений, в которой она проводит поиск фото, аналогичных тем, что подсовывает ей пользователь сервиса.

Развитие идеи, что называется, витало в воздухе. Ведь если в качестве источника фотообразца использовать изображение с камеры телефона, то можно оторваться от стационарных компьютеров и сделать поиск мобильным — в любом месте и в любое время! И за последнее время появилось немало программ, использующих этот принцип, — от развлекательных до профессиональных.

Распознавание образов — задача непростая, поэтому вычислительные мощности смартфона с ней не справятся. Да и никакой памяти не хватит, чтобы держать в телефоне базу для сравнений, причем постоянно пополняемую. Поэтому на помощь пришли облачные технологии, перекладывающие основную работу на плечи удаленных серверов.

Вы наводите телефон на то, что хотели бы "забить в поисковик" (человека, географический объект, товар и т. д.), делаете снимок, снимок отправляется на удаленный сервер, который его распознает (извлекает из фотографии данные с характерными признаками) и осуществляет поиск подобных изображений по своей фотобазе, а если необходимо, то и напрямую в интернете.

Роль телефона и установленного на нем приложения, в сущности, ерундовая: сфоткать картинку и одним нажатием кнопки, без лишней возни с браузером, послать снимок на анализ и затем принять и отобразить результат. Поэтому с этой работой справится почти любой смартфон, а вовсе не только топовые гигагерцовые монстры.

Впрочем, есть и любопытные исключения из правил. Вот что рассказал F5 Александр Абашин, гендиректор компании "Ладаком", разрабатывающей софт для МВД и прочих силовых структур:

— Иногда можно обойтись и без облачных вычислений — средствами самого телефона. Наша система мобильной идентификации преступников не требует доступа в интернет по каналам сотовой связи или Wi-Fi, а работает автономно. Это нужно, чтобы система функционировала безотказно и быстро вне зависимости от качества связи и вообще ее наличия.

Работает это так. В телефон устанавливается приложение с фотобазой подозреваемых в совершениях преступлений. В базе — 10 000 лиц и кратких досье на них. Сотрудник милиции просто фотографирует телефоном задержанного, который не имеет паспорта и не спешит называть свое имя, телефон ищет в базе похожие лица и выводит на экран при совпадении.

Приложение мобильной идентификации написано нами для смартфонов под управлением Symbian и работает даже на достаточно старых телефонах типа Nokia 6680 — с процессором чуть более 200 МГц и 1,3-мегапиксельной камерой. Но если бы мы сравнивали JPG-картинку с камеры с 10 000 джипегов в базе, телефон бы тратил на поиски сутки! Поэтому в базе лежат не JPG-фотографии, а набор цифр — извлеченные из фото биометрические данные. "Фото" одного человека, по которому его можно идентифицировать с высочайшей точностью (около 95%) , весит всего около 300 байт! Отснятое фото телефон за три секунды переводит в такой же формат и для поиска оперирует уже крошечными 300-байтными файлами. Для всего цикла распознания требуется около десяти секунд.

Впрочем, не будем забегать вперед, а пойдем по порядку! Итак, на сегодняшний день ОСНОВНЫХ направлений мобильного визуального поиска можно выделить три:

•   товары;
•   географические объекты;
•   люди.

Разберемся эти сферах более подробно!

ТОВАРЫ

Их поиск, в принципе, — самое простое и эффективное с точки зрения техники visual search. Про распознавание штрих- и бар-кодов речь не идет — это уж слишком простая задача, ибо штрих-коды специально разрабатывались для идентификации. Задачка для визуального поиска посложнее, нежели сканирование кодов, — получить информацию нужно по фотографии самого товара!

Мобильные приложения типа Google Goggles, или Kooaba (распознание обложек CD/DVD), или 2.000.000 books search (распознавание книг) работают неплохо — узнают лого большинства торговых марок, постеров фильмов и многого другого. По результатам поиска можно зайти на сайт фирмы, купить товар в интернет-магазине, найти дополнительное инфо.

Это все, конечно, здорово, но невозможно понять одно: КАКУЮ РЕАЛЬНУЮ ПРОБЛЕМУ РЕШАЮТ ДЛЯ ПОЛЬЗОВАТЕЛЯ ЭТИ СЕРВИСЫ? Ну сфоткал я DVD с фильмом на витрине супермаркета. Что дальше? Я получу инфо о нем с "Википедии", узнаю его рейтинг на imdb.com, посмотрю трейлер на YouTube, узнаю о том, что существует игра по мотивам муви, какой-нибудь фан-клуб и т. д. Смогу тут же оплатить и скачать кино в виде файла или даже заказать доставку диска на дом (не забываем — предполагается, что мы находимся в магазине!)...

Так ли все это нужно? С точки зрения здравомыслия, манипуляции с телефоном —лишь трата времени. Посмотри на краткую аннотацию на обложке и покупай (или скачай в сетевом магазине или торренте позже). К чему мне, стоящему в толпе людей с тележкой, возможность тут же отправить свои мысли об этом диске в Facebook или еще куда-либо?!

В общем, определенным развлечением это служить, безусловно, может, а вот сказать, что это делает жизнь удобнее, можно едва ли...

По фотографии DVD-диска с фильмом "300 спартанцев" мобильное приложение Koaba нашло сам фильм и игру по его мотивам...

Как ни странно, куда более интересной видится российская разработка в этой сфере — мобильное приложение "Яндекс.Маркет" для Android. Утилитка на самом деле далека от идеи визуального поиска в том понимании, о которой мы говорим (ибо распознает не фото товаров, а лишь штрих-коды), но зато она позволяет оперативно сравнить цены в офлайне и онлайне. А стало быть, выяснять, нужно ли прямо сейчас покупать эту плазму (мобильник, кофемолку и т. д.) в "Эльдорадо" или "М-Видео" или выгоднее будет придти домой и заказать то же самое через интернет-магазин значительно дешевле!

Ну а по-настоящему полезным выглядит специальное мобильное приложение для инвалидов по зрению, которое сделала американская компания LookTel. Windows-Mobile-смартфон буквально становится глазами слепого человека, делая ему голосовые подсказки о том, что видит его фотокамера.

Открываете холодильник, наводите туда смартфон, и слушаете: "Молоко, сыр, бекон..." Нету яиц и йогурта — значит, нужно купить. В общем, как-то так...

Интересно, что система LookTel работает, комбинируя собственные вычисления и облачные. Так как приложение отлично распознает текст, то наличие в холодильнике пакета молока телефон определит самостоятельно, без интернета и даже без сотовой сети. Если же пакет стоит так, что надпись нечитаемая или этикетка испорчена, LookTel будет вынужден отправить фотографию на удаленный сервер для более серьезного изучения.

ГЕОГРАФИЧЕСКИЕ ОБЪЕКТЫ

ВизуаФльное распознавание зданий, памятников, архитектурных ансамблей и прочая и прочая — на сегодняшний день практически полная монополия Google. И вполне заслуженно — не зря поисковый монстр столько времени и сил тратит на "оцифровку реальности".

Как уже говорилось, приложение Google Goggles год назад было одной из главных фишек андроидофонов, но сегодня и другие смартфоны получили эту интересную функцию. Впрочем, революционных изменений за год не произошло — основной список того, что рекомендуется искать, по-прежнему ограничен туристическими объектами, логотипами и брендами, книгами и DVD, иллюстрациями, товарами и визитками. В качестве примеров, неудачных для распознавания, приводятся животные, одежда, мебель.

Рассказывает Борис Хвостиченко, менеджер по продуктам Google в России:

— Все просто: вы снимаете нужный объект (достопримечательность, картину, визитку и т. д.) на камеру телефона, и фотография отправляется на серверы Google, где она сравнивается с огромным массивом данных. Как только совпадение найдено, вы получаете релевантные результаты поиска.

Сегодня Goggles работает следующим образом: Google получает запрос в виде фотографии, разделяет его на несколько фрагментов, а затем отправляет сразу на несколько серверов, которые ищут соответствия. Потом результаты объединяются, и система предлагает пользователю результаты, которые релевантны запросу. Некоторые фрагменты распознаются очень быстро, другие требуют более длительного времени на обработку. Например, для того чтобы распознать текст на фотографии, Goggles потребуется несколько секунд. Не стоит забывать и о мобильном интернет-трафике, скорость которого часто недостаточна для передачи тяжелых фотографий.

К слову, после фотографирования Путина (с экрана компьютера, разумеется!), Google Goggles его узнал! :-) Но это все же не распознавание людей — скорее, распознавание иллюстраций или брендов...

...ибо сфотографированный с помощью Google Goggles известный блоггер Навальный распознан не был. В качестве ближайших аналогов Goggles выдал кучу фотографий со схожей цветовой гаммой и формой, по которым, как видно, и искал:

ЛЮДИ

Вот в "конце географии" мы плавно подобрались к главному! Поиск людей — это, наверное, самое вкусное, что может предоставить мобильный visual serach! Ведь о каждом из нас наверняка полно информации в интернете — в первую очередь на наших страничках в социальных сетях. Там наши фото, истинные имена и фамилии (чаще всего), мейлы, телефоны и т. д. И вот представьте, вы наводите на любого человека на улице камеру коммуникатора, делаете снимок, и через секунду система присылает вам на его досье — имя, дополнительные фото, увлечения-интересы, школу-институт-работу, друзей-подруг. Человек как на ладони! Можно тут же написать ему коммент в ЖЖ, черкануть мыло или даже позвонить — круто! Именно это можно было сделать с помощью мобильного приложения Recognizr шведской компании TAT (tat.se).

TAT — серьезная фирма, а не сборище дизайнеров-фантазеров, работает со многими авторитетными компаниями, разрабатывая для них интерфейсы электронных устройств и многое другое. И видеоролик, демонстрирующий работы Recognizr на YouTube вызвал массовую реакцию интернет-общественности — от реплик типа "это будущее!" до "частная жизнь под угрозой!".

Все это было около десяти месяцев назад, но реального приложения, которое можно было бы скачать на свой Android, iPhone, Symbian и т. д., так и не появилось в соответствующих софтмаркетах. Да и видео с YouTube было удалено... Что же случилось с Recognizr? Почему интереснейшая программа не получила коммерческой версии и даже упоминания о ней в Сети потерты?

Отвечая F5 на эти вопросы, основатель и директор по развитию TAT Хампус Джекобссон был немногословен:

— В проекте Recognizr нами был разработан лишь пользовательский интерфейс. Основная же технология — технология распознавания лиц — принадлежала нашему партнеру шведской компании РolarRose. А недавно РolarRose была приобретена компанией Apple, и теперь все права принадлежат им. Сайт РolarRose закрыт. Мы же не можем разрабатывать свою коммерческую версию софта Recognizr, а что и когда сделает Apple, нам неизвестно...

(К слову, во время написания этого материала сама TAT была приобретена знаменитым изготовителем смартфонов Blackberry канадской компанией RIM!)

У технологии большие перспективы — и не потому, что ее подгребла дальновидная и хитромудрая компания Apple, а потому, что каждому понятно: это реально круто и интересно! А значит, будет иметь успех. Но в сухом остатке одно — пока ничего серьезного в этой области недоступно конечному пользователю. Почему? Есть некоторые трудности, причем не технического характера, а... юридического!

Дело в том, что для работы по идентификации изображений облачный сервер должен иметь собственную базу данных из сотен миллионов и даже миллиардов картинок, которую он постоянно пополняет, улучшает ее систематизацию и т. д. Теоретически создать базу не столь сложно — умное программное обеспечение сервера будет гулять по интернету и собирать все, что видит. И вот тут-то все дело портит законодательство о защите личной информации! Например, в России это федеральный закон 152 "О персональных данных", и согласно ему нельзя просто так взять и начать собирать инфо о людях в соцсетях! И неважно, что эти данные лежат в открытом доступе и ознакомиться с ними может любой посетитель контактов, одноклассников и прочих майспейсов. Пока ваши фотки и контакты лежат на страничке соцсети, все в порядке. Но как только некто, желающий замутить сервис визуального поиска по фотографиям людей, начнет собирать их в единую базу, его деятельность тут же становится незаконной!

И это не чисто отечественная фишка — например, система TiniEye тоже не идентифицирует людей, о чем заранее предупреждает... А тот же Google во время съемок городов для проекта Street View неоднократно сталкивался с противодействием властей, считающих, что съемки домов для базы данных (всего лишь домов — даже не людей!) нарушают право граждан на частную жизнь! И претензий масса — только за конец прошлого года на стрит-вьюшников наехали власти Южной Кореи, Чехии, Испании!

Борис Хвостиченко, менеджер по продуктам Google в России:

— Технологии по распознаванию лиц у нас уже есть. Однако сейчас мы сознательно их не используем, чтобы защитить личную информацию наших пользователей. Дело в том, что если с технической точки зрения вопрос уже почти решен, то с этической стороны много вопросов остается открытыми...

Александр Кулешов, технический директор компании "Ладаком":

— Мы обращались к руководству соцсети "Одноклассники" с предложением сделать совместно ряд сервисов, основанных на распознавании лиц. Например, осталась у вас какая-либо фотография старого друга / подруги, с которыми давно потеряны контакты, нерезкая, с дефектами, черно-белая — неважно. По ней можно с высокой точностью найти этого человека, если он сменил фамилию или, к примеру, завел левый аккаунт с ложными данными о школе, институте, работе. Достаточно, чтобы на страничке было его реальное современное фото, и система распознает его с высокой степенью вероятности. Мы около полутора месяцев общались с "Одноклассниками", но они в итоге сказали, что им это не интересно....

Приложение MyCeleb выясняет, на кого из знаменитостей-селебритиз вы похожи. У меня оказалось 59% совпадений с советским партийным деятелем эпохи Сталина Георгием Маленковым...

Так что же, системы а-ля Recognizr работать в принципе не могут?!

Работать могут, но с определенными оговорками! Поиск лиц может осуществляться только среди людей, которые заранее дали добро на свое участие в этом проекте, например поставив соответствующую галочку при регистрации в соцсети (не все уже помнят, но в концепцию Recognizr это условие, кстати, было заложено!).

Например, айфоновское приложение FaceLook работает по фотобазам соцсети Facebook. Но находит она не любого, а только из числа френдов (раз зафрендил, то кагбэ претензий иметь не моги!). Считается, что это может быть удобным при первой личной встрече некой группы по интересам, где все еще не знают друг друга в лицо. Организатор сборища создает новый аккаунт в "Фейсбуке", добавляет всех участников тусовки в друзья, а потом все логинятся под этим аккаунтом, ходят и распознают друг друга по фото с телефона... Польза подобного функционала и общее впечатление о программе видится весьма и весьма мутными, хотя, в сущности, она использует принцип того самого Recognizr...

В результате система становится легальной, но уже, понятное дело, не столь фантастически всемогущей... То есть, если напротив вас в метро будут сидеть два человека, которые зарегистрированы в одной соцсети, но первый открыт для общения, а второй не хочет, чтобы его фото идентифицировалось, то распознать вы сможете только одного из них. Согласитесь, уже не то, а?!..

ПОДЫТОЖИМ!

На сегодняшний день возможности программ визуального поиска ограничены:

•   юридическими и моральными аспектами (касательно поиска людей);

•   размерами базы индексированных изображений на облачном сервере (касательно поиска всего остального);

•   эффективностью программы распознавания на облачном сервере;

•   свойствами фотокамеры в конкретном телефоне (количество мегапикселей, тип объектива, софт камеры);

•   условиями съемки (освещенность, фокус, план и т. д.);

•   скоростью канала передачи данных от телефона на облачный сервер и обратно (Wi-Fi / GPRS / EDGE / 3G или иные мобильные стандарты. Не влияет на эффективность, но влияет на быстродействие).

Посему пока визуальный поиск — идеальный инструмент туриста, не знающего языка страны, а вот чего-то большего, решения каких-то реальных задач и т. п., увы, ожидать от него не стоит...