Мы используем cookie-файлы. Оставаясь на сайте роботов, человек соглашается на использование cookie-файлов.
Подробнее — в «Условиях использования cookie-файлов».

Чему научились камеры в смартфонах за прошедший год и как это повлияет на будущее мобильной съёмки

Комментарии специалистов из ABBYY, Sloy, Redmadrobot, «ВКонтакте» и «Одноклассников».

Синтез «софта» и «железа» помог смартфонам заменить для большинства людей фотоаппарат. Уже сегодня на телефонах объективы «видят» в темноте, снимки улучшает искусственный интеллект (ИИ), а дополненная реальность превращает камеру в мощный инструмент, который обещает в будущем поменять наше взаимодействие с окружающим миром.

IKEA

Redmadrobot спросил у специалистов по работе с ИИ из ABBYY, Sloy, Redmadrobot, «ВКонтакте» и «Одноклассников», почему объективов с каждым годом становится только больше, как работают алгоритмы нейросетей для обработки снимков и какие возможности для мобильного творчества появятся в наших руках в ближайшем будущем.

Слаженная работа объективов с помощью ПО

Камера в смартфоне — самая популярная в мире. Это стало основной причиной, почему производители тратят львиную долю усилий на апгрейд фото- и видеорежимов. В 2018 году смартфонов продали в сто раз больше, чем камер — 1,4 млрд штук против 15 млн.

CIPA, statista.com

По словам руководителя отдела мобильных продуктов ABBYY Игоря Акимова, камеры современных смартфонов унаследовали возможности от профессионального оборудования.

Например, они могут снимать с помощью разных объективов (широкоугольного, портретного, макро и других), используют лёгкий зум, быстро наводят фокус, умеют делать боке и так далее.

Игорь Акимов
руководитель отдела мобильных продуктов ABBYY

Даже чтобы отсканировать и распознать данные из паспорта, посадочного талона или визитной карточки, бывают полезны несколько камер.

Например, при съёмке визитки в ABBYY Business Card Reader приходится подносить смартфон близко к документу, на фото из-за этого часто видно тень от руки.

Используя «портретную» двойную камеру, мы можем получить более качественную картинку с меньшими искажениями. А это значит, что данные можно извлечь быстрее и без ошибок.

Как правило, лучше всего система из нескольких камер работает в тех случаях, когда приложение для камеры создаётся под конкретную модель смартфона. Так, например, поступает компания Apple.

По словам Android-разработчика из Redmadrobot Ильи Войцеховского, одна из главных сложностей в использовании камеры в Android — большое количество производителей телефонов. У каждого свой модуль камеры со специальным драйвером, из-за чего смартфон может вести себя непредсказуемо.

Илья Войцеховский
Android-разработчик в Redmadrobot

У некоторых устройств при фокусировке может отработать вспышка. Или «фонарик» может выключиться после снимка. Приходится добавлять обработки, чтобы везде работало более-менее одинаково.

Например, в Nexus 5X, камера которого перевёрнута (видимо, с целью уместить всё на плате), иногда фото и видеосъёмка происходят вверх ногами. Это заставляет делать дополнительные проверки на совпадение угла поворота камеры и телефона. Сам столкнулся с этим явлением, когда сканировал кредитную карту в популярных приложениях.

Другая сложность заключается в том, что мы не всегда имеем доступ к API, который использует производитель, а значит, и к некоторым возможностям камеры. Но это может поменяться благодаря новым требованиям Android.

Работать в одной связке камерам помогает API — интерфейс прикладного программирования, упрощающий разработку ПО. По словам разработчика Sloy Станислава Гилевича, в iOS API камер обновляют каждый год.

Станислав Гилевич
разработчик Sloy

В iOS API камер за последние несколько лет коренным образом не менялось, но с каждым годом добавляют новые интересные мелочи. В этом году добавили возможность снимать видео с нескольких камер одновременно.

А на платформе Android доступ через API к нескольким камерам для разработчиков открыли в 2018 году, начиная с операционной системы "Pie".

Руководитель команды Android-разработки «ВКонтакте» Олег Смирнов рассказывает, что Google выпустила уже три версии API, и в каждой есть свои ошибки, но это верный способ помочь разработчикам, работающим с камерами.

Олег Смирнов
руководитель команды Android-разработки «ВКонтакте»

Google давно сделала API для работы с камерой. Даже две версии — Camera и Camera2. Во второй они хотели учесть ошибки первой, но там появились свои. Разработчики под Android до сих пор используют оба варианта в своих приложениях.

В 2019 году Google представила третье API — CameraX. Правда, этот API ещё в альфа-версии. Компания хочет максимально привлечь производителей Android-устройств развивать его — они могут распространять свои фото и видео-эффекты в рамках этого API.

Я очень надеюсь, что нам не придётся одновременно поддерживать все три варианта для работы с камерой, и Google сделает всё, чтобы упростить жизнь разработчикам.

Несмотря на ошибки, плюсы от API есть уже сейчас. Если раньше разработчики получали доступ только к одной камере, то теперь могут работать со всеми, что установлены в смартфоне. Инструменты для работы с несколькими камерами открывают большие возможности для улучшения пользовательского опыта.

До и после открытия API для доступа к нескольким камерам. Medium

Например, с помощью API разработчики расширяют возможности работы с широкоугольной селфи-камерой на некоторых Android-смартфонах. Они встраивают возможность «отдалить» масштаб фото и вместить больше людей на снимке, с помощью переключения фронтальной камеры — с обычной на широкоугольную.

Илья Войцеховский
Android-разработчик в Redmadrobot

Другая популярная вещь — это измерение глубины. Получив доступ к двум камерам, можно уже точнее оценивать глубину предметов. Самое распространённое применение — портретный режим или боке.

Слаженная работа нескольких камер проявляет себя не только во время фото, но и в видео. Александр Кондрашов — тревел-блогер, и каждый день работает с камерой. По его словам, он снимает на разные DSLR и экшен-камеры, такие как GoPro 8. Но несмотря на свой богатый арсенал, блогер часто снимает на iPhone.

Александр Кондрашов
предприниматель, инвестор, тревел-блогер

Последний iPhone сильно удивил в плане качества съёмки. Во-первых, широкоугольный объектив — стало очень удобно снимать. Также у записи на выходе очень хороший звук. И зум есть, хоть он и цифровой, но его вполне хватает, чтобы что-то снять. А ещё у камеры хорошая стабилизация.

Если человек хочет начать снимать блог или просто что-то снимать, достаточно купить себе последний iPhone. Ну и микрофон. Мы сейчас живём в эру, когда для того, чтобы стать контент-мейкером, не нужны операторы и куча техники дорогой, можно просто купить смартфон и попробовать себя в роли видеооператора или блогера.

Про универсальность смартфона рассказывает и менеджер продукта сервиса «Фото» в «Одноклассниках» Артём Алимов.

Артём Алимов
менеджер продукта сервиса «Фото» в «Одноклассниках»

По мере развития смартфонов, «железо» камер в них также стремительно совершенствуется. Вместо десятков настроек выдержки, диафрагмы и светочувствительности, сейчас мы можем без потери качества получить такой же результат за пару кликов.

Теперь, когда у любого человека в кармане полноценный фотоаппарат, паттерны поведения в сети меняются вслед за ростом производительности камер. Каждый может стать профессиональным фотографом, не приобретая при этом дорогостоящего оборудования.

При создании видео, сегодня наибольшее внимание уделяют цифровой стабилизации, замедленной съёмке в 240 кадров в секунду, и скоростной съёмке.

​ Apple

Искусственный интеллект и компьютерное зрение

По словам главы Redmadrobot Data Lab Юрия Чайникова, первые проявления ИИ в фотосъёмке наблюдались ещё в цифровых фотоаппаратах.

Юрий Чайников
генеральный директор Redmadrobot Data Lab

В те далёкие годы, автофокус на лице и красные глаза, были реальной проблемой. Вычислительные мощности процессоров были на порядки меньше и работающие сегодня методы были недоступны.

Приходилось выкручиваться. Каскад Хаара (способ распознавания классов объектов с большой скоростью работы — Redmadrobot) — как вычислительно дешёвый способ определения лиц для автофокуса, был в своё время прорывом.

Качество съёмки в современном телефоне определяется не только качеством и количеством камер, а в значительной степени силой и разнообразием алгоритмов обработки.

Пример работы Каскада Хаара YouTube

Одновременная работа двух-трёх объективов в смартфоне и анализ с помощью ИИ позволяет сегодня определять не просто лица, но и замечать на них даже микродвижения.

По словам Олега Смирнова, несколько лет назад запуск ИИ на мобильном телефоне казался фантастикой, а сегодня технология перевернула возможности постобработки фото и видео.

Олег Смирнов
руководитель команды Android-разработки «ВКонтакте»

Google и Apple сделали свои удобные библиотеки для работы с ИИ. Запускаются они в несколько десятков строк кода.

Уже сегодня смартфоны индексируют с помощью нейросетей наши фото, подобно поисковику Google. Информации много, фото много, а ИИ помогает всё структурировать.

Один из примеров «улучшения» фото при постобработке — режим Deep Fusion в iPhone. Он работает как пиксельная доработка и «дорисовывает» микро-контраст изображения, понимая, где это делать нужно, а где — нет.

Кроме Deep Fusion, в 2019 году Apple анонсировала ещё два режима съёмки:

  • Smart HDR. HDR существует достаточно давно, он позволяет делать фотографии c оптимальной яркостью. Приставка Smart означает, что телефон определяет лица и подстраивает нужный уровень яркости кожи.
  • Night Mode. Последние модели iPhone научились делать хорошие фотографии в темноте.

По словам руководителя iOS-разработки в Redmadrobot Ивана Вавилова, производителям смартфонов проще вложиться в программное улучшение фото, чем пытаться добавить железо уровня профессиональных камер в ограниченный размер корпуса. Поэтому, в последнее время сильно развивается специализированное ПО.

Иван Вавилов
руководителя iOS-разработки в Redmadrobot

Самое заметное из того, что добавилось в iPhone в 2019 году — это третья камера. Теперь можно сделать широкоугольное фото. На предыдущей модели был доступен двухкратный зум, теперь, с учётом широкоугольной камеры — четырёхкратный.

Все алгоритмы работают похожим образом — делается несколько фотографий с разными параметрами, а потом с помощью алгоритмов ML (machine learning — Redmadrobot) устраняются недостатки, фото на выходе состоит из лучших частей каждого из входных.

То есть, сегодня новшеств больше в программной прослойке, нежели в аппаратной. Хотя от широкоугольной камеры вряд ли кто-то откажется.

Для разработчика поменялось немного — добавили возможность одновременной работы двух камер, обработку портретных фото для отделения волос, кожи, зубов, что понадобится для наложения эффектов, масок на отдельные части лица.

По словам Ильи Войцеховского, большой прорыв в мобильной фотографии сейчас происходит благодаря вычислительной фотографии.

Например, большой популярностью пользуется техника комбинирования кадров. Для этого делается целая серия кадров, в каждом из которых немного меняется какой-то параметр, например — экспозиция. Так рождаются HDR (high dynamic range) фотографии.

Илья Войцеховский
Android-разработчик в Redmadrobot

Интересный пример комбинирования кадров — это Super Res Zoom от Google. Снято с «приближением» фото обычно получается размытым, потому что не во всех камерах используется оптическое увеличение. Используя технику комбинирования кадров и модель машинного обучения, можно сделать более чёткий снимок на дальнем расстоянии, даже с обычными линзами.

Для этого камера снимает ряд кадров, каждый из которых имеет некоторый сдвиг (рука человека всё-таки немного двигается). Затем модель выбирает образцовый снимок, на основании которого будут дополняться детали.

Далее, если модель уверена, что деталь корректно соотносится с объектом на исходном снимке, и при этом нет искажений от наложения кадров, то они совмещаются на одном фото. Это позволяет избежать размытия от движения, раздваивания объектов или неправильно склеенных регионов фото.

​Пример работы Super Res Zoom

Чётких снимков помогает добиться не только Super Res Zoom, но и технология OIS (optical image stabilization) — оптическая стабилизация, при которой быстрое движение камеры компенсирует небольшие движения смартфона. Это помогает сделать более долгую выдержку без размытия.

В некоторых смартфонах на Android проблему с размытием решают с помощью HDR+ от Google — делают ряд снимков с коротким временем экспозиции. Затем снимки комбинируются в одно фото.

Ночной режим также строится на HDR+, но с более долгой выдержкой. Именно поэтому это занимает большее время и часто на экране смартфона появляется сообщение о том, что нужно держать камеру неподвижно, или поставить ее на штатив.

Илья Войцеховский
Android-разработчик в Redmadrobot

Также для ночной съёмки у Google есть технология night sight, которая решает интересную проблему — ночью сложно вычислить, какого цвета должно быть итоговое фото.

Для этой задачи задействовали машинное обучение (так называемый “learning based auto white balance” — автоматический баланс белого на основе машинного обучения), обученная модель сама подбирает наиболее подходящие цвета.

Результатом может быть, например, менее “жёлтое” фото — больше похожее на то, что видит человеческий глаз.

Чтобы научить ИИ «улучшать» фотографии, разработчики используют два подхода: обучение «с учителем» и обучение «без учителя».

Юрий Чайников
генеральный директор Redmadrobot Data Lab

Например, можно взять снимок с высоким разрешением, «огрубить» его до более низкого разрешения, а потом объявить его «источником», а хороший — целью работы нейросетки. И тренировать её на таких парах, пока не научится. Это обучение «с учителем».

Аналогичным образом — когда мы хотим сделать алгоритм, превращающий снимок в более приятную версию. Здесь нам приходится так или иначе спрашивать реальных людей, что им нравится больше, а что меньше.

ИИ помогает не только «улучшать» фото, но умеет и полностью менять его. В этом случае применяется компьютерное зрение. Из мощных инструментов для работы с этой технологией, Игорь Акимов выделяет API от Huawei или Apple, c помощью которых создают приложения для самых разных задач.

Игорь Акимов
руководитель отдела мобильных продуктов ABBYY

Сегодня есть инструменты, с помощью которых пользователи могут «накладывать» макияж неотличимый от реального (Voir), замазывать некрасивый фон (например, для конференц-звонка), увеличивать разрешение фото в 9 раз без потери качества, убирать с фотографии лишние объекты, и так далее.

ИИ помогает и в улучшении продуктивности. В последней версии ABBYY FineScanner мы научились автоматически находить в галерее изображения только с нужным текстом, не учитывая все лишние картинки. Например, найти изображение паспорта в большом документе, при необходимости можно всего несколько секунд.

Дополненная реальность через камеру смартфона

Развитие приложений с дополненной реальностью (AR) — одна из причин, почему количество камер в смартфонах увеличивается, а их устройство становится сложнее.

Станислав Гилевич
разработчик Sloy

Появился тренд на 2–3–4 камеры в смартфоне. Они позволяют определять глубину кадра, но менее точно, чем это делают камеры Time-of-Flight (ToF). Последние позволяют гораздо точнее определять глубину кадра, и создавать огромное количество эффектов.

Про ToF-камеры рассказывает и Игорь Акимов. По его словам, в будущем они станут окном в мир дополненной реальности.

Игорь Акимов
руководитель отдела мобильных продуктов ABBYY

Для улучшения возможностей AR нужны «камеры глубины», например, Time-of-Flight, которые измеряют время прохождения отражённого света и строят «карту глубины» местности.

Они позволяют с одного наведения создавать 3D-карту пространства, а дальше отдавать её и внутри приложения генерировать в ней дополнительные «объекты», полностью погружая пользователя в новый мир.

Apple

Пока что ToF-камеры установлены только в нескольких устройствах на Android (в основном для улучшения размытия в портретном режиме), а по слухам, в 2020 году их поставят и в iPhone.

Игорь Акимов
руководитель отдела мобильных продуктов ABBYY

Мы в ABBYY тоже экспериментируем с дополненной реальностью. На смартфоне использовать такие технологии не всегда удобно, но при наличии хороших AR-очков с качественными камерами и ToF-сенсорами открываются новые возможности: от быстрой проверки паспорта «в полях», до работы с полноценными виртуальными рабочими столами в дороге.

«Скорее всего можно будет точнее размещать виртуальные предметы мебели при планировании комнаты или измерять размеры ручной клади через приложение», — рассуждает об использовании AR Илья Войцеховский. По словам Олега Смирнова, AR хоть и медленно, но уверенно набирает популярность.

Олег Смирнов
руководитель команды Android-разработки «ВКонтакте»

3D-эмодзи, виртуальные маски, распознавание объектов реального мира. В последнее время появилось много стартапов, которые выжимают из камер смартфонов всё. Больше сенсоров — больше информации, а значит — новые технологии можно сделать точнее.

Что нас ждёт в будущем

По словам Александра Кондрашова, сегодня смартфоны снимают уже настолько хорошо, что в скором времени полностью займут место цифровых камер.

Александр Кондрашов
предприниматель, инвестор, тревел-блогер

Думаю, что сейчас рынок идёт к тому, что останутся только смартфоны и суперпрофессиональные камеры, такие как RED. Сегодня смысла покупать отдельную камеру никакого нет. Единственное, что неудобно — могут позвонить и съёмка прервётся. Но есть авиарежим — и можно спокойно снимать.

«Я считаю, что это не взаимозаменяемые вещи, а взаимодополняемые», — рассуждает о камерах и смартфонах Олег Смирнов.

Олег Смирнов
руководитель команды Android-разработки «ВКонтакте»

Камера смартфона для быстрого, современного мира. Сделать снимок и выложить его в социальную сеть можно за пару кликов — в этом большой плюс смартфона.

Но, в то же время, я вижу рост уличной фотографии, и многие предпочитают снимать на классические зеркальные камеры. Инструментов для самовыражения должно быть много!

Игорь Акимов не говорит, выживут ли в будущем камеры, но рассуждает, что оборудование и ПО продолжат развиваться в одной связке.

Игорь Акимов
руководитель отдела мобильных продуктов ABBYY

В будущем, благодаря эволюции «железа» и «софта», фотографии и видеоролики будут всё дальше отдаляться от реального мира. Они продолжат улучшаться под наши потребности прекрасного, и будут решать всё больше задач без нашей помощи (например профессионально ретушировать фото — Redmadrobot). Но кажется, что никто и не против.

По словам Станислава Гилевича, будущее за 3D-технологиями, и в ближайшем времени трёхмерное пространство станет таким же обычным делом, как фотографии сегодня.

Станислав Гилевич
разработчик Sloy

Через пару лет, по фотографиям можно будет воссоздать всю сцену в 3D, и походить по ней, будто находясь на месте съёмок. Сегодня мы находимся на новом витке развития технологий для фото- и видеосъёмки. И качество работы этих технологий может отличаться в различных условиях.

Нам предстоит провести грань между алгоритмами, что уже готовы к массовому использованию, и теми, которые являются по сути «демками» и работают в ограниченных условиях. Но мы уверены, что в будущем технологии постобработки изображений с помощью нейронных сетей станут неотъемлемой частью создания фото и видеоконтента.

«Давайте я вам лучше приведу несколько примеров, которые выглядят как фантастика, но являются реальными, на основе уже реализованных алгоритмов», — рассуждает будущем технологий Юрий Чайников.

Юрий Чайников
генеральный директор Redmadrobot Data Lab

Приложение, которое по минутному видео с лицом человека определяет сердечный пульс. Человеческий глаз не в силах заметить микроколебания головы и пульсацию цвета кожи при каждом ударе сердца, а алгоритм может.

Приложение, которое «на лету» переводит надписи с одного языка на другой, заменяя их изображение непосредственно в видеопотоке.

Приложение, которое с помощью камеры определяет, сколько понадобится коробок для переезда.

По мнению Артёма Алимова, ежегодное улучшение камер и создание всё более мощного ПО в смартфонах, положительно скажется на развитии бизнеса и сделает способы его продвижения более эффективными.

Фотографии в соцсетях перестали быть просто дополнением к текстовой публикации. Из статичных объектов они превратились в «живые». Различные инструменты к фотографиям (маски, стикеры, элементы геймификации) стали нормой и позволяют более полно выразить эмоции людей. Это создает огромные возможности для персонализации контента, и мы планируем развивать это направление.