Семантическое сжатие. Вторая IP-революция

Главный результат IP-революции - видеонаблюдение стало частью глобального ИТ-пространства. Что это означает? До революции видеонаблюдение являлось глубокой технологической и информационной "провинцией", работающей на нишевые рынки, главным из которых является рынок безопасности. Это, возможно, обидно слышать, но это так. Это определяется и самим объемом рынка, структурой и объемом инвестиций, в том числе и венчурных, в область видеонаблюдения. Зачем туда вкладывать средства? - Рынок ограниченный, серьезных инноваций нет. Все используемые прорывные технологии.

Я.Я. Петричкович
Директор НПЦ "ЭЛВИС", д.т.н.

Конечно, в словах "антиреволюционных" скептиков много правды. Да только любая революция всегда питается энергией будущего. Сам факт свершения революции зависит совсем не от первых рыночных успехов, а от осознания революционных процессов большинством участников рынка. Так вот, первая IP-революция свершилась! II форум All-over-IP - тому доказательство.

Первая IP-революция

Буквально на наших глазах произошла первая IP-революция в видеонаблюдении. Это случилось в два этапа:

1.  Компьютер стал базовым элементом систем видеонаблюдения, прежде всего, элементом формирования новых интерфейсов отображения и хранения информации, а также управления ею. Компьютерные системы назвали цифровыми, что только отчасти соответствовало действительности, так как собственно видеоинформацию поставляли обычные аналоговые видеокамеры по обычным аналоговым каналам.

2.  Появилась IP-камера. Собственно, при появлении компьютера в системе видеонаблюдения вся система стала сетевой, и произошло это намного раньше, чем появилась сетевая камера. Ключевой технологией для IP-камеры, да и для всего IP-видео, стало сжатие видеоинформации. Реализация стандартов сжатия MPEG-2,MPEG-4,H.264 в виде отдельных микросхем-кодеков позволила перевести IP-камеры из разряда дорогостоящих игрушек в доступные массовые изделия. Стоит обратить особенное внимание именно на этот знаменательный факт - появление специализированных микросхем-кодеков и, как следствие, относительно недорогих IP-камер.

Последствия любой революции неоднозначны. Некоторые аналитики вообще отрицают сам факт такой революции, упирая на то, что принципиальных преимуществ IP-технологии не имеют, да и само развитие IP- видеонаблюдения — естественная эволюция путем заимствования созданных в других областях и по другому поводу технологий. Мол, экономическая целесообразность применения таких технологий сомнительна, последствия использования IP-технологий неоднозначны были созданы совсем для других областей и массовых рынков. Датчики - для фото- и видеокамер, технологии сжатия - для цифрового телевидения и тех же фото- и видеокамер. Уже не говоря про компьютеры и сетевые технологии. Создание тех или иных интерфейсов для компьютерных систем видеонаблюдения признать серьезными технологическим прорывами трудно; требуемые вложения по мировым меркам ничтожны, что и подтверждается присутствием на рынке огромного количества небольших компаний с малоотличимыми даже на второй взгляд системами.

Создание IP- видеонаблюдения породило принципиально новую ситуацию, которую далеко не все осознали в полной мере. Изменилось позиционирование видеонаблюдения. Возможность увидеть происходящее в любой точке земного шара с помощью обычных компьютерных технологий постепенно приводит к осознанию того факта, что камера является не только электронным биноклем для охранника, но и новым зрением человечества. Это выводит видеонаблюдение на новые рынки, объем которых в десятки раз превосходит нынешний. Появилось и стало утверждаться направление бизнес-мониторинга. Экологический мониторинг, образование, контроль технологических процессов, контроль городского социума и многие другие применения стали возможны с появлением и становлением IP- видеонаблюдения. Надо сказать, что первым коммерческим изделием IP- видеонаблюдения были отнюдь не IP-камеры, но Web-камеры. Наличие высокопропускного интерфейса USB, дешевых датчиков изображения с малым разрешением даже при отсутствии дешевых микросхем кодеков позволило создать относительно недорогое устройство для ввода изображения в компьютер с его сетевыми возможностями. Последствия мы наблюдаем в виде видеоконференций, сайта YouTube и проекта Natal от Microsoft по созданию видеоинтерфейсов для компьютерных игр. Так что плоды первой IP-революции уже созревают и обещают быть сладкими.

Вторая IP-революция

Ну вот! Не успели осознать факт первой IP-революции, как уже надо думать о второй, а зачем? А затем, что первая не разрешила основное противоречие существующих систем видеонаблюдения, но породила собственные проблемы, сдерживающие развитие IP- видеонаблюдения. Основной проблемой существующих систем видеонаблюдения (аналоговых, цифровых, IP) является необходимость подключить практически к каждой камере мозг человека - как правило, оплачиваемый, иначе система видеонаблюдения становится либо бессмысленной, либо ограничивается только свойствами архивирования огромных потоков информации (в нынешней интерпретации понятия "Информация") без возможности обработки в реальном масштабе времени. Оптимисты и оптимизаторы могут возразить, что человек способен наблюдать за изображением сразу от нескольких камер. Лукавство. Если камеры установлены на безлюдных складах и в ночных офисах, то это в принципе возможно, хотя и маловероятно уже по другим причинам: человек не способен долго удержать внимание при отсутствии событий. А насыщенные сцены быстро вводят любого человек в вялый ступор. Современный человек -плохой наблюдатель. Больше чем с одной камерой он не справляется. У нас всего два глаза (одна стереокамера), и это не случайно. Если бы мозг мог обработать больше, то Господь (или Дарвин) снабдил бы нас не одной парой глаз. Следовательно, покупая и устанавливая дешевую китайскую камеру за 50 долларов США, необходимо подключить к ней оператора стоимостью как минимум 500 долларов в месяц. Иначе эффективность всей системы будет стремиться к нулю. Не могу сказать, что это базовое противоречие не заметили. Заметили, но недавно, хотя мы начали говорить об этом много лет назад. Вот и в Москве задумались: зачем нужны и чем занимаются 8 тыс. операторов городского видео на блюден и я и какова эффективность всей этой грандиозной эпопеи? Задумались и в Великобритании, где подсчитали, что на 1 тысячу установленных камер видеонаблюдения удается раскрыть не более одного преступления в год (CCTV Report). Даже если предположить, что эти преступления не могли быть раскрыты без камер, то экономика получается печальная: обслуживание одной камеры стоит уж никак не менее 1 тыс. долларов в год, а средняя цена преступления намного меньше 1 млн долларов, так как совершить на улицах преступление "дороже" кражи автомобиля весьма непросто. Налицо экономическая пропасть в два порядка (затраченные деньги и полученные результаты).

К сожалению, IP- видеонаблюдение не решает назревшую "проблему мозга", а только наделяет саму камеру свойствами гаджета (непонятно зачем, но престижно и модно). Прозрение у пользователей наступает стремительно. Их не устраивает соотношение 1 камера = 1 мозг. Именно это соотношение и является главным ограничителем рынка. Если его не изменить, то все успехи IP- видеонаблюдения сведутся к перераспределению медленно растущего рынка обычного видеонаблюдения. Незачем тратить деньги. Но помимо неразрешенного основного противоречия, IP- видеонаблюдение породило и новые технические проблемы. Их довольно много:

1. Большие потоки цифровой информации. Иллюзия потребителя, которую молчаливо поддерживают поклонники IP, состоит в том, что, купив IP-камеру и подключив ее к обычной сети, они решают свои проблемы с видеонаблюдением без прокладки дополнительных кабелей. Эта иллюзия подвергается жестокому испытанию, когда пользователи (или им) пытаются подключить несколько камер, так как при этом вся сеть стремится к зависанию, а скудное видео, которое удается через нее протиснуть, вызывает любые эмоции, кроме восторга от новых технологий. Скоро обнаруживается, что надо либо умерять аппетиты, либо прокладывать специальную сеть для видеонаблюдения. Попутно выясняется, что совокупные затраты на такую IP-систему сильно превосходят затраты на обычную, которая зачастую дает намного лучшее качество изображения. Ну а что если потребителя уговорили на удаленный мониторинг чего-нибудь важного (удаленной стройки)? Тогда готовьтесь каждый месяц объяснять бухгалтеру, зачем надо платить такие огромные деньги за Интернет, при этом наблюдая малоинтересные сцены обычного российского строительства. К сожалению, при использовании нынешнего уровня сжатия видеопотока (20-30 раз) проблема просто неразрешима. Рассуждения энтузиастов, только что познавших прелести приобщения к мировой ИТ-ин-дустрии, о том, что "все равно оптику тянут, вот мы ее и загрузим своим видео", не работают. Просто контент в системах видеонаблюдения малоинтересный. Ведь все сети и Интернет загружены очень нужной кому-то информацией: письмами друзьям, фотографиями любимых собак, детей и женщин, бухгалтерскими отчетами, музыкой, фильмами лучших голливудских режиссеров. А живые картины удаленных строек и пустых складов явно не могут соперничать по художественной ценности даже с малобюджетными голливудскими поделками. К тому же даже для конкретного потребителя в роликах IP-видео-наблюдения настолько "мало зерен и так много плевел", что трафик, как правило, не стоит затрат на него. Гомеопатические пропорции получаются между грандиозным потоком битов и содержанием. Все это не значит, что потребителей не будет совсем, просто их маловато для массового рынка.

2. Сенсоры высокого разрешения. А тут еще безжалостная промышленность, заточенная на цифровые камеры и видеокамеры, каждый год подбрасывает проблемы в виде CMOS-датчиков в n-дцать мегапикселей, а телевидение транслирует HDTV, да и компьютерные дисплеи не отстают. Народ привыкает к качеству изображения, и видеосистемы даже с 4 CIF уже кажутся недостаточными. Появляются IP-камеры с разрешением 1 и даже 3 мегапикселя и сразу же... усугубляют проблему под номером 1. То есть умножают цифровой поток гомеопатической информации. В рамках существующих подходов к сжатию видеоинформации проблема неразрешима. Попытка ее решить порождает лишь дорогостоящие игрушки (в современном русском новоязе - "понты").

3.  Новые возможности видео. А ведь помимо разрешения новые сенсоры дают возможность получать видеопоток с размерностью в сотни кадр/с. Интересная возможность для анализа многих быстротекущих процессов реального времени, таких как автомобильные аварии или взрывы. Какие прекрасные перспективы появляются у систем видеонаблюдения! А стерео? Но все эти возможности приводят к кратному увеличению цифрового потока в сети и наталкиваются на проблему пункта 1.

Налицо революционная ситуация: не разрешено основное противоречие систем видеонаблюдения (одна камера = один мозг) и перекрыты практически все интересные векторы развития систем (а значит, и рынков) ограничением пропускной способности сети из-за больших цифровых потоков, порождаемых IP-камерами. Значит, неизбежна вторая IP-революция, которая призвана разрешить основное противоречие видеонаблюдения, снять технические ограничения, налагаемые возможностями сжатия информации, и разблокировать векторы развития и новые рынки. Возможна ли такая революция? Возможна. Имя ей - "Семантическое сжатие".

Семантическое сжатие

Как было сказано выше, основным завоеванием первой революции было включение видеонаблюдения в общее глобальное ИТ-пространство, в том числе в технологическое, научное и даже терминологическое. Дело в том, что видеонаблюдение как нишевая область, развиваясь несколько в стороне от столбовых направлений (ИТ, связь, компьютеры и т.д.), неизбежно породило свою локальную теорию, собственную терминологию и даже своих "живых классиков". Некоторая провинциальность нашей отрасли, к сожалению, начинает сдерживать ее развитие, так как не позволяет взглянуть на проблемы с другой точки зрения, например с точки зрения более общих научных теорий. Возможно, современные подходы к решению проблем упростятся и приобретут большую общность.

Например, если базовое противоречие систем видеонаблюдения сдерживает развитие рынка, то есть ли попытки его разрешения? Да, есть. Называются они в нашей отрасли видеоаналитикой. Возможно, это не самое удачное название и оно не отражает всех аспектов данной технологии, но уже прижилось. Его смысл состоит в том, что некая электронная система (для общности назовем ее компьютером) автоматически, без участия человека, анализирует видеопоток и находит там некоторую информацию, интересную потребителю. Находит с необходимой степенью достоверности и не отвлекает человека всякими глупостями (ложными тревогами). На человека ложится обязанность принимать решения. Человек - плохой наблюдатель, но решения принимает прекрасно: быстро, оптимально и надежно. При этом есть серьезные основания думать, что оптимальность решений мало отличается у министра и кухарки. Просто потому, что человек -наилучшая пока машина для принятия решений. В модели видеоаналитики предполагается, что количество информации, действительно нужной потребителю, во много раз меньше, чем в самом видеопотоке. Правильное, кстати, предположение.

Вот, казалось бы, и славно. Посадить несколько программистов, написать или переписать пару алгоритмов, и базовая проблема решена, путь к развитию открыт.

Вот тут-то и следует взглянуть на проблему шире, чтобы понимать ее размеры и не строить иллюзий. Посмотрим, например, на видеоаналитику, да и на видеонаблюдение в контексте теории информации (теперь уже можно - ведь мы часть ИТ-пространства). Теория рассматривает несколько подходов к определению информации: структурный, статистический, семантический. Плодами первых двух подходов мы вовсю пользуемся. Например, стандарты типа MPEG используют корреляционные свойства изображений и некоторые модели человеческого восприятия. Практически кодек MPEG - это фильтр высоких частот. Человеческий глаз вполне "прощает" размытые границы и отсутствие мелких деталей -убрать их из спектра частот и перекодировать. Кадры отличаются мало - тоже можно передавать только изменения. Все это дает нам те самые 20-30 раз. Можно и в 100 раз, но тогда родную бабушку не каждый узнает. А что же такое семантический подход к информации? Это воплощенный здравый смысл. Информация рассматривается с точки зрения полезности для конкретного потребителя. Если вас не интересуют результаты верблюжьих бегов в Йемене, то лично для вас такая информация является шумом. Хотя многие люди просто с ума по этим результатам сходят. Интересен сам этот информационный дуализм: информация и есть, и нет ее одновременно, и зависит это от наблюдателя (просто какие-то параллели возникают с квантовым миром и теорией относительности). Если бы нам довелось сжимать поток информации, то ненужную информацию мы бы просто выбросили, мы вообще этим каждый день занимаемся. Это первый, но уже огромный шаг к семантическому сжатию информации - просто безжалостно выбросить ненужное. Следующим шагом является кодирование. Ведь часто из всего потока разнородной информации нас интересует только один бит: "пришел, увидел, победил". Это знаменитое выражение можно еще больше сжать: останется "победил". Так как для того, чтобы победить, надо наверняка прийти и увидеть, а первые два слова - просто стилистическое украшательство для истории.

Язык является прекрасным инструментом семантического сжатия. Мы умудряемся грандиозный поток разнородных сообщений, в том числе и видео, "упаковать" с помощью языка в совершенно крошечный пакет информации. Как этот механизм сжатия работает, можно судить, сравнивая объем фильма (гигабайты), аудиокниги (сотни мегабайт) и текста (килобайты) для одного и того же произведения (например, сказка о Гарри Потере). Так как вся эта информация ориентирована на человека, то трудно сказать с полной достоверностью, какой из источников является субъективно более информативным. Какое все это отношение имеет к проблемам видеонаблюдения? Самое прямое. В отличие от фильмов, где информацией в семантическом смысле является именно изображение, целью функционирования видеосистемы часто является не собственно изображение, а определение некоторых содержательных с точки зрения наблюдателя фактов (подвижные предметы, типы объектов, номера автомобилей, брошенные на асфальт окурки и т.д.). Собственно видеоаналитика в контексте теории информации и является частным случаем семантического сжатия информации. Степень семантического сжатия может достигать многих порядков, что позволяет выйти за рамки корреляционного сжатия и решить проблемы пропускной способности сетей. Но проблема очень сложная. Достаточно сказать, что проблема семантического сжатия является частью таких научных направлений, как искусственный интеллект, распознавание образов, компьютерное зрение и т.д. Над этими проблемами работает гораздо больше ученых и инженеров, чем в области видеонаблюдения, да и объем инвестиций тоже на порядки выше. Тем не менее результаты пока не впечатляют. Специалисты в области видеонаблюдения могли обратить внимание, что даже решение простейшей с точки зрения распознавания образов задачи определения движения (детектор движения) потребовало двух десятков лет работы многих компаний, но и сегодня, увы, надежно работающие в различных внешних условиях детекторы движения можно сосчитать по пальцам одной руки. Ох, неспроста это!

Несмотря на все сложности, именно семантическое сжатие видеопотока (видеоаналитика) является знаменем второй IP-революции. Однако на этом пути уже не будет таких мощных союзников, как телевидение и видеокамеры, чьими результатами можно было многие годы беззастенчиво и бесплатно пользоваться.

В этой точке пути сильно расходятся. Технологии семантического сжатия для IP- видеонаблюдения надо будет создавать самим и совсем с другими союзниками.

Постреволюционный мир

В ходе революции будет создана IP-камера с видеоаналитикой, что позволит решить основную проблему видеонаблюдения: один мозг сможет полноценно обслуживать, по крайней мере, на порядок больше камер, чем при обычном видеонаблюдении. В сеть от видеоаналитической камеры будет поступать поток информации после семантического сжатия (нужная потребителю информация после автоматического анализа видеопотока и, при необходимости, иллюстративные фрагменты видеопотока, непосредственно связанные с событиями). Что приведет к увеличению коэффициента сжатия до 100-1000 и позволит решить все проблемы развития (сенсоры высокого разрешения, стерео и т.д.). Для этого необходимо решить очень сложные проблемы создания комплексов алгоритмов видеоаналитики. Именно сложных комплексов, так как мечты об одном нейронном супералгоритме весьма наивны. В немногих реально существующих в настоящее время видеоаналитических системах функционируют в сложной взаимосвязи десятки различных алгоритмов, и создавались такие комплексы многие годы. Как обычно, в дни, когда общественная потребность определяется окончательно, на рынке происходит массовый вылет "обманок" - компаний, анонсирующих принципиально новые технологии, о которых они узнали из Интернета, и даже последние две недели над ними усиленно работали. С понятной целью - попытаться "откусить" часть рынка, на который они уже опоздали навсегда. Первое время неподготовленный потребитель будет просто погребен под ложными целями. Но потом мир очистится и станет другим. Для того чтобы аналитическая видеосистема стала IP-системой, необходимо весь видеоаналитический комплекс алгоритмов и алгоритмы обычного сжатия поместить в камеру и повесить этот суперкомпьютер на столб! Создание контроллера такой камеры - весьма непростая задача. Рабочие образцы подобных камер уже существуют, созданы они либо на основе компактных персональных компьютеров, либо на различных сигнальных процессорах и FPGA. Весьма громоздкие и неоптимальные вычислительные платформы приводят к тому, что стоимость одного канала не опускается ниже 2-3 тыс. долларов США. Большие шансы на успех будет иметь компания, которая создаст специализированную программируемую микросхему для поддержки функций видеоаналитики. Это позволит резко снизить стоимость нового поколения IP-камер и захватить рынок. Такие микросхемы очень сильно отличаются от обычных кодеков для сжатия видеоизображения, так как должны поддерживать принципиально другие классы алгоритмов. В ближайшие два-три года это произойдет, и тогда можно будет обсуждать последствия второй IP-революции. Есть большая вероятность, что такая микросхема и такая камера будут созданы в России.

Источник: Журнал "Системы безопасности" #5, 2009