Вход |  Регистрация
 
 
Время электроники Суббота, 23 сентября
 
 


Это интересно!

Новости


Обзоры, аналитика


Интервью, презентации

Ранее

Преимущества электросети как среды передачи информации

В статье описана передача сигнала IPTV по проводам питающей электросети. Рассмотрены сопутствующие стандарты и приведен пример структурной схемы организации IPTV.

Зачем аудиосистемам нужны стандарты

В статье описываются популярные и наиболее перспективные аудиостандарты. Трудно себе представить ситуацию, в которой целиком законченная техническая система поставлялась бы одним-единственным производителем. Системный интегратор объединяет в одном решении оборудование и программное обеспечение, отвечающее определённым нуждам. Стандарты обеспечивают связь между технологиями и позволяют оборудованию, подсистемам и методам, созданным различными компаниями, работать слаженно, образуя одну систему.

Проблемы проектирования телевизионных приемников

В статье обсуждаются некоторые проблемы, возникающие при проектировании интегральных микросхем для систем приема телевизионных сигналов. Эти трудности являются специфическими и могут быть мало известны разработчикам других систем связи. Они усложняют проектирование телевизионных приёмников и демодуляторов по сравнению с другими приёмниками.

 

25 мая

Введение в видеоанализ

В настоящее время технология видеоанализа используется в трёх основных областях: в видеонаблюдении, розничной торговле и на транспорте. Статья знакомит с основными понятиями видеоанализа и описывает ключевые этапы последовательной обработки видеокадров. В статье рассматриваются особенности реализации системы видеоанализа в различных приложениях. Эта публикация представляет собой перевод [1].



Введение

Видеоанализ, или как его ещё называют, анализ видеоконтента (АВК) — в англоязычной транскрипции video content analysis (VCA) — представляет собой извлечение важной информации из цифрового видео. В отличие от сжатия видеосигнала, которое использует избыточность цифрового видео для уменьшения объёма данных, АВК связан с интерпретацией содержимого видеоданных. Он основан на результатах исследований в области машинного зрения, характеристического анализа и искусственного интеллекта и применяется в ряде областей, включая системы наружного наблюдения, розничную торговлю и транспорт.
АВК использует алгоритмы компьютерного зрения, которые позволяют воспринимать (или видеть) информацию, и искусственный интеллект для её интерпретации, изучения и вывода заключения. В отличие от детектирования движения, целью видеоанализа является интерпретация сцен. Кроме регистрации движения, видеоанализ квалифицирует движение как объект, исследует обстановку вокруг него и способен отслеживать объект в пределах сцены.
Одно из приложений АВК — автоматизированное наружное наблюдение. Интеллектуальные видеокамеры способны непрерывно анализировать видеоинформацию, детектировать наличие людей и транспортных средств и интерпретировать их действия. В случае обнаружения подозрительной деятельности, такой как движение объекта в запретной зоне, автоматически генерируется сигнал и вызывается служба безопасности. На транспорте видеокамеры могут фиксировать и распознавать номерные знаки в целях управления движением и сбора дорожных налогов. В розничной торговле с помощью видеоанализа можно подсчитать количество людей, стоящих в очереди или проходящих по торговому залу. Эти приложения в настоящее время находятся в коммерческой эксплуатации, причём в ближайшие годы ожидается появление более сложных методов анализа и расширение областей его применения.
Данная статья даёт общее представление об АВК, лежащих в его основе методах и этапах обработки данных, а также рассматривает реализацию видеоанализа в некоторых приложениях.

Последовательность обработки информации при видеоанализе

Большинство приложений АВК включает в себя ряд этапов обработки. Эти этапы обеспечивают получение детальной информации о какой-либо активности на месте действия или сцене. По существу, анализ необходим для обнаружения изменений, которые происходят в последовательности видеокадров, квалификации этих изменений в каждом кадре, их сопоставлении на множестве кадров и, наконец, интерпретации взаимосвязанных изменений. Первым этапом видео­анализа является сегментация.
Сегментация — это процесс детектирования изменений и отбора важных изменений для дальнейшего анализа и оценки. Пикселы изображения, которые претерпели изменения, называют «пикселами переднего плана» (Foreground Pixels), а те, которые не изменились — «пикселами фона» (Background Pixels). Кроме того, сегментацию также называют процессом вычитания фона (Background Subtraction). Пикселы, остающиеся после вычитания фона, являются пикселами переднего плана. Степень изменений, которая используется для идентификации пикселов фона, является ключевым фактором в сегментации и может быть различной в зависимости от приложения. Результатом сегментации является формирование одного или нескольких больших двоичных объектов — массивов двоичных данных, или блобов (Binary Large OBject — blob) переднего плана, представляющих собой скопление связанных пикселов изображения.
Классификация является процессом квалификации каждого блоба и присваивание ему метки класса. Это позволяет отнести каждый блоб к определенному классу, например, такому как человек, транспортное средство, животное и т.д. Классификация может быть выполнена на отдельном кадре или может использовать информацию многих кадров. Некоторая комбинация свойств и особенностей каждого блоба используется для назначения метки класса. Эти свойства следует выбирать так, чтобы они обеспечивали вполне определённое разграничение между классами.
Для некоторых приложений классификации может быть недостаточно, поэтому также используется распознавание. Распознавание — это процесс идентификации определенного объекта, например, регистрационного номера автомобиля или лица какого-либо человека. Распознавание требует дополнительного анализа и наличия предварительных данных об объекте.
Отслеживание классифицированных блобов переднего плана осуществляется на множестве кадров как объектов, движущихся в поле зрения. Слежение является проблемой объединения блобов; должен быть идентифицирован каждый блоб на первом и последующих кадрах. Затем вычисляется траектория движения путем соединения точек положения объекта на многих кадрах.
Распознавание деятельности является финальным этапом, который объединяет результаты этапов классификации и слежения, соотносит результаты слежения за несколькими блобами и делает заключение о действиях, происходящих на видео. Например, если два блоба соответствуют людям, постепенно подходящим всё ближе друг к другу, то это может быть интерпретировано как сближение людей. Если есть два блоба, один из которых соответствует транспортному средству, а другой — человеку, который внезапно исчезает, то это событие интерпретируется как то, что человек сел в машину.
Типичная последовательность этапов видеоанализа изображена на рисунке 1. Этапы обработки показаны в виде прямоугольных блоков, которые включают сегментацию, классификацию, слежение и распознавание деятельности. Эти этапы обработки зависят от используемых моделей, которые могут включать модели фона или заднего плана, модели видеокамеры, одну или более моделей внешнего вида, модели движения и модели формы. Эти модели время от времени обновляются по мере накопления данных об объекте и адаптации к условиям.
По мере прохождения видеокадров через эти этапы обработки формируются промежуточные результаты. Они показаны в кружках верхнего ряда рисунка 1. Конкретные приложения видеоанализа могут не содержать все эти этапы или порядок их может быть несколько другим. Многоканальные устройства слежения или классификаторы могут работать параллельно. Ниже приводится детальное описание перечисленных этапов обработки.

Рис. 1. Последовательность этапов видеоанализа

Сегментация

Целью сегментации является идентификация блобов переднего плана. На вход устройства сегментации подается последовательность видеокадров, а на выходе формируется набор маркированных уникальных блобов переднего плана для каждого кадра. Сегментация обнаруживает изменения, измеряет степень изменения и локализует его. Этот этап состоит из нескольких шагов, которые могут различаться в зависимости от желаемого результата. Наиболее часто используются этапы сегментации, показанные на рисунке 2.

Рис. 2. Этапы обработки в процессе сегментации

Модель фона инициализируется и обновляется периодически. Эта модель используется при вычитании фона для детектирования изменений и идентификации пикселов переднего плана. Простая реализация модели фона заключается в использовании первого кадра в качестве фонового кадра. Вычитание фона можно затем реализовать путем удаления этого фонового кадра из текущего кадра. В результате получается разностное изображение.
Для его преобразования в основное изображение (изображение переднего плана) может быть установлен порог, так что все пикселы с различиями, превышающими предварительно установленную величину, являются пикселами переднего плана. Обновление фона может в этом случае представлять собой замену фонового кадра через каждые N кадров.
Такая простая схема вычитания фона применима для простых сцен с равномерной контрастностью и сравнительно небольшими изменениями. Как правило, выбор порогового значения и частота обновления фона влияют на полученный результат. На рисунке 3 показан сценарий применения такой схемы вычитания фона.

Рис. 3. Вычитание фона с использованием разностного изображения. Для получения пикселов переднего плана устанавливается порог для разностного изображения

На практике используются более сложные модели фона. Описанная выше простая модель не учитывает реальные изменения фона, которые могут происходить из-за меняющейся освещенности или из-за того, что блобы переднего плана становятся частью фона.
В случае уличных видеокамер окружающее освещение меняется во времени, что вызывает изменение интенсивности свечения пикселей фона. Это изменение должно быть корректно отражено моделью фона так, чтобы не были зарегистрированы случайные пикселы переднего плана. Кроме того, блобы переднего плана, такие как припаркованные автомобили, должны быть включены в фон.

Средний кадр

Альтернативой представленной выше реализации модели фона является использование среднего из N кадров в качестве фонового изображения. Этот средний кадр фиксирует постепенные изменения в сцене и, таким образом, обеспечивает большую устойчивость к вариациям фона.
Модель можно усложнить путём использования гауссова распределения вариаций каждого пиксела со своим средним значением и отклонением. Это увеличивает надёжность вычитания фона.
Выбор порога также влияет на число регистрируемых пикселов переднего плана. Низкий порог обеспечивает определение меньшего числа изменений в качестве пикселов переднего плана. Высокий порог удаляет слишком большое число пикселов, что вызывает появление дырок и разрывов в блобах переднего плана. На рисунке 4 проиллюстрировано влияние величины порога на картину переднего плана.
Для смягчения пороговых эффектов для изображения применяют подавление помех и морфологическую фильтрацию. Помехи имеют отношение к пикселам переднего плана, которые не связаны с реальными объектами. Они могут возникать из-за шумов датчика, а также влияния различных факторов окружающей среды, таких как падение листвы, дождь, снег или вариаций освещения, связанных с появлением облачности или изменениями комнатного освещения. Дополнительные помехи могут возникнуть из-за влияния теней, бликов или отражений. При простой регистрации движения невозможно в достаточной степени подавить помехи, что может вызвать ложное детектирование.

Рис. 4. Низкий порог приводит к появлению избыточных пикселов помех, в то время как высокий порог вызывает разрывы и дырки блобов переднего плана

Для заполнения дырок и разрывов, а также удаления небольших блобов при необходимости можно использовать морфологический фильтр (структурный фильтр). Финальным этапом сегментации является присваивание уникальных меток каждому связанному блобу.
Маркировка блобов может быть сделана путем рекурсивного осмотра всех соседних пикселов для каждого пиксела переднего плана и присваивание им меток. Результат маркировки блобов доступен для дальнейшего анализа. На рисунке 5 показаны блобы переднего плана после морфологической фильтрации и маркировки.
Итогом этих этапов обработки является детектирование блобов, соответствующих объектам переднего плана и изучаемой области, которая ограничивается контуром вокруг каждого блоба, локализующей его в пределах кадра. Затем должна быть выполнена обработка пикселов в изучаемой области, соответствующих каждому блобу переднего плана.

Рис. 5. Морфологическая фильтрация блобов переднего плана позволяет заполнить дырки и подавить помехи. Затем выполняется маркировка блобов

Классификация

Классификация — это процесс квалификации сегментированных блобов и присвоения определенной категории каждому блобу. Классификация предназначена для распределения объектов на крупные группы, например определения того, является ли блоб человеком, транспортным средством или животным и т.д.
Классификация отличается от распознавания, так как она не обеспечивает идентификацию конкретных объектов, как в случае опознания человека по лицу или идентификации номерного знака транспортного средства.
Методы классификации объектов для видеоанализа бывают различными и зависят от приложения. Способы классификации также зависят от числа отдельных классов, которые должны быть зарегистрированы.
Для разделения блобов объектов на один или два класса используются двоичные классификаторы. Разделение блобов на несколько классов, например таких как человек, транспортное средство или животное, производится с помощью классификаторов для множественных классов.
Заметим, что классификатор может только сделать прогноз относительно принадлежности объекта к классу или же определить вероятность того, что объект принадлежит к конкретному классу. Кроме того, классификатор может также определить вероятность того, что объект не принадлежит к данному классу.
Для разделения на классы используются какие-либо особенности изображения. Простой классификатор, разделяющий человека и транспортное средство, может быть построен на основе проверки отношения вертикального и горизонтального масштаба объекта (аспектовое отношение) сегментированного блоба. Люди обычно имеют больший размер по высоте, чем по ширине, а автомобили — больший размер по ширине, чем по высоте. Другими признаками объекта, которые могут быть полезны для классификации, являются гистограммы и контуры.
Для оценки качества процесса видеоанализа используются такие показатели как частота обнаружения и частота ложных тревог. Идеальный классификатор способен корректно определять класс каждого объекта (частота обнаружения 100%) и никогда не ошибаться при классификации объекта (частота ложных тревог 0%). На практике для систем анализа стараются обеспечить как можно более высокую частоту обнаружения, в то же время сохраняя частоту ложных тревог на допустимо низком уровне.
На рисунке 6 показаны результаты классификации человека и автомобиля. Заметим, что классификатор должен также отбросить объекты, которые не принадлежат какому-либо подходящему классу.

Рис. 6. Классификатор разделил объекты на человека и автомобиль

Слежение

Слежение устанавливает соответствие между блобами последовательности видеокадров. Эти соответствия могут быть использованы для интерпретации сцен и распознавания поведения или деятельности.
Существуют различные методы слежения, которые основаны на моделях связи движения, внешнего вида и формы. При слежении возникает несколько проблем. Так как объекты движутся по сцене, они изменяют свои позы и ориентацию относительно видеокамеры и могут выглядеть по-разному на многих кадрах. Одни и те же особенности могут быть невидимыми на разных кадрах, что затрудняет установление соответствия между объектами. Кроме того, движение, например, людей в сцене носит шарнирно-сочленённый характер, что может приводить к значительным изменениям формы блоба.
Другая проблема слежения возникает из-за возможного перекрытия одних объектов другими. Существуют следующие варианты перекрытий объектов.
1. Фон перекрывает передний план. В этом случае пиксели фона перекрывают пикселы переднего плана. Примером такого перекрытия может быть человек, идущий позади деревьев и появляющийся время от времени. Дерево является фоновым объектом, который перекрывает человека.
2. Передний план перекрывает передний план (различные объекты). В этом случае два отдельных объекта переднего плана перекрывают друг друга. Примером этого может быть человек, выходящий из автомобиля.
3. Самоперекрытие объектов переднего плана. Сочленённые объекты могут иметь части, которые перекрывают друг друга. Например, при ходьбе человека его двигающиеся руки перекрывают туловище.
Важным вопросом слежения является способность идентифицировать множественные, относительно инвариантные особенности каждого блоба. Для выявления соответствия, по крайней мере несколько общих признаков объекта должны быть видимы на последовательности кадров. Перекрытия могут вызывать периодическую потерю слежения, поэтому важно иметь возможность вновь находить маршрут движения объекта.
На рисунке 7 иллюстрируется слежение за двумя людьми в пределах сцены; показаны также гистограммы для каждого блоба. Заметим, что эти гистограммы сильно различаются и могут быть использованы для корректного слежения за каждым человеком.

Рис. 7. Гистограммы блоба могут служить признаком для слежения

Распознавание деятельности

После сегментирования, классификации и слежения за объектами переднего плана может быть описано их движение и поведение в контексте сцены. Может быть также проанализировано поведение других объектов сцены относительно данного объекта. Примерами деятельности высокого уровня могут быть подозрительные действия человека, падение человека или медленное движение транспортного средства.
Можно провести также частный анализ, при котором производится слежение за головой, туловищем, руками и ногами с изучением их траекторий движения. Такой анализ предоставляет информацию о таких видах движения как прыжки, приседания, ходьба и наклоны. Наконец, методы распознавания жестов могут детально описать движение рук и пальцев; они могут быть использованы для определения таких действий как захват, указывание и размахивание руками.

Примеры коммерческого применения

В настоящее время технология АВК коммерчески используется в трёх основных рыночных сегментах: видеонаблюдение, розничная торговля и транспорт.
На практике используются различные методы автоматизированных, а часто и работающих без участия оператора, систем видеонаблюдения. Видеоанализ реализуется посредством DSP-процессоров или ПЛИС.
АВК снижает нагрузку на персонал, занятый мониторингом и поиском видео­записей. Он используется как для контроля в режиме реального времени, так и для эксперно-криминалистической обработки видео. В такой системе видео­анализа как многоканальная система анализа Cernium Edge используется процессор TMS320DM64x компании Texas Instruments.
Ключевым фактором, влияющим на конкретную реализацию АВК является выбор алгоритмов, обеспечивающих низкую нагрузку на процессор, малый объём памяти и, в то же время, высокую частоту обнаружения с низкой частотой ложных тревог. Устройства видеонаблюдения обычно используют кодек (например, MPEG-4), реализованный на процессоре, следовательно, важно обеспечить выполнение анализа параллельно с работой кодека. Наконец, пользователь может потребовать, чтобы различная деятельность была зарегистрирована в разные моменты времени, поэтому одно устройство должно быть способным обнаруживать различную деятельность по многим каналам:
– отдельный человек и группа людей;
– отдельное транспортное средство и группа транспортных средств;
– идущие, бегущие и патрулирующие люди;
– останавливающиеся или ускоряющиеся автомобили;
– брошенные или сдвинутые объекты;
– движение в запрещенном направлении;
– различного рода вычисления, связанные с объектами.

Заключение

АВК предоставляет новые возможности во многих областях применения. Многоканальные системы видеоанализа используют современные DSP и процессоры. Способность анализа классифицировать и отслеживать объекты на уровне сцены делают их более привлекательными для потребителя, чем системы детектирования движения. Видеоанализ способствует появлению нового поколения интеллектуальных видеоустройств, включая видеокамеры, видеомагнитофоны и видеосерверы.

Литература

1. Nik Gagvani, Introduction to video analytics.
2. Обработка видеосигнала высокой чёткости, Екатерина Самкова//«Электронные компоненты» №4, 2009.



Вы можете скачать эту статью в формате pdf здесь.
Оцените материал:

Автор: Ник Гагвани (Nik Gagvani), директор по технологиям и вице-президент, Cernium Corporation



Комментарии

0 / 0
0 / 0

Прокомментировать





 

Горячие темы

 
 




Rambler's Top100
Руководителям  |  Разработчикам  |  Производителям  |  Снабженцам
© 2007 - 2017 Издательский дом Электроника
Использование любых бесплатных материалов разрешено, при условии наличия ссылки на сайт «Время электроники».
Создание сайтаFractalla Design | Сделано на CMS DJEM ®
Контакты