САЙТ СОДЕРЖИТ БОЛЬШИЕ СТРАНИЦЫ. ПОЖАЛУЙСТА ПОДОЖДИТЕ ПОЛНОЙ ЗАГРУЗКИ. ПРОСИМ ИЗВИНИТЬ ЗА НЕУДОБСТВА

 

Теория
 
 
Инструкция
 
  Полное руководство по DivX 5.03  
 
Практика
 
   
 
Преобразование
 
   
Счетчики
  Rambler's Top100
be number one
 
Спонсоры
 

 

 

 

 

 
MPEG-4 Взгляд в будущее
>
Информация найдена на сайте Теле-Спутник №3(53) Март 2000
автор: А.Бителева
   

MPEG-4 Взгляд в будущее

Появление стандарта MPEG-4 обусловлено новыми тенденциями в области формирования и распространения аудио- и видеоматериала. Устоявшаяся концепция, по которой этот материал готовится в профессиональных студиях, а затем распространяется через вещательные сети, сейчас стремительно меняется. Появление цифровых фотоаппаратов, сохраняющих изображение в JPEG, а также видеокамер, ведущих запись в MPEG-1, превратило каждого в потенциального поставщика программного материала, для распространения которого можно использовать Интернет. Кроме того, появляется все больше компьютерно-синтезированного контента.

Все чаще используются комбинированные видео-аудиопотоки, разные элементы которых формируются разными источниками, причем часть составляющих может быть натуральной, а часть синтезированной.

Одновременно с появлением новых источников материала заметно все более активное внедрение мультимедиа в сети практически любого типа — вещательные, телефонные (через ISDN и DSL линии), компьютерные. Достаточно вспомнить новостные телевизионные программы, насыщенные текстовой графикой, программы корпоративного обучения или страницы Интернет. Сейчас на подходе внедрение мультимедиа в сети сотовой телефонии.

Аудио-видеосодержание все чаще используется в интерактивных приложениях, таких, например, как игры, в которых может участвовать двое и больше абонентов сети.

Конвергенция компьютерной, коммуникационной и телефонной областей часто приводит к необходимости перемещать одно и то же содержание из одной сети в другую. Однако сегодня даже в однотипных сетях используются несовместимые друг с другом форматы передачи.

Все эти факторы сформировали потребность в едином стандарте, определяющем формат представления мультимедиа, совместимый с любой средой распространения. Он должен также определять механизмы интерактивного взаимодействия с мультимедийным материалом. Этот стандарт должен предоставлять возможности для:

  • создания масштабируемого видео и аудио, которые можно было бы передавать как на очень низких скоростях, так и с очень высоким качеством;
  • передачи текста и графики;
  • передачи синтезированного видео и аудио, в том числе 3D;
  • передачи загружаемых медиа-файлов;
  • передачи потокового аудио и видео;
  • комбинации натуральных и синтезированных, а также потоковых и загружаемых объектов;
  • обеспечения гибких методов избыточного кодирования, соответствующих типу информации и типу канала;
  • обеспечения механизмов абонентской интерактивности разного уровня и организации произвольного доступа к контенту (с любого места, в ускоренном и замедленном режимах);
  • обеспечения защиты информации от несанкционированного доступа;
  • обеспечения независимости представления данных от формата транспортной среды.

Именно эти задачи призван решить недавно появившийся стандарт MPEG-4. Структура стандартной системы MPEG-4 изображена на рис 1.

Главное отличие MPEG-4 от более ранних стандартов MPEG-1 и MPEG-2 заключается в форме представления медиа-информации. Любая сцена разделяется на объекты, которые передаются в отдельных элементарных потоках.

Взаимодействие объектов определяется описанием сцены. Объекты иерархически объединяются между собой, создавая все более сложные объекты, в конечном итоге, формируя сцену.

Описание сцены

Для описания сцены используется специально разработанный двоичный язык BIFS (Binary Format for Scenes). Описание содержит информацию о временных и пространственных взаимоотношениях между объектами сцены, о характере возможного поведения объектов (например, в интерактивном режиме или при композициях), а также об изменении сцены во времени.

Ряд принципов взят из языка VRML (Virual Reality Modeling Language), который был разработан для создания 3D графики, загружаемой в файловом формате.

Это, в первую очередь, форма описания сцены в виде дерева, где роль листьев играют элементарные аудио- или видеообъекты, а промежуточные узлы определяют связь элементарных объектов в более сложные.

Каждый узел дерева содержит ссылку на описание объекта, в котором он характеризуется по ряду параметров.

  • Во-первых, там указывается источник объекта. Как уже говорилось, одна сцена может объединять объекты, сформированные разными источниками.
  • Во-вторых, там содержатся ссылки на элементарные потоки, относящиеся к данному объекту. Каждый элементарный аудио- или видеообъект может передаваться одним или несколькими элементарными потоками. Несколько потоков передаются при наличии нескольких вариантов объекта или при его масштабируемости.
  • В-третьих, там передаются характеристики потоков типа скорости, объема памяти, необходимого для их хранения, и QoS параметров (допустимый уровень ошибки, допустимая задержка, приоритет). Они используются при оценке необходимых ресурсов сети и абонентского терминала.

И, наконец, описание содержит идентификатор интеллектуальной собственности — IPMP (intellectual property management protection), наличие которого позволяет регулировать доступ к объекту.

Описания передаются в отдельных элементарных потоках.

Следует отметить и важные различия между языками VRML и BIFS. Первый — язык высокого уровня, второй — двоичный. В результате объем сообщений BIFS в 10-15 раз ниже объема аналогичных сообщений VRML. Кроме того, VRML разрабатывался для формирования файлов с 3D, проигрываемых после предварительной загрузки, а задачи MPEG-4 значительно шире. Поэтому BIFS предусматривает множество дополнительных возможностей. Он позволяет передавать потоковый контент, 2D объекты, смешивать 2D и 3D, а также потоковые и загружаемые объекты в одной сцене. Он предлагает модель синхронизации передаваемых потоков, а также позволяет передавать описание сцены в компрессированном виде.

Для изменений сцены BIFS предлагает два протокола. Командный протокол позволяет загружать новую сцену, формировать в сцене новые объекты и убирать старые, менять параметры объектов (силу звука, цвет, позицию и т.д.). Анимационный протокол предназначен для потоковой передачи плавного изменения параметров сцены.

Принципы кодирования

Одно из преимуществ разделения сцены на объекты заключается в простоте объединения в ней объектов, сформированных разными источниками.

В одной сцене, например, может присутствовать реальный ведущий, чей образ передается в потоковом режиме, загружаемая 3D виртуальная студия, единожды загруженный логотип и ползущая строка текста.

Кроме того, это дает возможность применять различные способы кодирования и компрессии разноплановых объектов.

Видео

Спецификация MPEG-4 включает весь арсенал методов кодирования и компрессии прямоугольных видеообъектов (пикселей), используемых в MPEG-2. Кроме того, он позволяет работать с 2D или 3D объектами произвольной формы.

Для этого используется их представление в виде сетки с треугольными сегментами (рис. 2). Динамика объекта задается векторами передвижения узлов сетки, определяющими их траекторию. Отдельно передается информация о текстуре объекта. Ее можно передавать только в опорных кадрах. При передаче текстуры может регулироваться степень ее прозрачности, что позволяет передавать размытые очертания, туман и т.д.

Еще более интересный способ кодирования видеообъектов позаимствован из языка VRML, в котором моделирование объектов производится на основе шаблонов, представляющих собой элементарные геометрические формы — конус, сферу и.д. Язык определяет также параметры и механизмы модификации и комбинирования этих объектов для создания требуемого образа.

Для передачи объекта в компьютере генерируется его вид в статике. Этот образ может быть отправлен абоненту один раз. Динамика объекта задается параметрами, управляющими его изменениями.

В первой версии MPEG-4 этот метод используется для передачи синтезированного человеческого лица. За основу берется неподвижный шаблон лица с нейтральным выражением. При синтезе образа может, например, использоваться один из стандартных шаблонов, хранимых в базе. Он дополняется различными параметрами, определяющими индивидуальные формы, текстуру и выражение лица (Facial Definition Parameters), а также его динамику — речь, смену выражений и т.д. (Facial Animation Paramеters). Параметры передаются в отдельных потоках. Их наименования нормируются стандартом, однако, конкретные значения могут выбираться произвольно. Шаблон лица передается один раз, а далее передаче подлежит только набор параметров. Во второй версии MPEG-2 аналогичный способ используется и для кодирования тела.

Новые способы компрессии видео, в сочетании с масштабируемостью, позволяют передавать его со скоростью от 10 кбит/с, используемой сегодня в системах голосовой сотовой связи. Однако MPEG-4 предусматривает возможность создания и высокоскоростных видеопотоков — их скорость может достигать 20 мбит/с, а в студийном стандарте до 1Гбит/с.

 

Аудио

Богатые возможности MPEG-4 предоставляет и для кодирования аудио. Для натурального аудио используются новые очень эффективные алгоритмы компрессии. Речь кодируется специальными голосовыми кодерами. Для этого могут использоваться две техники.

Одна из них предполагает разделение всего голосового диапазона на полосы шириной 8 или 16 кГц (в зависимости от ширины диапазона, занимаемого речью) с их последующим кодированием и компрессией. Техника называется CELP (code exited linear prediction). Она ориентирована на передачу в диапазоне 4-24 кбит/с.

Другая, параметрическая, техника, называемая HVXC (Harmonic Vector eXcitation Coding), позволяет добиться удовлетворительного качества при скоростях 2-4 кбит/с, а при переменной скорости передачи — от 1.2 кбит. Возможность работы на таких низких скоростях может оказаться существенной при организации видеоконференций с большим числом участников.

Общие аудиокодеры формируют потоки от 6 кбит/с до 64 кбит/с для монозвука и до 128 кбит/с и выше для стерео и многоканальной передачи. Алгоритмы низкоскоростного кодирования аудио признаны более эффективными, чем применяемые в распространенном сегодня формате MP-3.

Для наиболее качественного кодирования аудио в MPEG-4 используется тот же алгоритм AAC (advanced audio coding), что и в MPEG-2.

Для кодирования синтезированного звука стандарт предусматривает несколько способов, аналогичных механизму кодирования синтезированного лица и тела. Синтезированная речь передается текстом, дополняемым характеристиками голоса — тембром, мелодикой, длиннотами, возрастом говорящего, жанром речи, акцентом и т.д. Этот же текст и некоторые характеристики речи могут использоваться как динамические параметры лица говорящего, определяя его выражение и движения губ.

Произвольное синтезированное аудио предлагается представлять с помощью структурированного аудио. Структурированное аудио оперирует двумя языками. Один из них — структурированный оркестровый язык (structured audio orchestra language). Он используется для описания способов синтезации различных аудиоинструментов. Это может быть рояль, пожарная сирена, звук капающей воды и т.д. Они реализуются обычными методами синтезации звука.

Второй язык — структурированный партитурный язык (structured audio score language). Он предназначен для составления партитуры всех инструментов, формирующих аудиообъекты.

Для декодирования аудиосоставляющих сцены в абонентский терминал разово загружаются инструменты, а затем в потоке передается партитура.

Стандартом поддерживается используемый VRML механизм привязки звука к расположению объекта в виртуальном пространстве и его изменения при перемещении объекта.

Кроме того, введены механизмы изменения звука в зависимости от акустических свойств изображаемой среды.

Интерактивность

Преимущества разбиения сцены на объекты не ограничивается обогащением способов кодирования и компрессии. Оно также позволяет с легкостью организовать взаимодействие абонента с элементами сцены, например вывод дополнительной информации об объекте, переход по ссылке, запуски новых сцен, работу с виртуальными кнопками, реализующими определенные команды, изменение расположения или масштаба объекта (размера букв, громкости звука).

Для изменения статуса объекта внутри сцены требуется лишь изменить описание сцены. Вычислительная мощность, необходимая для такой операции, невелика, и она вполне под силу процессору абонентского терминала.

Функции терминалов MPEG-4 значительно шире, чем у современных ресиверов MPEG-2. Интерактивная работа абонента подразумевает не только выбор из полученного материала и пересылку сообщений удаленной стороне, но и изменения описания сцены, параметров объектов и даже синтез собственных компонентов. В дальнейшем, вероятно, будет возможна компиляция абонентом материала, полученного из разных источников.

Разработаны механизмы коллективной работы со сценой при взаимодействии с передающей стороной или при участии нескольких абонентов (дистанционные игры, видеоконференции).

Взаимодействие с транспортной средой

В отличие от современных приемников MPEG-2, терминал MPEG-4 будет иметь интерфейсы для подключения к разноплановым сетям.

В силу широты назначения стандарта, в его архитектуре не определен транспортный слой. Для передачи созданного содержания может использоваться любая сеть . Однако стандарт предусматривает механизмы, облегчающие взаимодействие с транспортной средой, а также интерфейсы с основными транспортными протоколами.

Эти же механизмы позволяют адаптировать материал для восприятия терминалами с разными компьютерными ресурсами и платформами, что тоже является принципиальным требованием к системам MPEG-4.

Рассмотрим эти механизмы.

Масштабирование

Кодирование объектов в стандарте MPEG-4 предусматривает их масштабирование во времени и пространстве. При этом информация об объекте разбивается на два или более элементарных потока. Один из них несет базовую информацию, необходимую для его декодирования, а остальные — информацию, улучшающую качество его воспроизведения. Масштабирование облегчает адаптацию потока к транспортным возможностям конкретной сети.

Кроме того, оно актуально в тех случаях, когда часть абонентских терминалов имеет низкие компьютерные ресурсы или низкое разрешение экрана (стандарт поддерживает все экранные форматы от sub-QCIF до телевизионных).

В результате декодирования части пересылаемых потоков снижается либо разрешение изображения, либо частота кадров, либо просто качество восстанавливаемого видео. Разумеется, возможно сочетание этих вариантов.

При адаптации потока к характеристикам сети изъятие части потоков производится на передающей стороне — этим занимается специальный протокол DMIF, о котором будет сказано ниже.

Следует отметить различие в организации масштабирования в MPEG-4 и форматах потоковой передачи, наиболее распространенных сегодня в Интернет (Real Video, Quick Time, AVI). В этих форматах создается несколько вариантов контента, соответствующих разной пропускной способности линии. При поступлении заказа от абонента у него выясняется скорость его соединения, и затем пересылается соответствующий вариант потока. На сервере MPEG-4 хранится один вариант содержания, из которого формируются потоки, динамически адаптируемые к возможностям и требованиям конкретной сети.

MPEG-4 поддерживает все механизмы масштабирования, используемые MPEG-2. Кроме того, стандарт предлагает новую форму масштабирования, связанную с возможностью изъятия из сцены второстепенных объектов.

Модель декодирования

Так же как и MPEG-2, новый стандарт предусматривает формирование абстрактной модели декодирования законченной порции передаваемой информации. Это позволяет кодеру выявить ресурсы памяти для декодирования этой порции. Эта информация переправляется декодеру перед передачей соответствующей порции для определения им тактики декодирования.

Синхронизация

Для транспортировки контента по асинхронным сетям стандарт MPEG-4 предусматривает механизмы синхронизации элементарных потоков. Для этого в заголовки пакетов вставляются сигналы синхронизации трех типов. Они аналогичны формируемым в транспортных пакетах MPEG-2. Один из них — сигнал текущего значения тактовой частоты кодера, используемый для подстройки тактового генератора декодера. Два других — метки времени, информирующие о том, когда поток должен быть декодирован и когда он должен быть готов для предъявления абоненту. Необходимость использования двух разных меток обусловлена тем, что при декодировании потоков часть кадров может определяться за счет интерполяции предыдущих и последующих кадров. В этом случае декодированные объекты последующих кадров сохраняются в буфере в ожидании своей очереди для вывода на экран или в динамики.

Восстановление от ошибок

Ориентация на передачу контента в разных сетях, в том числе с низкой пропускной способностью и высоким уровнем помех, потребовала введения механизмов восстановления информации от ошибок.

Эти механизмы делятся на три категории — поддерживающие синхронизацию, восстанавливающие данные и маскирующие ошибки.

Введение в поток дополнительных маркеров синхронизации позволяет восстановить синхронизацию между декодером и потоком после ее потери. Кроме того, оттталкиваясь от маркеров и используя другие методы восстановления, часто удается локализовать ошибку или даже ликвидировать результат ее действия. Одним из таких механизмов восстановления данных после ресинхронизации является применение обратимого кода переменной длины (Reversible Variable Length code). Слово, закодированное этим кодом, может читаться как с начала, так и с конца. Прочтя код в обратном направлении, можно восстановить фрагмент информации от конца поврежденного участка до следующего ресинхронизирующего маркера.

Локализация ошибок с использованием ресинхронизирующих маркеров сильно облегчает их маскирование, простейшим из которых является подстановка аналогичного фрагмента из предыдущего кадра.

FlexMux

Элементарные потоки в системах MPEG-4 могут сильно различаться по объему, необходимой скорости передачи и QoS требованиям.

Для удобства транспортировки очень маленькие или медленные потоки с одинаковыми QoS требованиями могут мультиплексироваться в так называемые FlexMux потоки.

Такая форма представления не является транспортным механизмом, но позволяет более эффективно использовать ресурсы транспортной среды.

DMIF

Взаимодействие с транспортной средой регламентируется протоколом DMIF (Delivery Multimedia Integration Network). Он объединяет комплекс средств, позволяющих распространять одно и то же содержание в разных средах. Его функции реализуются через интерфейс DAI (DMIF Aplication Interface). DAI переводит информацию об условиях передачи элементарных потоков или FlexMux в команды, воспринимаемые конкретным транспортным протоколом. Условия передачи оговаривают необходимую полосу, допустимый уровень ошибки, максимальное время задержки, приоритет, тип скорости передачи (переменная, постоянная) и т.д. На сегодняшний день такие интерфейсы разработаны для транспортных потоков MPEG-2 и IP пакетов, передаваемых по протоколам RTP/UDP.

Кроме того, во второй версии стандарта введены два дополнительных механизма, облегчающие транспортировку по любой сети, а также восприятие контента любым терминалом.

Один из них предназначен для организации передачи файлов и реализуется с помощью специального файлового формата представления контента — MP4. Он не привязан к определенному протоколу передачи, однако, облегчает процесс транспортировки и использования файлов в любой среде. Он содержит большой объем описательной информации, позволяющей передавать файлы с помощью потоковых протоколов, редактировать их содержимое и воспроизводить его на разных терминалах. Само содержание может быть либо включено в файл MP4, либо находиться в другом файле и адресоваться через URL.

Кроме того, со второй версии введено использование MPEG-J, представляющего собой интерфейс между элементами сцены, ресурсами сети и ресурсами терминала. В отличие от параметрического интерфейса первой версии, он предлагает гибко программируемые алгоритмы действия. MPEG-J определен в DVB в качестве стандартного API и пока существует в начальных версиях.

Будущее

Потенциальная сфера применения MPEG-4 чрезвычайно широка. Не претендуя на исчерпывающее описание возможных применений стандарта, проиллюстрируем некоторые его возможности.

Он, например, очень удобен для организации работы телемагазинов. Потенциальный покупатель, заинтересовавшийся предлагаемым товаром, может через определенный элемент изображения активизировать канал взаимодействия с продавцом, в какой-то форме (аудио, текст) передавая ему свои пожелания. В ответ для демонстрации свойств интересующего товара продавец может изменить содержание сцены, поступающей этому конкретному покупателю.

Использование MPEG-4 позволит по-новому подойти к вопросу защиты ТВ программ от несанкционированного доступа. Например, передача спортивного матча в режиме PPV может быть организована следующим образом. Исходно всем абонентам передается сцена с фоновыми объектами — стадионом и фоновым шумом. Затем желающие посмотреть матч нажимают виртуальную кнопку оплаты, и на их экранах появляются участники матча, а в динамиках — голос комментатора. Сам просмотр матча тоже может быть обогащен новыми возможностями. Архитектура MPEG-4 легко позволяет организовать вывод текста с биографией заинтересовавшего участника, увеличить его изображение на экране или заказать билет на следующий матч с его участием.

Широкие возможности открываются для организации конференций, дистанционного обучения, дистанционных игр с несколькими участниками, видеонаблюдения и т.д.

Однако на практике не все выглядит так радужно. Существуют факторы, сдерживающие тотальное распространение стандарта. Они связаны с материальными вложениями в другие технологии передачи мультимедиа. Это в первую очередь относится к вещательным сетям, с которых тотально применяется система кодирования стандарта MPEG-2. Вещатели, недавно вложившие деньги в закупку оборудования, поддерживающего MPEG-2, вряд ли захотят еще раз заниматься дорогостоящей реконструкцией сети.

Поэтому распространения MPEG-4 следует ожидать в первую очередь в Интернет, где его преимущества будут очень ощутимы. Другая область, являющаяся перспективной для внедрения MPEG-4, — сотовая телефония. Передача мультимедиа в сотовых сетях находится в начальной фазе, и там нет устоявшегося стандарта. В то же время MPEG-4, допускающий передачу в очень узкой полосе и поддерживающий эффективные методы восстановления от ошибок, является для этой среды очень подходящим. Интерес к стандарту проявляют и некоторые радиовещатели.

Ряд крупных фирм уже выпустили первые версии аппаратуры и программного обеспечения, поддерживающие MPEG-4. Так, производитель вещательного оборудования Philips Digital Video Systems уже второй год демонстрирует на телевизионных выставках работу своей системы MPEG-4, включающей сервер и декодеры. В демонстрационных версиях в качестве канала передачи используется телевизионный канал DVB. Лидер компьютерных технологий Microsoft выпустил свое программное обеспечение MediaPlayer для Windows, для передачи потокового видео и аудио в Интернет. А Toshiba, являющаяся разработчиком реверсивного кода RVLS, разработала свое программное обеспечение — Mobile Motion, ориентированное на использование в системах сотовой телефонии и Интернет.

На сегодняшний день у нас нет достоверных сведений о практическом использовании стандарта. Эту тему мы оставим для будущих публикаций. Цель настоящей статьи — лишь дать представление о новых возможностях, предлагаемых MPEG-4, и обрисовать его потенциальное место в сфере коммуникаций.




Copyright© 1998-2000, ТЕЛЕСПУТНИК
webmaster\@telesputnik.ru

 

 

 
(c) WWW.MPEG-WORLD.NAROD.RU -Мир MPEG
Site was desinged by AZV'GROUP Desing Studio (c) 2001
E-mail us to: neomass@mailgate.ru

Главная Информация Софт Кинотеатр Магазин Форум Ссылки E-mail Рассылка

Hosted by uCoz