Вопросы качественной передачи голоса по IP-сетям: сжатие, задержка и эхо. Часть 1


PDF версия

В статье рассматриваются вопросы качества передачи речи по IP-сетям. Обсуждаются такие проблемы, как обеспечение качества связи, причины задержки, потеря пакетов, подавление эха, комфортный шум, разговор между разноязыкими абонентами, а также использование беспроводной ЛВС в качестве канала передачи. Описаны также стандарты сжатия речи G.711, G.726, G.729A, G.723.1 и G.722.

Необходимо отметить, что беспроводная локальная вычислительная сеть (ЛВС) — только часть всего канала передачи, по которому голосовые пакеты проходят между источником и получателем. Качество связи зависит от характеристик всех элементов тракта. Что бы мы ни обсуждали — потерю пакетов или причины задержки — качест­во функционирования каждого элемента тракта обусловливает его общее качество работы. Что бы ни было причиной потери пакета — приемный буфер, локальная сеть или глобальная сеть — результат один: этот пакет адресат не получил. Аналогично, задержка, внесенная беспроводной ЛВС (БЛС), суммируется с задержками проводной ЛВС, глобальной сети и проводной ЛВС со стороны получателя.
В статье обсуждаются основные элементы, влияющие на качество передачи речевых пакетов. В частности, мы рассмотрим существующие требования к задержке, джиттеру и потерям, а также определим рабочие характеристики различных сетевых служб, влияющих на передачу речевых пакетов. К счастью, богатый опыт эксплуатации локальных и глобальных сетей для передачи речевых пакетов позволяет нам с высокой степенью уверенности локализовать проблему до того, как абоненты станут жаловаться на плохую связь.

Вопросы качества в пакетной телефонии

Использование пакетной технологии связано с тремя основными проблемами голосовой службы: качеством передачи голоса, задержкой и подавлением эха.

Качество передачи голоса. В первую очередь качество сигнала при голосовом соединении определяется методом речевого кодирования и долей не дошедших до приемника пакетов, подлежащих декодированию. При передаче голоса по IP-сетям пакеты теряются по следующим двум причинам.
1. Сети теряют пакеты из-за ошибок или переполнения буфера.
2. Приемный буфер колебаний задержки, работающий по протоколу RTP (Real-Time Transport Protocol — транспортный протокол реального времени), может пропустить пакеты, если они поступают с задержкой, превышающей ту, на которую рассчитан буфер. Таким образом, поступление пакета с запозданием равносильно его отсутствию.
То, как сказывается потеря пакетов на передаче сигнала, зависит от метода кодирования голоса. Вопрос о допустимой потере пакетов, а также другие проблемы кодирования голоса мы рассмотрим ниже.
Задержка передачи. Это суммарная задержка голосового сигнала при его передаче. Она определяется рядом факторов, связанных с особенностями работы локальной и глобальной сети. К их числу относятся кодирование/сжатие голоса, генерация пакетов, конфликт каналов (в БЛС), сетевой транспорт/буферизация сети и устранение джиттера. Необходимо знать, что если задержка в односторонней связи превышает 150 мс, она начинает сказываться на темпе разговора. Расстояние, буферизация маршрутизаторов и конфликты в БЛС являются факторами, влияющими на суммарную задержку передачи. Этот показатель — в числе тех основных, качество которых вызывает нарекания в пакетной телефонии.
Еще одной проблемой, связанной со временем передачи сигнала, является джиттер, или изменение величины задержки от пакета к пакету, вызванное динамической буферизацией в пакетной сети. Если не устранить этот эффект, голос станет неразборчивым. Протокол RTP помогает устранить джиттер, однако в процессе использования RTP накапливается дополнительная задержка передачи.
Управление эхом. Во всех телефонных сетях возникает эффект эха. Однако если задержка в односторонней передаче превышает 35…40 мс, этот эффект становится очень заметным и раздражающим. Если задержка превышает значение этого параметра, необходимо использовать оборудование для подавления эха. Фактически во всех сетях передачи речевых пакетов задержка в одном направлении превышает 40 мс, поэтому при разработке системы следует предусмотреть механизм управления эхом.

Качество голоса

Человеческий голос имеет аналоговую природу. Когда мы говорим, голосовые связки генерируют вибрации, представляющие собой некую последовательность сжатий и разряжений воздушной среды, т.е. аналоговый (непрерывно изменяющийся) сигнал. Прежде чем передать его по пакетной сети с цифровыми данными, требуется кодек (кодер и декодер) для преобразования этого сигнала в цифровое представление.
При выборе системы кодирования голоса следует определить три следующих основных требования.
1. Скорость передачи цифровых данных.
2. Задержку из-за процесса кодирования.
3. Допустимые потери, или относительное количество потерянных пакетов, до того как качество голоса станет ниже порогового значения.
Любой метод преобразования голоса в цифровое представление ухудшает качество звука. Вообще говоря, это ухудшение сигнала неразличимо для человеческого уха. Однако если некоторые биты изменяются из-за ошибок передачи или теряются при отбрасывании пакетов, это отражается на качестве восстановленного сигнала. Существующие методы кодирования голоса отличаются производительностью, надежностью и величиной задержки. Эти параметры представлены в таблице 1 для основных способов модуляции сигнала.

Табл. 1. Методы кодирования голоса и их основные параметры

Метод кодирования

Скорость передачи, Кбит/с

Прибл. время задержки на кодирование, мс

Допустимые потери

Приложения

G.711. Импульсно-кодовая модуляция (ИКМ)

64

0,13

7…10

Телефонные сети общего пользования, УАТС и большинство IP- УАТС

G726. Адаптивная дифференциальная импульсно-кодовая модуляция (АДИКМ)

24, 32 или 40

0,4

5

Мультиплекс. сети Т-1, DECT-телефоны

G.729а

8

25

< 2

БЛС, глобальные сети с пакетной передачей голоса

G.723.1

5,3…6,4

67

< 1

Использование ограничено из-за задержки на кодирование

G.722. Широкополосный стандарт (50 Гц…7 кГц)

64

0,4

5

Радиовещание и системы конференц-связи

Эффективная система кодирования позволяет снизить количество битов на каждый канал и таким образом увеличить число одновременных речевых вызовов, поддерживаемых с учетом заданной пропускной способности сети. Как правило, чем эффективнее система речевого кодирования, тем длиннее задержка кодирования и ощутимее потери пакетов.

G.711 Импульсно-кодовая модуляция: А- и μ-законы

Проводная телефонная сеть использует стандартный метод для кодирования речи — импульсно-кодовую модуляцию (ИКМ) (Pulse Code Modulation, PCM), описанную в рекомендациях ITU Recommendation G.711. В этом методе речевой канал представлен цифровым потоком битов со скоростью 64 Кбит/с. В ИКМ достигается максимальная скорость передачи битов и устанавливается самый высокий допуск на потери. Для канала со скоростью 64 Кбит/с он составляет около 10% потерь пакетов при приемлемом качестве звука. Качество связи канала со скоростью 8 Кбит/с значительно ухудшается, если в сети теряется даже 1% пакетов. Процесс кодирования в ИКМ состоит из двух основных шагов.
Выборка. ИКМ-кодек дискретизирует аналоговый сигнал с частотой 8000 выб./с, всякий раз измеряя амплитуду выборки.
Кодирование. Кодек округляет измеренную амплитуду выборки и кодирует ее 8-битным символом (см. рис. 1).

Рис. 1. ИКМ-метод кодирования

Кодек пересылает 8000 8-битных выборок сигнала в секунду обеспечивая общую скорость передачи 64 Кбит/с. Используются два различных ИКМ-стандарта: североамериканский и международный. В них речевой сигнал дискретизируется с частотой 8000 выб/с, но в каждом варианте используется свой метод генерации кодирующей таблицы, или компандирование. В североамериканском стандарте компандирование определяется μ-законом, тогда как в международном стандарте — А-законом.

Методы сжатия речи

Если ИКМ используется в качестве стандарта кодирования для телефонных сетей общего пользования, то системы передачи речевых пакетов используют различные методы сжатия цифрового сигнала для снижения скорости передачи битов. Более эффективное кодирование речи (т.е. меньшее число битов в секунду на канал) при постоянной пропускной способности сети позволяет создать больше каналов.
При анализе требований к передаче речевых данных необходимо учитывать служебную информацию, передаваемую в пакете. Каждая выборка заключается в пакет, состоящий из RTP-, UDP- (User Datagram Protocol — протокол дейтаграмм пользователя) и IP-заголовков, а также заголовка второго уровня и концевика. Например, ИКМ-сигнал с 20-мс интервалом выборки имеет скорость 82,4 Кбит/с при передаче с помощью РРР (point-to-point protocol — протокол двухточечного соединения) в качестве протокола второго уровня. Таким образом, 8-Кбит/с сигнал при передаче требует скорости 26,4 Кбит/с! В таблице 2 приводятся совокупные показатели скорости передачи битов для каждого метода кодирования с использованием различных кодировок речи, размеров выборок и транспортных протоколов.
Известны четыре альтернативных метода кодирования, применяемых в IP-системах передачи речи.

Табл. 2. Требования к пакетной передаче речевых пакетов

Кодек

Скорость передачи, Кбит/с

Ширина полосы, кГц

Время выборки, мс

Полезная нагрузка, бaйт

Пакеты/с

Ethernet, Кбит/с

РРР, Кбит/с

G.711 (ИКМ)

64

3

20

160

50

87,2

82,4

G.711 (ИКМ)

30

240

33,3

79,4

76,2

G.711 (ИКМ)

40

320

25

75,6

73,2

G.722

7

20

160

50

87,2

82,4

G.722

30

240

33,3

79,4

76,2

G.722

40

320

25

75,6

73,2

G.726 (АДИКМ)

32

3

20

80

50

55,2

50,4

G.726 (АДИКМ)

30

120

33,3

47,4

44,2

G.726 (АДИКМ)

40

160

25

43,6

41,2

G.729А

8

20

20

50

31,2

26,4

G.729А

30

30

33,3

23,4

20,2

G.729А

40

40

25

19,6

17,2

Примечание. RTP-протокол допускает 40 октетов RTP-/UDP-/IP-заголовков на пакет. Ethernet-заголовок добавляет 18 октетов на пакет. PPP-заголовок добавляет 6 октетов на пакет.

Адаптивная дифференциальная импульсно-кодовая модуляция (АДИКМ), G.726 (ранее G.723). АДИКМ был первым широко применяемым методом сжатия голоса, обеспечивающим высокое качество передачи и минимальную задержку (менее 1 мс). АДИКМ позволяет кодировать речь до 24, 32 и 40 Кбит/с. В каждом из этих случаев сигнал дискретизируется с частотой 8000 выб./с, причем каждая выборка кодируется по 3, 4 и 5 бит. Модуляция АДИКМ использовалась в мультиплексорных сетях Т-1, получивших распространение в 1980-х гг. 32-Кбит/с вариант этой модуляции применяется в DECT-стандарте для беспроводных телефонов.
G.729A. Это усовершенствованный вариант ITU-стандарта G.729, определяющий механизм сжатия в ИКМ до значения 8 Кбит/с. G.729A широко поддерживается телефонными БЛС, а также используется в глобальных сетях IP-телефонии. Стандартное значение времени сжатия в G.729A составляет около 25 мс. Выходной сигнал имеет минимальный допуск на потери. Качество речи обычно падает ниже приемлемого уровня, даже если пропадает всего лишь 1% пакетов.
G.723.1. Это еще более эффективный метод сжатия, позволяющий получать 5,3 или 6,4 Кбит/с. Типичная задержка составляет около 70 мс, а допуск на потери примерно равен значению в предыдущем методе. Из-за большой задержки G.723.1 редко используется в системах IP-телефонии.
G.722. Этот метод обеспечивает скорее более широкую полосу пропускания, чем производительность. Типичный речевой кодек (например, G.711, G.729A и т.д.) захватывает полосу частот примерно до 3,1 кГц. Согласно теореме Найквиста, при использовании метода типа ИКМ максимальная частота кодирования равна половине частоты отсчетов или 4 кГц. G.726 применяет усовершенствованный механизм кодирования, позволяющий захватывать частоты до 7 кГц и получать поток битов на уровне 64 Кбит/с. Это значит, что кодирование G.722 обеспечивает в два раза большую, чем аналоговая, полосу пропускания (т.е. качество Hi-Fi) при той же пропускной способности цифровой передачи сигнала, что и в методе G.711. G.726 используется в системах дальней радиосвязи и видеоконференц-связи, а также в некоторых современных учрежденческих АТС.

Другие проблемы обеспечения качества передачи голоса

Как уже было сказано, при потере речевых пакетов не существует эффективного способа их своевременного восстановления. Возникает вопрос: что делать приемнику, чтобы заполнить образовавшиеся временные пустоты? В речевых IP-системах часто используются различные приемы, позволяющие нейтрализовать эффект потерянных пакетов. В этих различных методах выполняется копирование некоторых принимаемых пакетов или заполнение пустых промежутков белым шумом. Таким образом, контент не восстанавливается, однако, по крайней мере, исключается нежелательный шум или выпадения.

Обнаружение активности речи/Комфортный шум

Если в телефонной IP-сети используется функция обнаружения активности речи (т.е. емкость сети предоставляется только на время разговора), наступает полная тишина в паузах между разговором. Наступление тишины некоторые абоненты ошибочно принимают за разъединение линии. Для устранения этого эффекта на стороне приемника вводится белый шум, который также называют комфортным шумом. На самом деле лишь несколько VoIP-систем использует функцию обнаружения активности речи, поэтому речевые пакеты генерируются с постоянной скоростью независимо от того, идет разговор или нет.

Разноязыкие абоненты

Если собеседники разноязыкие, им зачастую требуется обеспечить более высокое качество связи, т.к. любое искажение сигнала может привести к недопониманию. Люди, регулярно общающиеся друг с другом по телефону, довольствуются, как правило, меньшим уровнем качества передачи речи.

Сжатие голоса в речевых БЛС

Фактически все речевые БЛС поддерживают стандарты кодирования G.711 (64 Кбит/с) и G.729A (8 Кбит/с). Учитывая ограниченную пропускную способность БЛС, можно прийти к заключению, что это идеальная среда для передачи сжатой речи. На практике это не всегда так. К RTP-/UDP-/IP-заголовкам, сопровождающим речевой пакет, протокол доступа БЛС добавляет собственный заголовок. В результате речевые биты занимают меньшую часть всего времени передачи.
Благодаря сжатию речевого сигнала количество одновременных вызовов, поддерживаемых точкой доступа, увеличивается. При понижении скорости передачи битов в восемь раз с помощью G.729A число одновременных вызовов увеличивается как минимум на 15%. Учитывая, что подавляющее большинство систем IP-УАТС использует G.711 для проводной телефонной связи, то же самое кодирование будет также применяться в БЛС.
Во второй части статьи подробнее будут рассмотрены такие вопросы как джиттер, задержка и эхо, а также измерение качества передаваемой речи.

Оставьте отзыв

Ваш емейл адрес не будет опубликован. Обязательные поля отмечены *