Что такое формат lpcm и как он работает

Представление и кодирование звуковой информации в компьютере

Для представления и кодирования звука используются специальное оборудование и программы. Рассмотрим весь процесс более подробно.

Аудиоинформация, поступая из окружающей среды (например, по воздуху), преобразуется в электрический сигнал. Для этого используется такое устройство, как микрофон.
После этого звук поступает на АЦП (аналого-цифровой преобразователь), где подвергается оцифровке.
На последнем этапе информация (уже в двоичном виде) кодируется при помощи специальной программы – аудиокодека. На выходе получается файл в специальном формате (например, mp3), который можно хранить, воспроизводить и передавать.

Наибольший интерес представляет процесс оцифровки, также называемым аналого-цифровым преобразованием. В результате него аналоговый сигнал заменяется на цифровой.

Основной принцип аналогово-цифрового преобразования заключается в том, что через равные промежутки времени измеряется амплитуда волны. Также этот процесс называется дискретизация.

Дискретизация – это процесс в результате, которого непрерывная функция представляется в виде дискретной последовательности её значений. Схематично дискретизацию можно представить так:

Дискретизация характеризуется двумя такими величинами, как:

Частота шага по времени;
Шаг квантования.

Первая величина отображает, как часто берутся дискреты и измеряется в Герцах (количество измерений за одну секунду). Частота шага по времени находится по теореме Котельникова.

Шаг квантования характеризуется количеством уровней , до которых округляются величины амплитуды волны.

Количество уровней (ступенек) до которых округляются значения сигнала, зависит от аналого-цифрового преобразователя. На данный момент используются 16, 32 и 64 битные устройства.

Количество бит, затрачиваемое для номеров уровней, называется глубиной кодирования звуковой информации.

Глубина кодирования связано с количеством уровней по формуле:

Где i разрядность АЦП в битах.

Чем чаще берутся дискреты за единицу времени и больше глубина кодирования, тем выше качество звуковых данных на выходе и дороже АЦП.

Процесс кодирования LPCM

1. Аналоговое звуковое сигналы

Процесс кодирования LPCM начинается с получения аналогового звукового сигнала. Это может быть запись звукового сигнала с микрофона или воспроизведение аналогового аудиофайла.

Аналоговые звуковые сигналы представляют собой непрерывные волны, которые могут иметь различные амплитуды и частоты.

2. Дискретизация

Чтобы преобразовать аналоговый звуковой сигнал в цифровой формат, необходимо выполнить процесс дискретизации. В этом процессе аналоговый звуковой сигнал разбивается на небольшие отрезки времени и каждый отрезок измеряется с определенной частотой.

Частота дискретизации определяет, сколько раз в секунду происходит измерение амплитуды звукового сигнала. Чем выше частота дискретизации, тем точнее будет представлен цифровой звуковой сигнал.

3. Квантование

После дискретизации происходит процесс квантования, который преобразует измерения амплитуды звукового сигнала в определенное количество цифровых значений. Количество этих значений определяется разрешением квантования.

Чем выше разрешение квантования, тем более точное представление амплитуды звукового сигнала получается в цифровом формате.

4. Кодирование LPCM

После дискретизации и квантования аналоговые звуковые сигналы преобразуются в цифровой формат LPCM. Кодирование LPCM осуществляется путем записи каждого измерения амплитуды звукового сигнала в виде числа.

Цифровой формат LPCM хранит информацию о каждом отдельном замере амплитуды звукового сигнала и позволяет воспроизводить звук с высокой точностью и качеством.

Обработка и кодирование

Некоторые формы PCM сочетают обработку сигналов с кодированием. В более старых версиях этих систем обработка в аналоговой области применялась как часть аналого-цифрового процесса; более новые реализации делают это в цифровой сфере. Эти простые методы в значительной степени устарели современными методами сжатия звука на основе преобразования, такими как кодирование модифицированного дискретного косинусного преобразования (MDCT).

Линейный ИКМ (LPCM) — это ИКМ с линейным квантованием.
Дифференциальный ИКМ (DPCM) кодирует значения ИКМ как разности между текущим и прогнозируемым значением. Алгоритм предсказывает следующую выборку на основе предыдущих выборок, а кодировщик сохраняет только разницу между этим предсказанием и фактическим значением. Если прогноз является разумным, для представления той же информации можно использовать меньшее количество битов. Для звука этот тип кодирования уменьшает количество битов, требуемых на выборку, примерно на 25% по сравнению с PCM.
Adaptive DPCM (ADPCM) — это вариант DPCM, который изменяет размер шага квантования, чтобы позволить дальнейшее уменьшение требуемой полосы пропускания для данного отношения сигнал / шум.
Дельта-модуляция — это форма DPCM, которая использует один бит на выборку, чтобы указать, увеличивается или уменьшается сигнал по сравнению с предыдущим

В телефонии стандартный аудиосигнал для одного телефонного звонка кодируется как 8000 выборок в секунду, по 8 бит каждая, что дает цифровой сигнал со скоростью 64 кбит / с, известный как DS0. По умолчанию сжатие сигнала кодирует на DS0 либо μ-закон (mu-law) PCM (Северная Америка и Япония), либо A-law PCM (Европа и большая часть остального мира). Это системы логарифмического сжатия, в которых 12- или 13-битный номер линейной PCM-выборки отображается в 8-битное значение. Эта система описана в международном стандарте G.711.

. Если стоимость канала высока и потеря качества речи допустима, иногда имеет смысл еще больше сжимать голосовой сигнал. Алгоритм ADPCM используется для отображения серии 8-битных выборок PCM с µ-законом или A-законом в серию 4-битных выборок ADPCM. Таким образом, пропускная способность линии увеличивается вдвое. Этот метод подробно описан в стандарте G.726.

Форматы кодирования звука и аудиокодеки были разработаны для обеспечения дальнейшего сжатия. Некоторые из этих методов стандартизированы и запатентованы. Усовершенствованные методы сжатия, такие как MDCT и кодирование с линейным предсказанием (LPC), в настоящее время широко используются в мобильных телефонах, передаче голоса по IP (VoIP) и потоковое мультимедиа.

М

Микрофон — электроакустический преобразователь, который реагирует на звуковые волны и вырабатывает эквивалентные электрические сигналы.

Микшер -программный или аппаратный блок, предназначенный для регулировки уровней сигналов в каналах и на входах/выходах, а также для смешения сигналов.

Младший квант — минимальный уровень квантования.

Многотембровость — максимально возможное количество воспроизводимых одновременно инструментов.

Модуляция — изменение по заданному закону во времени величин, характеризующих какой-либо регулярный физический процесс. Практическое значение имеет модуляция колебаний.

Мощность звука — характеризует общую звуковую энергию, излучаемую источником звука в единицу времени; измеряется в Вт (или dBm — децибел на милливатт). Мощность звука рассчитывается по следующей формуле: P (dBm) = 10 * lg (P/1 мВт), где P — мощность звука, измеренная в мВт (используется для измерения «электрической продукции» звукового оборудования). Некоторые конкретные источники звука можно характеризовать следующими приблизительными цифрами:
* Шепот — 10-9 Вт
* Разговор — 10-5 Вт
* Крик — 10-3 Вт
* Большой оркестр — 10 Вт
* Большой турбореактивный самолет — 105 Вт
Следует отметить, что для электроакустического преобразователя акустическая мощность меньше проводимой электрической мощности. К.п.д. громкоговорителя динамического типа невелик и составляет несколько процентов).

Музыкальный баланс — смысловая уравновешенность громкости звучания в общей звуковой картине: отдельных групп инструментов, солистов, действующих лиц в спектаклях. М.Б. зависит от правильной расстановки микрофонов, микширования, использования искусственной реверберации и частотной коррекции. Частичные параметры: cоответствие полученного результата: партитуре, сценарию спектакля, замыслу теле-, кинорежиссёра, реальному звучанию. Примеры недостатков: нарушение тембров отдельных инструментов, групп или голосов.

Мультитембровость — см. многотембровость.

LPCM — концепция и принципы

Основная идея LPCM заключается в том, что звуковая волна разбивается на отдельные отсчеты, называемые «импульсами». Каждый отсчет представляет собой цифровое значение, которое соответствует амплитуде звукового сигнала в данной точке. Используется линейная шкала отсчета, что позволяет сохранить максимальную точность воспроизведения и восстановления аналогового звучания.

Процесс преобразования аналогового сигнала в LPCM состоит из нескольких этапов:

Оцифровка: аналоговый сигнал с помощью аналого-цифрового преобразователя (ADC) разбивается на отдельные отсчеты.
Квантование: каждый отсчет округляется до ближайшего значения на дискретной шкале.
Кодирование: значения отсчетов переводятся в бинарный код для хранения и передачи.

LPCM обладает рядом преимуществ перед другими форматами цифрового аудио. Она предоставляет полную без потерь аудио передачу, что означает, что восстановленный аудиосигнал идентичен исходному

Кроме того, LPCM поддерживает высокую точность и динамический диапазон, что важно для профессионального аудио. В связи с этим, LPCM широко используется в записи звука, киноиндустрии и других областях, где требуется максимальное качество звучания

Представление звуковой информации в компьютере

Звук представляет собой непрерывный сигнал — звуковую волну с меняющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем он громче для человека. Чем больше частота сигнала, тем выше тон. Частота звуковой волны выражается числом колебаний в секунду и измеряется в герцах (Гц, Hz). Человеческое ухо способно воспринимать звуки в диапазоне от 20 Гц до 20 кГц, который называют звуковым.

Количество бит, отводимое на один звуковой сигнал, называют глубиной кодирования звука. Современные звуковые карты обеспечивают 16-, 32- или 64-битную глубину кодирования звука.

При кодировании звуковой информации непрерывный сигнал заменяется дискретным, то есть превращается в последовательность электрических импульсов (двоичных нулей и единиц)

Важной характеристикой при кодировании звука является частота дискретизации — количество измерений уровней сигнала за 1 секунду:- 1 (одно) измерение в секунду соответствует частоте 1 Гц;
— 1000 измерений в секунду соответствует частоте 1 кГц.. Количество измерений может лежать в диапазоне от 8 кГц до 48 кГц (от частоты радиотрансляции до частоты, соответствующей качеству звучания музыкальных носителей).

Количество измерений может лежать в диапазоне от 8 кГц до 48 кГц (от частоты радиотрансляции до частоты, соответствующей качеству звучания музыкальных носителей).

Существуют различные методы кодирования звуковой информации двоичным кодом, среди которых можно выделить два основных направления: метод FM и метод Wave-Table.

Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых представляет собой правильную синусоиду, и следовательно, может быть описан кодом. Разложение звуковых сигналов в гармонические ряды и представление в виде дискретных цифровых сигналов (рис. 1.5) выполняют специальные устройства — аналогово-цифровые преобразователи (АЦП).

Рис. 1.5. Преобразование звукового сигнала в дискретный сигнал: a — звуковой сигнал на входе АЦП; б — дискретный сигнал на выходе АЦП

Обратное преобразование для воспроизведения звука, закодированного числовым кодом, выполняют цифро-аналоговые преобразователи (ЦАП). Процесс преобразования звука представлен на рис. 1.6. Данный метод кодирования не дает хорошего качества звучания, но обеспечивает компактный код.

Рис 1.6. Преобразование дискретного сигнала в звуковой сигнал: а — дискретный сигнал на входе ЦАП; б — звуковой сигнал на выходе ЦАП

Таблично-волновой метод (Wave-Table) основан на том, что в заранее подготовленных таблицах хранятся образцы звуков окружающего мира, музыкальных инструментов и т. д.. Числовые коды выражают высоту тона, продолжительность и интенсивность звука и прочие параметры, характеризующие особенности звука. Поскольку в качестве образцов используются «реальные» звуки, качество звука, полученного в результате синтеза, получается очень высоким и приближается к качеству звучания реальных музыкальных инструментов.

Звуковые файлы имеют несколько форматов. Наиболее популярные из них MIDI, WAV, МРЗ.

Формат MIDI (Musical Instrument Digital Interface) изначально был предназначен для управления музыкальными инструментами. В настоящее время используется в области электронных музыкальных инструментов и компьютерных модулей синтеза.

Формат аудиофайла WAV (waveform) представляет произвольный звук в виде цифрового представления исходного звукового колебания или звуковой волны. Все стандартные звуки Windows имеют расширение WAV.

Формат МРЗ (MPEG-1 Audio Layer 3) — один из цифровых форматов хранения звуковой информации. Он обеспечивает более высокое качество кодирования.

П

Панорамирование — управление уровнем сигнала в каналах, приводящее к изменению положения мнимого источника звука на стереопанораме.

Передискретизация — оцифровка сигнала с частотой дискретизации, превышающей исходную. Способ ослабления шума квантования.

Период — время, за которое совершается одно полное колебание.

Полифония — максимально возможное количество воспроизводимых одновременно простейших звуков (максимальное количество одновременно запущенных генераторов синтезатора).

Помехи — шумы (см. шум), мешающие полноценному восприятию звукозаписи. Частичные параметры: шумы акустические и электрические, помехи в цифровом тракте: щелчки, выпадение информации.

Порог слышимости — минимальная интенсивность звука, с которой слуховой аппарат человека начинает воспринимать звуковой сигнал. Порог слышимости звука для человека не остается постоянным с изменением частоты — чувствительность человеческого уха сильно зависит как от громкости звука, так и от его частоты. Например, порог слышимости сигнала на частоте около 3 КГц составляет приблизительно 0 дБ, а на частоте 200 Гц — около 20 дБ. Напротив, болевой порог слышимости мало зависит от частоты и колеблется в пределах 100 — 130 дБ.

Потоковое воспроизведение — воспроизведение аудио данных, не дожидаясь завершения их получения (передачи).

Прозрачность звучания — возможность временного и качественного различения отдельных источников в обшей звуковой картине. Частичные параметры: регистровая прозрачность звучания. Временная прозрачность. Разборчивость текста. Слитность звучания. Стереофоническое разрешение. Острота локализации, отображаемая ширина точечных источников звука. Примеры недостатков: перекрытия между отдельными звуковыми линиями (результат нарушения музыкального или акустического баланса).

Пространственное впечатление от звучания — это восприятие совместного действия источников звука и их пространственного окружения. П.В. характеризует связь между размером помещения и количеством исполнителей. Оценка П.В. включает ощущение звуковой перспективы в глубину и ширину. Взаимное соотношение: объёма помещения и размеров звучащего тела, музыкального содержания и акустических свойств студии. Частичные параметры: впечатление о размере помещения. Продолжительность реверберации. Соотношение прямых и отраженных звуков (акустический баланс). Акустическая атмосфера. Тембр пространственного звука. Объёмность звучания создаваемая многоплановостью звуковой картины. Примеры недостатков: многопространственность — звучание отдельных голосов (инструментов) расположенных как бы в разных помещениях, отличающихся акустикой. Искажение тембра простраственного звука. Нарушение акустического баланса.

Протокол — система параметров и форматов данных, используемых устройством.

Психоакустика — наука, изучающая психологические особенности восприятия звука человеком, а также влияние звука на человека.

И

ИКМ — Импульсно-кодовая модуляция. См. PCM.

Интенсивность (сила) звука — отношение падающей на поверхность звуковой мощности к площади этой поверхности. Определяется как амплитудами всех частотных составляющих, так и числом источников, звучащих одновременно. Интенсивность звука измеряется в Вт/м2 или дециБелах и рассчитывается по формуле: I=P/S (Вт/м2) , где P — мощность падающей на поверхность звуковой волны (см. ниже); S — площадь поверхности. Чувствительность слуха в среднем подчиняется логарифмическому закону, то есть нарастание интенсивности звука в виде степенной функции воспринимается на слух как линейное (равномерное) увеличение громкости. Поэтому для оценки интенсивности звука удобно пользоваться логарифмической единицей, какой и является дециБел. При измерении абсолютной интенсивности звука, за эталонное значение Z принимается уровень порога слышимости синусоидального сигнала с частотой 1000 Гц, что соответствует интенсивности 10-12 Вт/м2. Учитывая тот факт, что ухо человека различает относительное изменение интенсивности примерно на одну десятую часть Белла, то интенсивность принято оценивать в децибелах (дБ или dB): I (дБ)=lg(X/10-12)/10, где X – интенсивность звука, Вт/м2. В результате получается, что порог слышимости определяется интенсивностью равной 0 дБ (lg(10-12/10-12)/10=0), интенсивность шепота — около 35 дБ, интенсивность громкого голоса — около 90 дБ. Болевые ощущения возникают при интенсивности около 110-130 дБ.

Интерполяция — восстановление сигнала между отсчетами; отыскание промежуточных значений величины по некоторым известным ее значениям.

Интерфейс — совокупность программных и аппаратных средств и протоколов, предназначенных для организации взаимодействия различных устройств.

Интерференция — явление усиления колебаний в одних точках пространства и ослабления колебаний в других точках в результате наложения двух или нескольких волн, приходящих в эти точки. Интерференция волн возможна, если разность фаз волн постоянна во времени, т. е. волны когерентны. Интерференция волн действительна для волн любой природы и частоты.

What is the PCM Audio Format?

PCM stands for pulse-code modulation and is a digital audio format designed to represent analog signals as digital. Please note that PCM is a general term that encompasses various digital audio encoding schemes.

However, generally speaking, PCM works by taking analog signals and turning them into a series of digital pulses that can then be stored and transmitted. It does so by sampling an analog audio signal aat regular intervals and quantizing each sample into a digital value. This is used in CDs, DVDs and Blu-ray discs among many applications.

PCM can be used with various bit depths and sampling rates.

Кодирование и декодирование PCM

Сэмплирование: аналоговый сигнал делится на маленькие временные интервалы, называемые сэмплами. Чем больше сэмплов в секунду, тем точнее будет воспроизведение звука. Стандартный частотный диапазон для аудио — 44,1 кГц.
Квантование: каждый сэмпл амплитуды округляется до ближайшего значения из некоторого набора дискретных уровней. Чем больше уровней, тем выше качество звука. Например, в 16-битном PCM используется 65 536 уровней.
Кодирование: после квантования каждый сэмпл представляется в виде числа, которое можно записать в цифровом формате.

Чтобы воспроизвести цифровой аудиофайл, он должен быть декодирован обратно в аналоговый формат. Для декодирования PCM необходимо выполнить следующие шаги:

Восстановление амплитуды: каждое число в файле PCM преобразуется обратно в амплитуду звука, используя соответствующий набор дискретных уровней.
Воссоздание временного интервала: амплитуды объединяются вместе, чтобы воссоздать оригинальный аналоговый сигнал.

После выполнения этих шагов происходит воспроизведение звука. PCM — один из наиболее распространенных способов кодирования и декодирования аудио, используемый во множестве цифровых устройств и форматах файлов.

Как создать LPCM файл

Для создания LPCM (Linear Pulse Code Modulation) файла требуется подготовить исходный сигнал в формате WAV. LPCM использует бесплатный и открытый стандарт, который основывается на PCM (Pulse Code Modulation). LPCM представляет цифровую форму записи аналогового аудиосигнала без сжатия данных. В LPCM используется точное количесво бит для каждой дискретной выборки сигнала, что позволяет сохранять высокую точность и детализацию в записи.

Для того, чтобы создать LPCM файл, необходимо провести качественную запись исходного аудиосигнала. Одним из самых популярных программных приложений для записи аудио является Audacity. Программа позволяет осуществлять запись в различных форматах, в том числе LPCM.

Для записи аудио с помощью Audacity необходимо выбрать вкладку «Запись», определить необходимые настройки записи, а затем начать запись звука. После записи аудиосигнала необходимо сохранить файл в формате WAV. Записанный WAV файл затем можно конвертировать в формат LPCM с помощью программы Sound Forge или Adobe Audition.

Создание LPCM файла имеет преимущества по сравнению с другими форматами, поскольку позволяет сохранять высокое качество и детализацию записанного звука. LPCM часто используется в профессиональной звукозаписи для создания высококачественных записей с минимальными потерями данных. Этот формат также часто используется в качестве основного формата для записи DVD-Audio и Blu-ray Audio.

Применение ЛПЦМ в аудиотехнике

Основная идея ЛПЦМ заключается в том, что звуковой сигнал разбивается на короткие интервалы времени, называемые фреймами. Затем каждый фрейм анализируется на основе его предыдущих значений и представляется в виде предсказания. Разница между предсказанным значением и фактическим значением звукового сигнала кодируется и передается.

Для применения ЛПЦМ в аудиотехнике используется специальный аппаратный или программный кодек. Кодек принимает аудиосигнал на вход и применяет алгоритм ЛПЦМ для его сжатия. Затем сжатый аудиосигнал может быть передан по сети или записан на носитель информации.

Преимущества ЛПЦМ в аудиотехнике заключаются в высокой степени сжатия без значительной потери качества звука. Это позволяет передавать или сохранять большое количество аудиофайлов на ограниченном объеме памяти или пропускной способности сети.

Однако, ЛПЦМ имеет и некоторые недостатки. Во-первых, он требует достаточно высокой вычислительной мощности для кодирования и декодирования аудиосигнала. Во-вторых, при повторном кодировании и декодировании сигнал может накапливать ошибки и снижаться качество звука.

Тем не менее, ЛПЦМ является широко применяемым методом сжатия аудиоданных в аудиотехнике. Он используется в различных областях, включая телефонию, музыкальную индустрию, аудио- и видео-коммуникации.

Преимущества	Недостатки
Высокая степень сжатия	Высокая вычислительная мощность
Минимальная потеря качества звука	Накопление ошибок при повторном кодировании
Большое количество аудиофайлов на ограниченном объеме памяти	Снижение качества звука

PCM, Dolby и DTS

Еще один трюк, который могут делать большинство проигрывателей DVD и Blu-ray, — это чтение необработанных аудиосигналов Dolby Digital или DTS. Dolby и DTS — это цифровые аудиоформаты, которые используют кодирование для сжатия информации, чтобы она соответствовала всей звуковой информации объемного звука в цифровом виде на диске DVD или Blu-ray. Обычно некодированные аудиофайлы Dolby Digital и DTS передаются в приемник домашнего кинотеатра для последующего декодирования аналоговым, но есть еще один вариант.

Как только они считывают закодированные необработанные сигналы с диска, многие проигрыватели дисков DVD или Blu-ray также могут преобразовывать сигналы Dolby Digital и DTS в несжатый PCM, а затем:

Передайте этот декодированный сигнал непосредственно в приемник домашнего кинотеатра через соединение HDMI или
Преобразуйте сигнал PCM в аналоговый для вывода через два или многоканальные аналоговые аудиовыходы в приемник домашнего кинотеатра, который имеет соответствующие совместимые входы.

Поскольку PCM-сигнал несжатый, он занимает больше места для передачи полосы пропускания. Итак, если вы используете цифровое оптическое или коаксиальное соединение с вашего DVD-плеера или проигрывателя дисков Blu-ray на приемник домашнего кинотеатра, есть достаточно места для передачи двух каналов звука PCM. Это прекрасно подходит для воспроизведения CD, но для сигналов объемного звучания Dolby Digital или DTS, которые были преобразованы в PCM, вам необходимо использовать соединение HDMI для полного объемного звучания, поскольку оно может передавать до восьми каналов звука PCM.

Подробнее о том, как функции PCM между проигрывателем дисков Blu-ray и ресивером домашнего кинотеатра, см. В разделе «Настройки звука проигрывателя Blu-ray»: бит-поток и PCM.