Цифровой звук
Цифровой звук

Очень важная тема “Основы цифрового звука“, поскольку в основном все сегодня записывают себя в цифру и мало, кто по настоящему использует аналоговое оборудование для записи. Что касается меня, я сторонник аналоговой записи. Но поскольку мой блог не для меня, а для других людей, в основном для начинающих в звукозаписи (хотя уверен, что и профессионалы находят полезную информацию для себя), считаю эту тему особенно важной и полезной для изучения.

Что такое звук?

Звук — это волнообразное давление воздуха. Если бы не было воздуха, мы бы не слышали никакого звука. В космосе нет звука.
Мы слышим звук потому, наши уши чувствительны к изменению давления воздуха — звуковым волнам.

Когда вы хлопаете в ладоши, воздух между ладонями выталкивается и создается звуковая волна. Повышенное давление заставляет молекулы воздуха распространяться во все стороны со скоростью звука, который равен 340 м/с. Когда волна достигает уха, она заставляет вибрировать барабанную перепонку, с которой сигнал передается в мозг и вы слышите хлопок.
Хлопок — это короткое одиночное колебание, которое быстро затухает.

Другой типичный пример простой звуковой волны — периодическое колебание. К примеру, когда звонит колокол, воздух сотрясается от периодических колебаний стенок колокола.

Если стенки колеблются медленно, вы слышите “низкий” звук.

Характеристики звука

Звуковой сигнал можно представить, как совокупность различных синусоидальных составляющих. Каждая составляющая характеризуется рядом параметров.

Высота звука – определяется частотой звуковой волны (или, периодом волны). Чем выше частота, тем выше звучание.

Высота звука измеряется в герцах (Гц, Hz) или килогерцах (КГц, KHz). 1 Гц = 1/С. То есть колебание в 1 Гц соответствует волне с периодом в 1 секунду.

Громкость звука – определяется амплитудой сигнала. Чем выше амплитуда звуковой волны, тем громче сигнал.

Громкость звука измеряется децибеллах и обозначается дБ. Единица измерения, названная в честь Александра Грэма Белла. Приставка деци применяется для обозначения единиц в долях, равных 1/10. Соответственно, децибел — это 1/10 Бела. Белл определяется, как логарифм отношения электрических, акустических или других мощностей:

Бел = log(P1/P0)
дБ = 10 х log(P1/P0)

  • Чувствительность человеческого уха к громкости звука носит логарифмической характер, поэтому их мощность, выраженная в децибелах, точнее отражает наше восприятие звуков. Покажем чему равно в децибелах отношение мощностей 2 Вт и 1 Вт:
    дБ = 10 х log(P1/P0) = 10 х log(2/1) = 10 х log 2 = 3.01 = 3
  • Увеличение мощности в 2 раза соответствет увеличению на 3 дБ. Покажем чему равно в децибелах отношение мощностей 100 Вт и 10 Вт:
    дБ = 10 x log(P1/P0) = 10 x log(100/10) = 10 x log 10 = 10 x 1 = 10
  • Увеличение или уменьшение мощности в 10 раз соответствует 10 дБ. Обратите внимание, что шкала дБ — относительная.

Громкость — это уровень мощности, которая пропорциональна амплитуде звукового сигнала. Громкость определяют в дБm — относительно стандартного значения 1 мВт. Тогда шкала приобртает абсолютное значение.

Субъектино ухо воспринимает не мощность, а звуковое давление на барабанную перепонку. Чем же отличается уровень звука от мощности? Мощность звука — это совокупная звуковая энергия, которую излучает источник звука, например громкоговоритель. Звуковое давление — это звуковая энергия, которая попадает на единицу площади, удаленную от источника звука на расстояние 1м.

Для характеристики уровней звукового давления используется уравнение

дБ SPL = 20 x log(P1/P0) где P0 и P1 звуковое давление.

Двухкратное увеличение звукового давления соответствует 6 дБ, а десятикратное — 20 дБ.
Звуки, которые различаются на 3 дБ, ухом воспринимаются одинаковыми по громкости!
Звук, давление которого на 10 дБ выше, для уха будут звучать в два раза громче.

Следует отметить, что громкость — субъективная характеристика, которая зависит от частоты. Лучше всего ухо воспринимает звук в диапазоне от 1 до 4 кГц. За 0 дБ принят уровень звукового давления, соответствующий порогу слышимости здорового молодого человека в этом диапазоне частот.

Уровни звукового давления, характерные для различных источников:

Пистолетный выстрел на расстоянии нескольких шагов — 140 дБ.
Болевой порог  — 130 дБ.
Реактивный двигатель (в салоне самолета)  — 80 дБ.
Негромкий разговор  — 70 дБ.
Шорох в тихой комнате  — 40 дБ.
Шумы в студии звукозаписи  — 30 дБ.
Порог слышимости  — 0 дБ.

Отметим, что ухо человека воспринимает одинаковую громкость на разных частотах, как звуки разной громкости.

Как записывается звук?

Для записи звука используется устройство — микрофон:

микрофон
микрофон

Микрофон состоит из небольшой мембраны, которая свободно вибрирует под воздействием звуковых волн. Колебания мембраны преобразуются в электрические колебания. Для этого используются различные физические методы. Например, конденсатор. Мембрана представляет собой одну пластину конденсатора, вторая — закреплена неподвижно. При колебаниях меняется расстояние между пластинами, а следовательно, емкость конденсатора.
Проходящий ток приобретает форму звуковой волны.

Таким образом, с помощью микрофона звуковые волны преобразуются в электрические. Далее, сигнал усиливается с помощью электроусилителя.

Как воспроизводится звук?

  • Когда магнитная лента движется вдоль магнитной головки, меняется индукция. Головка преобразует магнитные волны в электрические.
  • Сигнал усиливается электроусилителем.
  • Усиленный сигнал подается на катушки громкоговорителя.
  • Проходящий по катушке электрический ток создает магнитное поле. Созданное поле взаимодействует с полем магнита и катушка смещается, увлекая за собой мембрану, соединенную с катушкой. Мембрана создает колебания воздуха.
  • Таким образом электрический сигнал преобразуется в звуковые.

Цифровой звук

До сих пор мы рассматривали аналоговый звук. Компьютер оперирует с цифровыми данными. По этому для перевода в компьютер аналоговый звуковой сигнал необходимо превратить в цифровой. Для воспроизведения же — наоборот — цифровой сигнал необходимо превратить в аналоговый. Для этого используются специальные устройства: аналого-цфровой преоюразователь (АЦП) и цифро-аналоговый преобразователь (ЦАП). Оба эти устройства встроены в звуковую карту вашего компьютера.

Запись и оцифровка

Запись на магнитофонную ленту является примером аналоговой записи. Компьюер же оперирует с цифровыми данными. Цифровые записи имеют массу преимуществ перед аналоговыми:

  •     Цифровые файлы могут копироваться сколько угодно раз без потери качества.
  •     Цифровые файлы можно записывать на CD и выкладывать на сайт в Интернете.
  •     Цифровые записи удобнее редактировать.

Чтобы преобразовать аналоговый сигнал в цифровой, требуется специальное устройство — аналогово-цифровой преобразователь (АЦП). АЦП преобразовывает аналоговый сигнал в последовательность цифровых значений, которые передаются в компьютер. Метод, который используется для преобразования аналогового сигнала в цифровой, называется методом импульсного кодирования (PCM Pulse Code Modulation). Суть этого метода в том, что производятся отсчеты амплитуды аналогового сигнала через равные промежутки времени компьютера.

Чтобы преобразовать сигнал без потерь, надо производить отсчеты в 2xПи раз чаще, чем самая высокая частота в спектре сигнала. Не сложно догадаться, что два параметра определяют качество цифровой записи:

  • Частота дискретизации (sample rate): Частота, с которой производятся отсчеты. Измеряется в в герцах (Гц). 1Гц=1/С.
    Аудио CD, к примеру используют частоту дискретизации 44,100Гц.
  • Разрешающая способность (Sample format или sample size): Точность представления каждого отсчета, т.е. каким числом описывается каждый отсчет. Аудио CD представлен 16 битами.

Человеческое ухо распознает звуки в частотном диапазоне от 15 ГЦ до 20 КГЦ. Следовательно, идеальная частота дискретизации равна 128 КПц. Эта частота используется в DVD формате. Последнее время распространенным становится частота 192 кгЦ с дискретизацией 24 и 32 бита. Такое разрешение позволяет передавать совершенно реалистическое звучание, однако требует качественной аккустики.

Для аудио формата выбрана частота 44,100Гц с дискретизацией 16 бит (см. “Что такое звук) — это соответствует способности к воспроизведению большинства акустических систем.
Оцифровка аналогового сигнала производится методом пульсовой модуляции (PCM stands for Pulse Code Modulation).

Воспроизведение

Для воспроизведения цифровой сигнал надо преобразовать в аналоговый, усилить и подать на звуковоспроизводящее устройство — колонки или наушники.
Для преобразования цифрового сигнала в аналоговый используется устройство — цифро-аналоговый преобразователь (АЦП).
Как правило, АЦП и ЦАП встроены в звуковую компьютерную карту

Стандартные форматы звуковых файлов

Существуют 3 основных типа звуковых файлов:

1. Группа файлов основанных на технологии пульсовового кодирования (PCM Pulse Code Modulation) — см. предыдущий раздел. Каждая цифра в таких файлах описывает один отсчет при оцифровке. этой группе относятся форматы файлов: WAV AIFF и внутренние форматы звуковых редакторов таких, как Audacity. Эти форматы точно передают звук, но занимают много места на диске. По причине своего большого объема они не удобны для передачи через Интернет.

2. Сжатые форматы. Ранние форматы для сокращения размеров использовали логарифмическую шкалу записи отсчетов. Как известно из математики, логарифмическая шкала позволяет более компактно записывать большие числа (т.е. использовать меньше бит) при этом хорошо отражать динамику описываемой кривой звуковой волны. Самым известным представителем таких форматов является группа форматов Sun AU ( u-law, a-law), используемый и по сей день. Современные форматы используют изысканные алгоритмы сжатия, основанные на опытных психологических исследованиях. При разработке таких форматов учитывалась специфика восприятия звука человеком. Не все частоты воспринимаются человеком даже в слышимом диапазоне. По этому их можно исключить из записи. К таким форматам относятся MP3 (MPEG I, layer 3), Ogg Vorbis, и WMA (Windows Media Audio). Звуковой редактор Audacity поддерживает MP3 и Ogg форматы, но не поддерживает WMA, так как он является внутри корпоративным и не слишком распространенным.

3. MIDI 
Аббревиатура MIDI означает Musical Instruments Digital Interface, то есть цифровой интерфейс музыкальных инструментов. Этот формат больше напоминает программу, а не звуковой файл, он используется для управления синтезаторами звуковой карты.

Не сжатые форматы

Внутренний формат Audacity Project format (AUP) Проекты Audacity записываются в файлы в формате AUP, который наилучшим образом адаптированы для работы с программой Audacity. Формат позволяет записывать, по мимо цифрового представления звукового файла, служебную информацию для редактирования. В последствии вы можете импортировать ваш проект в любой формат.

WAV (Windows Wave) Это основный формат звуковых файлов для операционной системе Windows.

AIFF (Audio Interchange File Format) Это основной формат звука для Макинтоша.

Сжатые форматы

Sun Au / NeXT  Это основной аудио формат для компьютеров Sun и NeXT. Этот формат появился среди форматов со сжатием одним из первых и не обладает высокими характеристиками.

IRCAM (Institut de Recherce et Coordination Acoustique/Musique) Формат популярен среди исследователей компьютерной музыки. Audacity может читать этот формат.
MP3 (MPEG I, layer 3) Это один из самых популярных форматов.С его помощью можно сжать информацию с коэффициентом 1:10. Формат является коммерческим.

Ogg Vorbis Это новый формат сжатия, являющийся бесплатной альтернативой MP3. Качество записи этого формата при той компрессии выше, чем MP3. Audacity может читать и писать в этом формате.

MIDI

Аббревиатура MID означает  “Цифровой интерфейс музыкальных инструментов” (Musical Instrument Digital Interface). Это скроре программа для управления встроенными синтезаторами, чем звуковой файл.

Спецификация MIDI позволяет создавать схожие звуки на различных устройствах, а также обмениваться данными между устройствами, имеющими этот интерфейс.

Благодаря интерфейсу MIDI инструменты могут  “общаться друг с другом”.  Для этого устройства снабжены специальными разъемами: “MIDI IN”, “MIDI OUT” и “MIDI TRU”. Эти разъемы часто называют MIDI-портами Порты соединяются кабелями.

MIDI IN одного инструмента или звуковой карты соединяется с  MIDI OUT другого инструментв или мобильного телефона.
Через разъем MIDI TRU служит для трансляции полученных сообщений.

Использование MIDI TRU следующее  В этом случае MIDI-информация с выхода 1-го устройства поступает на вход 2-го. Проходя через сквозной порт 2-го устройства, эта же информация поступает и на вход 3-го. Можно говорить, что устройство 1 контролирует устройства 2 и 3. Такая комбинация нескольких MIDI-инструментов (более 2-х) носит название “MIDI-система”.

Подробнее о формате MIDI

Что такое MIDI

MIDI расшифровывается, как Musical Instruments Digital Interface (цифровой интерфейс музыкальных инструментов). Строго говоря, MIDI это не звук. С помощью MIDI кодируется информацию о действиях, которые производятся на данном музыкальном устройстве — нажатие на клавиши, кнопки и т. д.
MIDI-коммутация

Для того чтобы коммутировать разные устройства через MIDI-интерфейс, обычно применяют трехжильные кабели с разъемами типа DIN.

В устройствах со стандартным MIDI-интерфейсом имеется три разъема, обозначаемых как MIDI IN, MIDI OUT и MIDI THRU:

MIDI IN — это входной разъем, через который поступает MIDI-информа-ция с других устройств.
MIDI OUT — выходной разъем, через который устройство передает информацию о производимых на нем действиях.
MIDI THRU — это тоже выходной разъем, через который устройство в неизменном виде пересылает информацию,
полученную через MIDI IN.

Рисунок: MIDI-разъем звуковой карты

Для соединения разъема со стандартными MIDI-устройствами необходим переходной кабель. Некоторый производители звуковых карт предлагают приобрести его отдельно. Перед покупкой переходного кабеля обязательно нужно проверить, что он будет работать с вашими моделями звуковой карты и устройств, так как многие производители учитывают индивидуальные особенности данной звуковой карты. Цена кабеля бывает достаточно высока.

MIDI-сообщения

Через MIDI интерфейс передается информация о действиях, выполняемых на музыкальном устройстве — к примеру, — нажатие клавиши. Это содержит информацию о двух параметрах: номере нажатой клавиши и силе удара по ней.

Большинство параметров MIDI могут принимать значения от 0 до 127 (1 байт). Поэтому размер полной MIDI-клавиатуры составляет 128 клавиш. Так как музыкантам привычнее оперировать нотами и номерами октав, в MIDI описано соответствие между номером клавиши и его интуитивным значением. Однако номера октав здесь отличаются от принятых на традиционных акустических инструментах.

MIDI-каналы

Пусть MIDI-карта управляет несколькими устройствами. В этом случае управляемые устройства подключаются цепочкой через соединение MIDI THRU — MIDI IN. Поскольку на выход MIDI THRU передается вся информация, пришедшая на MIDI IN, все подключенные устройства получают одну и ту же MIDI-информацию. Однако, управление несколькими устройствами имеет смысл в том случае, если каждое из них будет исполнять свою партию. Таким образом, существует необходимость разделить поток MIDI-сообщений, чтобы каждое устройство могло принимать только свои сообщения.

Эта проблема в MIDI решена с помощью каналов. Предполагается, что существует 16 MIDI-каналов, и каждое сообщение может идти только по одному из них. При этом каждое устройство настраивается на прием сообщений, приходящих только по одному из каналов.

MIDI-сообщения

Поток MIDI-информации передается побайтно. Для контроля за состоянием линии в начале каждого байта передается стартовый бит (1), а в конце — столовый (0). Каждый байт состоит из 8 значащих битов.

Любой байт, передаваемый по MIDI, является байтом либо статуса, либо значения. Статусный байт всегда первый в MIDI-сообщении, он определяет его тип и номер MIDI-канала. В каждом MIDI-сообщении содержится только один статусный байт. Байты значения содержат параметры, необходимые для данного типа MIDI-сообщения.

MIDI-секвенции и стандартные MIDI-файлы

MIDI-секвенцией называют записанную последовательность MIDI-сообщений и временных промежутков между ними. Такая последовательность при воспроизведении повторяет оригинал, как обычная аудиозапись. MIDI-секвенция, записанная в файл, занимает очень немного места по сравнению с аудиозаписью.

Для работы с MIDI-секвенциями сегодня существуют специальные программы-секвенсеры, благодаря которым редактирование стало удобным. Теперь рассмотрим, как MIDI-сообщения записываются в секвенцию.

MIDI-сообщения записываются в виде двоичных последовательностей. В различных аппаратных секвенсерах реализованы разные способы записи временных промежутков. Один из них — запись в стандартные MIDI-файлы.

Имена стандартных MIDI-файлов обычно имеют расширения .mid или .midi. Стандартные MIDI-файлы могут быть трех различных типов, которые называют тип О, тип 1 и тип 2. В файлах типа 0 весь поток MIDI-информации записывается последовательно. В файлах типа 1 MIDI-сообщения записываются в отдельные дорожки.

Что такое редактирование звука?

Редактирование звука — это любое это преобразование. Вот наиболее часто встречающиеся функции редактирования:

Очистка от шумов
При записи звука всегда присутствуют посторонние шумы. Цифровые редакторы позволяют отделить полезный сигнал от шума.