Утоли моя печали
- Сколько можно "сэкономить" (сократить) в диапазоне частоты? (При обычном разговоре "от рта к уху" на расстоянии одного-двух метров мы воспринимаем звуковые колебания с частотой от 60 до 15 тысяч герц. Обычный телефон передает ограниченную полосу от 100 до двух с половиной тысяч герц. Но и при передаче по более "узким" каналам речь все еще сохраняет некоторую разборчивость.) До каких пределов можно сократить канал? Что лучше срезать - верхние или нижние частоты?
- Если необходимо (в целях шифрации) передавать речь, разделяя ее фильтрами на отдельные частотные полосы, то какое именно деление наиболее благоприятно для разборчивости и узнаваемости?
- Как влияют на разборчивость речи, на узнавание говорящего различия в энергии, то есть амплитуды звуковых колебаний? До каких пределов можно их сокращать? До какой степени точно нужно воспроизводить различия между амплитудами в отдельных диапазонах частоты?
Такие конкретные, непосредственно технические вопросы были неотделимы от некоторых общетеоретических проблем:
- Что имеет решающее значение при восприятии речи: дискретные отдельные звуки или некие целостные "блоки" - слоги, слова, фразы - единицы смыслов?
- Чем отличается восприятие написанного текста от восприятия речи?
- Что быстрее и точнее? Можно ли эти различия измерять?
Звуковиды - то есть спектрограммы звуковых колебаний - позволяют увидеть распределение энергии по частоте в диапазоне примерно от 20 до 3000 герц. Те звуковиды, которые получали на АС-2 и АС-3, прорисовывали этот диапазон несколькими сотнями тончайших линий. Сергей сделал приспособление, позволяющее делать рисунок то более густым, то более редким. Степень резкости, потемнения отдельных участков каждой линии выражала более или менее высокую энергию (амплитуду) звуковых колебаний данной частоты и в данное мгновение (доли секунды). Такие спектрограммы позволяли добраться до тайников, которые раньше были недоступны ни лингвистам, ни акустикам, ни отоларингологам, ни логопедам...
На первых порах в звуковидах и в параллельно снятых осциллограммах я находил подтверждения тех, так сказать, "корпускулярных" теорий речи, которые представляли ее сложной конструкцией из четко раздельных кирпичиков - фонем.
Позднее я все больше убеждался, что этого недостаточно. И письменный текст, если его лишить знаков препинания и прописных букв, существенно обедняется, может даже по существу измениться. Однако "написанное пером не вырубишь топором" - его можно перечитывать не раз, чтобы лучше уразуметь. А прозвучавшее слово "вылетело и не поймаешь".
Сопоставляя возможности слуха и зрения, я становился "ухо-патриотом", пытался доказывать, что слепорожденные или рано ослепшие люди, как правило, значительно способнее, интеллигентнее, чем рожденные глухими или рано оглохшие. Потому что глухота - и связанная с нею немота - неумолимо подавляют разум, сознание, в значительно большей степени, чем слабость или полная утрата зрения. Вспоминал Гомера и московского математика Льва Понтрягина и не мог вспомнить ни одного глухого или глухонемого гения.
Но в то же самое время я все больше убеждался, что восприятие речи нельзя рассматривать как такую работу некоего сверхскоростного ухо-мозгового приемника, при которой стремительно анализируется поток фонем, раздельных, как звуки морзянки.
Одно время я стал было приверженцем "волновой" теории речи. Но потом пришел к новой и уже окончательной уверенности, что мы воспринимаем речь как некое переменное единство (переменное и во времени и по относительным значениям разных составляющих его элементов). Это единство охватывает и дискретные единицы - отдельные звуки, и непрерывные, транзиторные, т.е. переходные, процессы, и создаваемые теми и другими целостные "блоки" информации: слова, интонации, фразы.
В конце концов я разработал, частью сопоставляя и компилируя вычитанное и выученное, частью заново обдумывая то, что наблюдал сам, такую систему фонетико-физических представлений, которая, как мне казалось, лучше других могла помочь работе моих товарищей - инженеров и техников. Назвал я эту систему "речевые знаки русского языка".
1) ЧАСТОТНО-ЭНЕРГЕТИЧЕСКИЕ дискретные речевые знаки или фонемы. Их физические выражения - образующие, т.е. форманты.
2) ЧАСТОТНО-ВРЕМЕННЫЕ и АМПЛИТУДНО-ВРЕМЕННЫЕ транзиторные знаки "речевого лада", т.е. ударения, интонации, выразительные колебания громкости или мелодии речи. Их выражения - амплитуды звуковых колебаний, переходы основного тона.
3) ВРЕМЕННЫЕ ЗНАКИ: выразительные паузы, ускорения или замедления.
4) ЗРИМЫЕ речевые знаки: мимика, жесты. Увлеченно, в иные часы и вовсе забывая обо всем вокруг, я изобретал велосипеды и открывал Америки либо строил собственные фантастические умозрительные схемы.
Звуковиды представляли речь прежде всего в двух измерениях: по времени (горизонтальная ось) и по частоте (вертикальная). Третье измерение энергия (амплитуда) выражалась только в степени потемнения отдельных участков.
Сергей сделал приспособление, позволяющее получать точечные - подобно картинам пуантелистов - спектрограммы, с тем чтобы по числу точек определять количество энергии, т.е. высоту соответствующей амплитуды. Но ему все не удавалось получить достаточно объективные и действительно измеримые показатели. Чем больше энергии, тем больше точек, и они сливались в пятна. Он разработал прибор, анализировавший спектр по частоте и амплитуде. Получались звуковиды мгновенных (не дольше ста миллисекунд) долек отдельных звуков речи. По горизонтали частота, по вертикали амплитуды.
Я стал мечтать о трехмерном изображении речи. И Сергей сделал несколько моделей. Десятка два "профильных" частотно-амплитудных спектрограмм выстраивались в ряд по оси времени и так создавали кусочек причудливого горного ландшафта. Но прочесть "трехмерное" слово оказывалось едва ли не труднее, чем по двухмерному звуковиду, а строить подобные модели было и хлопотно и трудоемко.
К тому же не было уверенности в достаточно точном объективном изображении амплитуд. Они ведь более всего зависели от частотных характеристик микрофонов (телефонов). Эти характеристики сравнительно мало влияли на разборчивость, но различались даже у аппаратов, сходных между собой по всем прочим качествам.