Спросить человеческим языком: говорите

Спросить человеческим языком: говорите

Пара десятилетий назад о том, что люди будут общаться с электронными совокупностями посредством устной речи, писали лишь фантасты — в романах о далеком ярком будущем. Сейчас такую возможность имеет любой обладатель более-менее современного смартфона.

Современные смартфоны такие мелкие, что трудиться с их виртуальной клавиатурой совсем непросто, а собрать более-менее сложный запрос в поисковой совокупности- так . Но в действительности для поиска вовсе не требуется приводить к экранной клавиатуре.

Легко нажимаете на кнопку и рассказываете, что желаете отыскать. Совокупность голосового поиска Гугл сделает все другое. О том, как трудится эта совокупность, создающая неизгладимое чувство кроме того на умелых пользователей, «Популярной механике» поведал один из создателей ее русской версии, старший инженер по разработке ПО научно-исследовательской лаборатории компании Гугл Евгений Вайнштейн.

Поинтересуйся у облака

Само собой разумеется, голосовые интерфейсы существовали и раньше — достаточно отыскать в памяти голосовые меню в некоторых машинах либо голосовой комплект в телефонах. Но, в большинстве случаев, такие совокупности или требуют предварительного обучения, или оперируют весьма ограниченным словарем в пара десятков слов (или и то и другое).

Исходя из этого, в то время, когда Google в 2008 году заявила о запуске голосового поиска для мобильных устройств (в первую очередь смартфонов на платформе Гугл Android) на самом простом английском, многие восприняли это скептически. Но оказалось, что совокупность трудится и трудится на удивление прекрасно. А спустя два года Голосовой поиск Гугл начал распознавать и русский язык.

«Командные совокупности применяют весьма ограниченные словари, а при поиске запросы бывают различные, так что словарь может быть около миллионов слов, — растолковывает Евгений. — Независимая совокупность распознавания речи с таким словарем должна иметь высочайшую производительность, с этим не справится не только смартфон, но и замечательный полноразмерный компьютер, да и цена таковой совокупности я кроме того опасаюсь себе представить. Исходя из этого Голосовой поиск Гугл произошло реализовать лишь на данный момент, в то время, когда взяли развитие так именуемые облачные сервисы.

На мобильном устройстве выполняется лишь упаковка и оцифровка речи, затем смартфон отсылает эти сведенья на сервер, где и проводятся все ресурсоемкие вычисления, другими словами распознавание речи. Затем на смартфон пересылаются уже готовые результаты поиска».

Металлический собеседник

Для распознавания речи употребляются сложные компьютерные методы, базирующиеся на трех главных моделях речи. Но чтобы компьютер начал ассоциировать обращение со словами, нужно разрешить ему прослушать настоящие человеческие голоса — большое количество голосов, зачитывающих определенный текст. «Дабы запустить начальную версию голосового поиска, необходимо пара тысяч голосов, — говорит Евгений. — Это, само собой разумеется, не дает высокой точности распознавания, но по мере эксплуатации накапливаются все новые голоса, и точность существенно увеличивается.

Чем больше людей пользуется совокупностью, тем выше делается точность распознавания. К примеру, британская версия сервиса на данный момент, через три года по окончании запуска, допускает при транскрипции около 17% неточностей. Для сравнения: уровень неточностей, каковые делает человек, в среднем образовывает порядка 10%. Возможно ли довести уровень распознавания отечественной совокупности до отметки живого человека? Это весьма сложно.

Такое возможно сделать для совокупностей с ограниченным словарем — скажем, состоящим лишь из цифр, как в некоторых банках».

Просматриваю со словарем

По окончании того как компьютер, подобно человеку, сложит из звуков слово, он обязан «осознать» его — другими словами отыскать его в словаре. Чем больше словарь, тем выше точность совокупности, но тем больше времени занимает процесс распознавания. «Приходится, — растолковывает Евгений, — идти на компромисс, так что оптимальный размер словаря образовывает порядка миллиона слов.

Причем в это количество входят не только сами слова, но и все словоформы, личные имена, заглавия компаний и т. п. Это одна из обстоятельств, по которой русский вариант голосового поиска менее точен в распознавании. В данный миллион словоформ, к примеру, входят слова в разных падежах». Но, русский — далеко не единственный тяжёлый язык для совокупности голосового поиска.

У других языков собственные неприятности: в германском это составные слова, во французском — связывание (liaison), в то время, когда произношение слова изменяется в зависимости от контекста. А китайский язык — настоящий кошмар для разработчиков: во-первых, он тональный (в зависимости от тона слова смогут означать различные понятия), а во-вторых, китайский (и японский) язык применяет не фонетическое письмо, а иероглифическое. Исходя из этого словарь для таких совокупностей поиска должен быть не орфографическим, а фонетическим.

По окончании того как совокупность приблизительно выяснила слова, входящие в запрос, она разбирает их посредством языковой модели. Это также весьма непростая задача, которая требует собственного словаря. В этом случае языковая модель базируется на статистике запросов поисковой совокупности Гугл и содержании страниц интернета, а это кроме того не миллионы, а миллиарды их сочетаний и слов.

Действительно, с позиций компьютерного анализа эта задача более несложная, потому, что эти текстовые.

Потом везде

Но круг задач, для которых нужно распознавание голоса, не исчерпывается лишь голосовым поиском. А как по поводу вторых применений? «Технически это в полной мере реализуемо, по крайней мере в некоторых областях, — говорит Евгений. — Скажем, сервис Гугл Voice (дешёвый пока только в Соединенных Штатах) — это голосовая почта, сообщения которой транскрибируются и отправляются обладателю на электронную почту.

Либо Гугл Voice Actions, разрешающий руководить телефоном на базе ОС Android — звонить, набирать сообщения, делать записи, прокладывать маршрут — и все посредством одного лишь голоса, правда, пока только на английском. Возможно кроме того диктовать документы, но точность распознавания наряду с этим ниже, потому, что языковая модель Google базируется на статистике как раз поисковых запросов.

на данный момент мы кроме этого тестируем совокупность транскрибирования речи в виде субтитров в клипах, размещенных на портале Youtube. Ну а совместно с разработкой синтеза речи распознавание голоса уже возможно применять как совокупность перевода с одного языка на другой».

Модели речи: Распознавание людской речи — весьма непростая задача кроме того для современных высокопроизводительных компьютеров

У различных людей разная манера сказать, различная скорость речи, тональность, громкость, не говоря уже об выговорах, и на все это еще накладывается окружающий шум — так что кроме того люди, говорящие на том же языке, время от времени вынуждены переспрашивать. Исходя из этого обращение — весьма личный метод обмена информацией, а для распознавания компьютером ее необходимо формализовать. Для этого современные системы распознавания применяют три главные модели речи.

Языковая модель

Определяет возможность применения слов в устойчивых сочетаниях. К примеру, сочетания «наблюдать фотки онлайн» и «наблюдать лодки онлайн» звучат весьма похоже, но возможность применения первой в поисковом запросе намного выше.

Модель произношения

Устанавливает соответствие между последовательностью звуков и написанием слова (фонем). Эта задача сама по себе достаточно сложна, к тому же необходимо учитывать существование разных личных изюминок произношения, выговоров, и неоднозначностей при чтении — к примеру, многозначные числа смогут быть прочтены и как многозначные, и последовательно по одной либо по паре цифр.

Звуковая модель

Определяет, как звучит любая фонема в зависимости от «контекста», другими словами в окружении вторых фонем. Эта модель кроме этого оперирует возможностями разных последовательностей фонем и может кроме этого учитывать ударения, громкость и скорость речи.

При распознавании речи все три модели употребляются в один момент. Входная обращение «разбирается» на звуки звуковой моделью, после этого посредством модели произношения из этих звуков составляются слова, каковые анализируются посредством языковой модели и составляются во фразы в соответствии с накопленной в базах данных статистике.

Статья размещена в издании «Популярная механика» (№105, июль 2011).

Урок 1.1: Общие положения ПДД 2017, полный видеокурс ПДД 2017 простым человеческим языком.


Темы которые будут Вам интересны:

Читайте также: