Почему так сложно научить машину разговаривать, как человек

Новое поколение компьютерных голосов должно звучать достаточно человечно, чтобы мы чувствовали с ними связь. Но не слишком убедительно, чтобы те не смогли нас обмануть. И поймать этот баланс будет довольно трудно.

Когда машины только начали с нами говорить, их речь была похожа на детский лепет. Люди слышали, как голос объявляет остановки в пригородном поезде, и сразу понимали, что он механический, потому что никто из местных жителей не произнесет «Порт Честер», как «порчестер». Но такие объявления никого не смущали. Другое дело, если поезд загорится — в экстренной ситуации мы хотим слышать живой голос, который подскажет нам, что делать и поможет успокоиться.

Исследования показали, что люди хорошо воспринимают фразы, произносимые механическим голосом, только если они простые и короткие. Мы привыкли постоянно считывать невербальные подсказки в малозаметных изменениях голоса, поэтому когда их нет, легко отвлекаемся — именно поэтому так тяжело долго слушать компьютерные голоса.

Если мы собираемся заменить живых помощников ассистентом Google или хотим по-настоящему общаться с Alexa, то нужно, чтобы машины могли разговаривать, как люди: реагировать на вербальные сигналы, поддерживать ритм и темп разговора. И научить их этому невероятно трудно.

Мешает интонационная конструкция речи. В нее входят интонация, тон, ударения и ритм, придающие нашим голосам уникальность. Важны не слова, которые мы говорим, а как мы их произносим. «Секрет человеческого голоса в мелодичности», — считает Эмма Родеро, профессор факультета коммуникации из Университета Помпеу Фабра в Барселоне. Родеро занимается исследованием механических голосов и считает, что компьютеру крайне тяжело скопировать все тонкости человеческой речи.

«Интонация сочетает в себе четыре свойства: тон (самое важное), скорость речи, интенсивность и громкость. Когда я говорю, я комбинирую их самыми разными способами. Siri такого не умеет», — рассказывает Родеро.

Родеро работала со звуковыми инженерами и давала им список интонаций, связанных с разными эмоциями, например, радостью или грустью. В этом и заключается главный недостаток машин — они могут воспроизводить только то, что в них заложено, а каждый человек совершенно уникален.

«Когда вы рады, вы можете по-разному передать эту эмоцию в своем голосе. А мы не можем этого заложить в компьютер, — сказала Родеро. — Это одна из проблем, с которой сталкиваются инженеры: алгоритмы ограничены, а наш голос нет».

Технологические компании пытаются решить эту проблему, выбирая для искусственного интеллекта записи максимально выразительного голоса. Когда нужно было выбрать голос для Debater от IBM (искусственного интеллекта, способного вести дебаты), компания провела кастинг и отобрала 20 актеров озвучания. Самого подходящего определила команда IBM на основе своих личных предпочтений. Инженеры спрашивали себя, достаточно ли убедительно звучит тот или иной голос, способен ли он тронуть человека и так далее.

Источник: rb.ru

компании