Главная » Microsoft

Microsoft сделает интеллектуальной голосовую платформу

19 декабря 2010 Нет комментариев

Уже достаточно большое количество времени речевые технологии Microsoft все больше и больше развиваются – лучше распознают, речь людей, производят голосовой поиск и выполняют различные команды на устройствах. Но вот только не хватает осуществления глубокого понимания смысла и контекста речи.

Над этим, компания Microsoft ведет особо интенсивную работу, для создания так называемого “разговорного понимания” (conversational understanding или CU), оно должно будет объединять слова, словари, грамматические структуры и машинное обучение, для наиболее лучшего понимания, о разговорах пользователей. Данная система сможет дать ответ, на основе принятия к сведению всех этих вещей.

Хоть продукта или услуги еще нет, видение “разговорного понимания” уже есть – так сказал Зиг Серафин (Zig Serafin), являющийся руководителем группы Speech в Microsoft.

“Все, что мы делали до этого момента – это распознавание того, что говорят люди” – сказал Серафин. “Если проводить аналогию с человеком, это все равно, что иметь хороший слух. Например, слышал ли я, что вы говорили на ходу на углу рынка в Сан-Франциско, и достаточно ли хорошо я слышал, чтобы дать ответ на заданный вопрос?”.

По его словам, необходимо сделать все именно так, чтобы все сказанные слова значили нечто большее, чем обычный автоматический поиск в Интернете, телефонный звонок или запуск приложения.

“Система должна обрести интеллект. Это и есть понимание смысла” – сказал Серафин. Чтобы сделать это реальностью, нужно соединить различные части речевых технологий Microsoft так, чтобы они работали вместе”.

Данная инфраструктура составляет несколько технологий, которые предназначены для обычных пользователей, и для организаций. Например, TellMe, служба Bing 411 и iPhone-приложение, голосовой поиск на Windows Phone 7 и в Microsoft Sync. Относительно недавно было его появление на Xbox 360 в рамках Kinect, что являлось первой реализацией микрофонной системы Microsoft, которая позволяет выполнить голосовые команды без нажатия каких-либо кнопок, которая в любой момент должна быть готова к ним.

Почти все системы призваны дать ответ на поставленный вопрос. Иногда эти команды достаточно просты. Например, такие команды как “играть (название песни)” или “позвонить маме” могут быть обработаны локально, а если вы скажите что-нибудь, выходящее за пределы краткого списка команд, на основе которого они выполняются, то ваш запрос будет отправлен в облако.

Главная задача понимания разговора заключается в следующем: необходимость выполнения значительного шага вперед за счет подключения сегментов данных – хоть это будут сторонние сайты или какие-либо каналы личных данных, дабы добавить контекст в запросы пользователей и понять, что пользователь при этом пытался выполнить. Но это не сводится к обычному поиску.

“Для приложения, распознающего речь, поиск конечно важен, но он имеет гораздо более широкое предназначение” – говорит Илья Бакштейн (Ilya Bukshteyn), старший директор Microsoft по маркетингу TellMe, голосовой компании, которую Microsoft купила в 2007 году, а затем включила в свою голосовую группу. “Понимание намерений поиска будет ключевым и, на самом деле, поможет вам решить задачу, а не просто найти данные” – сказал он.

Бакштейн представил наглядный пример системы, в которой компания Microsoft поможет запланировать допустим обед для двух молодых людей, при этом разбить его на запрос, который уже будет брать за основу данные из различных мест, таких как календарь, список возможных ресторанов и естественно их место расположения.

“Все эти данные доступны, но находятся в разных местах” – сказал он. “Поэтому механизм и сервис, которые могут искать в различных источниках данных – календарях, истории, общедоступных сайтах – затем могут помочь вам, предоставляя несколько мест на выбор”.

Вопрос заключается в следующем – как реализовать все, так, чтобы при высказывании телефону, своего желания отправиться на ужин в тот или иной вечер. И тут как сказал Серафин – “Инструменты Microsoft должны помочь”.При этом, повторив слова, что Microsoft станет использовать Bing, для реализации консолидирования многоступенчатых задач в одно действие, сделанные в прошлом месяце Юсуфом Мехди, который является старшим вице-президентом Microsoft Online Audience Business, так же Серафин выделил, что компания будет стараться свести к минимуму количество приложений, которые будет необходимо устанавливать на мобильный телефон, а также необходимость их использования.

“Здесь вы сможете выполнять задачи, которые в ином случае потребовали бы гораздо больше манипуляций с традиционными способами ввода, произнеся запрос устно”.

К большому сожалению, Серафин не уточнил, когда данная система станет доступна в продуктах компании. На данный момент в компании присутствует всего лишь стратегия развития, по этой причине о конкретных сроках пока не говорится.

Оставить комментарий или два

Будте вежливы. Не ругайтесь. Оффтоп тоже не приветствуем. Спам убивается моментально.

Вы можете использовать эти тэги:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>