en ru

Элементарен ли Watson?

Архитектура Watson

Когда говорят о Watson, то подразумевают систему, состоящую из трех компонентов: суперкомпьютера, работающего под управлением операционной системы Linux, связующего ПО, реализующего архитектуру UIMA (Unstructured Information Management Architecture), и системы ответов на вопросы DeepQA, специально "заточенной" под Jeopardy!. Центральной частью и, возможно, наиболее важной на последующую перспективу является UIMA.

Вопрос-ответные системы (Question Answering, QA) предназначены для поиска точных ответов на вопросы, поставленные на естественном языке (Natural Language Processing, NLP). Важно подчеркнуть, что речь идет о точных ответах, человек-пользователь должен иметь возможность для однозначной интерпретации ответа, поэтому ответ может сопровождаться какой-то детализирующей или конкретизирующей информацией. Источником сведений могут быть неструктурированные данные (книги, журналы, Web-страницы, блоги), квазиструктрированные (справочники, словари, энциклопедии, вики и ее аналоги) и базы данных. В Европе такие исследования объединяет организация Cross-Language Evaluation Forum (CLEF), а в Японии ведет рабочая группа NTCIR в рамках реализуемого Национальным институтом информатики проекта Cross-Language Information Retrieval (CLIR).

Технология управления неструктурированной информацией (Unstructured Information Management, UIM) и соответствующая архитектура UIMA разрабатывалась в IBM Research еще с 90-х годов группой, насчитывавшей порядка 200 сотрудников. Их деятельность была сосредоточена на средствах для работы с NLP и включала поддержку диалога на естественном языке, выделение полезной информации, анализ текстов, классификацию документов, машинный перевод и вопрос-ответные системы. Итогом стало создание связующего ПО, получившего название UIMA, которое может служить ядром для создания и внедрения распределенных аналитических машин (analysis engine), или UIM-приложений, позволяющих извлекать знания из неструктурированной информации, в том числе из текстов, аудио, видео и изображений.

...

Алгоритм работы системы Watson

Во время игры вопрос поступает системе Watson в текстовом виде (см. рис.) в тот момент, когда он появляется на экране перед остальными участниками. Процесс ответа на вопрос начинается с его анализа и разбиения на грамматические компоненты. На этом этапе выделяются семантические объекты: имена, места или даты, а также определяется лексический тип ответа, например, «животное», «человек» или «страна». С точки зрения типа вопросы можно характеризовать по-разному: например, по теме, по сложности, по грамматической конструкции, по типу ответа и т.д. В игре Jeopardy наиболее распространены «фактические» вопросы, основанные на информации об определенных фактах. Человек, как правило, может мгновенно понять, в чем заключается вопрос и какие его части важны для поиска ответа, а для компьютерной системы необходимы различные алгоритмы определения предмета вопроса и его типа. Тип имеет большое значение, так как вопросы по литературе или вопросы, основанные на игре слов, обрабатываются разными алгоритмами.

На этапе декомпозиции вопрос разбивается на части, причем такое разбиение может быть не единственным. В случае если разбиений несколько, далее они обрабатываются параллельно.

Затем начинается процесс генерации гипотез. По базе знаний проводится первичный поиск кусочков текста, содержащих информацию о частях вопроса, определенных на предыдущем шаге. Для поиска применяются различные методы, в том числе текстовый поиск (Indri, Lucene и т.п.), семантический поиск на основе технологии SPARQL и др. Во время текстового поиска генерируются различные варианты для одного и того же запроса — здесь важно найти как можно больше информации о вопросе, чтобы повысить вероятность того, что среди результатов первичного поиска содержится правильный ответ. На этом шаге Watson генерирует несколько сотен гипотез.

На следующем шаге гипотезы фильтруются с помощью алгоритмов, не требующих больших вычислительных ресурсов, чтобы как можно быстрее отобрать наиболее вероятные, например те из них, лексический тип которых совпадает с лексическим типом ответа, определенным ранее. После фильтрации остается примерно 100 гипотез-кандидатов.

Затем для каждой гипотезы проводится поиск дополнительных фактов в базе знаний, чтобы более точно оценить вероятность того, что она является правильным ответом. Например, одна из методик заключается в том, что в текст вопроса подставляется найденный ответ-кандидат, и в базе разыскиваются похожие предложения.

Подробнее: osp.ru/os/2011/03/13008196

Дополнительно: Apache UIMA

Обсуждение: project-ai.org/forum/viewtopic.php?t=770












© AiKernel 2010-2013
04.09.2012 - 02.01.2012