Выявление и использование практической терминологии с помощью IBM Watson Content Analytics

Введение

Доводы в пользу структурирования неструктурированных данных

В мире существует большой интерес к колоссальным массивам данных, генерируемых человечеством в неуклонно растущих объемах (будь то непосредственно в компаниях и организациях, в Интернете или в социальных сетях). Эти данные можно использовать разными способами для получения необходимых знаний, которые могут помочь, например, укрепить здоровье людей, улучшить демократию или усовершенствовать методы ведения бизнеса. Подобные знания, основанные на данных, являются традиционной сферой приложения средств аналитики (Analytics) или бизнес-анализа (Business Intelligence, BI), использующих, как правило, структурированные данные - даты, результаты финансовых расчетов, количественные показатели, названия компаний. Большинство данных, однако, представлены в неструктурированной форме - в виде текстов, изображений, фильмов. Доля таких неструктурированных данных составляет от 70% для корпоративных данных предприятий до почти 100% в социальных медиа.

Любое аналитическое приложение, которое использует только структурированные данные, фактически игнорирует около четырех пятых имеющейся информации. Насущная необходимость извлечения структурированной информации из неструктурированных источников появляется именно в эпоху Больших данных. Настоящее учебное пособие посвящено работе с текстовыми данными; в нем показано, как извлекать из этих данных терминологическую информацию, применимую на практике в сфере бизнеса.

IBM Watson Content Analytics

Решение IBM Content Analytics with Enterprise Search (ICAwES) представляет собой поисково-аналитическую платформу, использующую анализ обогащенного (форматированного) текста для получения новых применимых на практике знаний из разных источников и типов текстового контента, включая корпоративный контент, web-контент (в том числе контент социальных медиа), сообщения электронной почты и базы данных.

На практике IBM Watson Content Analytics (WCA) может применяться следующими двумя основными способами:

Непосредственное использование аналитических обзоров WCA для быстрого извлечения знаний из больших наборов контента. Такие обзоры часто оперируют т.н. фасетами. Фасеты - это важные аспекты документов, полученные либо из метаданных, которые уже структурированы (например, дата, автор, теги), либо из понятий, извлеченных из текстового контента.
Извлечение информационных объектов или понятий для использования в аналитическом обзоре или в других итоговых решениях. Типичными примерами являются: составление отчетов с результатами медицинских лабораторных анализов для заполнения историй болезни пациентов; извлечение именованных объектов-сущностей и связей для применения в исследовательском программном обеспечении; определение типологии настроений, выражаемых в социальных сетях, для более точного статистического анализа поведения потребителей.

WCA использует технологию обработки текстов на естественном языке (Natural Language Processing, NLP) для извлечения информации из неструктурированных данных (или текстов). Эта информация может извлекаться в следующих формах:

Элементарные понятия или информационные объекты, такие как личности, места, компании, детали авиационной техники, производственные операции
Сочетания вышеуказанной информации, отражающие, как правило, определенный уровень взаимосвязей между понятиями. Примеры таких комбинаций: человек и его работа, компания и ее сфера деятельности, операция технического обслуживания определенного узла самолета, анамнез пациента с описанием семейных связей и проблем со здоровьем.

WCA обрабатывает исходный текст из источников контента посредством конвейера операций, совместимых со стандартом UIMA. UIMA (Unstructured Information Management Architecture) - это программная архитектура, ориентированная на разработку и развертывание ресурсов для анализа неструктурированной информации. Конвейеры WCA включают в себя стадии обработки - такие как определение исходного языка, лексический анализ, извлечение объектов информации - или реализуют извлечение специальных понятий. Извлечение специальных понятий осуществляется аннотаторами, определяющими фрагменты информации, представленные в виде сегментов текста. Аннотаторы можно создавать с помощью IBM Content Analytics Studio (WCA Studio) - графической среды на базе Eclipse, которая облегчает проектирование и тестирование аннотаторов на основе словарей и правил.

Основная цель настоящего пособия - показать, как оптимизировать создание словарей предметной области. Создание таких словарей может показаться простой задачей, если имеется терминология данной предметной области. Проблема в том, что авторы контента не всегда следуют канонической терминологии. Отсюда возникает необходимость наличия корпуса текстов (т.е. подобранного и обработанного по определенным правилам собрания текстов), репрезентативного для исследуемой предметной области. В настоящем пособии используется корпус, состоящий из текстов заявлений, жалоб и претензий, поступивших от водителей автомобилей. Автор пособия описывает свое исследование этого корпуса текстов, направленное на выявление терминологии соответствующей предметной области с помощью лингвистических и аналитических функций WCA. В пособии показано, как эти операции можно оптимизировать до полуавтоматического процесса создания словарей, которые затем можно использовать в WCA Studio для выполнения задач аннотирования. В заключительном разделе пособия описано одно из возможных применений словарей, а именно тегирование рекламационных документов информацией об узлах и деталях, которые могут иметь отношение к проблеме.

Предполагается, что читатель обладает базовыми знаниями об IBM Watson Content Analytics. Для получения более подробной информации см. ниже раздел Ресурсы.

Создание источника корпуса текстов

Пример источника

Под эгидой Министерства транспорта США (United States Department of Transportation) функционирует Национальное управление по безопасности движения автотранспорта (National Highway Traffic Safety Administration, NHTSA). Эта организация через свой веб-сайт, по электронной почте и по телефону принимает от граждан заявления, рекламации, жалобы и претензии, связанные с безопасностью эксплуатации транспортных средств. Информация из этих документов, имеющая отношение к безопасности на автотранспорте, находится в свободном доступе.

На веб-сайте NHTSA (https://www-odi.nhtsa.dot.gov/VehicleComplaint/index.xhtml) пользователи могут указать информацию о транспортном средстве (производитель - модель - год выпуска) и обстоятельствах происшествия. Часть информационного блока об обстоятельствах происшествия содержит поля ввода, обязательные для заполнения - дата происшествия, был ли пожар/авария/вред здоровью, пробег, скорость, поврежденные детали/узлы (выбор из списка 17 основных автомобильных деталей и узлов) - а также поле для ввода текста в свободной форме под заголовком "Tell us what happened" ("Расскажите нам, что произошло"). В результате формируется сводная информация о происшествии, которая представляет собой типичную комбинацию структурированных и неструктурированных данных:

Рисунок 1. Форма NHTSA для составления заявления, связанного с безопасностью эксплуатации автотранспорта

Screen capture of the online form provided by NHTSA to file vehicle safety complaints; the form has three sections, vehicle information, incident information and personal information

Сводные данные открыты для свободного доступа на веб-сайте NHTSA. Этот контент является анонимным, поскольку не содержит персональных идентификационных данных и государственных регистрационных номеров транспортных средств. Изучая данные из заявлений, автор обнаружил, что поле ввода "component" ("деталь/узел") заполнено более широким спектром значений, чем это допускается онлайновой формой, предлагающей список лишь из 17 основных деталей/узлов автомобиля. Это многообразие значений свидетельствует о том, что данные NHTSA пополняются дополнительной информацией после заполнения формы - хотя эта особенность никак не документирована на сайте организации.

Загрузка данных NHTSA в WCA

Данные NHTSA можно получить на странице FLAT FILE COPIES OF NHTSA/ODI DATABASES (текстовые копии баз данных NHTSA/ODI) официального веб-сайта. В разделе справочной информации по продукту WCA подробно описано, как импортировать файлы *.csv в коллекцию документов, поэтому в настоящем пособии детальное описание этого процесса не приводится.

Автор загрузил свыше 230000 записей, связанных с заявлениями пользователей, охватывающих период с 2005 по 2011 год.

Записи были импортированы в собрание (collection) документов Watson Content Analytics. В настройках для этого собрания документов было указано, что необходимо создать поля индекса и фасеты для всех полей структурированных данных, таких как дата происшествия, производитель и модель автомобиля, наличие факта аварии/пожара/вреда здоровью, а также детали/узлы автомобиля, которые упоминаются в заявлении.

На рисунке 2 показано экранное представление вкладки Documents (Документы) в Content Analytics Miner, аналитическом приложении, которое поставляется вместе с WCA. Список фасетов располагается в левой части окна приложения, а сводки различных записей - в правой части окна. Запрашиваемые термины, введенные либо выбранные в списке фасетов, выделены в этих сводках цветом:

Рисунок 2. Окно вкладки документов в приложении Content Analytics Miner

Screen capture of the UI of the Content Analytics Miner application. A column features a list of facets on the left, and in the center a list of three document summaries where the words gas and pedal are highlighted in yellow and green

Использование лингвистических фасетов для определения терминологии предметной области

Теперь давайте посмотрим, как лингвистические фасеты, предоставляемые IBM Watson Content Analytics, могут помочь в составлении словаря предметной области

Практическое применение лингвистических фасетов WCA

WCA предоставляет готовые к использованию фасеты для информации о частях речи по отдельным словам (имя существительное, глагол или прилагательное) и по словосочетаниям/фразам (именная группа или последовательность имен существительных). Вкладка Facets (Фасеты) в приложении Content Analytics Miner отображает значения, которые может принимать конкретный фасет в наборе документов, выбранных по текущему запросу. Эти значения можно отсортировать по частоте - т.е. по количеству документов, содержащих указанное значение фасета - или по показателю корреляции. Показатель корреляции определяет, насколько релевантно значение фасета для набора документов, выбранных по текущему запросу, в сравнении с другими документами в собрании (collection).

Для того чтобы лучше понять разницу между частотой и корреляцией, посмотрите на отсортированный по частоте список имен существительных, найденных во всем собрании документов. Выберите вкладку Facets и фасет Part of speech (Часть речи) > Noun (Имя существительное) > General Noun (Общее имя существительное) в структурном дереве Facet Navigation. (Структурный элемент General Noun представляет слова, которые определены как имена существительные в словаре общей лексики, тогда как раздел Others (Другое) представляет неизвестные слова.)