This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
РОССИЙСКАЯ АКАДЕМИЯ НАУК ИНСТИТУТ ПРОБЛЕМ ИНФОРМАТИКИ
В. Г. Васильев, М.П. Кривенко
Методы автоматизированной обработки текстов
Москва ИПИ РАН 2008
2
УДК 004.85 Печатается по решению Ученого совета Института проблем информатики РАН Рецензент: доктор технических наук В.И. Будзко
Васильев В. Г., Кривенко М. П. Методы автоматизированной обработки текстов. – М.: ИПИ РАН, 2008. – 305 с. – ISBN – 978-5-902030-63-8. В работе рассматриваются современные методы, применяемые для автоматизированной обработки и анализа текстовых данных на естественном языке. Основное внимание уделяется статистическим методам автоматической классификации и кластерного анализа текстовых данных. Работа выполнена при поддержке гранта президента Российской Федерации для государственной поддержки молодых российских ученых МК-12.2008.10.
Семантический анализ .................................................................................... 57
3. МЕТОДЫ ВЕКТОРНОГО ПРЕДСТАВЛЕНИЯ ТЕКСТОВ ....................... 61 3.1.
Векторная модель представления текстов .................................................... 61
3.2.
Методы задания весов терминов ................................................................... 68
3.3.
Качество модели представления текстов ...................................................... 74
3.4.
Технология формирования векторного представления............................... 88
4. МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ..................................................... 92 4.1.
Общее описание моделей и методов формирования сжатого
представления текстов............................................................................................... 92 4.2.
Методы фильтрации признаков ..................................................................... 95
4.3.
Метод главных компонент............................................................................ 102
4.4.
Метод латентного семантического индексирования (LSI) ....................... 106
4.5.
Качество представления текстов в пространстве сниженного размера... 109
4.6.
Последовательный метод обработки данных ............................................. 114
5. МЕТОДЫ КЛАССИФИКАЦИИ..................................................................... 133 5.1.
Общее описание методов классификации .................................................. 133
5.2.
Оценка качества классификации ................................................................. 136
4
5.3.
Вероятностные методы классификации...................................................... 145
5.4.
Методы классификации на основе расстояний .......................................... 154
5.5.
Методы классификации на основе правил.................................................. 159
5.6.
Комбинированные методы классификации................................................ 165
5.7.
Метод комбинированной иерархической классификации ........................ 170
6. МЕТОДЫ КЛАСТЕРНОГО АНАЛИЗА........................................................ 177 6.1.
Общее описание методов кластерного анализа.......................................... 177
6.2.
Оценка качества кластерного анализа......................................................... 178
6.3.
Вероятностные методы кластерного анализа ............................................. 188
6.4.
Структурные методы кластерного анализа................................................. 219
6.5.
Интерпретация результатов кластерного анализа...................................... 226
6.6.
Сравнительный анализ методов кластерного анализа............................... 241
7. ПРИКЛАДНЫЕ СРЕДСТВА АНАЛИЗА ТЕКСТОВ ................................. 246 7.1.
Комплексная технология классификации текстовых данных .................. 246
7.2.
Методы выявления дубликатов и тематического упорядочения текстов 251
7.3.
Методы выделения и классификации значимых фрагментов в текстах.. 257
7.4.
Методы очистки текста от элементов оформления ................................... 266
7.5.
Система классификации и анализа текстов ................................................ 274
ЛИТЕРАТУРА ........................................................................................................... 292 ПРИЛОЖЕНИЕ 1. ТЕСТОВЫЕ МАССИВЫ ..................................................... 301
5
1. Введение В настоящее время потребность в автоматизации различных задач, связанных с обработкой и анализом текстовых данных на естественном языке, испытывают как рядовые пользователи средств вычислительной техники, так и крупные государственные и частные организации. К основным задачам относятся: − извлечение объектов и признаков; − реферирование; − классификация; − кластерный анализ; − интеллектуальный поиск; − фактографический анализ. Задача извлечения объектов и признаков заключается в автоматическом выделении в тексте ключевых слов и словосочетаний, характеризующих тематику текста; в извлечении названий объектов предметной области (организаций, лиц, предметов, географических объектов и т. п.), а также в выявлении взаимосвязей между выделенными объектами и признаками. Например, в системе TextAnalyst [ХЕ99] происходит выявление в текстах несущих основную смысловую нагрузку слов и словосочетаний и ассоциативных взаимосвязей между ними. В системе Intelligent Miner for Text [IMT99] происходит выявление таких признаков, как слова, словосочетания, аббревиатуры, имена собственные, а также различных отношений
между
ними,
например
отношений
зависимости,
отношений
похожести. В системе RCO Pattern Extractor [RCO03] осуществляется выделение в тексте различных объектов, заданных в форме шаблонов на формальном языке. Задача
реферирования
заключается
в
автоматическом
построении
выдержек или кратких изложений содержания документов. При этом реферат может строиться как для отдельных документов, так и для множества документов. Можно
выделить
следующие
автоматического реферирования:
перспективные
области
развития
систем
6
− обработка текстов на разных языках; − извлечение
информации
из
структурированных
данных
и
не
структурированного текста; − построение рефератов большого числа документов; − реферирование мультимедийной информации. В большинстве случаев итоговый реферат получается в результате механического объединения набора фрагментов (предложений), взятых из исходных текстов. В частности, такой подход применяется в следующих системах: Microsoft Office Word, IBM Intelligent Miner for Text [IMT99], RCO for Oracle Intermedia Text [RCO00], TextAnalyst [ХЕ99]. Задача классификации заключается в автоматическом распределении текстов или фрагментов текстов по заранее заданному множеству классов (рубрик). Частными случаями данной задачи являются: − задача маршрутизации потоков текстов в соответствии с предпочтениями пользователей (в данном случае число классов равно числу пользователей); − задача фильтрации «нежелательной» электронной почты (в данном случае
число
классов
равно
двум,
первый
класс
–
«нежелательная»
корреспонденция, а второй – вся остальная); − задача тематической классификации текстов (в данном случае классам соответствуют рубрики иерархического классификатора); − задача кросс-языковой классификации текстов (в данном случае обеспечивается одновременная обработка текстов на разных языках). В качестве примеров систем автоматической классификации можно привести следующие: Классификатор 1.0 [РПК97], СтАРТ [Гар99], Hummingbird EIP [ADC00], IBM Intelligent Miner for Text [IMT99], Semantic Explorer [ШЯЗ99], Convera RetriewalWare [GSE97]. Задача кластерного анализа заключается в автоматическом выделении в массиве текстов групп (кластеров) схожих по своему содержанию текстов. В ряде случаев рассматривается также задача кластерного анализа терминов, в рамках
7
которой
выделяются
группы
схожих
по
своему
содержанию
слов
и
словосочетаний. Частными случаями данной задачи являются: − задача выявления дубликатов документов (в данном случае кластерам соответствуют различные варианты написания одного и того же документа); − задача выявления ключевых тем в сообщениях СМИ (в данном случае кластерам соответствуют группы текстов, описывающих одно и то же событие в СМИ); − задача построения словарей синонимов (в данном случае кластерам соответствуют группы синонимичных слов). В качестве примера систем кластерного анализа текстовых данных можно привести следующие: Классификатор 1.0 [РПК97], Hummingbird EIP [ADC00], IBM Intelligent Miner for Text [IMT99], Semantic Explorer [ШЯЗ99]. Задача интеллектуального поиска заключается в поиске текстов с использованием дополнительных процедур обработки и анализа текстов и поисковых запросов. Частными случаями данной задачи являются: − задача поиска текстов или фрагментов текстов, похожих по содержанию на заданный (в данном случае запрос представляет собой некоторый текст или фрагмент текста); − задача поиска текстов с учетом наличия ошибок в написании слов (в данном
случае
выполняются,
например,
операции
по
формированию
фонетического представления текстов и запросов); − задача поиска текстов с использованием тезаурусов (в данном случае пользовательские
поисковые
запросы
расширяются
или
уточняются
с
использованием различных словарей); − задача кросс-языкового поиска текстов (в данном случае запрос задается на одном языке, а поиск текстов осуществляется сразу на нескольких языках); − задача поиска ответов на вопросы (в данном случае осуществляется поиск не текстов, а кратких ответов на поставленный вопрос, который может выглядеть следующим образом: «Найти объем прибыли, полученной заданной организацией в 2006 году»);
8
В качества примера систем, в которых в некоторой степени реализованы функции интеллектуального поиска, можно привести следующие: Semantic Explorer [Шум01], TextAnalyst [ХЕ99], Oracle IntermediaText [MKD99]. Задача
фактографического
анализа
текстов
заключается
в
автоматическом выявлении в текстах объектов заданной предметной области и построении их формализованных описаний. Частными случаями данной задачи являются: − задача выделения в текстах заданных типов объектов предметной области (названий организаций, лиц, предметов, адресов); − задача выделения в текстах событий и действий заданных объектов предметной области; − задача поиска текстов и формирования досье на заданный объект предметной области. В качестве примера можно привести следующие открытые системы: RCO Fact Extractor (www.rco.ru) – выполняет автоматическое выделение в текстах описаний различных событий, связанных с деятельностью лиц и организаций (поездки, встречи, покупки и продажи акций и т. п.); Артефакт (www.integrum.ru) – выполняет поиск информации по заданным объектам с помощью специальных полнотекстовых запросов; SynSys Semantix (www.synsys.ru) – осуществляет выделение в текстах объектов и взаимосвязей между ними. Задача
пространственного
анализа
текстов
заключается
в
автоматическом выделении географических объектов в текстах и выполнении анализа массивов текстов с учетом пространственного расположения выделенных объектов. Частными случаями данной задачи являются: − задача построения географических тематических карт (например, раскраска регионов в соответствии с количеством документов по определенной тематике); − задача географического поиска текстов (например, поиск текстов, относящихся к заданной географической области, или поиск соседних в географическом плане документов к заданному);
9
− задача кластерного анализа документов с учетом географической привязки. Вспомогательные задачи обработки и анализа текстовых данных включают следующие: − идентификация форматов документов (требуется по содержимому документа определить его формат, например либо .pdf, либо .doc, либо .html); − извлечение текста и атрибутов документов (требуется извлечь из документов в различных форматах текст документа и основные атрибуты, например название, автора, дату, источник); − идентификация кодировок документов (требуется по содержимому текста документа определить его кодировку, например Windows-1251, KOI8 или EBCDIC); − идентификация языка документов (требуется по содержимому текста документа определить, на каком языке он подготовлен); − очистка текста документов от различного рода посторонних элементов (например,
очистка
HTML-страниц
от
рекламы,
элементов
управления,
служебных ссылок), а также не относящихся к основной тематике документа фрагментов; − сегментация текстов на тематически однородные фрагменты (обработка таких фрагментов далее может производиться независимо друг от друга); − отбрасывание аномальных документов (перед проведением кластерного анализа часто требуется для повышения устойчивости работы предварительно выявить отдельные документы, которые не похожи на другие документы в массиве); − нормализация названий организаций и объектов предметной области (требуется привести все возможные написания названий одного объекта к единой форме); − перевод текстов с одного естественного языка на другой для решения иных задач.
10
Для решения перечисленных задач применяются два основных подхода: лингвистический и статистический. В рамках лингвистического подхода построение процедур обработки текстов осуществляется индивидуально для каждого языка путем изучения экспертами-лингвистами общих свойств этого языка. В рамках статистического подхода построение процедур обработки текстов осуществляется на основе общих подходов в результате статистического анализа массивов текстов. В чистом виде указанные подходы применяются редко. Например, применение большинства классических методов прикладной статистики требует наличия векторного представления данных, для формирования которого, в свою очередь,
на
практике
необходимо
привлечение
множества
различных
лингвистических процедур обработки текстов. В результате обычно технология обработки текстовых данных включает следующие основные этапы: 1. Преобразование документов к единому виду и очистка исходных текстовых
данных:
идентификация
форматов
и
кодировок
документов,
извлечение текста из документов в различных форматах, очистка документов от элементов оформления, выявление аномальных документов. Данные задачи носят вспомогательный характер и обычно реализуются с помощью специальных процедур, которые зависят от характера обрабатываемых данных и носят в большей степени технический характер. По этой причине в настоящей работе данные вопросы подробно рассматриваться не будут. 2. Лингвистический
анализ
текстов:
графематический
анализ,
морфологический анализ, постморфологический анализ, синтаксический анализ, выделение словосочетаний, семантический анализ. Выполнение данных процедур обеспечивает выделение в текстах информационных признаков, необходимых для выполнения последующих процедур анализа текстов. В большинстве случаев уровень выполнения данного этапа оказывается определяющим для качества решения поставленной задачи анализа текстов в целом, и успешное применение статистических
методов
требует
представления
о
технологии
работы
11
лингвистических методов. По этой причине данные методы рассматриваются во втором разделе, хотя и не являются основным предметом настоящей работы. 3. Формирование
векторного
представления
текстов
и
снижение
размерности текстовых данных: вычисление весов признаков в текстах, отбор значимых признаков, формирование комбинированных признаков. Данные методы являются связующим звеном между лингвистическими методами и классическими методами анализа данных. Их рассмотрению посвящены третий и четвертый разделы работы. 4. Выполнение анализа и поиска текстовых данных: классификация, кластерный анализ, интеллектуальный поиск, реферирование. В настоящей работе основное внимание уделяется рассмотрению решения задач автоматической классификации
и
кластерного
анализа
текстовых
данных
в
рамках
статистического подхода. Соответственно, пятый раздел посвящен рассмотрению методов классификации, а шестой – методов кластерного анализа. При построении прикладных систем обработки текстов, как правило, требуется применение не одного метода анализа текстов, а целого набора взаимосвязанных методов, обеспечивающих комплексное решение поставленной задачи. Например, в процессе классификации текстов часто требуется выявление «дубликатов»
документов,
формирование
кратких
рефератов,
выделение
значимых фрагментов в текстах и т. п. По этой причине в седьмом разделе рассматривается технология работы одной из реальных систем. Также при разработке прикладных систем для настройки параметров работы и выбора наиболее эффективных методов требуется оценка качества их работы. По этой причине в каждом разделе особое внимание уделяется рассмотрению методов оценки качества.
12
2. Методы лингвистического анализа текстов 2.1. Основные свойства текстов Естественный язык характеризуется рядом свойств, которые значительно усложняют машинную обработку и анализ текстов на нем. Такими свойствами являются: − многозначность; − универсальность; − избыточность; − контекстная зависимость; − динамический характер. Многозначность – наличие нескольких значений у отдельных слов и сообщений. Многозначность проявляется в таких частных явлениях, как омонимия и полисемия. Полисемия – использование одного слова для обозначения различных предметов и явлений (например, «спортивная команда» – «воинская команда призывников»). Омонимия – совпадение написания и/или произношения слов или иных языковых конструкций, которые имеют разные значения. Выделяют
следующие
типы
омонимии:
лексическая
омонимия
–
одинаковое написание различных по значению слов; морфологическая омонимия – совпадение части словоформ у различных слов; синтаксическая омонимия – совпадение написания предложений с различными значениями. С данным свойством также тесно связано такое явление, как синонимия – близость по значению разных слов и выражений (например, «подлодка» — «субмарина», «черный ящик» – «бортовой самописец»). Универсальность – способность языка передавать информацию любого рода о любом событии, факте, явлении, ситуации реального и представляемого мира. Следствием универсальности языка является большой объем лексики (в
13
русском языке порядка 500 000 слов) и многочисленность форм для выражения грамматических конструкций. Неопределенность – отсутствие четко заданных критериев применимости слов и зависимость их интерпретации от контекста. Данное свойство проявляется, например, в таком явлении, как эллипсность – наличие подразумеваемых слов и связей между словами, которые явно не присутствуют в тексте. Изменчивость – постоянное изменение и развитие основных элементов языка (алфавита, лексики, грамматики). Следствием данного свойства является отсутствие строгой схемы построения высказываний.
2.2. Уровни рассмотрения текстов Текст на естественном языке может рассматриваться на различных уровнях: отдельных знаков, слов, предложений, текста в целом. Каждый из уровней является объектом рассмотрения различных разделов лингвистики. Основными такими разделами являются: − морфология; − синтаксис; − семантика. Морфология (от греч. «учение о форме») – раздел лингвистики, изучающий слова естественных языков и их значимые части – морфемы. В задачи морфологии входит, таким образом, определение слова как особого языкового объекта
и
описание
его
внутренней
структуры.
Морфология,
согласно
преобладающему в современной лингвистике пониманию ее задач, описывает не только формальные свойства слов и образующих их морфем (звуковой состав, порядок следования и т. п.), но и те грамматические значения, которые выражаются внутри слова. В соответствии с этими двумя крупными задачами морфологию часто делят на две области: формальную морфологию (морфемику), в центре которой находятся понятия слова и морфемы, и грамматическую семантику, изучающую свойства грамматических морфологических значений и
14
категорий (т. е. морфологически выражаемое словообразование и словоизменение языков мира). Синтаксис (от греч. «строй, порядок») – в традиционном понимании совокупность грамматических правил языка, относящихся к построению единиц более протяженных, чем слово, – словосочетаний и предложений. Изучение синтаксиса
включает
две
большие
группы
проблем:
описательные
и
теоретические. Цель синтаксического описания – с наибольшей полнотой и точностью сформулировать правила, которые отличают правильно построенные предложения некоторого языка от неправильных. Теоретический синтаксис является
частью
общей
теории
грамматики;
его
задача
–
выделить
универсальный, т. е. свойственный всем языкам компонент синтаксических правил и установить пределы того разнообразия, которое проявляют языки в области синтаксиса. Семантика (от греч. «обозначающий») – анализ отношения между языковыми выражениями и миром, реальным или воображаемым, а также само это отношение и совокупность таких отношений. Данное отношение состоит в том, что языковые выражения (слова, словосочетания, предложения, тексты) обозначают то, что есть в мире, – предметы, качества (или свойства), действия, способы совершения действий, отношения, ситуации и их последовательности. Отношения между выражениями естественного языка и действительным или воображаемым миром исследует лингвистическая семантика, являющаяся разделом лингвистики. Приведенным
уровням рассмотрения текста соответствуют
базовые
лингвистические процедуры: − графематический анализ – выделение отдельных элементов текста (слов, разделителей, предложений, параграфов); − морфологический анализ – построение морфологической интерпретации; − синтаксический анализ – построение дерева зависимостей всего предложения; − семантический анализ – построение семантического графа текста.
15
Иногда отдельно выделяют следующие процедуры: − постморфологический анализ – выполнение операций по снятию морфологической
омонимии,
выделение
фамильно-именных
групп,
географических названий с учетом результатов морфологического анализа и контекста употребления слов; − выделение словосочетаний – выделение в предложении фрагментов, состоящих более чем из одного слова, не прибегая к процедурам синтаксического и семантического анализа; − фонетическое кодирование – осуществление преобразования исходных слов в специальную фонетическую запись, обеспечивающую одинаковое представление слов с похожим звучанием.
2.3. Графематический анализ Графематический (фрагментационный) анализ предназначен для начального анализа текста, представленного в виде цепочки текстовых знаков, с целью выделения
информации,
необходимой
для
дальнейшей
лингвистической
обработки текста. В задачу графематического анализа входит следующее: − разделение входного текста на слова, разделители и т. д.; − сборка слов, написанных вразрядку; − выделение устойчивых оборотов, не имеющих словоизменительных вариантов; − выделение дат в цифровых форматах; − выделение ФИО (фамилии, имени, отчества), когда имя и отчество написаны инициалами; − выделение электронных адресов; − выделение предложений из входного текста; − выделение абзацев, заголовков, примечаний. Оформление результатов графематического анализа зависит от его программной
реализации.
В
качестве
примера
рассмотрим
вариант,
представленный в системе Диалинг (www.aot.ru). Здесь на вход модуля
16
графематического анализа подается текстовый файл, а на выходе строится таблица, состоящая из двух столбцов. В первом столбце стоят выделенные элементы входного текста, во втором – графематические дескрипторы, характеризующие соответствующие элементы текста. В табл. 1 приведён список основных графематических дескрипторов, которые не зависят от контекста употребления слова в тексте. Таблица 1 – Пример набора графематических дескрипторов Название
Описание
Пример
OLE
Русская лексема, присваивается последовательностям, состоящим из букв кириллицы
Иван
OILE
Иностранная лексема, присваивается последовательностям, состоящим из букв латиницы
John
ODel
Символ разделитель
ОPun
Знак препинания, присваивается последовательностям, состоящим из одинаковых знаков препинания
ODg
Цифровой комплекс, присваивается последовательностям, состоящим из цифр
1234
ODgCh
Цифро-буквенный комплекс, присваивается последовательностям, состоящим из цифр и букв
34h
OUnk
Сложный узел, присваивается последовательностям, не обладающим вышеперечисленными признаками
OSpc
Строка пробелов или табуляций
OEOLN
Признак конца строки
OParagraph
Символ параграфа
ONil
Нулевой символ
OOpn
Открывающая скобка
{, [, (
OCls
Закрывающая скобка
}, ], )
OHyp
Дефис
OLongDelimS eq
Последовательность одинаковых символов, длина которой больше 20
Oplu
Последовательность одинаковых символов, длина которой больше 1
OLw
Признак того, что все символы лексемы – малые
мама
OUpLw
Признак того, что первый символ лексемы – большой
Мама
OUp
Признак того, что все символы лексемы – большие
*, =, _ ., [, ], (, ), -, :, ;
§
-
МАМА
17
В
табл. 2
вычисляются
приведён
на
основе
список контекста
контекстных
дескрипторов,
употребления
элемента
которые
текста
(т. е.
учитываются элементы текста, которые идут до и после данного элемента). Таблица 2 – Пример набора контекстных дескрипторов Название
Описание
Пример
BTxt
Признак начала текста
OEOP
Признак конца фразы
OSent1
Признак начала предложения
OSent2
Признак конца предложения
ONam
Признак того, что лексема, возможно, является частью имени собственного. Присваивается лексеме, начинающейся с большой буквы и не имеющей перед собой символа конца предложения
OBullet
Признак начала пункта перечисления
OPar
Признак начала абзаца
OOb1
Признак начала оборота
OOb2
Признак конца оборота
OFIO1
Признак начала ФИО
OFIO2
Признак конца ФИО
ODate1
Признак начала даты
ODate2
Признак конца даты
OFloat1
Признак начала числа с плавающей точкой
OFloat2
Признак конца числа с плавающей точкой
OElectAddr1
Признак начала электронного адреса
OElectAddr2
Признак конца электронного адреса
OАbbr1
Признак начала сокращения
OАbbr2
Признак конца сокращения
Кроме
того,
используются
Для оборота «во взаимодействии с» лексема «во» будет иметь дескриптор OOb1, а «с» – OOb2
дескрипторы,
относящиеся
к
макросинтаксическому анализу (анализу расположения абзацев, заголовков, перечислений). В табл. 3 приведены дескрипторы макросинтаксического анализа. Таблица 3 – Пример набора макросинтаксических дескрипторов Название
Описание
18
CS_Undef CS_Simple CS_Heading CS_Explan CS_Parent
Признак конца раздела, тип которого не определен Признак простого раздела Признак конца заголовка Признак конца раздела, заключенного в скобки Признак конца раздела, заканчивающегося на двоеточие
Обработка текста включает следующие этапы: − выделение элементов текста и построение основных дескрипторов; − вычисление контекстных дескрипторов; − вычисление макросинтаксических дескрипторов. При
вычислении
контекстных
дескрипторов
используются
словари
наиболее распространенных оборотов, сокращений. 2.4. Фонетическое кодирование Фонетическое кодирование обычно применяется для организации поиска слов, похожих по звучанию на заданное слово, для обработки слов с ошибками, а также для обработки слов, являющихся транскрипциями иностранных слов. В результате выполнения процедуры фонетического кодирования для каждого слова из текста формируется специальный фонетический код, который обладает следующими свойствами: − слова с похожим звучанием имеют одинаковые фонетические коды; − в кодах используются только символы русского и английского алфавита. Первое свойство позволяет производить фонетический поиск путем сравнения фонетических кодов слов без необходимости обращения к исходной записи слов на естественном языке, а второе свойство обеспечивает возможность использования стандартных средств полнотекстового поиска для организации индексирования и поиска текстов, представленных в фонетической записи. В настоящее время для текстов на английском языке разработано большое число
различных
методов
фонетического
кодирования.
Наиболее
распространенными из них являются: саундэкс, саундэкс Дэйча-Мокотоффа, система идентификации штата Нью-Йорк, Метафон [Rob70, BR95].
19
Саундэкс (Soundex). Данный алгоритм предназначен для построения фонетических кодов для личных имён. Результирующий код состоит из одной буквы и трёх цифр, каждая из которых соответствует 6 согласным звукам. Алгоритм впервые был применён при проведении переписи населения США в 1980 году. Алгоритм Soundex 1. Оставить первую букву слова без изменений. 2. Преобразовать остальные буквы слова в соответствии с правилами: B, F, P, V → 1 C, G, J, K, Q, S, X, Z → 2 D, T → 3 L→4 M, N → 5 R→6 3. Удалить смежные буквы, имеющие одинаковый код. 4. Удалить буквы A, E, I, O, U, Y, W и H, которые стоят не в начале слова. 5. Взять в качестве кода первые 4 символа, полученные на предыдущем шаге записи слова. █ Например, в результате применения данного алгоритма для слов ALEXANDRE и ALEKSANDER будет получен фонетический код A425. Саундэкс Дэйча-Мокотоффа. В 1985 году новый алгоритм Саундэкс Дэйча-Мокотоффа (Daitch-Mokotoff Soundex) был применён для фонетического кодирования славянских и идиш фамилий с похожим произношением, но разным написанием. Основными изменениями по сравнению с классическим алгоритмом Саундэкс стали: − построение более длинного кода (6 символов); − для разных вариантов произношения формируются разные коды; − при кодировании используются 10 цифр (0–9).
20
Система идентификации штата Нью-Йорк (NYSIIS – New York State Identification and Intelligence System). Данная система была разработана в 1970 году в результате проведения эмпирического анализа текстов на английском языке. В алгоритме производится формирование фонетического кода, длина которого не превосходит 6 символов. Алгоритм NYSIIS 1. Произвести замену сочетаний букв в начале слова в соответствии со следующими правилами: MAC → MCC PH → FF KN → NN PF → FF K→C SCH → SSS 2. Преобразовать сочетания букв в конце слова в соответствии со следующими правилами: EE → Y IE → Y DT, RT, RD, NT, ND → D 3. Последовательно преобразовать остальные буквы: EV → AF E, I, O, U → A Q→G Z→S M→N KN → N K→C SCH → SSS PH → FF H → предыдущая буква, если предыдущая или последующая – не гласная
21
W → предыдущая буква, если предыдущая – гласная 4. Преобразовать последнюю букву слова в соответствии с правилами: если последняя буква – S, то удалить её, если последние буквы – AY, то заменить на Y, если последняя буква – A, то удалить её. 5. Удалить вторую из двойных букв. 6. Взять в качестве фонетического кода первые шесть букв в полученном представлении слова. █ Метафон. Алгоритм Метафон (Metaphone) был разработан Л. Филипс в 1990 г. с целью устранения ряда недостатков классического алгоритма Саундэкс. Алгоритм Метафон 1. Удалить вторую из двойных букв, за исключением C. 2. Если слово начинается с KN, GN, PN, AE, WR, удалить первую букву. 3. Удалить B в конце слова после M. 4. Заменить C на X в CIA и CH; заменить C на S в CI, CE и CY; заменить C на K в остальных случаях. 5. Заменить D на J в DGE, DGY и DGI, заменить D на T в остальных случаях. 6. Удалить букву G в GH, а также в GN или GNED, если буква G стоит не в конце слова и не перед гласным. 7. Заменить G на J, если G одинарная и стоит перед I, E или Y; заменить G на K в остальных случаях. 8. Удалить H, если она стоит после гласной или если следующая буква не гласная. 9. Удалить K после C. 10. Заменить букву P на F в PH. 11. Заменить Q на K. 12. Заменить S на X в SH, SIO и SIA. 13. Заменить T на X в TIA и TIO, заменить T на O в TH, удалить T в TCH. 14. Заменить V на F. 15. Удалить H, если слово начинается с WH.
22
16. Удалить W, если следующая после нее буква не гласная. 17. Заменить X на S, если слово начинается с X, в противном случае, заменить X на KS. 18. Удалить Y, если следующая буква не гласная. 19. Заменить Z на S. 20. Удалить все гласные, которые расположены не в начале слова. █ Например, в результате применения данного алгоритма для слов ALEXANDRE и ALEKSANDER будет получен фонетический код ALKSNTR. Необходимо отметить, что алгоритм Метафон в настоящее время считается наиболее универсальным для выполнения фонетического кодирования слов. Стандартные методы фонетического кодирования текстов на русском языке, к сожалению, отсутствуют. По этой причине рассмотрим один из частных алгоритмов, который предложен в работе [Кан02]. В основе данного алгоритма лежат следующие преобразования букв слова. 1. Преобразование гласных букв. Гласные преобразуются в те буквы, которые слышатся
на
их
месте
в
безударном
слоге.
В
табл. 4
приведено
соответствующее правило преобразования гласных букв. Таблица 4 – Правила преобразования гласных букв Исходная буква О, Ы, А, Я Ю, У Е, Ё, Э, И
Итоговая буква А У И
2. Оглушение согласных в слабой позиции. Звонкие согласные превращаются в глухие перед другими согласными и в конце слова. Если звонкая согласная стоит перед сонорным звуком (м, н, л), то ее оглушение не производится. 3. Исключение повторяющихся символов. Парные буквы в слове заменяются одной буквой. 4. Сжатие окончаний. Наиболее типичные окончания фамилий заменяются спецсимволами и цифрами в соответствии с табл. 5. Таблица 5 – Правила замены окончаний фамилий
5. Исключение Ъ, Ь и дефиса между частями двойной фамилии. █ В табл. 6 приведен пример исходного текста и его представления в фонетической записи. Таблица 6 – Пример представления текста в фонетической записи Фрагмент исходного документа
Фонетическая запись документа
ВОРОНЕЖСКИХ ЧИНОВНИКОВ ПОДОЗРЕВАЮТ В РАСТРАТЕ В Воронежской области в результате совместной операции сотрудников УФСБ, Управления по борьбе с организованной преступностью и Главного следственного Управления при ГУВД по подозрению в совершении преступления, предусмотренного ст. 160 УК РФ /присвоение, растрата/, задержаны первый заместитель главы администрации Панинского района Анатолий Мезинов и начальник финансового отдела Панинской администрации Александра Сурова.
ВАРАНИЖСКИХ ЧИНАВНИКАФ ПАДАЗРИВАУТ Ф РАСТРАТИ Ф ВАРАНИЖСКАЙ АБЛАСТИ Ф РИЗУЛТАТИ САВМИСТНАЙ АПИРАЦИ САТРУДНИКАФ УФСП УПРАВЛИНИА ПА БАРБИ С АРГАНИЗАВАНАЙ ПРИСТУПНАСТУ И ГЛАВНАГА СЛИТСТВИНАГА УПРАВЛИНИА ПРИ ГУФТ ПА ПАДАЗРИНИУ Ф САВИРШИНИ ПРИСТУПЛИНИА ПРИДУСМАТРИНАГА СТ 160 УК РФ ПРИСВАИНИ РАСТРАТА ЗАДИРЖАНА ПИРВАЙ ЗАМИСТИТИЛ ГЛАВА АДМИНИСТРАЦИ ПАНИНСКАГА РАЙАНА АНАТАЛИЙ МИЗИНАФ И НАЧАЛНИК ФИНАНСАВАГА АТДИЛА ПАНИНСКАЙ АДМИНИСТРАЦИ АЛИКСАНДРА СУРАВА
24
2.5. Морфологический анализ Морфологический анализ предназначен для приведения словоформ, встречающихся в тексте, к нормальной форме и получения морфологической информации о них. Состав морфологической информации сильно зависит от части речи и решаемых прикладных задач. Например, для существительных морфологическая информация может включать: род, число и падеж, а для глаголов: вид, род, число, спряжение, время, лицо и пассивность. Выделяют
использовании словарей, в которых для каждого слова указано правило изменения его формы. Эти процедуры могут применяться только к словам, основы которых включены в словарь. Существует
два
основных
метода
реализации
точных
процедур
морфологического анализа: декларативный и процедурный. Они отличаются используемым способом хранения морфологической информации. При декларативном методе точного морфологического анализа в словаре системы хранятся все возможные словоформы каждого слова с приписанной им морфологической информацией. В этом случае выполнение анализа словоформы заключается только в поиске словоформы в словаре и приписывании ей комплекса
морфологической
информации
из
словаря.
В
результате
декларативный метод работает быстрее процедурного, однако это обеспечивается за счет более высоких требований к объёму памяти и более трудоемкой процедурой
пополнения
словаря,
требующей
задания
морфологической
информации для всех словоформ нового слова. В процедурном методе в словаре системы хранятся только основы слов, а анализ словоформы осуществляется в несколько этапов. Сначала производится отделение основы слова, затем проводится идентификация основы с помощью
25
словаря основ и приписывание словоформе необходимой морфологической информации. В настоящее время имеется большое число различных вариантов реализации процедурного метода. В работе [ББ73] в основу алгоритма морфологического анализа положено разбиение всех слов на флективные классы – группы слов, которые относятся к одной синтаксической группе и имеют один тип словоизменения (имеют одинаковые окончания в различных грамматических формах). Для удобства описания
флективных
классов
каждый
из
них
помимо
номера
также
характеризуется словом-представителем. В табл. 7 в качестве примера приведен фрагмент таблицы флективных классов для неодушевленных существительных мужского рода. Окончания приведены только для нескольких типичных форм слова, соответствующих именительному и творительному падежам единственного числа и именительному и родительному падежам множественного числа. Таблица 7 – Пример флективных классов Слово-представитель 001 Телефон 002 Тираж 003 Огонь 004 Перебой 005 Санаторий
Окончания (им. ед., тв. ед., им. мн., рд. мн.) _, ом, ы, ов _, ом, и, ей ь, ем, и, ей й, ем, и, ев й, ем, и, ев
Упрощенно схему работы алгоритма морфологического анализа можно представить следующим образом. Схема алгоритма морфологического анализа 1. Выделить возможные окончания слова длиной от 0 до 3 символов (окончание может быть пустым). 2. Для каждого полученного окончания и основы определить код окончания по таблице окончаний (см. табл. 8) и номер флективного класса по словарю основ.
26
3. Если номер флективного класса и номер окончания найдены, то проверить их согласованность по морфологической таблице (см. табл. 10). 4. Если согласованность подтверждается, то сохранить номер грамматической информации (см. табл. 9). █ Таблица 8 – Таблица окончаний слов № – окончание
Грамматическая информация им. ед. им. ед; вн. ед. им. ед; вн. ед.; пр. ед. им. ед; вн. ед.; рд. мн. им. ед; рд. мн.; вн. мн. рд. ед. рд. ед., дт. ед.; тв. ед.; пр. ед. Таблица 10 – Фрагмент морфологической таблицы
Номер флективного класса 001
Номер окончания 01
Номер грамматической информации 37
27
001 001 001 001 001 001 001 001 001
20 22 42 45 65 66 67 73 74
36 40 33 22 02 06 26 17 32
Приведем пример анализа слова «стола». Для этого отделяем окончание «а» от основы «стол». По словарю основ определяем номер флективного класса – 001, а по словарю окончаний определяем номер окончания – 66. Затем по морфологической таблице получаем номер грамматической информации – 06, которая соответствует родительному падежу единственного числа. Для обработки неизвестных слов, основы которых отсутствуют в словаре основ, применяются обратные словари словоформ, в которых последние упорядочены лексикографически с конца слов. В результате для анализа неизвестного слова выполняется поиск известной словоформы, которая имеет максимальное число общих конечных букв. Затем новому слову приписывается морфологическая информация найденной словоформы. Приближенный подход к морфологическому анализу основывается на использовании
экспериментально
установленного
соответствия
между
конечными буквосочетаниями слов и грамматическими классами слов. Рассмотрим пример алгоритма, описанный в работе [ББ73]. Схема его работы имеет следующий вид. Алгоритм приближенного морфологического анализа 1. Выделить две последние буквы анализируемого слова. 2. Найти выделенное сочетание букв в таблице двухбуквенных окончаний. Если в соответствующей клетке есть отсылочный номер к таблице четырехбуквенных
28
окончаний и число букв в слове больше 4, то перейти к шагу 3, в противном случае сохранить содержимое клетки и завершить работу алгоритма. 3. Выделить третью и четвертую буквы от конца анализируемого слова. 4. Найти в таблице четырехбуквенных окончаний сочетание букв, выделенных на шаге 3. Если сочетание найдено, то сохранить результат, в противном случае сохранить содержимое клетки, найденной на шаге 2. █ В основе данного алгоритма лежит использование таблиц двухбуквенных и четырехбуквенных окончаний слов, в которых для каждого сочетания букв приводится информация о возможных грамматических классах слов. В табл. 11 приведен фрагмент таблицы двухбуквенных окончаний (столбцы соответствуют первой букве с конца слова, строки – второй букве с конца слова, в клетках приводятся грамматические классы слов). Грамматические классы обозначаются следующим образом: существительные (С), глаголы (Г), наречия (Н). Таблица 11 – Фрагмент таблицы двухбуквенных окончаний Буква а б в г д
а
б С
С С, Г С С, Н
в Н, С
г С
С
д С, Н С
Рассмотрим теперь особенности программной реализации реального модуля морфологического анализа, реализованного в системе Диалинг (www.aot.ru). При морфологическом анализе (лемматизации) для каждого слова входного текста выдается множество морфологических интерпретаций следующего вида: − лемма (нормальная форма слова); − морфологическая часть речи; − набор общих граммем (относятся ко всем формам слова); − множество наборов граммем (относятся к данной форме слова). Модулем морфологического анализа выделяются части речи, приведенные в табл. 12.
29
Таблица 12 – Части речи, выделяемые модулем морфологического анализа Сокращение
Пример
Часть речи
C
мама
существительное
П
красный
прилагательное
МС
он
местоимение-существительное
Г
идет
глагол в личной форме
ПРИЧАСТИЕ
идущий
причастие
ДЕЕПРИЧАСТИЕ
идя
деепричастие
ИНФИНИТИВ
идти
инфинитив
МС-ПРЕДК
нечего
местоимение-предикатив
МС-П
всякий
местоименное прилагательное
ЧИСЛ
восемь
числительное (количественное)
ЧИСЛ-П
восьмой
порядковое числительное
Н
круто
наречие
ПРЕДК
интересно
предикатив
ПРЕДЛ
под
предлог
СОЮЗ
и
союз
МЕЖД
ой
междометие
ЧАСТ
же, бы
частица
ВВОДН
конечно
вводное слово
Граммема – это элементарный морфологический описатель, относящий словоформу к какому-то морфологическому классу. Например, словоформе стол с леммой СТОЛ будут приписаны следующие наборы граммем: «мр, ед, им, но», «мр, ед, вн, но». Таким образом, морфологический анализ выдает два варианта анализа словоформы стол с леммой СТОЛ внутри одной морфологической интерпретации: с винительным (вн) и именительным (им) падежами. В табл. 13 приводится перечень основных типов граммем, присваиваемых словоформам при проведении морфологического анализа.
Заметим, что ряд общих граммем, таких как «лок», «фам», «орг» – отражают семантические свойства слова. В силу наличия в естественном языке явления омонимии одной словоформе может соответствовать много морфологических интерпретаций. Например, у словоформы «СТАЛИ» две интерпретации: {СТАЛЬ, C, «но», («жр, ед, рд», «жр, ед, дт», «жр, мн, им», «жр, мн, вн») }; {СТАТЬ, Г, «нп, св», («мн, дст, прш»)}. Основой модуля морфологического анализа является морфологический словарь, который упрощенно можно представить как набор пар W , A , где W –
словоформа, а A – морфологическая аннотация (лемма, граммемы, ударения и т. д.). Для русского языка такой набор состоит примерно из 3 млн. пар следующего вида: <«машина», «С жр, им, ...»>, <«машину», «С жр, вн, ...»>, <«машине», «С жр, дт, ...»>, <«машине», «С жр, пр, ...»>.
31
Для организации эффективного поиска в данном словаре используются специальные структуры данных (конечные автоматы, деревья цифрового поиска), в которых словарь хранится в сжатом виде. На рис. 1 показано представление приведенных четырех слов в виде конечного автомата (дерева цифрового поиска).
0 М
1 А
2 М Е
3
А
У С ЖР, ДТ
7
4
5
6
С ЖР, ПР
С ЖР, ВН
С ЖР, ИМ
8
9
10
Рис. 1. Пример дерева цифрового поиска
Для обработки «новых» (отсутствующих в словаре) слов используется два основных подхода: − поиск похожих слов в морфологическом словаре; − приближенный морфологический анализ (построение списка окончаний
слов). В рассматриваемом модуле реализован первый подход. При этом в зависимости от контекста возможно использование следующих алгоритмов обработки новых слов: − предсказание по более короткому слову (в словаре ищется слово, которое
является суффиксом для искомого слова, например, «квазиотношение» – «отношение»); − предсказание по общему суффиксу (в словаре ищутся слова, которые
имеют максимально возможный общий суффикс с исходным словом).
32
2.6. Постморфологический анализ Постморфологический анализ предназначен для устранения омонимии слов и уточнения результатов морфологического анализа за счет учета контекста употребления слов и различной дополнительной информации о словах. Например, можно воспользоваться тем свойством, что предлоги стоят только перед существительными или прилагательными и требуют после себя слова в строго определенном падеже. В английской литературе для данного этапа используется термин маркировка (tagging) для подчеркивания того, что словам в тексте присваиваются различные маркеры (часть речи, тип – название лица, название организации и т. п.). Выделяют два основных подхода к проведению постморфологического анализа: − подход на основе задания контекстных правил – в этом случае правила
формируются экспертами-лингвистами, исходя из общих правил употребления слов русского языка; − подход на основе обучения на примерах – правила строятся путем
проведения статистического анализа предварительно размеченного экспертами массива текстов (например, для решения задачи устранения омонимии на этапе обучения для каждого слова в обучающем массиве должна быть приведена правильная грамматическая информация). В настоящее время в большинстве работ, посвященных обработке текстов на
русском
языке,
используется
второй
подход.
Это
объясняется
его
относительной простотой и отсутствием размеченных массивов текстов для русского языка, необходимых при использовании первого подхода. В табл. 14 приведены примеры некоторых правил, которые используются в одном из реальных модулей постморфологического анализа. Таблица 14 – Примеры правил постморфологического анализа Название правила Описание правила 1. Правило обработки слов из словаря Удаление омонимов, которые написаны с имен маленькой буквы и взяты из словаря имен 2. Правило обработки однобуквенных Удаление признаков служебных частей речи для
33
слов 3. Правило выбора омонимов с максимальным весом
однобуквенных слов, за которыми идут точки Выбор омонимов с максимальным весом и удаление всех остальных. Данное правило применяется после применения всех остальных правил для обеспечения однозначной интерпретации слова 4. Правило обработки междометий Удаление признаков междометий у слов, после которых нет знаков препинания 5. Правило обработки местоименных Удаление омонимов, являющихся прилагательных местоименными прилагательными, у местоимений «это», «то», «их», «его», «ее», за которыми следует местоименное существительное 6. Правило для устранения омонимов Удаление омонимов слова «уже», слова «УЖЕ» соответствующих прилагательным, если за ним не стоит запятая или слово в родительном падеже 7. Правило для обработки Удаление омонимов относительных относительных прилагательных прилагательных 8. Правило обработки иностранных Присвоение иностранным словам всех лексем возможных морфологических интерпретаций 9. Правило обработки слова «СОРОК» Удаление омонима слова «сорока», если после слова следует числительное 10. Правило обработки аббревиатур, Удаление всех омонимов слова, если в словаре написанных малыми буквами определено, что оно может являться аббревиатурой 11. Правило корректировки Построение для отчеств нормальной формы, нормальной формы у отчеств соответствующей отчеству, а не имени 12. Правило снятия омонимов у слова Удаление всех омонимов, кроме союза, у слова «НО» «но», если перед ним стоит запятая 13. Правило обработки имен, не Удаление всех омонимов слова, за исключением распознанных в морфологии соответствующих существительному, если перед словом стоит родовое слово типа: город, деревня и т. п. и слово начинается с большой буквы 14. Правило обработки ФИО Производит выделение групп слов, являющихся ФИО в тексте 15. Правило обработки слов с Удаление всех омонимов слова за исключением предлогом омонимов, соответствующих существительным и прилагательным
В табл. 15 приведен пример использования двух правил для снятия омонимии. В таблице приводится исходное предложение, в котором жирным шрифтом
выделено
слово,
для
которого
применяется
постморфологического анализа. Таблица 15 – Пример постморфологического анализа
правило
34
Название правила (Исходное предложение) 1. Правило для слова «уже» (Он уже приехал)
2. Правило для обработки ФИО (Иванов Петр Алексеевич приехал в Москву)
Результат морфологического анализа слова УЖ (Сущ, мр, пр, ед) УЗКИЙ (Прил, сравн, од) УЖЕ (Наречие) ИВАНОВ (Прил, притяж, од, мр, вн, ед; мр, им, ед) ИВАНОВ (Сущ, фам, мр, им, ед) ИВАН (Сущ, имя, мр, рд, мн; мр, вн, мн)
Результат постморфологического анализа слова УЖ (Сущ, мр, пр, ед) УЖЕ (Наречие) ИВАНОВ (Сущ, фам, мр, им, ед)
Для реализации подхода к постморфологическому анализу, основанному на обучении на примерах, в литературе рассматривается большое число различных моделей и методов [MS99]: − методы
на
основе
марковских
моделей
–
на
основе
массива
предварительно размеченных текстов осуществляется оценка переходных вероятностей между различными состояниями (маркерами слов) цепи Маркова, а затем для нового текста разметка осуществляется путем выбора наиболее правдоподобной последовательности состояний; − методы на основе скрытых марковских моделей – на основе массива не
размеченных текстов с помощью ЕМ-алгоритма (алгоритм Баума–Велча) осуществляется оценивание параметров модели, а затем для новых текстов разметка осуществляется путем выбора наиболее вероятной последовательности состояний; − методы на основе трансформационных правил – для разметки нового
текста осуществляется последовательное преобразование исходной разметки с помощью набора правил, автоматически сформированного на этапе обучения. Приведенные в работе [MS99] методы разрабатывались применительно к английскому языку. Для русского языка публикаций по данной тематике значительно меньше [ЗСТ05, СТ05]. Рассмотрим в качестве примера подход,
35
описанный в работе [СТ05], который опирается на использование аппарата скрытых марковких моделей [Rab89]. В соответствии с работой [Rab89] скрытая марковская модель с дискретным временем определяется как набор следующих элементов:
S = {s1 , ..., sh } – множество скрытых состояний;
Q1 , ..., Ql – последовательность случайных величин на множестве скрытых состояний, являющихся стационарной цепью Маркова порядка один или два; U – множество наблюдаемых состояний (может быть как дискретным, так и непрерывным);
C1 , ..., Cl
– последовательность случайных величин, соответствующих
наблюдаемым состояниям;
P – матрица размера ( h × h ), элементы которой pij = P (Qt = s j | Qt −1 = si ) –
условные вероятности перехода из состояния si в момент времени t − 1 в состояние s j в момент времени t ;
F1 (u ), ..., Fh (u )
–
множество
условных
функций
распределения
в
пространстве U , где Fi (u ) – функция распределения, соответствующая скрытому состоянию Si , i = 1, ..., h ;
π = (π 1 , ..., π h ) – вектор начальных вероятностей скрытых состояний, где
π i = P(Q1 = Si ) . В данном случае множеству S соответствует множество тэгов (множество частей речи слов русского языка), Q1 , ..., Ql
– последовательность тэгов,
приписанная словам из текста длины l , U – множество различных слов в обучающем массиве текстов. Переходы из состояния в состояние задаются с помощью марковской цепи второго порядка, т. е. P имеет размер ( h × h × h ) и
отдельный элемент pijk = P (Qt = sk | Qt −1 = si , Qt −2 = s j ) , где i, j , k = 1, ..., h . Условные функции распределений F1 (u ), ..., Fh (u ) задаются с помощью следующих условных вероятностей:
u ∈U .
Fk (u ) = P (Ct = u | Qt −1 = si , Qt −2 = s j ) , где k , i, j = 1, ..., h , t = 3, ..., l ,
36
При наличии размеченного массива текстов, в котором у каждого слова проставлены правильные маркеры, основная задача на этапе обучения – произвести оценивание соответствующих условных вероятностей. Основная сложность при этом заключается в большой размерности пространства параметров и, как правило, ограниченном по размеру обучающем массиве. По этой причине при обработке текстовых данных обычно пользуются различными приемами, позволяющими аппроксимировать и «сгладить» получаемые оценки вероятностей. В частности, в [СТ05] используются следующие виды оценок: ~ ~ pijk = P (Qt = sk | Qt −1 = si , Qt −2 = s j ) =
λ3 P (Qt = sk | Qt −1 = si , Qt −2 = s j ) + λ2 P(Qt = sk | Qt −1 = si ) + λ1P(Qt = sk ) , ~ ~ Fkij (u ) = P (Ct = u | Qt = si , Qt −1 = s j )=
⎛ log(huij + 1) + 1 ⎞ ⎛ ⎞ 1 ⎜ ⎟ P (Ct = u | Qt = si , Qt −1 = s j ) + ⎜ ⎟ P(Ct = u | Qt = si ) , ⎜ log(h + 1) + 2 ⎟ ⎜ log(h + 1) + 2 ⎟ uij uij ⎝ ⎠ ⎝ ⎠ где huij – число вхождений слова u с тэгом si таких, что перед ним стоит слово с тэгом s j . После оценивания параметров разметка нового текста (вычисление значений q1 , ..., ql скрытых случайных величин Q1 , ..., Ql ) осуществляется путем максимизации следующей функции: l
Для нахождения максимума выражения (1) используется алгоритм Витерби [Rab89]. Эксперименты, проведенные в работе [СТ05], показали точность порядка 99% при решении задачи устранения омонимии частей речи (19 типов маркеров) и точность порядка 94% при устранении морфологической омонимии (829 типов маркеров).
37
2.7. Выделение словосочетаний Формально
задача
выделения
словосочетаний
является
элементом
синтаксического анализа. Однако в ряде случаев она имеет и самостоятельный интерес. Для выделения словосочетаний обычно используется один из следующих подходов: − словарный подход – основан на использовании словаря устойчивых словосочетаний или тезауруса; − шаблонный подход – основан на задании набора лингвистических шаблонов для выделяемых словосочетаний; − статистический подход – основан на вычислении частот совместной встречаемости слов в тексте. Словарный подход является наиболее простым с точки зрения реализации, однако на практике он применяется только в том случае, когда заранее известна предметная область обрабатываемых текстов. Основной сложностью при его применении является необходимость построения и поддержания в актуальном состоянии достаточно объемных словарей устойчивых словосочетаний. Шаблонный подход оказывается наиболее эффективным для языков с развитой морфологией, в которых можно задать дополнительные условия на сочетаемость слов друг с другом. Например, соседние слова должны быть определенных частей речи и быть согласованы друг с другом в роде, числе и падеже. В табл. 16 приведены примеры некоторых шаблонов для выделения именных словосочетаний в текстах на русском языке. В ней используются следующие обозначения: С – существительное, П – прилагательное, Ср – существительное в родительном падеже, Ст – существительное в творительном падеже, → – знак зависимости второго слова от первого, ← – знак зависимости первого слова от второго, ↔ – знак согласованности слов. Таблица 16 – Примеры шаблонов для выделения словосочетаний Шаблон 1. П ← С
Пример Уголовное дело
Описание Поиск словосочетаний вида «Прилагательное–
38
2. С → П
Площадь жилая
3. С → С
Иван Иванов
4. C → Cp
Директор завода
5. П ← ( П ← С )
Федеральная целевая программа
6. С → Пр ← Ср
Субъект Российской Федерации
7. С ↔ С ↔ С
Вице-премьер Сергей Иванов
8. С → (Ср ↔ Ср )
Совет Безопасности ООН
9. С → Ср → Ст
Уровень заболеваемости корью
10. П ← С ↔ С
Синтетический наркотик метадон
11. П ← С → Ср
Генеральный Секретарь ООН
Существительное», согласованных в роде, числе и падеже Поиск словосочетаний вида «Существительное–Прилагательное», согласованных в роде, числе и падеже Поиск словосочетаний вида «Существительное–Существительное», согласованных в роде, числе и падеже Поиск словосочетаний вида «Существительное–Существительное», где второе существительное стоит в родительном падеже Поиск словосочетаний вида «Прилагательное– Прилагательное–Существительное», согласованных в роде, числе и падеже Поиск словосочетаний вида «Существительное–Прилагательное– Существительное», где первое существительное стоит в любой форме, а второе существительное и прилагательное стоят в родительном падеже Поиск словосочетаний вида «Существительное–Существительное– Существительное», согласованных в роде, числе и падеже Поиск словосочетаний вида «Существительное–Существительное– Существительное», где первое существительное стоит в любой форме, а второе и третье – в родительном падеже Поиск словосочетаний вида «Существительное–Существительное– Существительное», где первое существительное стоит в любой форме, второе – в родительном падеже, а третье – в творительном Поиск словосочетаний вида «Прилагательное– Существительное–Существительное», согласованных в роде, числе и падеже Поиск словосочетаний вида «Прилагательное– Существительное–Существительное», где прилагательное и первое существительное согласованы в роде, числе и падеже, а второе существительное стоит в родительном падеже
Для английского языка возможно применение аналогичных шаблонов, только без использования ограничений на сочетаемость слов друг с другом. Например, в работе [MS99] описываются следующие шаблоны (табл. 17).
39
1. 2. 3. 4. 5. 6. 7.
Таблица 17 – Примеры шаблонов для словосочетаний на английском языке Шаблон Пример AN Linear function NN Regression coefficients AAN Gaussian random variable ANN Cumulative distribution function NAN Mean squared error NNN Class probability function NPN Degrees of freedom
В
табл. 18
приведены
примеры
наиболее
частых
словосочетаний,
выделенных в массиве «Новости 2» с помощью приведенных шаблонных правил. Необходимо отметить, что слова в словосочетаниях приводятся в нормальной форме и могут быть не согласованы друг с другом. Таблица 18 – Примеры шаблонных словосочетаний для «Новости 2»
1. ПС 3. СС
УГОЛОВНЫЙ ДЕЛО (455) РИА НОВОСТЬ (268)
2. СС 4. ПС
5. ПС 7. ПС 9. СС
ЕДИНЫЙ РОССИЯ (192) ВЫСОКИЙ КИНО (188) ПОЛИТИКА МАСС-МЕДИА (188) ИНТЕРНЕТ ТЕХНОЛОГИЯ (188) ВЛАДИМИР ПУТИН (157) ПРОШЛЫЙ НЕДЕЛЯ (112) ВОЗБУЖДЕНИЕ УГОЛОВНЫЙ ДЕЛО (49)
6. ПС 8. СС 10. СС
Словосочетание (частота) МЛРД РУБ (316) ПРАВООХРАНИТЕЛЬНЫЙ ОРГАН (239) ГЕНЕРАЛЬНЫЙ ДИРЕКТОР (191) КОММЕНТАРИЙ СЮЖЕТ (188) СПОРТ ПРОГРЕСС (188)
12. ПС
ВОРОНЕЖСКИЙ ОБЛАСТЬ (163)
14. ПС 16. ПС 18. СПС
АРБИТРАЖНЫЙ СУД МОСКВА (39)
20. СПС
РОССИЙСКИЙ ФЕДЕРАЦИЯ (143) ФОНДОВЫЙ РЫНОК (111) СОТРУДНИК ПРАВООХРАНИТЕЛЬНЫЙ ОРГАН (40) СРЕДСТВО МАССОВЫЙ ИНФОРМАЦИЯ (37)
Шаблон
11. СС 13. СС 15. ПС 17. СПС
19. ПСС
В
Словосочетание (частота)
табл. 19
приведены
Шаблон
примеры
наиболее
частых
словосочетаний,
выделенных в массиве «Reuters-21578» с помощью правил из табл. 17. Необходимо отметить, что из списка словосочетаний при их выделении были исключены те, которые содержали слова из стоп-словаря.
40
Таблица 19 – Примеры шаблонных словосочетаний для «Reuters-21578» Шаблон 1. NN 3. NN 5. NN 7. NN 9. AN 11. NN 13. NN 15. AN 17. NN 19. NN
Словосочетание (частота) CENTRAL BANK (1183) CTS NET (704) EXCHANGE RATE (672) AGRICULTURE DEPARTMENT (573) OPE NET (496) OIL PRICE (455) EXCHANGE COMMISSION (449) EUROPEAN COMMUNITY (431) FINANCE MINISTER (429) FEDERAL RESERVE (406)
Шаблон 2. AN 4. NN 6. NN 8. NN 10. NPN 12. NN 14. NN 16. NPN 18. AN 20. NN
Словосочетание (частота) FOREIGN EXCHANGE (722) PREV WK (682) MONEY MARKET (640) SOVIET UNION (499) CTS A SHARE (482) CRUDE OIL (454) TRADE DEFICIT (447) BANK OF JAPAN (431) OPE SHR (425) SHR LOSS (403)
В целом приведенные примеры показывают, что шаблонный подход даёт достаточно неплохие результаты. Правда, если при обработке текстов на английском языке не пользоваться стоп-словарем (списком малоинформативных слов и служебных частей речи), то будет выделяться большое число словосочетаний, содержащих служебные слова (например, «it would», «would help», «value of it»). Одним из достоинств шаблонного подхода является также то, что он может применяться к небольшим текстам, где отдельные словосочетания встречаются всего несколько раз. Рассмотрим теперь выделение словосочетаний в рамках статистического подхода. Сразу необходимо отметить, что прямой подход, когда отбираются наиболее частые пары слов, оказывается мало эффективным. В табл. 20 приведены примеры десяти наиболее частых словосочетаний, выделенных в массивах «Новости 1» и «Reuters-21578». Таблица 20 – Примеры наиболее частых словосочетаний
1. 2. 3. 4. 5.
«Новости 1» Словосочетание ОДИН ИЗ В РОССИЯ В ТОТ ЧТО В ИВ
Частота 1191 1087 1040 749 686
1. 2. 3. 4. 5.
«Reuters-21578» Словосочетание OF THE IN THE SAY IT SAY THE MLN DLRS
Частота 11925 11572 6519 6189 5886
41
6. А ТАКЖЕ 7. ОБ ЭТО 8. НЕ БЫТЬ 9. ПО СЛОВО 10. О ТОТ
В
630 607 551 548 529
табл. 21
приведён
6. FOR THE 7. HE SAY 8. TO THE 9. THE US 10. ON THE
список
словосочетаний,
4836 4607 4481 4011 3488
оставшихся
после
отбрасывания тех из них, которые содержат слова из стоп-словаря.
Таблица 21 – Примеры словосочетаний с использованием стоп-словаря «Новости 1» Словосочетание 1. УГОЛОВНЫЙ ДЕЛО 2. МЛРД РУБ 3. ВЛАДИМИР ПУТИН 4. РИА НОВОСТЬ 5. ПРАВООХРАНИТЕЛЬНЫЙ ОРГАН 6. ЕДИНЫЙ РОССИЯ 7. ГЕНЕРАЛЬНЫЙ ДИРЕКТОР 8. СОВЕТ ДИРЕКТОР 9. ВОРОНЕЖСКИЙ ОБЛАСТЬ 10. ПРИНЯТЬ УЧАСТИЕ
Частота 451 315 243 240 236 192 191 174 163 147
«Reuters-21578» Словосочетание 1. NEW YORK 2. CENTRAL BANK 3. UNITE STATE 4. EXCHANGE RATE 5. TELL REUTER 6. MONEY MARKET 7. PREV WK 8. OIL PRICE 9. FOREIGN EXCHANGE 10. YEAR AGO
При более детальном рассмотрении словосочетаний, приведенных в табл. 21, можно заметить, что не все они являются полноценными, т. к. их смысл полностью сводится к содержанию составных частей. Например, к таким псевдословосочетаниям относятся: «ПРИНЯТЬ УЧАСТИЕ», «МЛРД РУБ», «TELL REUTER», «PREV WK», «OIL PRICE», «YEAR AGO». Для отсеивания такого рода псевдословосочетаний в работе [MS99] рассматривается несколько подходов: − подход на основе статистических критериев; − информационный подход. В рамках подхода на основе статистических критериев осуществляется проверка гипотезы о независимости совместной встречаемости слов. Нулевой гипотезой
H0
является то, что
p (wi , w j ) = p(wi ,•) p (•, w j ) , где
p (wi , w j ) –
42
вероятность встречаемости последовательности слов (wi , w j ) в текстах массива, p(wi ,•) – вероятность встречаемости произвольной последовательности из двух слов с первым словом wi , p (•, w j ) – вероятность встречаемости произвольной последовательности из двух слов, в которой второе слово w j , i, j = 1, ..., m , m – число различных слов во всех текстах массива. Для проверки гипотезы H 0 используются критерий χ 2 , t -тест и критерий отношения правдоподобия. В рамках
информационного
подхода
для
выявления
псевдословосочетаний
находится величина взаимной информации. При
использовании
критерия
χ2
для
каждой
встречающейся
последовательности слов (wi , w j ) строится таблица сопряженности размера ( 2 × 2 ) (табл. 22), в которой o11 – число пар слов вида (wi , w j ) , o12 – число пар слов, в которых первое слово wi , а второе слово не равно w j , o21 – число пар слов, в которых первое слово не равно wi , а второе слово w j , o22 – число пар слов, в которых первое слово не равно wi , а второе слово не равно w j .
Таблица 22 – Таблица сопряженности для критерия
wj
wj
wi
o11
o12
wi
o21
o22
χ2
В случае справедливости гипотезы H 0 оценка p (wi , w j ) будет следующей:
(o + o ) (o + o ) ~ p (wi , w j ) = N 11 12 11 21 . N N В результате в приведенных обозначениях статистика критерия χ 2 принимает следующий вид: N (o11o22 − o12o21 ) χ = , (o11 + o12 )(o11 + o21 )(o22 + o12 )(o22 + o21 ) 2
2 1
43
где N – общее число биграмм в массиве текстов. Значения χ12 можно использовать как
для выявления
псевдословосочетаний, так и для их
ранжирования. При уровне значимости α = 0.05 критическое значение для распределения χ 2 с одной степенью свободы равно 3.841 . В табл. 23 приведены примеры десяти словосочетаний с наибольшими значениями статистики χ 2 для массивов «Новости 1» и «Reuters-21578».
Таблица 23 – Примеры словосочетаний по критерию «Новости 1» Словосочетание
χ2
«Reuters-21578»
χ2
χ2
Словосочетание
1. ГУБКООБРАЗНЫЙ ЭНЦЕФАЛОПАТИЯ
3 ⋅ 105
1. GOODMAN FIELDER
4 ⋅ 105
2. ОСТАШЕВО КИНЕШЕМСКИЙ
2. JEAN-MARK VERNE
6. МАНЧЕСТЕР ЮНАЙТЕД
3 ⋅ 105 3 ⋅ 105 3 ⋅ 105 3 ⋅ 105 3 ⋅ 105
6. TOMMY ESHLEMAN
4 ⋅ 105 4 ⋅ 105 4 ⋅ 105 4 ⋅ 105 4 ⋅ 105
7. ДОПЛЕРОВСКИЙ РАДИОЛОКАТОР
3 ⋅ 105
7. GILBERTO ARANGO
4 ⋅ 105
8. АСЛАМБЕК АСЛАХАНОВ
3 ⋅ 105 3 ⋅ 105 3 ⋅ 105
8. ISAO NAKAMURA
4 ⋅ 105 4 ⋅ 105 4 ⋅ 105
3. ПШЕНИЧНЫЙ КРУПА 4. СКАНЕР ОТПЕЧАТОК 5. ROLLING STONE
9. СЕГОЛЕН РУАЯЛЬ 10. СВЯТОСЛАВ ПИСКУН
3. SUCRE FIGARELLA 4. STEEPER ANGLE 5. RIP CHOP
9. YACIMIENTO PETROLIFERO 10. PETROLIFERO FISCALE
Из приведенного в табл. 23 примера видно, что результаты отличаются от данных частотного подхода. В этом случае наибольший вес получили словосочетания, соответствующие названиям лиц и организаций. Такое поведение легко объясняется тем, что пары слов, входящие в данные словосочетания, встречаются в текстах массива только вместе. При использовании t-теста предполагается, что имеется выборка объема N, состоящая из всех пар слов (биграмм), встречающихся в текстах массива. Для проверки гипотезы H 0 для пары слов
(w , w ) i
j
все биграммы в выборке
размечаются таким образом, что биграммам, равным
(w , w ), i
j
ставится в
соответствие 1, а остальным биграммам ставится в соответствие 0. В результате
44
получается выборка x1 , ..., x N из распределения Бернулли. Далее рассматривается статистика следующего вида: t=
x−μ s2 / N
,
где x – среднее значение (является оценкой вероятности успеха), μ
–
математическое ожидание вероятности успеха при справедливости нулевой гипотезы (полагается равным произведению оценок вероятностей первого и p (wi ,•) ~ p (•, w j )), s 2 – оценка дисперсии для распределения второго слова, т. е. μ = ~ Бернулли (в данном случае s 2 = x (1 − x ) ≈ x , т. к. величина x близка к нулю). Учитывая, что объем выборки достаточно большой, полагают, что распределение статистики t близко к нормальному N (0,1) . В табл. 24 в качестве примера приведены словосочетания, которые имеют наибольшие значения статистики для массивов «Новости 1» и «Reuters-21578». Заметим, что состав выделенных словосочетаний практически не отличается от того, что приведен в табл. 21. Таблица 24 – Примеры словосочетаний по t-тесту «Новости 1» Словосочетание 1. УГОЛОВНЫЙ ДЕЛО 2. МЛРД РУБ 3. ВЛАДИМИР ПУТИН 4. РИА НОВОСТЬ 5. ПРАВООХРАНИТЕЛЬНЫЙ ОРГАН 6. ГЕНЕРАЛЬНЫЙ ДИРЕКТОР 7. ЕДИНЫЙ РОССИЯ 8. СОВЕТ ДИРЕКТОР 9. ВОРОНЕЖСКИЙ ОБЛАСТЬ 10. ПРИНЯТЬ УЧАСТИЕ
«Reuters-21578» Словосочетание 1. NEW YORK 2. CENTRAL BANK 3. UNITE STATE 4. EXCHANGE RATE 5. TELL REUTER 6. MONEY MARKET 7. PREV WK 8. WEST GERMANY 9. YEAR AGO 10. FOREIGN EXCHANGE
При использовании критерия отношения правдоподобия, как и в предыдущем случае, предполагается, что имеется выборка объема N, состоящая из всех биграмм слов, встречающихся в текстах массива. Пусть при этом число
биграмм вида (wi , w j ) равно c12 , число биграмм вида биграмм вида (•, w j ) равно c2 .
(wi ,•)
равно c1 , число
45
Нулевая гипотеза о независимости встречаемости пары слов
(w , w ) i
j
в
данном случае переформулируется следующим образом: H 0 : p ≡ p (w j | wi ) = p (w j | wi ) ,
а конкурирующая гипотеза о зависимости принимает следующий вид:
H1 : p1 ≡ p (w j | wi ) ≠ p (w j | wi ) ≡ p2 ,
где wi – событие «первое слово не равно wi ». В случае справедливости гипотезы H 0 функция правдоподобия принимает следующий вид: L(H 0 ) = b(c12 : c1 , p )b(c2 − c12 : N − c1 , p ) , а в случае справедливости гипотезы H1 : L(H 0 ) = b(c12 : c1 , p1 )b(c2 − c12 : N − c1 , p2 ) , где
⎛m⎞ m− x b( x | m, q ) = ⎜⎜ ⎟⎟q x (1 − q ) ⎝x⎠
–
функция
биномиального
распределения,
p = c2 / N , p1 = c12 / c1 , p2 = (c2 − c12 ) / ( N − c1 ) . В результате критерий отношения правдоподобия принимает следующий вид: log λ =
log L(H 0 ) . log L(H1 )
Для того чтобы большие значения статистики соответствовали гипотезе H1 , более удобно рассматривать величину
− 2 log λ . В табл. 25 приводятся по 10
словосочетаний с наибольшим весом у массивов «Новости 1» и «Reuters-21578». Таблица 25 – Примеры словосочетаний по критерию отношения правдоподобия «Новости 1» Словосочетание
− 2 log λ
1. УГОЛОВНЫЙ ДЕЛО 2. МЛРД РУБ 3. РИА НОВОСТЬ 4. ПРАВООХРАНИТЕЛЬНЫЙ ОРГАН 5. ВЛАДИМИР ПУТИН 6. ГЕНЕРАЛЬНЫЙ ДИРЕКТОР 7. КАТАЛОГ NEWSRU.COM 8. РЕЧЬ ИДТИ 9. ТОЧКА ЗРЕНИЕ 10. ИНДЕКС РТС
4650 3938 3415 3110 2331 1916 1906 1689 1676 1568
«Reuters-21578» Словосочетание 1. NEW YORK 2. UNITE STATE 3. CENTRAL BANK 4. WEST GERMANY 5. AVG SHRS 6. WEST GERMAN 7. QTLY DIV 8. CTS PRIOR 9. NATURAL GAS 10. YEAR AGO
зависимости пары слов (wi , w j ) используется величина взаимной информации между двумя событиями, связанными с совместным появлением слов. Взаимная информация определяется следующим образом: I (wi , w j ) = log 2
p (wi , w j )
p(wi ,•) p (•, w j )
.
Для независимых событий величина I (wi , w j ) = 0 , а для зависимых событий данная величина принимает большие значения. Действительно, в случае полной зависимости I (wi , w j ) = log 2
1 p(wi ,•) , и чем более редким = log 2 p(wi ,•) p (•, w j ) p (•, w j )
является событие, связанное с появлением отдельного слова, тем больше величина взаимной информации. В табл. 26 в качестве примера приведены по 10 словосочетаний с наибольшим значением взаимной информации для массивов «Новости 1» и «Reuters-21578». Таблица 26 – Примеры словосочетаний на основе взаимной информации «Новости 1» Словосочетание 1. ГУБКООБРАЗНЫЙ ЭНЦЕФАЛОПАТИЯ
В целом необходимо отметить, что при использовании всех рассмотренных критериев для большинства словосочетаний отвергается нулевая гипотеза, что делает возможным применение соответствующих статистик только для решения задач
ранжирования.
При
этом
простейший
частотный
подход
с
лингвистическими шаблонами позволяет получать результаты, которые не уступают тем, что получаются при использовании более сложных подходов, основанных на статистических критериях. Информация о сочетаемости слов друг с другом может использоваться также и для выявления «ассоциативных» (похожих по своему употреблению) слов. Пусть B – матрица размера ( m × m ), элементы которой bij суть частоты встречаемости в массиве текстов словосочетаний вида (wi , w j ) . Тогда векторстрока bi• = (bi1 , ..., bim ) представляет собой вектор частот встречаемости слов слева от слова wi , а вектор-столбец b•i = (b1i , ..., bmj ) – вектор частот встречаемости слов T
справа от слова wi . Будем говорить, что два слова являются «ассоциативными», если у них достаточно близки распределения частот слов, располагающихся справа и слева. Для измерения степени близости распределений частот слов можно воспользоваться подходами, которые применяются при вычислении степени близости текстов друг к другу. В данном случае рассмотрим использование геометрического и вероятностного подходов. В рамках геометрического подхода обычно используется косинусная мера близости scos ( x, y ) между векторами частот x и y длины m , которая определяется следующим образом: xT y . scos ( x, y ) = x2 y2 В рамках вероятностного подхода исходные векторы частот x и y m
предварительно нормируются таким образом, чтобы
∑ xi = 1 и i =1
m
∑y i =1
i
= 1. В
48
качестве меры близости при этом в работе [MS99] предлагается использовать «информационный радиус», который определяется следующим образом: 1 ⎛ 1 ⎞ sLRad ( x, y ) = exp⎜ − (D(x x + y / 2 ) + D(q x + y / 2 ))⎟ , 2 ⎝ 2 ⎠ ⎛p ⎞ где D( p q ) = ∑ pi log⎜⎜ i ⎟⎟ – расстояние Кульбака. Преимуществом данной меры i =1 ⎝ qi ⎠ m
по сравнению с более распространенным расстоянием Кульбака является то, что при вырождении одного из распределений она не обращается в бесконечность. Несложно показать, что sLRad ( x, y ) ∈ (0,1) . Будем говорить, что два слова wi и w j являются «ассоциативными», если ⎛b +b b +b ⎞ s⎜⎜ i• •i , j• • j ⎟⎟ > β , где β ∈ (0,1) – некоторая экспериментально подбираемая 2 ⎠ ⎝ 2 константа. В табл. 27 для массивов «Новости 1» и «Reuters-21578» приведены примеры слов и ассоциативных слов, значение косинусной меры близости между которыми больше 0.9 . Таблица 27 – Примеры «ассоциативных» слов «Новости 1»
DECEMBER : 1. NOVEMBER 2. FEBRUARY 3. JANUARY 4. SEPTEMBER
УК : 1. УГОЛОВНЫЙ КОДЕКС
INCLUDE : 1. EXCLUDE
ОБЛАСТНОЙ : 1. ГОРОДСКОЙ 2. ГОСУДАРСТВЕННЫЙ
DROP : 1. RISE 2. FALL 3. FELL 4. DON’T FALL
РОСПУСК : 1. ПРЕКРАЩЕНИЕ ПОЛНОМОЧИЙ
NATURAL GAS : 1. PETROLEUM GAS
49
ОБОРОНА : 1. КУЛЬТУРА 2. СЕЛЬСКИЙ ХОЗЯЙСТВО 3. ИНОСТРАННЫЙ ДЕЛО 4. ВНУТРЕННИЙ ДЕЛО 5. ЮСТИЦИЯ 6. ПРИРОДНЫЙ РЕСУРС
DEPOSIT : 1. DISCOUNT 2. LENDING 3. TREASURE CERTIFICATE 4. BASE LENDING 5. INTERBANK DEPOSIT 6. SET A LIRA/DOLLAR 7. DISCOUNT NOTE
ГОСДУМА : 1. ГОСУДАРСТВЕННЫЙ ДУМА 2. СФ
SPOKESMAN : 1. SPOKESWOMAN 2. OFFICIAL 3. QUIETLY
В
приведенном
примере
для
каждого
слова
были
выписаны
«ассоциативные» для него слова, однако построенное отношение между словами не является транзитивным. Для получения полноценного разбиения всех слов на группы «ассоциативных» можно воспользоваться методами иерархического кластерного анализа. Результаты подобного анализа массива текстов могут использоваться на практике для автоматического построения тезаурусов слов в определенной предметной области, а также для динамического расширения поисковых запросов.
2.8. Синтаксический анализ Задача синтаксического анализа состоит в построении синтаксической структуры предложения, отражающей синтаксические связи между словами. В качестве исходных данных используются результаты морфологического анализа и различная дополнительная словарная информация. Для описания синтаксической структуры предложения применяется большое число различных подходов (система составляющих [Поп04], дерево зависимостей
[АБИ92],
обобщенная
синтаксическая
структура
[Поп04],
проективные структуры [Нож03] и др.). Основными подходами при этом являются: − система составляющих; − дерево зависимостей.
50
Система
составляющих.
Пусть
имеется
некоторая
конечная
последовательность (цепочка) словоформ T = (t1 , ..., tn ) . Составляющей называется произвольная подпоследовательность (отрезок цепочки) словоформ ti , где
i ∈ [i1 , i2 ] , i1 , i2 ∈1, ..., n . Составляющая, включающая одну словоформу, называется точечной (тривиальной). Множество C отрезков цепочки T называется системой составляющих этой цепочки, если оно удовлетворяет двум условиям: − множество C содержит отрезок, состоящий из всех точек цепочки T, и все одноточечные оценки; − любые два отрезка из C либо не пересекаются, либо один из них содержится в другом. В качестве примера рассмотрим цепочку T = abcdfrgty и две различные системы составляющих:
C1 = (a(b(cd ) fr ) g (ty ) ) , C2 = ((abc)d ( fr ( gty )) ) , где различные нетривиальные составляющие выделяются с помощью круглых скобок. Для описания предложений естественного языка обычно используется размеченная система составляющих, представляющая собой тройку объектов C ,W ,ϕ , где C – система составляющих, W – множество меток, ϕ – отображение C в 2W . Элементам цепочки соответствуют отдельные слова, а нетривиальным составляющим – фразы или словосочетания, меткам – типы фраз (фразовые категории). Если для каждой нетривиальной составляющей выделено главное слово, то в качестве фразовых категорий используются названия частей речи главных слов. Например, в работе [Тес01] выделяют следующие основные виды фразовых категорий: группа существительного (именная группа), группа прилагательного, глагольная группа, наречная группа, предложная группа, предложение. Среди множества систем составляющих только некоторые являются «правильными»,
т. е.
отражают
принятые
в
лингвистике
соглашения
о
синтаксической структуре предложения данного языка. Необходимо отметить,
51
что наличие явления омонимии может приводить к наличию нескольких «правильных» систем составляющих у предложения. Системы составляющих получили наибольшее распространение для описания синтаксической структуры предложений языков, имеющих жесткий порядок следования зависимых слов в предложении. Дерево зависимостей. Пусть имеется цепочка T = (t1 , ...., tn ) . Деревом
зависимости для цепочки T
называется произвольный граф
G = T ,→ ,
являющийся деревом, где → бинарное отношение на T . Дерево зависимостей обычно изображается в виде последовательности образующих ее точек, расположенных на прямой линии, между которыми проведены направленные дуги в соответствии с имеющимися зависимостями. При этом дуги проводятся таким образом, чтобы они все были по одну сторону от прямой. На рис. 2 и 3 приведены примеры двух деревьев зависимостей для цепочки T = (agbacdef ) .
Рис. 2. Пример дерева зависимостей
Рис. 3. Пример дерева зависимостей
При описании предложений естественного языка обычно используют размеченные деревья зависимостей, которые представляются с помощью следующей четверки: T , →,W ,ϕ , где W – множество меток, ϕ – отображение из множества дуг в W. Меткам из множества W соответствуют синтаксические отношения между словами. В табл. 28 приводятся наиболее распространенные типы синтаксических отношений [Тес01]. Таблица 28 – Распространенные типы синтаксических отношений Название 1. Прямообъектное (между сказуемым и прямым
Пример вижу → человека
52
дополнением) 2. Аппозитивное (между существительным и приложением) 3. Ограничительное (между ограничительной или отрицательной частицей и словом) 4. Определительное (между существительным и его согласованным определением) 5. Посессивное (между существительным и его несогласованным определением) 6. Количественное (между числительным и определяемым им существительным) 7. Обстоятельственное (между глаголом и его обстоятельством) 8. Отпредложное (между предлогом и управляемым им существительным) 10. Сочинительно-союзное (между сочинительным союзом и словом)
В
большинстве
прикладных
систем
диван ← кровать не → для всех первая → страница книга → врача пять → машин лежать → на диване без → головы война и → мир
синтаксического
анализа
для
повышения эффективности анализа предложений используются проективные деревья зависимостей. Дерево зависимостей G = T , → для цепочки T называется проективным, если для любых трех точек ti , ti , ti цепочки T из того, что ti1 → ti2 1
2
3
и i1 ≤ i3 ≤ i2 , следует, что ti1 → ti3 . Графически проективность означает, что возможно провести дуги дерева так, что никакие две из них не будут пересекаться и корень дерева не будет лежать ни под одной из них. Содержательный же смысл условий проективности состоит в том, что синтаксически связанные слова близки друг к другу и по положению в предложении. Как показывают эксперименты, проведенные
различными
исследователями,
большинство
правильных
предложений русского языка обладают свойством проективности [Гла85, Нож03, Поп04, Тес01]. Необходимо отметить, что системы составляющих и деревья зависимостей описывают синтаксическую структуру предложений в разных аспектах. Первые описывают словосочетания, а вторые – направленные связи между отдельными словами.
В
современных
алгоритмах
синтаксического
анализа
обычно
применяется комбинированный подход, в котором описываются направленные связи между составляющими предложения [Гла85, АБИ92].
53
Ввиду наличия большого числа исключений и универсального характера естественного языка реальные алгоритмы синтаксического анализа обычно носят громоздкий характер. По этой причине рассмотрим только общую схему их построения. Выделяют следующие базовые подходы к построению алгоритмов синтаксического анализа:
− метод фильтров; − метод последовательного анализа. Метод фильтров. В методе фильтров [Поп04] построение дерева
зависимостей
начинается
с
построения
наборов
всевозможных
связей
(синтаксических отношений) между словами. Затем путем применения фильтров (специальных правил) осуществляется отбрасывание избыточных и ошибочных связей. Необходимо отметить, что в чистом виде метод фильтров не применим изза огромного числа различных потенциальных связей между словами в предложении.
На
практике
для
построения
эффективных
алгоритмов
применяются различные вспомогательные процедуры, которые ограничивают количество устанавливаемых связей и направляют процесс их перебора. Метод последовательного анализа. В данном методе [ББ73] установление
синтаксических
зависимостей
осуществляется
за
один
или
несколько
последовательных проходов по словам предложения и установления связей между соседними словами или группами слов. Такой метод не позволяет корректно обрабатывать предложения со сложными зависимостями между словами в предложении и обычно используется для построения приближенных алгоритмов синтаксического анализа. Рассмотрим пример работы последовательного алгоритма синтаксического анализа для простого предложения. Более полное описание алгоритмов синтаксического анализа приводится в работах [ББ73, Поп04, АБИ92]. В данном алгоритме
также
предполагается,
что
предложение
обладает
свойством
проективности. Приближенный алгоритм синтаксического анализа предложения
54
1. Найти положение глагола в предложении и разделить предложение на две части – до глагола и после него. 2. Выполнить анализ пар слов в каждой из построенных частей, двигаясь справа налево, следующим образом: a. Положить i = L − 1 ,
j = L , где L – число слов в анализируемом
фрагменте. b. Если i = 0 , то перейти к шагу 3. Определить зависимость между словами
ti и t j в текущей паре слов (ti , t j ) , где i < j . c. Если ti – главный, то положить i = i − 1, j = i и перейти к шагу 2.b. d. Если t j – главный, то положить i = i − 1 и перейти к шагу 2.b. e. Если связь синтаксического подчинения установить не удалось и j − i = 1 , то положить i = i − 1, j = i , в противном случае положить j = i + 1 , перейти к шагу 2.b. 3. Для каждого элемента, у которого нет главного, назначить главным элементом ближайший к нему слева главный глагол, отглагольное существительное или прилагательное. Если главный элемент слева не найден, то назначить в качестве главного элемента ближайший главный справа – глагол в личной форме, глагол прошедшего времени, краткое прилагательное или краткое наречие. █ Основным элементом данного алгоритма является процедура определения зависимости между словами. Приведем примеры нескольких простых правил, с помощью которых могут быть установлены синтаксические зависимости. Правило установления зависимости «предлог-существительное» (ПРЕД-СУЩ)
1. Если падеж существительного соответствует падежам, требуемым для данного предлога, то сделать предлог главным словом, в противном случае перейти к шагу 2. 2. Если существительное является неизменяемым, то сделать предлог главным словом, в противном случае связь не устанавливать. █ Правило установления зависимости «существительное-предлог»
55
(СУЩ-ПРЕД)
1. Если существительное является отглагольным, то сделать существительное главным словом, в противном случае связь не устанавливать. █ Правило установления зависимости «прилагательное–существительное» (ПРИЛ-СУЩ)
1. Если у прилагательного и у существительного совпадают род, число и падеж, то сделать главным существительное, в противном случае перейти к шагу 2. 2. Если существительное является неизменяемым, то сделать существительное главным словом, в противном случае перейти к шагу 3. 3. Если прилагательное является отглагольным, то сделать прилагательное главным, в противном случае перейти к шагу 4. 4. Если прилагательное является неизменяемым, то сделать существительное главным словом. █ В качестве примера в табл. 29 приведена последовательность шагов при обработке предложения «Машины поехали в город за новым оборудованием» с использованием приведенного алгоритма. Символом «З» обозначается зависимое слово, а символом «Г» – главное, «Н» – независимые слова на текущей итерации алгоритма. Таблица 29 – Последовательность шагов анализа предложения Шаг
Машины
поехали
в
город
за
1 2
Г
3
Н
4
Г
6
Г
7
Г
8
З
Г
Н
З
З З
новым
оборудованием
З
Г З
56
Рассмотрим теперь особенности программной реализации полноценного алгоритма синтаксического анализа на примере подхода, реализованного в системе Диалинг (www.aot.ru). В рамках данного подхода используется комбинированная
модель
представления
синтаксических
зависимостей,
включающая элементы системы составляющих и дерева зависимостей. Общая схема работы алгоритма синтаксического анализа имеет следующий вид. Алгоритм синтаксического анализа «Диалинг»
1. Разделение предложения на отрезки (начальные сегменты) между знаками пунктуации и сочинительными союзами. 2. Построение аналитических форм глагола внутри начальных сегментов. 3. Выделение именных словосочетаний с использованием тезаурусов (общего, компьютерного, финансового). 4. Построение
для
каждого
начального
сегмента
наборов
однозначных
морфологических интерпретаций путем выполнения декартового произведения омонимов слов. 5. Построение для однозначной морфологической интерпретации простых словосочетаний с помощью ограниченного множества синтаксических правил: ПРИЛ–СУЩ, КОЛИЧ, ПГ, ОДНОР–ПРИЛ. 6. Применение правил для объединения сочиненных сегментов и построение сочиненных синтаксических групп для каждой однозначной морфологической интерпретации с помощью правил: ОДНОР–ИГ, Р–С–ОДНОР–СУЩ, Р–С– ОДНОР–ИНФ. 7. Применение правил для установления зависимости между расположенными рядом сегментами. 8. Применение правил для объединения разрывных сегментов предложения. 9. Построение зависимостей между словами в предложении с использованием всего множества синтаксических правил. 10. Оценка результатов синтаксического анализа сегментов и выбор наилучшего варианта разбора предложения. █ Ключевой
элемент
приведенного
алгоритма
–
правила
выделения
синтаксических групп внутри сегментов. Они реализованы в форме процедур,
57
которые применяются к словам предложения слева направо и пытаются объединить текущую группу с группами, находящимися от нее справа. Для этих целей используется информация о грамматических характеристиках отдельных слов и описание построенных ранее синтаксических групп. Отдельные группы описываются с помощью следующих параметров: − номер первого и последнего элемента в группе; − название типа группы; − главная подгруппа в группе (рекурсивное определение главного слова группы как главного слова подгруппы); − граммемы группы (морфологические характеристики, определяющие сочетаемость группы с другими группами). На рис. 4
приведен
пример
синтаксического
анализа предложения
«Сегодня, как сообщил наш источник, президент России приехал в Москву из Вашингтона» с использованием описанного выше алгоритма.
Рис. 4. Пример синтаксического анализа сложного предложения
2.9. Семантический анализ Семантический анализ предназначен для построения семантической структуры отдельного предложения или текста в целом. Он является наиболее сложной процедурой обработки текстов на естественном языке. По сути, задачей семантического анализа является отображение множества текстов T естественном
языке
в
множество
выражаемых
ими
смыслов
C.
на Для
представления элементов множества C используется специальный формальный язык (семантический язык), который должен являться достаточно мощным для передачи содержания произвольных высказываний и достаточно точным для обеспечения однозначной интерпретации высказываний машиной. Наиболее распространенной формой семантического языка является дерево или граф
58
общего вида, в узлах которого стоят либо предметные имена, либо слова семантического языка, а дуги соответствуют отношениям между ними. Необходимо
отметить,
что
по
форме
представления
результаты
синтаксического и семантического анализа близки друг к другу. В обоих случаях строится граф, в узлах которого стоят слова, связанные различного рода зависимостями. синтаксического
Однако и
с
содержательной
семантического
анализа
точки
зрения
существенно
результаты отличаются.
Синтаксическая структура предложения описывает строение предложения, т. е. какими синтаксическими отношениями, специфичными для конкретного языка, связаны слова в предложении. Семантическая же структура ориентирована в сторону предметной области и отражает взаимосвязи не между словами предложения, а между объектами предметной области, о которых идет речь в предложении. Центральным элементом большинства алгоритмов семантического анализа является семантический словарь, в котором описываются семантические характеристики большинства слов языка. Основными характеристиками слова (лексемы), описываемыми в семантическом словаре, служат: − семантическая категория (признак); − модель управления. Семантические признаки предназначены для толкования значения слова с использованием небольшого набора базовых понятий. Одному слову может быть приписано несколько семантических признаков. При этом сами признаки могут быть организованы в форме иерархических словарей (тезаурусов). В качестве примера в табл. 30 приведена часть семантических признаков, используемых в работе [АБИ92]. Таблица 30 – Примеры семантических признаков Название 1. ВЕЛИЧИНА 2. ВЕЩЕСТВО 3. ВРЕМЯ
Описание Приписывается словам, служащим единицами измерения: «год», «метр» и т. п. Названия веществ типа «воздух», «металл», «газ» и т. п. Временные слова типа «будущее», «прошлое»
59
4. ДЕЙСТВИЕ 5. ИНФОРМАЦИЯ 6. ЛИЦО 7. ПРЕДМЕТ 8. СВОЙСТВО 9. СОСТОЯНИЕ
Слова, называющие действие, т. е. ситуацию, развивающуюся во времени и инициируемую активным субъектом. Примерами данных слов являются «анализ», «работа», «измерять» Существительные типа «данные», «проблема» и т. п. Название человека или организации Неодушевленный физический объект типа «компьютер», «орудие», «смесь» Существительные, называющие более или менее постоянные свойства предметов, процессов, действий: «гибкость», «качество» и т. п. Слова, называющие не развивающиеся во времени ситуации, время существования которых ограничено: «лежать», «возможность», «присутствовать»
Модель управления слова описывает требования к синтаксическим и семантическим свойствам других слов в предложении, выступающих в роли параметров
для
данного
слова.
Участники
ситуации,
описываемой
рассматриваемым словом, называются актантами, а параметры слова – валентностями. Например, глагол «приехать» имеет три валентности: A1 – субъект; A2 – исходная точка;
A3 – конечная точка; A4 – время. Модель управления обычно представляется в форме таблицы, в которой каждой валентности отведен отдельный столбец. В столбцах могут задаваться ограничения на морфологические (часть речи, род, число, падеж, предлоги и т. п.), синтаксические (тип синтаксической связи, синтаксическая роль в предложении) и семантические (семантические категории) характеристики связанных слов. В качестве примера в табл. 31 приведена модель управления для слова «приехать». Таблица 31 – Пример модели управления слова
A1
A2
A3
A4
подл.
обст.
обст.
доп.
им.
в + вин., на + вин., к + дат.
из + род.
род.
ЛИЦО, УСТРОЙСТВО
МЕСТО
МЕСТО
ВРЕМЯ
60
Таким образом, на вход алгоритма семантического анализа подается синтаксическое представление предложения на естественном языке, а на выходе формируется множество семантических структур, построенных на основе входного синтаксического представления. На рис. 5 приведен результат семантического анализа предложения «Сегодня президент приехал в Москву из Вашингтона» с использованием системы Диалинг.
Рис. 5. Пример результата семантического анализа
В приведенном примере валентности A1 соответствует слово «президент», валентности A2 – «Москва», A3 – «Вашингтон», валентности A4 – «сегодня». Более подробно принципы работы алгоритмов семантического анализа рассматриваются в работах [Поп04, АБИ92]. В ряде случаев семантический анализ проводится в упрощенном виде для выделения в текстах основных объектов и взаимосвязей между ними.
61
3. Методы векторного представления текстов 3.1. Векторная модель представления текстов Проблема построения моделей текстовых данных исторически является предметом исследований в области систем машинного перевода, а также в области систем общения с ЭВМ на естественном языке. Подход к ее решению в указанных областях обладает своей спецификой. Например, для таких систем характерно стремление к наиболее глубокому анализу смысла текста на естественном языке. Для решения многих прикладных задач, таких как классификация, кластерный анализ, не требуется полного понимания смысла текста сообщения, достаточно только правильно описать (передать) его содержание. Поэтому при разработке систем автоматической обработки текстов характерно стремление к использованию формальной модели естественного языка (ЕЯ), адекватной области ее использования. Так как в основе большинства современных систем обработки текстовых данных лежит использование статистических методов, то основное внимание будет уделено моделям, используемым в подобных системах. При решении прикладных задач, связанных с обработкой текстов на естественном языке, наибольшее распространение получило использование следующих моделей: теоретико-множественная модель, линейные модели, синтаксические модели, семантические модели [Руб89]. Теоретико-множественная модель. В иностранной литературе данная
модель
получила
представляется
как
название
«мешок
неупорядоченное
слов»
(bag-of-words),
множество
в
лексических
ней
текст
единиц
–
информационных признаков. В качестве лексических единиц могут выступать как отдельные слова, так и словосочетания, обобщенные понятия и т. п. В отдельных случаях данная модель может усложняться за счет представления текста в виде упорядоченного набора фрагментов (предложения, абзацы, параграфы), каждый из которых описывается в рамках теоретико-множественной модели.
62
Линейная модель. Текст представляется как упорядоченное множество
лексических единиц и естественных разделителей. Модель различает порядок следования слов (предшествует или нет некоторое слово другому), расстояние между словами (число слов, разделяющих некоторые два слова в тексте), а также позволяет фиксировать факт совместного вхождения нескольких слов в один и тот же отрезок текста (предложение, алгоритмически различимые части предложения, абзац и т. д.). Данные модели в основном используются в области информационного поиска. Синтаксические
модели.
Текст
представляется
как
множество
предложений, для каждого из которых определена его синтаксическая структура (система составляющих или дерево зависимостей). Однако остается открытым вопрос о том, как использовать полученные синтаксические зависимости для описания содержания текстов и использования для решения задач автоматической обработки текстов. Семантические модели. Семантические модели по форме представления
текста подобны синтаксическим моделям (дерево зависимостей понятий или граф общего вида). Использование данных моделей хотя и является перспективным направлением
в
области
развития
лингвистики,
однако
из-за
высокой
вычислительной сложности их использование пока носит ограниченный характер. Рассмотренные синтаксических
или
модели
ограничивались
семантических
учетом
структур
морфологических,
изолированных
слов,
словосочетаний или предложений. Тексты же характеризуются и более сложными, относящимися к более высокому уровню свойствами, такими как отношения связности между предложениями, общая тематическая структура, схематическая организация и т. п. Отношения связности между предложениями характеризуют локальную структуру текстов, а тематическая структура и схематическая организация – глобальную организацию. Из всех перечисленных выше моделей при построении большинства коммерческих систем автоматической классификации и кластерного анализа текстов наибольшее распространение получила теоретико-множественная модель.
63
Это объясняется тем, что, в отличие от остальных моделей, при ее использовании тексты естественным образом представляются в векторном виде. При использовании теоретико-множественной модели [SW75] отдельный j-й текст в массиве из n текстов представляется в виде вектора a j = (a1i , ...., amj ) , T
где j = 1, ..., n , m – общее число различных информационных признаков (слов, словосочетаний, обобщенных понятий) во всех текстах. Таким образом aij – вес признака с номером i в j-м тексте, i = 1, ..., m и j = 1, ..., n ; при этом природа веса aij в модели не конкретизируется. Векторные представления отдельных текстов различаются в зависимости от используемых типов информационных признаков и применяемых подходов к определению весов. На практике наибольшее распространение получили следующие типы информационных признаков: − N-граммы; − простые термины; − составные термины; − обобщенные понятия. Простые термины. Под простым термином обычно понимается слово
естественного
языка,
приведенное
к
канонической
(нормальной)
форме.
Например, существительные приводятся к именительному падежу единственного числа.
Для
приведения
к
нормальной
форме
применяются
методы
морфологического анализа, рассмотренные в предыдущем разделе. Составные термины. Под составными терминами понимаются устойчивые
словосочетания, термины, фразы, которые могут состоять из нескольких слов. Данный тип признаков наиболее часто используется на практике. Для выделения составных терминов может использоваться весь комплекс лингвистических и статистических методов, рассмотренных в предыдущем разделе. N-граммы. Под N-граммой подразумевается последовательность из N букв
(слов). На практике обычно N-граммы применяются в тех случаях, когда предполагается наличие большого числа ошибок в обрабатываемых текстах (например, полученных в результате распознавания изображений или звука), либо
64
когда неизвестным является язык документов (например, решение задачи распознавания кодировок и языка документов). Обобщенные понятия. В качестве признаков используются: понятия или
названия объектов предметной области, получаемые в результате семантического анализа текстов; обобщающие понятия, заменяющие группы синонимичных слов; общие слова, которые кратко описывают содержание текстов. Для выделения обобщенных понятий могут использоваться как статистические методы (далее в разделе, посвященном методам снижения размерности, будут рассмотрены методы трансформации признаков), так и лингвистические методы (например, новые признаки строятся с использованием тезаурусов и словарей) [АДЛ04]. Специальные лингвистические признаки. В данном случае в качестве
признаков
выступают
различные
графематические,
грамматические,
синтаксические и стилистические характеристики текста. Например, при решении задач жанровой классификации могут выделяться следующие признаки [Бра01]: – доля различных частей речи в документе; – доля различных видов глагольных форм; – доля сложных предложений; – доля предложений с цепочками существительных в родительном падеже; – доля предложений с определенными лингвистическими конструкциями; – средняя длина слова в буквах, средняя длина предложения в словах; – доля слов в тексте из заданных списков терминов. При наличии дополнительных предположений о характере и структуре обрабатываемых текстов, кроме перечисленных выше типов информационных признаков, в некоторых работах рассматривается использование, например, гиперссылок в HTML-документах, дат и кодов источников информации в текстах с заданной структурой, элементов изображений в мультимедийных документах. Например, при решении задач выявления «почти дубликатов» документов учитываются даты публикации. В качестве примера в табл. 32 приведены два текста, входящие в массив «Reuters-21578-6»,
а
соответствующий
фрагмент
матрицы
А
векторного
65
представления показан в табл. 33. Здесь в качестве веса информационного признака принята частота встречаемости признака в тексте. Таблица 32 – Примеры текстов Имя текста 10038.txt 18405.txt Номер текста 1 30 Содержание (CORRECTED) – MOBIL HEDGERS INCREASE SHARE OF U.S. <MOB> TO UPGRADE CRUDE OIL FUTURES REFINERY UNIT NEW YORK, June 15 NEW YORK, March 26 Commercial hedgers increased their stake in sales Mobil Corp said it will spend of U.S. crude oil and heating oil futures during over 30 mln dlrs to upgrade a May, according to a U.S. federal agency report. gasoline-producing unit at its Trade hedgers accounted for 64.7 pct of open Beaumont, Texas, refinery. short positions in May, compared with 58.2 pct in …. April, Reuter … Reuter Таблица 33 – Фрагмент матрицы векторного представления текстов i (номер признака)
Признак
9 18 93 10002
COMPONENTS GASOLINE OIL PINEAPPLE
ai1 (частота встречаемости
ai 30 (частота встречаемости
i-го признака в 1-м тексте) 3 4 0 0
i-го признака в 30-м тексте) 0 2 4 0
Табл. 33 показывает, что в отдельных текстах встречаются далеко не все признаки. Особенно это хорошо видно из рис. 6, на котором приведено графическое представление матрицы A (ось абсцисс – номер текста, ось ординат – номер признака, точка на рисунке соответствует ненулевому элементу матрицы A).
66
Рис. 6. Графическое представление матрицы A для массива «Reuters-21578-6»
Ряд интересных свойств массивов текстов можно получить в результате изучения распределений слов в документах. На рис. 7 приведена гистограмма распределения числа различных слов в документах массива «Reuters-21578-6» (слева) и «Новости 1» (справа). Анализ приведенных рисунков показывает, что число различных слов в отдельных текстах новостных сообщений оказывается достаточно небольшим по сравнению с общим количеством различных слов во всех текстах массива (в среднем в первом массиве в одном тексте содержится 72 слова, а во втором массиве – 195 слов при общем числе слов 105 и 106 соответственно). Это свойство приводит, в частности, к достаточно высокой степени разреженности матриц векторного представления текстов (у приведенных массивов в соответствующих матрицах меньше 1% ненулевых элементов).
67
Рис. 7. Гистограмма распределения числа различных слов в массивах текстов «Reuters-21578-6» (слева) и «Новости 1» (справа)
Распределение частоты встречаемости слов в текстах данных массивов приведено на рис. 8.
Рис. 8. Распределение частоты встречаемости слов в массивах текстов «Reuters-21578-6» (слева) и «Новости 1» (справа)
Анализ распределения частоты встречаемости слов в текстах показывает, что имеется достаточное большое число слов, которые встречаются только в одном или двух текстах. Данные слова могут оказаться малоинформативными для решения задач автоматической классификации и кластерного анализа текстов, что позволяет за счет их отбрасывания в несколько раз сокращать размерность пространства признаков.
68
3.2. Методы задания весов терминов Рассмотрим в рамках векторной модели основные подходы к заданию весов признаков. Вес i-го признака (термина), i = 1, ..., m , в j-м тексте, j = 1, ..., n , обычно задается следующим образом: aij = aijl aig a nj , где aijl – локальный вес термина в тексте, aig – глобальный вес термина во всем массиве, a nj – нормирующий множитель для текста. Основой для задания весов терминов обычно служит таблица значений f ij – абсолютных частот встречаемости термина с номером i в тексте с номером j (например, если в i-м тексте j-й термин встречается 3 раза, то fij = 3 ). Далее будут использоваться следующие обозначения: ni – число текстов, в которых встречается i-й термин, т. е. число ненулевых элементов в i-й строке таблицы значений f ij ;
fi• – суммарная абсолютная частота встречаемости i-го термина во всех n
текстах, т. е. f i• = ∑ f ij ; j =1
mj
– число различных терминов в j-м тексте, т. е. число ненулевых
элементов в j -ом столбце таблицы значений f ij ; f • j – суммарная абсолютная частота встречаемости всех терминов в j-м m
тексте, т. е. f • j = ∑ f ij ; i =1
f • j – средняя частота встречаемости всех терминов в j-м тексте, т. е.
f• j =
f• j
mj
.
В табл. 34 приведены наиболее распространенные формулы для вычисления локальных весов терминов [Seb00].
⎧1 + log( f ij ), f ij > 0, ⎨ 0, f ij = 0 ⎩ ⎧ 1 + log( f ij ) , f ij > 0, ⎪ ⎨1 + log( f • j ) ⎪ 0, f ij = 0 ⎩
FREQ LOGA
LOGN
⎧ ⎛ f ⎞ ij ⎟, f > 0, ⎪⎪(1 − α ) + α ⎜⎜ ij max f sj ⎟ ⎨ ⎝ s ⎠ ⎪ f ij = 0, 0, ⎪⎩ где α ∈ (0,1) (обычно α = 0.9 )
ATFG
⎧ ⎛ f ij ⎞ ⎟, f ij > 0, ⎪(1 − α ) + α ⎜⎜ ⎟ f ⎨ ⎝ •j ⎠ ⎪ 0, f ij = 0, ⎩ где α ∈ (0,1) (обычно α = 0.9 )
ATFA
Обобщенный логарифм
⎧(1 − α ) + α log( f ij + 1), f ij > 0, ⎨ 0, f ij = 0, ⎩ где α ∈ (0,1) (обычно α = 0.8 )
LOGG
Квадратный корень
⎧⎪ f ij − 0.5 + 1, ⎨ 0, ⎪⎩
SQRT
f ij > 0, f ij = 0
В табл. 35 приведены подходы к заданию глобальных весов терминов в массиве. В большинстве подходов используется предположение, что чем реже термин встречается во всем массиве, тем он более информативен для решения задач классификации. Таблица 35 – Формулы вычисления глобальных весов терминов Название формулы Обратная частота документа
Формула
⎛n⎞ log⎜⎜ ⎟⎟ ⎝ ni ⎠
Обозначение IDFB
70
Вероятностная обратная частота
Энтропия
Глобальная обратная частота
Логарифм глобальной частоты
Увеличенная глобальная частота
⎛ n − ni ⎞ ⎟⎟ log⎜⎜ n ⎝ i ⎠ n f ⎛ f ij ⎞ 1 ij ⎜⎜ ⎟⎟ 1+ log ∑ log(n ) j =1 f i• ⎝ f i• ⎠ f i• ni
⎛f ⎞ log⎜⎜ i• + 1⎟⎟ ⎝ ni ⎠ f i• +1 ni f i• − 0.9 ni
Квадратный корень глобальной частоты Отсутствие глобального веса
1
IDFP
ENPY
IGFF
IGFL
IGFI IGFS NONE
При построении систем автоматической классификации, обучающихся на примерах, при задании глобальных весов терминов можно использовать информацию о распределении текстов по рубрикам. Введем для i = 1, ..., m и k = 1, ..., M ряд обозначений:
ω1 , ..., ωM – классы (рубрики), на которые разбит массив текстов; p(ωk ) – вероятность появления класса ωk ; p (ωk ) – вероятность того, что класс ωk не появился; p(ti , ωk ) – вероятность того, что случайно выбранный текст содержит термин ti и относится к классу ωk ; p(ti , ωk ) – вероятность того, что случайно выбранный текст не содержит термин ti и относится к классу ωk ; p(ti , ωk ) – вероятность того, что случайно выбранный текст содержит термин ti и не относится к классу ωk ;
p(ti , ωk ) – вероятность того, что случайно выбранный текст не содержит термин ti и не относится к классу ωk .
71
В табл. 36 приведены формулы вычисления глобального веса aikg термина i = 1, ..., m для k-го класса, где k = 1, ..., M , в основе которых лежит использование весовых функции, применяемых при снижении размерности методом селекции признаков, рассматриваемом в следующем разделе (предполагается, что тексты заранее разбиты на M классов). Глобальный вес термина i для всего массива получается в результате усреднения локальных весов для классов одним из M
следующих способов: a = ∑ a g i
k =1
g ik
M
– сумма, a = ∑ p(ωk )aikg – взвешенная сумма, g i
k =1
aig = max aikg – максимум. k =1,..., M
Таблица 36 – Формулы вычисления глобальных весов для классов Название формулы
В формулах, приведенных в табл. 36, требуется вычисление оценок введенных вероятностей, в частности оценок ~ p (t , ω ) вероятностей p(t , ω ) того, i
k
i
k
что случайно выбранный текст содержит термин ti и относится к классу ωk . Простейший
подход
заключается
в
вычислении
оценки
максимального
n правдоподобия, т. е. ~ p (ti , ωk ) = ik , где nik – число текстов из класса ωk , в которых n встречается термин ti . Недостатком такого подхода является то, что в результате возможно появление нулевых вероятностей, что приводит к бесконечным значениям весовых функций. Для исключения появления нулевых оценок вероятностей на практике используется ряд подходов к «сглаживанию» оценок. При обработке текстовых данных наибольшее распространение для этих целей
72
получило использование методов байесовского оценивания параметров (более подробно они рассматриваются в разделе, посвященном методам снижения размерности). В табл. 37 приведены нормирующие множители для текста, при этом для среднего количества различных терминов в текстах массива введено обозначение 1 n m = ∑ m j . При использовании формул COSN, SUMN, MAXN вес терминов в n j =1 больших текстах становится меньше, в результате при поиске оказываются более предпочтительными короткие тексты. Формула PUQN является попыткой решения данной проблемы. Таблица 37 – Формулы для нормирующих множителей Название формулы Нормализация по длине (косинусная)
Нормализация по сумме Нормализация по максимуму
Формула
⎛ ⎜ ⎜ ⎝
∑ (a a ) m
i =1
l g 2 ij i
⎛ m l g⎞ ⎜ ∑ aij ai ⎟ ⎠ ⎝ i =1
⎞ ⎟ ⎟ ⎠
COSN
−1
SUMN
(max a a ) i
Обозначение
−1
l g −1 ij i
MAXN
Нормализация по точке перегиба (pivoted unique normalization)
1 , где α ∈ (0,1) (1 − α ) m j + α m j (обычно α = 0.2 )
PUQN
Отсутствие нормализации
1
NONE
В табл. 38 приведены наиболее часто используемые сочетания локальных, глобальных и нормализующих весов. Таблица 38 – Часто используемые сочетания весов Сочетание локальный вес · глобальный вес · нормирующий множитель FREQ · NONE · NONE FREQ · NONE · COSN FREQ · NONE · SUMN LOGA · NONE · COSN FREQ · IDFB · COSN
Название Простая частота термина Простой косинус Простая вероятность SMART «ltc» TFIDF
В табл. 39 приведены результаты оценки влияния различных способов нормировки на качество классификации массива «Reuters-21578» с помощью алгоритма на основе смеси вероятностных анализаторов главных компонент (ppca), алгоритма на основе опорных векторов (svm) и алгоритма на основе деревьев решений (tree). Данные алгоритмы выбраны для экспериментов, поскольку они соответствуют различным типам алгоритмов классификации и не ориентированы изначально на определенный способ вычисления весов признаков. Столбцам
табл. 39
соответствуют
способы
нормировки
и
алгоритмы
классификации, а строкам – различные сочетания локального и глобального веса. В качестве показателя качества классификации используется значение F-меры, полученное в результате микроусреднения значений F-меры для отдельных рубрик, которые, в свою очередь, вычислялись с помощью метода 5-шаговой кросспроверки. Таблица 39 – Оценка влияния нормировки на качество классификации
FREQ–NONE LOGN–NONE BNRY–NONE FREQ–IDFB Среднее значение
В табл. 40 приводятся результаты экспериментов по оценке влияния метода вычисления глобального веса на качество классификации при использовании в качестве
локального
веса
частоты
встречаемости
признака
(FREQ)
нормализации по длине вектора (COSN). Таблица 40 – Оценка влияния глобального веса на качество классификации Глобальный вес NONE IDFB
SVM 97% 97%
PPCA 90% 94%
TREE 84% 85%
и
74
IDFP ENPY IGFF IGFI IGFS
97% 97% 96% 96% 96%
94% 94% 88% 88% 88%
84% 84% 83% 83% 83%
В целом можно сделать вывод (который подтверждается не только результатами приведенных выше экспериментов), что для всех алгоритмов классификации и практически независимо от используемого подхода к вычислению локальных и глобальных весов наилучшие результаты достигаются при нормализации по длине вектора (COSN) и нормализации по максимальному значению (MAXN). При этом в качестве глобального веса целесообразно использовать IDFB, IDFP, ENPY. В большинстве отечественных и зарубежных работ используется следующий набор весов: локальный вес – FREQ, глобальный вес – IDFB, нормировочный вес – COSN. Как видно из приведенных примеров, при использовании данного набора действительно обеспечивается наилучшее качество классификации для большинства алгоритмов.
3.3. Качество модели представления текстов При решении задач обработки текстовых данных приходится использовать различные
модели.
Например,
при
жанровой
классификации
требуются
учитывать такие стилистические особенности текстов, как длина предложений, использование деепричастных оборотов, соотношение частоты употребления различных частей речи и т. п. Для оценки тональности публикаций требуется учитывать последовательность употребления слов в тексте. Для тематической классификации в большинстве случаев оказывается достаточно частотной информации о лексическом составе документов и не требуется информации о последовательности следования слов. От выбора правильной (адекватной решаемой задаче) модели во многом зависит успех решения поставленной задачи. Однако на первых этапах исследовательского процесса, как правило, точно не известен вид модели, и требуется производить сравнительный анализ различных вариантов.
75
Для оценки качества моделей можно использовать два подхода: − внешний подход; − внутренний подход. В рамках внешнего подхода оценка производится, исходя из итогового качества решения задачи, для которой строится модель. Основным достоинством данного подхода является то, что показателями качества выступают итоговые показатели качества решаемой задачи (для задач автоматической классификации и кластерного анализа они будут более подробно рассмотрены в следующих разделах). Недостатком – то, что для его применения требуется разработать и реализовать весь комплекс алгоритмов обработки данных. При этом если модели отличаются достаточно сильно, то для каждой из них может потребоваться реализовывать собственные алгоритмы обработки данных. В рамках внутреннего подхода оценка производится путем исследования различных свойств текстов при представлении их с помощью изучаемых моделей. Основным достоинством данного подхода является то, что на первоначальных этапах исследовательского процесса он позволяет достаточно быстро получить первичные оценки адекватности различных моделей без
необходимости
реализации полного набора алгоритмов обработки данных. В области прикладной статистики инструменты для решения подобных оценочных задач объединяются под названием методов разведочного анализа данных [АБЕ89]. В данном разделе будут рассмотрены несколько инструментов, которые оказались эффективными при построении моделей текстов для решения задач автоматической классификации и кластерного анализа текстов: − анализ свойств собственных значений ковариационных матриц рубрик; − анализ взаимного расположения подпространств рубрик; − графический анализ представления массива текстов. Необходимо отметить, что при изучении свойств массивов, включающих большое количество текстов или рубрик (как, например, массив «Reuters-21578»), для облегчения интерпретации получаемых результатов удобно использовать их
76
подмножества. По этой причине далее в данном разделе в примерах будет рассматриваться массив «Reuters-21578-6». Для проведения анализа собственных значений ковариационных матриц рубрик будем считать, что столбцы в матрице A векторного представления текстов упорядочены по рубрикам, то есть матрица представляется в следующем виде: A = ( A1 , ..., Ak ) , где Aj – матрица, состоящая из всех вектор-столбцов, соответствующих рубрике с номером j, k – общее число рубрик в массиве документов. Учитывая большую размерность пространства признаков, для нахождения собственных значений и векторов выборочных ковариационных матриц рубрик, имеющих вид T
⎞ ⎞⎛ 1⎛ 1 1 C = ⎜ A j − A j En j ⎟⎜ A j − A j En j ⎟ , ⎟ ⎟⎜ n j ⎜⎝ nj nj ⎠ ⎠⎝ * j
воспользуемся тем фактом, что ненулевые собственные значения матриц C *j совпадают с собственными значениями матриц T
⎞ 1⎛ 1 ~ C j = ⎜ A j − A j En j ⎟ ⎟ n j ⎜⎝ nj ⎠
⎛ ⎞ ⎜ A j − 1 A j En ⎟ , j ⎟ ⎜ nj ⎝ ⎠
а собственные векторы u матрицы C j выражаются через собственные векторы v ~ матрицы C j следующим образом:
u = (λ ⋅ n j )
−1 2
⎞ ⎛ ⎜ A j − 1 A j En ⎟ v , j ⎟ ⎜ nj ⎠ ⎝
где En j – квадратная матрица размера n j , все элементы которой равны единице,
n j – число документов в рубрике с номером j, u и v суть собственные векторы ~ матриц C j и C j , соответствующие некоторому собственному значению λ ,
j = 1, ..., k .
77
В табл. 41 приведены такие характеристики отдельных рубрик массива «Reuters-21578-6»,
как
число
документов
в
рубрике,
ранг
выборочной
ковариационной матрицы, а также число собственных значений, необходимых для объяснения 90% суммарной дисперсии. На рис. 9 показаны упорядоченные по убыванию собственные значения выборочных ковариационных матриц рубрик. Анализ табл. 41 позволяет сделать вывод, что ковариационные матрицы являются «существенно» вырожденными, так как их ранг (примерно равный числу документов в рубрике) на два порядка меньше размерности пространства признаков. При этом у большинства рубрик для объяснения 90% суммарной дисперсии достаточно использовать около половины собственных значений. С геометрической точки зрения это означает, что рубрики в пространстве признаков являются «сильно вытянутыми» вдоль отдельных собственных векторов. Это говорит о том, что вырожденность ковариационных матриц является не только следствием небольшого числа документов в рубриках, но и свойством самих текстовых данных. Таблица 41 – Характеристики отдельных рубрик в массиве «Reuters-21578-6» Название рубрики GAS GNP GOLD NAT_GAS SHIP SUGAR
Число собственных значений, необходимых для объяснения 90% дисперсии 29 92 69 80 162 101
Анализ рис. 9 дополнительно подтверждает то, что большая часть суммарной
дисперсии
собственными значениями.
объясняется
всего
несколькими
наибольшими
78 5,0E-03 4,5E-03
Собственное значение
4,0E-03
GAS
3,5E-03
GNP
3,0E-03
GOLD
2,5E-03
NAT-GAS
2,0E-03
SHIP
1,5E-03
SUGAR
1,0E-03 5,0E-04 0,0E+00 1
26
51
76
101
126
151
176
Номер собственного значения Рис. 9. Собственные значения выборочных ковариационных матриц для рубрик массива «Reuters-21578-6»
Для
анализа
«содержательного»
смысла
собственных
векторов,
соответствующих различным по величине собственным значениям, рассмотрим слова, имеющие наибольший вес в представлении в исходном пространстве признаков собственных векторов, соответствующих наибольшему и наименьшему собственным значениям у различных рубрик. В табл. 42 в качестве примера показаны соответствующие слова с весами для рубрик «NAT-GAS», «GOLD» и «SUGAR» из массива «Reuters-21578-6». Таблица 42 – Слова с наибольшим весом у массива «Reuters-21578-6» Собственный вектор, соответствующий наибольшему собственному значению Слово
Собственный вектор, соответствующий наименьшему собственному значению
Вес
Слово
Вес
Рубрика «NAT–GAS»
OIL
–0.511
FEBRUARY
0.682
BARRELS
–0.383
RISE
–0.275
RESERVES
–0.346
MODERATE
–0.219
CUBIC
–0.304
SHARP
0.201
FEET
–0.257
DECEMBER
0.184
79
GAS
–0.255
DROP
0.167
NATURAL
–0.172
SEISMIC
–0.164
PRICES
0.154
METRES
–0.141
ENERGY
0.117
MONTH
–0.14
EQUIVALENT
–0.105
CREWS
–0.127
Рубрика «GOLD»
GOLD
–0.62
SJG
–0.722
OUNCES
–0.435
ONTARIO
0.667
NEWMONT
–0.205
MURGOLD
–0.0465
TON
–0.172
GUNNAR
–0.0417
COINS
0.158
ASSAYS
–0.0294
FEET
–0.155
TYRANEX
–0.0278
SALES
–0.149
TYRANITE
–0.0278
PRODUCTION
–0.138
EXPLORATION
–0.0269
EXPECTS
–0.122
LAKE
–0.0262
Рубрика «SUGAR»
SUGAR
0.443
SUBSISIDES
0.515
WHITE
0.416
IDEAS
–0.511
TRADERS
0.338
PROPOSALS
0.473
TENDER
0.321
SUBSIDIES
–0.45
LONDON
0.275
GUILLAUME
–0.0473
CARGOES
0.206
FRANCE
–0.0434
BUYING
0.195
SAMUELS
0.0408
INDIA
0.166
GATT
0.0368
SHIPMENT
0.163
TENDERS
0.03
Анализ результатов, подобных приведенным в табл. 42, показывает, что собственные
векторы,
соответствующие
малым
собственным
значениям,
описываются с помощью слов, которые практически не относятся к тематике рубрики,
т. е.
фактически
являются
шумом.
Собственные
векторы,
соответствующие наибольшим собственным значениям, напротив, описываются с помощью слов, характерных для рубрики. Это говорит о том, что в пространстве признаков наиболее информативными по отношению к отдельной рубрике являются те направления, вдоль которых наблюдается наибольший разброс значений элементов данной рубрики. Это свойство позволяет выдвинуть гипотезу
80
о возможности описания рубрик с помощью ограниченного числа первых главных компонент. Для выполнения анализа взаимного расположения подпространств рубрик представим каждую из них с помощью ограниченного числа первых главных компонент.
Описание
взаимного
расположения
подпространств
будем
производить в терминах главных углов и векторов между ними, которые определяются следующим образом [ГЛ99].
B1
Главные углы. Пусть
размерности
d,
и
размерности
B2
– подпространства пространства
которых
удовлетворяют
условию
p = dim(B1 ) ≥ dim(B2 ) = q ≥ 1 . Тогда главные углы θ1 , ..., θ q ∈ [0, π/2] между B1 и B2 определяются рекурсивно для s = 1, ..., q следующим образом: cos(θ s ) = max max u T v = usT vs u∈B1
v∈B2
при условиях u = v = 1 , usT ui = 0 , i = 1, ..., s − 1 , vsT vi = 0 , i = 1, ..., s − 1 . Векторы
u1 , ..., uq и v1 , ..., vq называются главными векторами между подпространствами B1 и B2 . Отметим, что главные углы удовлетворяют условию 0 ≤ θ1 ≤ ... ≤ θ q ≤ π/2 . Наибольший главный угол связан с понятием расстояния [ГЛ99] между подпространствами одинаковой размерности, которое определяется следующим образом: dist (B1 , B2 ) = 1 − cos(θ q ) . 2
Для вычисления главных углов и векторов между подпространствами B1 и
B2 , заданными с помощью ортогональных базисов QB1
задает сингулярное разложение матрицы QBT1QB2 . Тогда главные углы и векторы находятся следующим образом:
81
(u , ..., u ) = Q Y , p
1
B1
(v , ..., v ) = Q q
1
B2
Z,
cos(θi ) = σ i , i = 1, ..., q . Для анализа влияния числа учитываемых главных компонент на взаимное расположение рубрик в пространстве признаков вычислим минимальные и максимальные значения косинусов главных углов между всеми парами подпространств рубрик. В данном случае ортогональный базис подпространства рубрики с номером
( )
j = 1, ..., k задается с помощью матрицы U q C *j , состоящей из q столбцов – собственных векторов матрицы C *j , соответствующих наибольшим собственным значениям C *j . Таким образом, вычисление косинусов главных углов между подпространствами рубрик i и j сводится к нахождению сингулярных значений
( ) ( )
матрицы U qT Ci* U q Ci* . В табл. 43, 44, 45 приведены минимальные и максимальные значения косинусов главных углов для случаев, когда q = 1, 5, 10. Таблица 43 – Значения главных углов для q = 1 Рубрика GAS
GAS
GNP
GOLD
NAT-GAS
SHIP
SUGAR
Max
Min
Max
Min
Max
Min
Max
Min
Max
Min
Max
Min
1.00
1.00
0.04
0.04
0.03
0.03
0.14
0.14
0.00
0.00
0.03
0.03
1.00
1.00
0.03
0.03
0.02
0.02
0.00
0.00
0.02
0.02
1.00
1.00
0.10
0.10
0.00
0.00
0.03
0.03
1.00
1.00
0.00
0.00
0.03
0.03
1.00
1.00
0.02
0.02
1.00
1.00
GNP GOLD NAT-GAS SHIP SUGAR
Таблица 44 – Значения главных углов для q = 5 Рубрика GAS GNP GOLD NAT-GAS
GAS
GNP
GOLD
NAT-GAS
SHIP
SUGAR
Max
Min
Max
Min
Max
Min
Max
Min
Max
Min
Max
Min
1.00
1.00
0.27
0.01
0.14
0.00
0.91
0.06
0.07
0.00
0.16
0.00
1.00
1.00
0.10
0.00
0.25
0.00
0.08
0.00
0.15
0.01
1.00
1.00
0.30
0.00
0.13
0.00
0.13
0.01
1.00
1.00
0.21
0.01
0.24
0.01
82 1.00
SHIP
1.00
SUGAR
0.25
0.01
1.00
1.00
Таблица 45 – Значения главных углов для q = 10 Рубрика GAS
GAS
GNP
GOLD
NAT-GAS
SHIP
SUGAR
Max
Min
Max
Min
Max
Min
Max
Min
Max
Min
Max
Min
1.00
1.00
0.47
0.01
0.23
0.00
0.94
0.00
0.17
0.00
0.34
0.01
1.00
1.00
0.19
0.00
0.45
0.00
0.21
0.00
0.27
0.00
1.00
1.00
0.41
0.00
0.20
0.00
0.26
0.01
1.00
1.00
0.27
0.00
0.44
0.00
1.00
1.00
0.47
0.00
1.00
1.00
GNP GOLD NAT-GAS SHIP SUGAR
Анализ табл. 43, 44, 45 позволяет сделать следующие выводы. Во-первых, при задании подпространств рубрик с помощью единственных первых главных компонент все подпространства оказываются практически ортогональными, за исключением тех, которые соответствуют рубрикам, близким по тематике (NAT-GAS и GAS). При этом угол между близкими по тематике подпространствами также оказывается достаточно большим. Это говорит о том, что каждая рубрика имеет некоторое направление в пространстве признаков (набор слов и словосочетаний), которое характерно только для нее. Во-вторых, при увеличении размерности пространств рубрик (задание подпространств рубрик с помощью пяти первых главных компонент каждой рубрики) происходит
незначительное увеличение
максимального
угла
и
уменьшение минимального угла между всеми парами подпространств, которые соответствуют рубрикам с различной тематикой. При этом минимальный угол между подпространствами GAS и NAT-GAS, напротив, значительно изменяется и становится близким к нулю. Это говорит о том, что у близких по тематике рубрик появляется некоторое общее направление в пространстве признаков (имеются общие слова и словосочетания). В-третьих, при дальнейшем увеличении размерности пространств рубрик (использование десяти первых главных компонент) минимальное значение главного угла между близкими по тематике рубриками уже практически не изменяется, в то же время минимальные углы между остальными парами
83
подпространств значительно уменьшаются. Последнее говорит о наложении (смешивании) далеких по тематике рубрик. В табл. 46, 47, 48 приведены минимальные и максимальные значения косинусов
главных
углов
для
случаев,
когда
ортогональный
базис
подпространства рубрики с номером j = 1, ..., K задается с помощью матрицы
U q (C j ), состоящей из q столбцов – собственных векторов матрицы C j , соответствующих наименьшим превышающим порог точности вычислений собственным значениям C j . При этом как и в предыдущем случае q = 1, 5, 10. Таблица 46 – Значения главных углов для q = 1 Рубрика GAS
GAS
GNP
GOLD
NAT-GAS
SHIP
SUGAR
Max
Min
Max
Min
Max
Min
Max
Min
Max
Min
Max
Min
1.00
1.00
0.00
0.00
0.05
0.05
0.00
0.00
0.00
0.00
0.00
0.00
1.00
1.00
0.00
0.00
0.00
0.00
0.03
0.03
0.03
0.03
1.00
1.00
0.01
0.01
0.00
0.00
0.03
0.03
1.00
1.00
0.01
0.01
0.03
0.03
1.00
1.00
0.04
0.04
1.00
1.00
GNP GOLD NAT-GAS SHIP SUGAR
Таблица 47 – Значения главных углов для q = 5 Рубрика GAS
GAS
GNP
GOLD
NAT-GAS
SHIP
SUGAR
Max
Min
Max
Min
Max
Min
Max
Min
Max
Min
Max
Min
1.00
1.00
0.11
0.00
0.11
0.00
0.09
0.01
0.08
0.01
0.07
0.00
1.00
1.00
0.07
0.01
0.10
0.00
0.09
0.01
0.11
0.01
1.00
1.00
0.09
0.00
0.10
0.03
0.08
0.00
1.00
1.00
0.09
0.01
0.07
0.02
1.00
1.00
0.09
0.01
1.00
1.00
GNP GOLD NAT-GAS SHIP SUGAR
Таблица 48 – Значения главных углов для q = 10 Рубрика GAS GNP GOLD NAT-GAS SHIP SUGAR
GAS
GNP
GOLD
NAT-GAS
SHIP
SUGAR
Max
Min
Max
Min
Max
Min
Max
Min
Max
Min
Max
Min
1.00
1.00
0.20
0.00
0.14
0.00
0.16
0.01
0.13
0.00
0.16
0.01
1.00
1.00
0.16
0.01
0.13
0.00
0.15
0.01
0.16
0.00
1.00
1.00
0.14
0.01
0.15
0.00
0.12
0.00
1.00
1.00
0.16
0.01
0.12
0.01
1.00
1.00
0.16
0.01
1.00
1.00
84
Из табл. 46, 47, 48 видно, что при использовании для описания рубрик собственных векторов, соответствующих наименьшим собственным значениям, главные углы между всеми рубриками оказываются примерно одинаковыми (близкими к нулю) и не зависящими от их тематической близости. Это дополнительно свидетельствует о «шумовом» характере данных собственных векторов. Выполнение графического анализа текстовых данных обычно сводится к построению различных проекций многомерных текстовых данных на плоскость. В настоящее время разработано большое число методов многомерного проецирования, носящих как линейный, так и нелинейных характер [АБЕ89]. Для выполнения первичного анализа наиболее подходящими являются линейные методы, поскольку они не искажают геометрических свойств данных. При хорошей отделимости классов текстов друг от друга в выбранном пространстве признаков данные на проекции тоже должны быть хорошо отделимы. При этом рассматривать необходимо не сразу все классы текстов, а тройки или пары, так как из-за небольшой размерности пространства проекции при одновременном рассмотрении большого числа классов текстов возможно их наложение друг на друга. Наиболее
распространенными
линейными
методами
проецирования
являются метод главных компонент (более подробно будет рассмотрен в следующем разделе) и метод проецирования на канонические дискриминантные направления [АБЕ89]. Во втором методе для определения направлений проецирования
данных
дополнительно
используется
информация
о
распределении данных по классам. В частности, канонические направления находятся путем решения следующей оптимизационной задачи: cT Bc max T , c c Wc
матрица внутриклассового рассеивания, W j = ∑ ( x ji − x j )( x ji − x j )T
– матрица
i =1
внутриклассового рассеивания в классе ω j , x j – вектор средних для класса ω j , x – вектор средних для всего массива данных, x ji – вектор наблюдений из класса j = 1, ..., k с номером i = 1, ..., n j , n j – число наблюдений (документов). В работе [АБЕ89] показывается, что решение данной задачи сводится к нахождению собственных векторов матрицы W −1B . В
качестве
примера
на
рис. 10
приведена
проекция
массива
«Reuters-21578-6» с помощью первого метода, а на рис. 11 – с помощью второго метода.
Рис. 10. Пример проекции массива «Reuters-21578-6» на первые две главные компоненты
86
Рис. 11. Пример проекции массива «Reuters-21578-6» на первые две дискриминантные оси
Из приведенных рисунков хорошо видно, что ряд классов (точки, соответствующие текстам из разных классов, раскрашены разными оттенками серого) хорошо отделимы друг от друга, а некоторые – накладываются. Более детальный анализ показывает, что такое наложение вызвано исключительно ограниченностью числа осей проецирования (если построить проекцию не на первые две главные компоненты, а на вторую и третью, то хорошо отделимы будут другие классы). Таким образом, данный пример показывает, что выбранная модель представления текстов (каждый текст представляется в виде вектора частот слов и словосочетаний) хорошо подходит для решения задачи классификации по заданному набору классов. Однако если попробовать использовать данную модель для решения задачи оценки тональности сообщений (тот же массив текстов разбивается на три класса: позитивные, негативные и нейтральные), то проекции будут иметь вид, показанный на рис. 12 и 13. В этом случае уже хорошо видно, что модель оказывается не адекватной данной задаче.
87
Рис. 12. Пример проекций массива «Reuters-21578-6» на первые две главные компоненты при решении задачи оценки тональности публикаций
Рис. 13. Пример проекции массива «Reuters-21578-6» на первые две дискриминантные оси при решении задачи оценки тональности публикаций
88
Необходимо отметить, что поскольку при вычислении дискриминантных осей используется информации о разделении данных на классы, то необходимо производить вычисление осей проецирования только по части выборки. В частности, при построении рис. 13 данные были разделены случайным образом на две части одинакового размера. Если использовать все данные, то из-за большой размерности исходного пространства признаков возможно переобучение и получение «ложных» проекций, на которых данные хорошо разделены на классы. Соответствующий пример показан на рис. 14.
Рис. 14. Пример «ложной» проекции на дискриминантные оси массива «Reuters-21578-6» при решении задачи оценки тональности публикаций
3.4. Технология формирования векторного представления При проведении анализа текстовых данных (например, классификации или кластерного
анализа)
требуется
выполнение
различных
лингвистических
процедур обработки текстов, рассмотренных в предыдущем разделе. Данные процедуры
являются
достаточно
ресурсоемкими.
Для
исключения
их
многократного повторения целесообразно сохранять результаты их работы вместе
89
с документом в базе данных. В результате общая технология обработки документов примет вид, показанный на рис. 15.
Рис. 15. Общая технология анализа документов
Состав выделяемой метаинформации о документе в одной из реальных систем приведен в табл. 49. Таблица 49 – Состав выделяемой метаинформации о документе Название раздела
Описание Содержит список всех слов и словосочетаний в 1. Словарь слов документе в нормальной форме Содержит для каждого слова и словосочетания 2. Список координат слов список его позиций 3. Список координат предложений Содержит для каждого предложения его смещение в символах от начала текста в символах и длину в символах 4. Список координат предложений Содержит для каждого предложения номер первого в словах слова и число слов в предложении Содержит для каждого предложения номер его 5. Список параграфов предложений параграфа 6. Список номеров и частот Содержит для каждого предложения список встречаемости слов в предложениях встречающихся в нем слов с частотами 7. Список наиболее значимых слов Содержит номера наиболее значимых слов в тексте в тексте с частотами встречаемости и частоты их встречаемости
На рис. 16 показано место средств выделения метаинформации в технологии обработки документа на этапе его загрузки в базу данных.
90
Рис. 16. Место средств выделения метаинформации в технологии обработки документов
Для выделения метаинформации выполняются различные процедуры лингвистического и статистического анализа текстов. На вход модуля выделения метаинформации поступает текст документа на естественном языке. Текст проходит последовательность процедур обработки таким образом, что выход одной процедуры подается на вход другой. В частности, выполняются такие лингвистические процедуры, как графематический анализ, морфологический анализ, постморфологический анализ, выделение словосочетаний, выделение значимых слов в тексте. После завершения лингвистического анализа текста производится подсчет статистики встречаемости слов и словосочетаний в тексте в целом
и
в
отдельных
предложениях.
На
выходе
модуля
выделения
метаинформации получается двоичная структура данных с метаинформацией документа. Технология анализа документа на этапе выделения метаинформации показана на рис. 17.
91
Текст документа
Графематический анализ
Морфологичесикий анализ
Словари оборотов и сокращений
Русский и английский морфологические словари
Постморфологический анализ
Правила
Выделение словосочетаний
Шаблоны словосочетаний
Стоп-словарь
Выделение значимых слов
Список значимых частей речи
Метаинформация (Частоты и координаты встречаемости терминов в тексте и предложениях) Рис. 17. Технология выделения метаинформации
92
4. Методы снижения размерности 4.1. Общее описание моделей и методов формирования сжатого представления текстов Сокращение размерности (представление массива текстов в сжатом виде) необходимо по следующим причинам [Ман88]: – результаты
работы
алгоритмов
анализа
данных
в
сокращенном
пространстве обычно устойчивее и надежнее, чем в исходном многомерном пространстве признаков; – малое число параметров легче поддается содержательному восприятию и дальнейшему анализу; – в случае сокращения пространства до размерностей 1–3 данные можно представить визуально, а наглядность полезна во всех отношениях; – сокращение числа признаков приводит к упрощению вычислительных процедур. В
процессе
выделения
информационных
признаков
для
снижения
размерности обычно производится отбрасывание слов, содержащихся в стопсловаре (списке малоинформативных и служебных слов), приведение слов к нормальной форме, отбрасывание малоинформативных частей речи (например, наречий, числительных). Однако из табл. 50 видно, что применение этих методов не позволяет существенно повлиять на размерность пространства признаков. Таблица 50 – Число признаков в различных массивах Название массива
«Reuters-21578» «Reuters-21578-6» «Новости 1»
Исходное число признаков 32 015 10 423 186 735
Число признаков после отбрасывания служебных частей речи 31 994 10 167 184 970
Необходимо отметить, что имеются и более «глубокие» лингвистические процедуры снижения размерности, например основанные на использовании тезаурусов. Они позволяют существенно снизить размерность пространства
93
признаков, однако требуют слишком больших людских ресурсов для создания и поддержки соответствующих языковых баз знаний в актуальном состоянии и часто оказываются не эффективными в условиях изменяющейся во времени тематики текстов. По
этой
причине
на
практике
в
настоящее
время
наибольшее
распространение получили статистические методы снижения размерности, которые не требуют построения объемных лингвистических баз знаний. В работе [Seb02] они разбиты на два типа: − методы селекции признаков; − методы трансформации признаков. Методы селекции признаков. При снижении размерности путем селекции
признаков из исходного множества признаков отбирается подмножество, удовлетворяющее некоторому критерию качества. Выделяют следующие два основных подхода к селекции признаков: − метод свертки; − метод фильтрации. В методе свертки селекция осуществляется путем последовательного добавления и удаления признаков из исходного множества признаков таким образом, чтобы достигнуть максимального качества работы системы в целом. Данный подход позволяет хорошо подстроиться под используемые алгоритмы обработки данных, но при этом требует слишком больших вычислительных затрат, так как для каждого возможного набора признаков необходимо выполнение полной процедуры обработки данных и оценки эффективности получаемых результатов. В методе фильтрации вводится функция, которая характеризует полезность отдельных признаков. Снижение размерности осуществляется путем отбора определенного числа наиболее полезных признаков. Главным преимуществом метода фильтрации является высокая скорость работы, а недостатком – то, что оценка каждого признака производится независимо от остальных признаков и независимо от используемых далее алгоритмов обработки данных, что не
94
позволяет учитывать признаки, которые становятся полезными только в сочетании друг с другом. Методы трансформации признаков. В данном случае получение сжатого
представления массива текстов основывается на построении новых признаков, являющихся комбинацией исходных. За счет этого удается понизить размерность на несколько порядков (до десятков или сотен признаков), повысить устойчивость алгоритмов статистической обработки данных, в некоторой степени решить проблемы синонимии и омонимии слов. Для построения новых комбинированных признаков разработан ряд методов, однако выбор конкретного метода во многом определяется особенностями решаемой задачи, а также опытом и интуицией исследователя. Наибольшее распространение получили следующие подходы: − кластеризация признаков; − латентное семантическое индексирование; − концептуальное индексирование. Кластеризация признаков заключается в разбиении слов с высокой степенью «смысловой» похожести на группы (кластеры), которые затем используются вместо отдельных слов при описании текстов [Rij79, MS99]. При построении методов на основе данного подхода необходимо решить следующие две основные задачи: определить способ группировки слов в кластеры и задать отображение исходного представления текстов в пространство кластеров. В настоящее время предложено немало методов кластеризации признаков, однако, как отмечается в работе [Seb02], в большинстве случаев их применение оказывается неэффективным. По этой причине данный подход практически выпал из области современных исследований. Латентное
семантическое
индексирование
(LSI)
первоначально
разрабатывалось в контексте задач информационного поиска с целью решения проблем синонимии и полисемии слов естественного языка. В его основе лежит идея о том, что употребление слов в тексте объясняется с помощью небольшого набора явно не наблюдаемых и независимых друг от друга факторов, через которые линейно выражаются наблюдаемые в текстах признаки. Для выделения факторов и снижения размерности в работе [BDO95] предлагается использовать
95
методы линейной алгебры. В работе [Seb02] показывается, что использование LSI позволяет не только значительно снизить размерность пространства признаков (до сотен признаков), но и повысить качество решения задач информационного поиска и автоматической классификации. К недостаткам данного подхода можно отнести сравнительно высокую вычислительную сложность и трудность содержательной интерпретации выделяемых факторов. В математическом плане близким к методу LSI и в определенном смысле более известным является метод главных компонент, суть которого заключается в следующем:
с
помощью
линейного
преобразования
исходных
величин
осуществляется переход к новой системе уже некоррелированных признаков, которые называют главными компонентами. В случае нормального распределения данных подобное преобразование приведет к системе независимых признаков. Вопрос снижения размерности будет решаться в этой новой системе признаков в предположении, что информативность признака напрямую связана с его изменчивостью. Таким образом, из совокупности исходных преобразованных характеристик для последующего анализа будут оставлены лишь те, которым свойствен «существенно» больший разброс значений, чем остальным. Концептуальное индексирование основывается на применении быстрых алгоритмов кластерного анализа для разбиения текстов на группы, у которых векторы средних выступают в роли скрытых факторов и используются для описания содержания текстов. Для кластеризации текстов, например в работах [KH00, DM99, BD98], используются варианты алгоритма k-средних. Как показывают эксперименты, описанные в указанных работах, концептуальное индексирование немного уменьшает затраты времени, но при этом в несколько раз хуже снижает размерность пространства признаков по сравнению с LSI.
4.2. Методы фильтрации признаков В основе большинства функций полезности термина ti , i = 1, ..., m , для рубрики (класса) ω j ,
j = 1, ..., k , лежит оценка вероятностей совместной
встречаемости терминов и классов, которые удобно представить в виде табл. 51.
96
Таблица 51 – Вероятности совместной встречаемости терминов и классов Класс Термин
ti
ωj
Сумма
p (ti , ω j )
p (ti , ω j )
p(ti )
p (ti , ω j )
ti
p (ω j )
Сумма
В данном случае
ωj
p (ti , ω j ) p(ωk )
p(ti ) 1
p(t , ω ) – оценка вероятности того, что случайно
выбранный текст относится к классу ω ∈ {ω j , ω j } и содержит термин t ∈ {ti , ti }, где k
ω j = Uωl \ ω j – признак непринадлежности текста к классу, ti – признак l =1
отсутствия термина ti в тексте. В качестве примера рассмотрим, как задается функция полезности отдельного термина для отдельного класса в рамках подходов на основе метода хи-квадрат и методов теории информации. Подход на основе метода хи-квадрат. В качестве функции полезности
используется стандартная статистика χ 2 , применяемая при проверке гипотезы о наличии зависимости между двумя категориальными признаками. В данном случае проверяется гипотеза о наличии зависимости между бинарными
признаками ω ∈ {ω j , ω j } – принадлежность документа к классу ω j , j = 1, ..., k , и t ∈ {ti , ti } – наличие в документе термина ti , i = 1, ..., m . Пусть n – число документов в массиве, а совместная встречаемость признаков ω и t в документах задается в виде следующей таблицы сопряженности размера ( 2 × 2 ) (см. табл. 52). Таблица 52 – Таблица сопряженности в методе хи-квадрат
ωj
ωj
Сумма
ti
n11
n10
n1•
ti
n01
n00
n0•
Сумма
n•1
n•0
n
97
В приведенной таблице n11 и n01 – число документов из класса ω j , содержащих и не содержащих термин ti соответственно, n10 и n00 – число документов из отличных от ω j классов, содержащих и не содержащих термин ti соответственно, n = n11 + n10 + n01 + n00 , nl • = nl1 + nl 0 , l ∈ {0, 1} , и n•s = n1s + n0 s ,
s ∈ {0, 1}. В результате статистика Tχ 2 критерия χ 2 принимает следующий вид: 2
n n ⎞ ⎛ ⎜ nls − n l • •s ⎟ n n ⎠ Tχ 2 = ∑ ⎝ . n n l s • • l , s∈{0 ,1} n n n После упрощения выражение для статистики Tχ 2 можно представить в виде 2
⎛ n11 n00 n10 n01 ⎞ Tχ 2 ⎜⎝ n n − n n ⎟⎠ ~ Tχ 2 = . = n1• n0• n•1 n•0 n n n n n Статистика Tχ 2 принимает значения, близкие к нулю, если встречаемость термина ti в документах не зависит от их принадлежности к классу ω j , и большие значения – в противном случае. Заметим,
что
величины
n11 , n
максимального правдоподобия для величины p(ti ) ,
n10 , n
p (ti , ω j ) ,
n01 , n
n00 n
являются
p (ti , ω j ) ,
p (ti , ω j ) ,
оценками p (ti , ω j ) , а
n1• n0• n•1 n•0 , , , – оценками максимального правдоподобия для p(ti ) , n n n n
p (ω j ) ,
p(ωk ) . По этой причине функцию полезности термина при
использовании метода хи-квадрат часто представляют в следующем виде:
Подход на основе методов теории информации. В настоящее время
предложено большое число различных функций, основанных на использовании методов теории информации. Рассмотрим функцию полезности, опирающуюся на
98
вычисление величины взаимной информации между двумя категориальными признаками. Пусть имеются две дискретные случайные величины X и Y, отдельные значения которых задаются переменными x и y. Тогда взаимная информация между ними определяется следующим образом:
MI ( X , Y ) = ∑ Pr ( x, y )log x, y
Pr ( x, y ) , Pr ( x ) Pr ( y )
где Pr ( x ) и Pr ( y ) – сокращения для обозначения вероятностей Pr ( X = x ) и Pr (Y = y ) соответственно. Заметим, что если случайные величины X и Y независимые, то для всех x и y выполняется Pr ( x, y ) ≡ Pr ( x ) Pr ( y ) и в результате MI ( X , Y ) = 0 . Более того, можно показать, что MI ( X , Y ) = 0 тогда и только тогда, когда X
и Y
независимые. При этом чем меньше зависимость между переменными, тем больше значение взаимной информации. В
нашем
случае
X
соответствует
t,
а
Y
соответствует
ω.
Воспользовавшись обозначениями, принятыми в табл. 51, получаем выражение для взаимной информации: MI =
⎛ p(t , ω ) ⎞
⎟⎟ . p(t , ω )log⎜⎜ ∑ ∑ ( ) ( ) p t p ω ω {ω ω }τ { } ∈
j, j
⎝
∈ ti ,ti
⎠
В табл. 53 сведены выражения для наиболее распространенных функций полезности терминов для отдельных классов [Seb02]. Таблица 53 – Распространенные функции полезности терминов Название и обозначение функции 1. Частота текстов
⎟⎟ p(t , ω )log⎜⎜ ∑ ∑ ( ) ( ) p t p ω ω {ω ω }τ { } ∈
j, j
∈ ti ,ti
⎝
⎠
99
4. Отношение разностей
OR(ti , ω j )
p (ti | ω j )(1 − p (ti | ω j ))
(1 − p(t | ω ))p(t | ω ) p (t , ω ) p (t , ω ) − p (t , ω ) p (t , ω ) p (t , ω ) log p(t ) p (ω ) p (t | ω ) + a , log p (t | ω ) + a i
5. Упрощенный хи-квадрат
SCHI (ti , ω j )
i
6. Упрощенная взаимная информация
j
j
i
i
SMI (ti , ω j )
i
j
RS (ti , ω j )
i
j
i
j
j
i
7. Степень релевантности
j
j
i
j
i
j
a – некоторая константа
Функции полезности признаков для всего массива текстов обычно получаются на основе значений «локальных» функций полезности одним из следующих способов:
F (ti ) = ∑ F (ti , ω j ) – сумма значений; k
j =1
F (ti ) = ∑ p (ω j )F (ti , ω j ) – взвешенная сумма значений; k
j =1
F (ti ) = max F (ti , ω j ) – максимальное значение. j =1,...,k
Рассмотрим
теперь
подходы
к
оценке
вероятностей
совместной
встречаемости терминов и классов p (ti , ω j ) . Простейший подход заключается в вычислении оценки максимального правдоподобия, т. е. в нахождении arg max L( z | θ ) , θ
где L( z | θ ) – функция правдоподобия, z – выборка, θ – множество оцениваемых параметров. При использовании схемы испытаний Бернулли оценка максимального
правдоподобия p (ti , ω j ) будет иметь следующий вид:
p * (ti , ωk ) =
nik , n
где nik – число текстов из класса ω j , в которых встречается термин ti , n – число документов в массиве. При обработке текстовых данных из-за сильной
100
разреженности матриц наблюдений использование данного подхода может приводить к появлению оценок, принимающих нулевые значения, и к неопределенным значениям ряда функций полезности. Для исключения появления нулевых оценок вероятностей на практике используется ряд подходов к «сглаживанию» оценок. При обработке текстовых данных наибольшее распространение получил байесовский подход, основанный на нахождении максимума апостериорного распределения параметров, т. е. нахождении arg max ϕ (θ | z ) , θ
где ϕ (θ ) =
p(θ )L( z | θ ) – апостериорное распределение θ , p(θ ) – априорное ( ) ( ) L z | θ p θ d θ ∫
распределение θ . В том случае, когда классы предполагаются непересекающимися, можно использовать следующую модель:
θ = (θ1 , ..., θ 2 k ) = ( p(ti , c1 ), ..., p(ti , ck ), p(ti , c1 ), ..., p(ti , ck )) , а выборку z можно считать состоящей из одного наблюдения (ni1 , ..., nik , ni1 , ..., nik ) , взятого из полиномиального распределения с параметрами θ = (θ1 , ..., θ 2 k ) , 2k
∑θ j =1
j
= 1 , где nij – число текстов из класса ω j , в которых не встречается термин ti .
соответствии с принципом Лапласа положить α1 = ... = α 2 k = α > 1 , то оценка p (ti , ω j ) будет иметь вид p * (ti , ω j ) =
nij + α − 1 . n + 2k (α − 1)
101
Отсюда можно показать, что оценки
p (ti | ω j ) и p (ω j ) будут иметь
следующий вид: p* (ti | ω j ) =
nij + α − 1
n j + 2(α − 1)
, p* (ω j ) =
n j + 2(α − 1)
n + 2k (α − 1)
,
где n j – число текстов в классе ω j , j = 1, ..., k . В случае когда классы являются пересекающимися, условие
∑ p(ω ) = 1 k
j =1
j
уже не выполняется. В этой ситуации при вычислении байесовских оценок каждый
класс
рассматривается
независимо
от
других,
т. е.
θ = (θ1 , ..., θ 4 ) = ( p(ti , c j ), p(ti , c j ), p(ti , c j ), ..., p(ti , c j )). В результате оценка будет иметь вид p * (ti , ω j ) =
nij + α , n + 4α
где α > 0 . На рис. 18 для массива «Reuters-21578-6» приведена экспериментально установленная зависимость величины ошибки классификации (доли неправильно классифицированных документов) от степени снижения размерности (доли оставленных признаков) при использовании различных функций полезности терминов.
В
качестве
алгоритма
классификации
используется
алгоритм
k-ближайших соседей (его подробное описание дано в следующем разделе). График приведен в логарифмическом масштабе для обеспечения возможности одновременного изучения поведения алгоритмов при высоких и низких степенях снижения размерности.
102
Рис. 18. Зависимость ошибки классификации от степени снижения размерности для массива «Reuters-21578-6»
В целом результаты экспериментов с различными массивами текстов показывают, что хорошим компромиссом между качеством классификации и сложностью функций полезности терминов является использование обычной частоты терминов в тексте (обозначено через DF).
4.3. Метод главных компонент Формирование главных компонент возможно как в теоретическом случае, когда матрица вторых центральных моментов задана, так и в выборочном случае, когда она оценивается по наблюденным значениям. Рассмотрим сначала первый вариант. Пусть задана неотрицательно определенная ковариационная матрица C размера ( d × d ), где d – размерность признакового пространства. Переход от
103
имеющейся совокупности признаков Y T = (Y1 , ..., Yd ) к новым Z T = ( Z1 , ..., Z d ) зададим равенством
Z = LT Y ,
(2)
где L – искомая ортонормированная матрица преобразования, LLT = LT L = I . Для удобства далее будем считать, что каждая компонента вектора данных центрирована
своим
средним,
т. е.
E{Y } = 0 .
Отсюда
следует,
что
ковариационная матрица V для преобразованных данных и матрица C для исходных данных связаны следующим соотношением:
C = LVLT .
(3)
Цель применения метода главных компонент состоит в нахождении такой ортонормированной
матрицы
L,
чтобы
признаки
(Z , ..., Z )
были
d
1
некоррелированными (матрица V – диагональная). Так как матрица C симметрична, то для нее справедливо спектральное разложение вида (3), где V – диагональная матрица, элементы которой
vii ,
i = 1, ..., n , суть собственные значения матрицы C, а L – ортогональная
матрица, столбцы которой суть ортонормированные собственные векторы матрицы C. При этом матрица V определяется однозначно, а матрица L – не однозначно (вместе с матрицей L требуемым условиям удовлетворяет и матрица –
L). Таким образом, спектральное разложение ковариационной матрицы решает поставленную задачу перехода к системе признаков с нулевыми взаимными ковариациями. Собственные значения матрицы C обычно упорядочиваются по убыванию, т. е.
предполагается,
v11 ≥ v22 ≥ ... ≥ vdd .
что
Заметим,
что
матрица
C
положительно определена, поэтому vii > 0 для i = 1, ..., d . Соответствующие собственные векторы l1 , ..., ld , где li – i-й столбец матрицы L, в соответствии с (2)
определяют преобразованные переменные
называются
главными
компоненты
равно
компонентами.
i-му
в
порядке
Z1 ,..., Z d , которые и i-й
Значение
дисперсии
убывания
собственному
главной значению
ковариационной матрицы. При этом i-я главная компонента есть проекция
104
исходных величин на i-й собственный вектор ковариационной матрицы. Таким образом, первая главная компонента имеет наибольшую дисперсию из всех дисперсий преобразованных данных, а последняя главная компонента – наименьшую. Для
спектрального
разложения
ковариационной
матрицы
вида
(3)
справедливо соотношение tr (C ) = tr (V ) , из которого следует n
n
i =1
i =1
∑ var{Yi } = tr (C ) = tr (V ) =∑ var{Zi } , т. е. общая суммарная дисперсия после перехода к главным компонентам остается без изменений. Тогда подмножество первых главных компонент может объяснить большую часть общей дисперсии. При таком подходе удается осуществить более сжатое описание исходных данных, т. е. фактически снизить размерность пространства признаков. Рассмотрим
связь
между
исходными
признаками
и
главными
компонентами, построенными на основе ковариационной матрицы. С учетом ортогональности L имеем: cov{Y , Z } = E{YZ T } = E{Y ( LT Y )T } = CL = ( LT ) −1 LT CL = LV .
(4)
Так как V = diag (v11 , ..., vdd ) , то из (4) получаем cov{Yi , Z j } = lij v jj , i, j = 1, ..., d . Последние соотношения могут стать основой для интерпретации главных компонент. Если связь некоторой j-й главной компоненты с частью исходных величин «велика», а с остальными «мала», т. е. cov{Yi , Z j } ≈ 0 для каких-то значений i, то можно попытаться объяснить природу j-й главной компоненты через совокупность признаков, вносящих значимый вклад в ее формирование. Рассмотрим
теперь
применение
метода
главных
компонент,
когда
исходным материалом для анализа является матрица наблюдений «признактекст». Пусть
A
– матрица размера ( d × n ), полученная в результате
центрирования матрицы наблюдений A, где d – размерность признакового пространства и n – объем выборки.
105
Рассмотрим выборочную ковариационную матрицу
C∗ =
1 A A T . Она n
является симметричной и неотрицательно определенной. Поэтому с помощью тех же методов могут быть построены выборочные главные компоненты, значения которых составляют матрицу X размера ( d × n ) следующего вида: X = LT A ,
где столбцы матрицы L суть ортонормированные собственные векторы матрицы
C ∗ . При этом выборочная ковариационная матрица преобразованных данных выражается следующим образом:
V∗ =
1 1 XX T = LT A A T L = LT C ∗ L , n n
она имеет диагональный вид. По аналогии с (4) найдем матрицу выборочных ковариаций между исходными переменными и главными компонентами: cov∗{ A , X } =
1 A X T = C ∗ L = ( LT ) −1 LT C ∗ L = LV ∗ . n
Как и в теоретическом случае, с помощью последнего соотношения можно пытаться интерпретировать выборочные главные компоненты. Качество
решения
задачи
охарактеризовать с помощью доли
по
снижению
размерности
можно
wm
общей дисперсии, сохраненной в
процессе перехода к главным компонентам, а именно m
wm =
∑v i =1 d
ii
∑v i =1
, m = 1, ..., d .
ii
Тогда выбор эффективной размерности признакового пространства может осуществляться на основе анализа поведения этой характеристики при увеличивающихся значениях m. Обычно поступают следующим образом: заранее задавшись значением w∗ доли дисперсии, подбирают такое минимальное m, которое обеспечивает это значение доли (т. е. wm ≥ w∗ , но wm−1 < w∗ ). Если
106
предпосылок для выбора
w∗
нет, то, анализируя
wm
для
m = 1, 2, ..., d ,
останавливаются на том значении m∗ , после которого ( m = m∗ + 1, m∗ + 2, ..., d ) доля wm «практически не изменяется».
4.4. Метод латентного семантического индексирования (LSI) Пусть сингулярное разложение произвольной матрицы B размера ( l × s ) представляется следующим образом: B = U (B )Λ (B )V T (B ) , где U (B ) – матрица размера ( l × r ), U T (B )U (B ) = I r , V (B ) – матрица размера ( s × r ), V T (B )V (B ) = I r , Λ(B ) = diag (λ1 (B ), ..., λr (B )) , λ1 (B ) ≥ ... ≥ λr (B ) > 0 – сингулярные значения матрицы B, r – ранг матрицы B. Тогда в качестве факторов в методе латентного
семантического индексирования выступают первые столбцы матрицы U ( A) , а в качестве матрицы наблюдений X, используемой при проведении кластерного анализа, используется матрица X ( A) = U mT ( A) A , m << r ,
представляющая собой проекцию исходных векторов текстов на пространство факторов размерности m, где матрица U m ( A) состоит из первых m столбцов матрицы U ( A) . Можно
показать
[EY36],
что
матрица
~ A = U m ( A)U mT ( A) A
является
наилучшей аппроксимацией матрицы A ранга m, то есть min
rank ( B )= m
A− B
F
~ = A− A ,
(5)
F
где rank (B ) – ранг матрицы B, ⋅ F – норма Фробениуса. Таким образом, с помощью метода LSI снижение размерности путем перехода к матрице наблюдений X ( A) проводится так, чтобы прообраз этой матрицы наилучшим образом аппроксимировал бы исходную матрицу наблюдений A. Между методами главных компонент и LSI существует тесная связь. Рассмотрим
для
матрицы
A
ее
сингулярное
разложение,
т. е.
107
A = U ( A)Λ ( A)V T ( A) или U T ( A) AV ( A) = diag (λ1 , ..., λ p ), где p = min{m, n}. Тогда
имеем: V T ( A)( AT A)V ( A) = diag (λ12 , ..., λ2p , 0, ..., 0), 123 n− p
U T ( A)( AAT )U ( A) = diag (λ12 , ..., λ2p , 0, ..., 0). 123
(6)
m− p
Если в качестве матрицы A рассматривать центрированные с помощью выборочных средних наблюденные значения, то AAT – оценка ковариационной матрицы с точностью до нормирующего множителя, а (6) – ее спектральное разложение, определяющее главные компоненты. Снижение размерности с помощью первых главных компонент осуществляется согласно соотношению X ( A) = U mT ( A) A , т. е. как в методе LSI. Таким образом, если матрица наблюдений центрирована, то снижения размерности с помощью главных компонент и с помощью метода LSI эквивалентны. Достоинства метода LSI определяются следующими моментами. Во-первых, имеется большое число примеров успешного использования метода LSI при решении задач информационного поиска и классификации [Seb00]. Во-вторых, линейный характер преобразования пространства признаков, который при проецировании на пространство меньшей размерности, с одной стороны, обеспечивает сохранение нормального закона распределения случайной величины, а с другой стороны, может приводить к образованию похожих на нормальные распределений даже в случае, когда исходное распределение далеко от нормального [Шур00]. Более того, анализ согласованности распределения, получаемого после снижения размерности текстовых данных методом LSI, со смесью многомерных нормальных распределений дал положительные результаты. В-третьих, в основе применения метода лежит прозрачная математическая идея, выраженная соотношением (5). В-четвертых, сильная разреженность исходной матрицы наблюдений A позволяет использовать специальные эффективные алгоритмы нахождения
108
сингулярного разложения [ГЛ99]. Необходимо отметить, что при использовании метода главных компонент производится центрирование исходной матрицы наблюдений, приводящее к исчезновению свойства разреженности и не позволяющее организовать эффективное вычисление спектрального разложения. На рис. 19 и 20 для массива «Reuters-21578-6» приведены экспериментально установленные зависимости величины ошибки классификации и времени работы от степени снижения размерности для метода LSI и методов селекции признаков, рассмотренных в предыдущем разделе. Для классификации использовался алгоритм k-ближайших соседей. Графики приведены в логарифмическом масштабе для обеспечения возможности одновременного изучения поведения алгоритмов при высоких и низких степенях снижения размерности.
Рис. 19. Зависимость ошибки классификации от степени снижения размерности
Анализ рис. 19 позволяет сделать вывод, что метод LSI обеспечивает на порядок более высокую степень снижения размерности по сравнению с методами
109
селекции признаков (ошибка классификации при этом оказывается даже несколько ниже).
Рис. 20. Зависимость времени работы алгоритмов от степени снижения размерности
Анализ рис. 20 показывает, что более высокая степень снижения размерности метода LSI обеспечивается за счет большей вычислительной сложности (примерно на порядок) по сравнению с методами селекции признаков. Таким образом, метод LSI целесообразно применять в тех случаях, когда для выполнения анализа текстов требуется использовать методы, вычислительная сложность которых сильно зависит от размерности обрабатываемых данных (такие методы будут рассмотрены далее при описании методов кластерного анализа и классификации).
4.5. Качество представления текстов в пространстве сниженного размера Рассмотрим теперь влияние снижения размерности на ранги выборочных ковариационных
матриц,
соответствующих
рубрикам
текстового
массива
110
«Reuters-21578-6». Для этого, так же как делалось ранее при изучении свойств рубрик в исходном пространстве признаков, найдем ранги ковариационных матриц и количество «значимых» собственных значений (необходимых для объяснения 90% дисперсии). В табл. 54 даны результаты соответствующих вычислений для случая, когда относительное качество аппроксимации равно 20%, а размерность пространства сниженной размерности m = 7. Таблица 54 – Свойства ковариационных матриц рубрик Название рубрики
Число документов в рубрике
Ранг выборочной ковариационной матрицы
GAS GNP GOLD NAT–GAS SHIP SUGAR
54 153 133 126 294 175
7 7 7 7 7 7
Число «значимых» собственных значений 2 1 1 2 2 1
Отношение максимального собственного значения к минимальному 358 489 489 379 502 269
Анализ табл. 54 позволяет сделать вывод, что хотя ковариационные матрицы рубрик и перестают быть вырожденными с формальной точки зрения, однако минимальные собственные значения все равно остаются во много раз меньше первых собственных значений. При этом снижение размерности даже усилило вес наибольших собственных значений, так как для объяснения 90% дисперсии требуется уже не 50% собственных значений, как это было в исходном пространстве признаков, а только 15–20%. Для оценки влияния снижения размерности на собственные векторы ковариационных матриц рассмотрим, какие из них лучше всего сохраняются в пространстве сниженной размерности. С этой целью вычислим значения косинусов главных углов между собственными векторами ковариационных матриц и подпространством сниженной размерности, порождаемом матрицей факторов U m . Так как собственные векторы и столбцы матрицы U m являются ортонормированными, то косинусы главных углов, по сути, соответствуют доле длины
собственных
векторов,
сохраняемой
в
пространстве
сниженной
111
размерности. В табл. 55 приведены результаты соответствующих вычислений для случая, когда относительное качество аппроксимации равно 20%, а размерность пространства признаков
m=7
(в скобках указано число документов в
соответствующих рубриках). Таблица 55 – Качество аппроксимации собственных векторов Номер собственного вектора
GAS (54)
GNP (153)
GOLD NAT–GAS (133) (126)
SHIP (294)
SUGAR (175)
1
0.9949 0.9862 0.9780
0.9758
0.9999
0.9931
5
0.8475 0.8659 0.9839
0.8984
0.9913
0.9732
10
0.4892 0.6373 0.8870
0.4983
0.9725
0.8636
15
0.3914 0.5622 0.6205
0.6012
0.8931
0.6901
20
0.1683 0.3563 0.5036
0.3841
0.8145
0.5993
30
0.3021 0.3843 0.3406
0.4020
0.4964
0.5297
40
0.3366 0.2608 0.3441
0.3210
0.4195
0.3167
50
0.3733 0.1893 0.2530
0.2901
0.3662
0.3706
Анализ табл. 55 показывает, что лучше всего сохраняются в пространстве сниженной размерности те собственные векторы ковариационных матриц, которые соответствуют наибольшим собственным значениям наибольших по размеру рубрик. Учитывая результаты, полученные в предыдущем разделе, можно сказать, что при выполнении процедуры снижения размерности происходит отбрасывание только малозначимых с содержательной точки зрения собственных векторов ковариационных матриц. Если теперь принять во внимание тот факт, что главные собственные векторы у различных рубрик практически ортогональны и что размерность пространства признаков в данном случае практически равна числу рубрик, то можно выдвинуть гипотезу о том, что пространства,
порожденные
собственными
векторами,
соответствующими
наибольшим собственным значениям ковариационных матриц, и матрицей U m , практически совпадают. Для проверки данной гипотезы вычислим минимальное, максимальное и среднее значение косинуса главного угла между данными подпространствами при размерности пространства признаков
m = 7.
В результате получим, что
минимальное значение равно 0.15, максимальное – 0.99, а среднее – 0.64. Таким
112
образом, данные подпространства действительно оказываются близкими друг к другу. Рассмотрим теперь влияние снижения размерности пространства признаков на качество кластерного анализа в рамках модели смеси нормальных многомерных распределений. На рис. 21 показан график зависимости F-меры от числа признаков для массива «Reuters-21578-6» при снижении размерности методом LSI. 0,7 0,6 0,5
F
0,4 0,3 0,2 0,1 0 1
11
21
31
41
51
61
71
81
91
m Рис. 21. Поведение F-меры в зависимости от размерности пространства признаков m для массива «Reuters-21578-6»
Анализ приведенного графика позволяет сделать следующие выводы. Во-первых, качество кластерного анализа в пространстве сниженной размерности оказывается значительно лучше, чем в исходном пространстве признаков. Во-вторых, наибольшее значение качества кластерного анализа достигается при достаточно высокой степени снижения размерности (в 1 000 раз) и ухудшается
при
дальнейшем
увеличении
или
снижении
размерности
пространства признаков. Это связано с тем, что добавление или удаление признаков приводит либо к учету шумовых, либо к отбрасыванию значимых направлений в пространстве признаков, что в любом случае ведет к ухудшению отделимости рубрик друг от друга и ухудшению качества классификации.
113
В-третьих, применение алгоритмов снижения размерности, основанных на нахождении сингулярного разложения исходной матрицы наблюдений, позволяет не только значительно снизить размерность пространства признаков, но и отбросить малозначимые собственные векторы у ковариационных матриц кластеров, учет которых приводит к ухудшению качества работы алгоритмов кластерного
анализа,
и
значительно
улучшить
объемно-временные
характеристики алгоритма кластерного анализа. Например, уменьшается в несколько раз объем оперативной памяти, необходимой для хранения параметров элементов смеси, уменьшается время вычисления собственных векторов и собственных значений на шаге максимизации ЕМ-алгоритма и т. д. При непосредственном использовании подхода на основе LSI возникает и ряд проблем как алгоритмического, так и вычислительного характера. Во-первых, отсутствуют формальные правила (методики) выбора числа факторов, что не позволяет автоматически определять значения данного параметра для различных текстовых массивов (по рис. 21 можно заметить, что правильный выбор размерности может сильно повлиять на качество дальнейшей работы алгоритмов классификации и кластерного анализа). Во-вторых, несмотря на наличие специализированных алгоритмов для нахождения сингулярного разложения больших разреженных матриц, их вычислительная сложность и требования к памяти все равно остаются достаточно высокими для обработки реальных текстовых массивов, содержащих десятки тысяч текстов (на рис. 22 видно, что время снижения размерности резко возрастает при увеличении объема текстового массива).
114 200 180 160
Время (сек)
140 120 100 80 60 40 20 0 5000
10000
15000
22885
n Рис. 22. Время снижения размерности в зависимости от числа текстов n для массива «Новости 2»
В-третьих, при необходимости периодического проведения кластерного анализа массива текстов, который пополняется с течением времени, возникают проблемы,
связанные
с
необходимостью
перевычисления
сингулярного
разложения. Необходимо отметить, что при добавлении каждой новой порции данных приходится выполнять процедуру снижения размерности снова, что приводит к существенному возрастанию общего времени, затрачиваемого на снижение размерности, по мере роста объема текстового массива. Таким образом, метод LSI обладает рядом замечательных свойств с точки зрения задачи кластерного анализа, однако для возможности его эффективного использования на практике требуется решить указанные выше проблемы и разработать соответствующие эффективные алгоритмы снижения размерности.
4.6. Последовательный метод обработки данных В настоящее время для возможности эффективной обработки как статических, так и динамических данных с помощью метода LSI предложен ряд алгоритмов,
основанных
на
осуществлении
последовательной
коррекции
115
пространства факторов. При этом наибольшее распространение получили следующие алгоритмы [BDJ99]: − алгоритм отображения на старое пространство факторов (FOLDIN); − алгоритм обновления сингулярного разложения (SVDUPD); − модифицированный алгоритм обновления сингулярного разложения (MSVDUPD). Прежде чем рассмотреть их работу более подробно, введем необходимые обозначения. Пусть B – произвольная матрица размера ( l × s ). Символом Λ m (B ) будем обозначать диагональную матрицу размера ( m × m ), содержащую на диагонали первые m наибольших сингулярных значений матрицы B, упорядоченные по убыванию; символами U m (B ) и Vm (B ) – матрицы размера ( l × m ) и ( s × m ), столбцы которых представляют собой левые и правые сингулярные векторы, соответствующие указанным сингулярным значениям; символом G (B ) – матрицу факторов с ортонормированными столбцами, соответствующую матрице B; символом X (B ) – представление матрицы B в пространстве факторов G (B ) , где m – некоторая целая положительная величина. Заметим, что при использовании стандартного метода LSI, основанного на вычислении сингулярного разложения, G (B ) = U m (B ) и X (B ) = U mT (B )B , где m – размерность пространства факторов. В рассматриваемых последовательных алгоритмах снижения размерности число факторов m также фиксировано, однако матрицы G (B ) и
X (B ) можно
рассматривать только как приближение матриц U m (B ) и U mT (B )B соответственно. Итак, пусть A1 – матрица «старых» текстов размера ( d × n1 ), A2 – матрица «новых» текстов размера ( d × n2 ), A = ( A1 , A2 ) – полная матрица наблюдений, полученная путем добавления к матрице A1 матрицы A2 . Тогда задача коррекции пространства факторов состоит в нахождении матриц G ( A) и
X ( A) в
предположении известности матриц G ( A1 ) ≡ U m ( A1 ) и X ( A1 ) . Алгоритм отображения на старое пространство факторов (FOLDIN)
[BDO95]. Новые тексты просто отображаются на существующее пространство
116
факторов. В данном случае матрицы G ( A) и X ( A) вычисляются следующим образом: G ( A) = U m ( A1 ) , X ( A) = U mT ( A1 )( A1 , A2 ) , где m – размерность пространства. Преимуществом данного подхода является низкая вычислительная сложность, а очевидным недостатком – невозможность учета появления новых взаимосвязей в данных. Алгоритм обновления сингулярного разложения (SVDUPD) [SZ97].
Новые тексты сначала отображаются на существующее пространство факторов так же, как и в предыдущем алгоритме, однако после этого выполняется специальная процедура коррекции факторов. Итоговые формулы для вычисления матриц G ( A) и X ( A) имеют следующий вид: V ( A1 ) 0 ⎞ T⎛ m ⎟, G ( A) = U m ( A1 )U m (F ) и X ( A) = Λ m (F )Vm (F ) ⎜⎜ ⎟ 0 I n2 ⎠ ⎝
[
]
где F = Λ m ( A1 ), U mT ( A1 ) A2 , m – размерность пространства факторов. Заметим, что, хотя в данном случае производится коррекция факторов, изменения самого пространства факторов все равно не происходит (столбцы матрицы G ( A) представляют собой линейную комбинацию столбцов матрицы U m ( A1 ) ), что позволяет сделать вывод о практической эквивалентности данного алгоритма алгоритму FOLDIN. Модифицированный алгоритм обновления сингулярного разложения (MSVDUPD) [SZ97]. Новые тексты отображаются не только на существующее
пространство
факторов,
но
и
на
пространство
факторов,
являющееся
ортогональным дополнением к нему до всего пространства признаков. После этого выполняется специальная процедура коррекции пространства факторов, которая учитывает вид получаемых в результате такого проецирования матриц. Итоговые формулы для вычисления матриц G ( A) и X ( A) имеют следующий вид:
117
⎡ΛTm ( A1 ) 0 ⎤ G ( A) = [U m ( A1 ), Pm ] ⋅ U m (F ) и X ( A) = Λ m (F )Vm (F ) ⎢ ⎥, I n2 ⎥⎦ ⎢⎣ 0 T
⎡Λ m ( A1 ) U mT ( A1 ) A2 ⎤ F =⎢ ⎥, R ⎣ 0 ⎦
где
(I − U ( A )U ( A ))A , m
1
T m
1
2
Pm R
есть
QR-разложение
матрицы
Pm – ортонормированная матрица, R – верхнетреугольная
матрица. Заметим, что получающееся в итоге пространство факторов в общем случае уже не совпадает с исходным, как это было в предыдущих двух алгоритмах, что свидетельствует о потенциальной возможности учета появления новых тематик в данных. Однако проведенные эксперименты показали, что это достигается за счет чрезмерного возрастания вычислительной сложности. Например, для снижения размерности текстового массива «Reuters-21578-6» с помощью данного алгоритма требуется на два порядка больше времени, чем с помощью алгоритма SVDUPD. По этой причине данный алгоритм далее в настоящей работе рассматриваться не будет. В некоторых работах для дополнительного снижения вычислительной сложности или объема требуемой памяти предлагается вместо нахождения сингулярного разложения использовать и другие виды разложений, например ULV разложение [BF96] или SDD разложение [KO98]. Однако анализ используемых при этом алгоритмов коррекции пространства факторов показал, что им присущи те же ограничения и недостатки, что и рассмотренным выше алгоритмам, основанным на вычислении сингулярного разложения. Также
общим
недостатком
приведенных
алгоритмов
является
использование в процессе работы фиксированного числа факторов m, что, как показывают эксперименты, может приводить к постепенному снижению качества кластерного анализа по мере роста объема текстового массива. Для демонстрации этого на рис. 23 приводится соответствующий график для массива «Reuters21578-6» при использовании фиксированного числа факторов ( m = 4 ).
118 1 0,9 0,8
F
0,7 0,6 0,5 0,4 0,3 200
300
400
500
600
700
800
900
n Рис. 23. Поведение F-меры в зависимости от числа текстов n для массива «Reuters-21578-6» при фиксированном числе факторов
При построении графика на рис. 23 было взято сформированное экспертами разбиение текстов на кластеры, а исходный массив текстов был упорядочен таким образом, чтобы сначала обрабатывались все тексты из первого кластера, затем все тексты из второго кластера и т. д. В настоящей работе предлагается при выполнении снижения размерности фиксировать не число факторов, а уровень относительной ошибки аппроксимации матрицы наблюдений A, где под относительной ошибкой аппроксимации ~ некоторой матрицы B с помощью матрицы B понимается значение следующего выражения: ~ B−B B
2
2 F
.
F
~ Заметим, что при использовании метода LSI B = QQT , где Q – матрица факторов такая, что Q T Q = I . При этом подходе размерность пространства факторов уже зависит от характера обрабатываемого текстового массива и автоматически корректируется при его изменении, что позволяет учитывать появление в нем новых тематик. Для демонстрации этого на рис. 24 показаны графики зависимости качества кластерного анализа на основе модели смеси нормальных
119
многомерных распределений для массива «Reuters-21578-6». Зависимости построены для следующих ситуаций: подход 1 – фиксируется размерность пространства
( m = 3 ),
факторов
–
подход 2
фиксируется
размерность
пространства факторов ( m = 8 ), подход 3 – фиксируется уровень относительной ошибки
аппроксимации
(ошибка
равна
0.8).
Зависимость
размерности
пространства факторов от размера массива текстов показана на рис. 25. 1 0,9 0,8
F
0,7 0,6
Подход 1
0,5
Подход 2
0,4
Подход 3
0,3 0,2 0,1 0 200
300
400
500
600
700
800
900
n Рис. 24. Поведение F-меры в зависимости от числа текстов n при различных подходах к снижению размерности для массива «Reuters-21578-6»
10 9
m
8 7
Подход 1
6
Подход 2 Подход 3
5 4 3 2 300
400
500
600
700
800
900
n Рис. 25. Поведение размерности пространства факторов m в зависимости от числа текстов n для массива «Reuters-21578-6»
120
По приведенным рисункам видно, что при фиксированной относительной ошибке аппроксимации качество кластерного анализа является более стабильным при различных размерах массива текстов по сравнению со случаем, когда фиксируется размерность пространства факторов. Таким
образом,
использование
понятия
относительной
ошибки
аппроксимации для оценки требуемого числа факторов в методе LSI позволяет обеспечить более высокое и стабильное качество кластерного анализа по сравнению с подходом, где число факторов является фиксированным. Прежде чем перейти к описанию последовательного алгоритма снижения размерности, рассмотрим несколько вспомогательных утверждений о свойствах относительной ошибки аппроксимации. Лемма 1. Пусть B – произвольная ненулевая матрица размера ( l × s ),
~ T B = U m (B )U m (B ) B, m – размерность пространства факторов, тогда min
B−D
rank ( D )= m
B
2 F
2
=
B
~ B−B B
2
2 F
,
F
где D – произвольная матрица ранга m. Доказательство. Утверждение леммы непосредственно следует из теоремы об аппроксимации произвольной матрицы с помощью матрицы меньшего ранга, приведенной в работе [EY36]. █ Таким
образом,
относительная
ошибка
аппроксимации
является
наименьшей в том случае, когда в качестве матрицы факторов используется матрица U m (B ) . Лемма 2. Пусть B – произвольная ненулевая матрица размера ( l × s ),
~ B = QQT B – матрица, являющаяся аппроксимацией матрицы B в пространстве факторов Q, Q – произвольная матрица с ортонормированными столбцами размера ( l × m ), m – размерность пространства факторов, тогда 0≤
~ B−B B
2 F
2 F
≤1
121
и справедливы следующие упрощенные формулы для вычисления относительной ошибки:
~ B−B B
2
~ B
2 F
=1−
2
B
F
и
F 2
~ B−B B
F
2
=1−
F
2
2
QT B B
F
F
2
.
F
Доказательство. Сначала заметим, что из определения нормы Фробениуса следует, что для произвольной матрицы C справедливы равенство C и неравенство C
2
2
F
(
= tr C T C
)
≥ 0.
F
Пусть теперь матрица Q является ортогональным дополнением матрицы Q
(Q, Q )(Q, Q )
T
до базиса всего пространства, т. е.
= I . Отсюда получаем, что
QQT + Q Q T = I и
(
2
B
(
)
(
) (QQ T
= tr BT B = tr BT QQT + Q Q T
F
(
)
)
+ QQT B =
T
) (
)
= tr BT QQT QQT B + tr BT Q Q T Q Q T B =
(
(
)
(
= tr BT QQT QQT B + tr BT I − QQT
~ = B
2 F
) (I − QQ )B )= T
T
~2 + B−B . F
Так как норма Фробениуса неотрицательна, то отсюда получаем, что 0≤
Равенство
~ B−B B ~ B
2 F
~ B−B B
2 F
2 F
(
=1−
2
≤1 и
F
2
~ B−B B
F
QT B B
2
2 F
2 F
=1−
~ B B
2 F 2
.
F
2 F
следует из соотношения:
F
)
(
)
= tr BT QQT QQT B = tr (Q T B ) (Q T B ) = Q T B F . █ T
2
Таким образом, при использовании метода LSI относительная ошибка аппроксимации лежит в промежутке от 0 до 1, а для ее вычисления существуют упрощенные формулы, которые позволяют эффективно находить значение ошибки без непосредственного обращения к исходной матрице B.
122
Рассмотрим теперь утверждение, которое связывает относительную ошибку аппроксимации
произвольной
матрицы
с
относительными
ошибками
аппроксимации ее подматриц. Лемма 3. Пусть имеются ненулевые матрицы B1 размера ( l × s1 ) и B2
~ ~ размера ( l × s2 ), а также матрицы B1 и B2 такие, что ~ B2 − B2
2 F
/ B2
2 F
~ 2 B1 − B1 / B1 F
2 F
≤ε и
≤ ε . Тогда справедливо следующее неравенство:
(B − B~ , B 1
~ 2 − B2
1
)
2 F
/ (B1 , B2 ) F ≤ ε . 2
Доказательство. Действительно, из определения нормы Фробениуса
(
~ ~ следует, что B1 − B1 , B2 − B2
)
2 F
~ = B1 − B1
(B1, B2 ) − (B~1, B~2 ) F (B1, B2 ) 2F
F
=
B1
2 F
2
B1
F
B1
2 F
F
~ B1 − B1
2
~ B1 − B1
~ 2 + B2 − B2 . Отсюда получаем, что
2
=
F 2
+ B2
2 ⎛ B 1 F ≤ ε ⋅⎜ ⎜ B 2 + B 2 ⎝ 1F
+
~ B2 − B2 B2
F
2
F 2
(B1, B2 ) F
2
+
F
B2 B1
2 F
~ B2 − B2
2
+
F 2
=
+ B2
2
(B1, B2 ) F
2
B2
F
2
B1
F 2 F
+ B2
2
2 F
2 F
2 F
≤
F
⎞ ⎟ =ε . █ ⎟ ⎠
Обозначим теперь символом U ε (B ) матрицу, состоящую из такого минимально возможного числа первых столбцов матрицы U (B ) , чтобы относительная ошибка аппроксимации матрицы B размера ( l × s ) ранга r > 0 с ~ помощью матрицы B = U ε (B )U εT (B )B была не больше ε , т. е. U ε (B ) = U k (B ) , где k ∈ {1, ..., r} такое, что 1 − задающая
допустимый
U kT (B )B B
уровень
2
2 F
≤ ε, 1−
U kT−1 (B )B
F
относительной
B
2
2 F
> ε , ε – константа,
F
ошибки
аппроксимации,
123
U 0 (B ) ≡ ∅ и U 0T (B )B = 0 . Корректность приведенного определения следует из свойства монотонности значений выражения
U kT (B )B B
2
2 F
при k = 1, ..., r.
F
Рассмотрим теперь процедуру коррекции пространства факторов, лежащую в основе последовательного алгоритма снижения размерности. Пусть A1 – матрица «старых» текстов размера ( d × n1 ), относительная ошибка аппроксимации матрицы A1 в пространстве факторов G ( A1 ) не больше ε ,
A2 – матрица «новых» текстов размера ( d × n2 ), A = ( A1 , A2 ) – полная матрица наблюдений, 0 < ε < 1 – допустимая относительная ошибка аппроксимации матрицы наблюдений. В данном случае процедура коррекции пространства факторов будет следующей. Алгоритм коррекции пространства факторов
1. Найти проекцию Y = G T ( A1 ) A2 матрицы A2 на «старое» пространство факторов G ( A1 ) . 2. Проверить условие 1 −
Y A2
2 F 2
≤ ε . Если оно истинно, то положить
F
G ( A) = G ( A1 ) , в противном случае положить G ( A) = (G ( A1 ),U δ (C )) , где δ = ε
A2 C
2 F 2
,
F
C = A2 − G ( A1 )Y . 3. Завершить работу алгоритма. █ Важным свойством данного алгоритма является то, что в процессе его работы не производится обращения к матрице уже обработанных текстов A1 , что позволяет значительно снизить требования, предъявляемые к объему оперативной памяти. Однако отказ от использования матрицы A1 делает невозможным вычисление относительной ошибки аппроксимации для полной матрицы наблюдений A. По этой причине в приведенной процедуре число добавляемых факторов выбирается таким образом, чтобы обеспечить заданный уровень
124
относительной ошибки аппроксимации не для полной матрицы наблюдений, а только для матрицы A2 . Покажем, что столбцы получающейся в итоге матрицы факторов G ( A) являются ортонормированными, относительная ошибка аппроксимации матрицы A с помощью матрицы G ( A) X ( A) не больше ε , а итоговая размерность пространства факторов является минимально возможной для обеспечения заданного уровня относительной ошибки аппроксимации для матрицы A2 , где X ( A) = G T ( A) A – представление матрицы A в пространстве факторов G ( A) . Теорема 1.
В
условиях
описанной
выше
процедуры
коррекции
пространства факторов справедливы следующие утверждения: G T ( A)G ( A) = I , A − G ( A) X ( A) F 2
2
AF
≤ ε,
матрица G ( A) имеет минимально возможный ранг среди всех матриц вида A2 − (G ( A1 ), Z )(G ( A1 ), Z ) A2 T
(G( A1 ), Z ) таких, что (G( A1 ), Z )T (G( A1 ), Z ) = I
и
A2
2
2 F
≤ε .
F
Доказательство. Возможны следующие два случая: G ( A) = G ( A1 ) и G ( A) = (G ( A1 ),U δ (C )) . При G ( A) = G ( A1 ) несложно убедиться, что справедливость утверждений теоремы следует непосредственно из начальных условий. По этой причине далее будем считать, что G ( A) = (G ( A1 ),U δ (C )) . Покажем, что G T ( A)G ( A) = I . По построению 1 −
G T ( A1 ) A2 A2
2
2 F
> ε . Отсюда, воспользовавшись леммой 2 и
F
определением матрицы C, получаем, что C
2 F
= A2 − G ( A1 )G T ( A1 ) A2 = A2 2
2
F
F
− G ( A1 )G T ( A1 ) A2
2 F
> ε A2
Теперь из определения нормы Фробениуса следует, что C ≠ 0 .
2 F
> 0.
125
Из определения матрицы C также следует, что G ( A1 ) C = 0 . Отсюда T
(
)
получаем, что G T ( A1 )C = G T ( A1 )U (C ) (Λ(C )V (C )) = 0 . Так как C ≠ 0 , то из последнего равенства получаем, что G T ( A1 )U (C ) = 0 . Учитывая теперь, что матрица U δ (C )
составлена из столбцов матрицы U (C ) , получаем, что
G T ( A1 )U δ (C ) = 0 . Теперь путем непосредственной проверки несложно убедиться, что G T ( A)G ( A) = I . A − G ( A) X ( A) F 2
Покажем теперь, что
2
AF
≤ε .
Из определения матрицы G ( A) и леммы 2 следует, что A2 − G ( A)G T ( A)A2 A2 В U δT (C )C
то 2 F
же
2
=1−
F
2
G T ( A1 ) A2
F
A2
F
время
из
+ U δT (C ) A2
2
определения
2 F
2
.
F
матрицы
C
следует,
= U δT (C ) A2 . Отсюда получаем, что 2
F
A2 − G ( A)G T ( A) A2 A2
Так как A2
2 F
F
2
= 1−
G T ( A1 ) A2 A2
F
G T ( A1 ) A2
≤ 1−
=
2
A2
2 F
A2
F
2
F
− C
2 F
U δT (C )C C
F
− (1 − δ )
F
A2 2
−
F
2
2
− G ( A1 )G T ( A1 ) A2
− G ( A1 )G T ( A1 ) A2
2
2 F
− C
A2 F
F
2
C A2
F
2 F 2
≤
F
2
C
2
2
F 2
=
F
+ ε A2
2 F
2
.
F
= 0 , то получаем, что
A2 − G ( A)G T ( A) A2 A2
2
2 F
≤ε .
F
Из леммы 2 также следует, что справедливы следующие соотношения:
что
126
0≤
=1−
A1 − G ( A)G T ( A) A1 A1
2
G T ( A1 ) A1
2
A1
2
2
=1−
F
(G( A1 ), U δ (C ))T A1 F A1
F
−
F
2
U δT (C ) A1 A1
F
2 F
2
≤ε −
2 F
U δT (C )A1 A1
F
=
2
2 F
≤ε .
F
Теперь из леммы 3 следует, что A − G ( A) X ( A) F 2
Таким образом, относительная ошибка аппроксимации матрицы A в итоговом пространстве факторов G ( A) не больше ε , а его размерность является минимально возможной в рамках наложенных ограничений на вид матрицы факторов и при условии возможности обращения только к матрице A2 . Однако в общем случае при отсутствии указанных ограничений итоговая размерность пространства факторов G ( A) может оказаться избыточной. Для демонстрации вышесказанного на рис. 26 приведены графики зависимости размерности пространства факторов от числа текстов для текстового массива «Reuters-21578-6» при последовательной обработке текстового массива (подход 1) и при вычислении факторов для всего массива сразу с помощью сингулярного разложения (подход 2) при фиксированном уровне относительной ошибки аппроксимации.
128 13 12 11 10
m
9
Подход 1
8
Подход 2
7 6 5 4 3 200
300
400
500
600
700
800
900
n
Рис. 26. Поведение размерности пространства факторов m в зависимости от числа текстов n при использовании различных подходов снижения размерности для массива «Reuters-21578-6»
Таким образом, при последовательной обработке текстового массива «Reuters-21578-6» (подход 1 на рисунке) итоговая размерность пространства факторов оказалась примерно в 1.5 раза выше минимально возможной. По этой причине после коррекции пространства факторов целесообразно выполнять дополнительное снижение размерности уже всего обновленного пространства факторов. Необходимо отметить, что так как исходная размерность пространства признаков в этом случае уже не очень большая (несколько десятков признаков), то данная операция с вычислительной точки зрения значительно проще операции снижения размерности исходной матрицы наблюдений A. Более того, характер построенной процедуры коррекции пространства факторов позволяет при последовательной обработке массива выполнять такое снижение только один раз после обработки всего массива. Рассмотрим теперь полностью последовательный алгоритм снижения размерности (алгоритм SLSI), основанный на приведенном алгоритме коррекции пространства факторов. Пусть матрица наблюдений A размера ( d × n ) разбита на
129
A = ( A1 , ..., Ab ) , 0 < ε < 1 – константа, задающая
b подматриц (блоков), т. е.
относительную ошибку аппроксимации. Алгоритм SLSI
1. Положить Q1 = U ε ( A1 ) и t = 2. 2. Найти проекцию Yt = QtT−1 At матрицы At на текущее пространство факторов Qt −1 . 3. Если 1 −
Yt At
2 F 2
> ε , то положить Qt = (Qt −1 ,U δ (Ct )) , в противном случае
F
положить Qt = Qt −1 , где δ = ε
At Ct
2 F 2
и Ct = At − Qt −1Yt .
F
4. Если t = b , то перейти к шагу 5, в противном случае положить t = t + 1 и перейти к шагу 2. 5. Найти проекцию Y = (QbT A1 , ..., QbT Ab ) матрицы
A на пространство
факторов Qb путем последовательной обработки блоков A1 , ..., Ab . 6. Проверить условие η = 1 −
Y A1
2 F
2 F
+ ... + Ab
2
< ε . Если оно истинно, то
F
положить G ( A) = QbUτ (Y ) и X ( A) = Uτ (Y ) Y , в противном случае положить T
G ( A) = Qb и X ( A) = Y , где τ = 1 − (1 − ε )
A1
2 F
+ ... + Ab Y
2
2 F
.
F
7. Завершить работу алгоритма. █ Таким образом, в данном алгоритме обработка матрицы наблюдений осуществляется в два этапа. На первом этапе (шаги 1–4) осуществляется нахождение пространства факторов путем последовательного применения описанной выше процедуры коррекции пространства факторов, а на втором этапе (шаги 5 и 6) осуществляется последовательное отображение матрицы A на построенное пространство факторов Qb и при необходимости производится дополнительное снижение размерности.
130
Для иллюстрации влияния дополнительного снижения размерности на итоговую размерность пространства факторов на рис. 27 показаны графики зависимости размерности пространства факторов от числа текстов для массива «Reuters-21578-6» при последовательной обработке с помощью алгоритма SLSI (подход 1) и при вычислении факторов для всего массива сразу с помощью сингулярного разложения (подход 2) при фиксированном уровне относительной ошибки аппроксимации. 10
9
8
7
m
Подход 1 Подход 2
6
5
4
3 200
300
400
500
600
700
800
900
n Рис. 27. Поведение размерности пространства факторов m в зависимости от числа текстов n при использовании различных подходов снижения размерности для массива «Reuters-21578-6»
Анализ рис. 27 позволяет сделать вывод, что за счет выполнения дополнительного
снижения
размерности
удается
построить
пространство
факторов, размерность которого близка к граничной. Также необходимо отметить, что на каждом из этапов требуется постоянное присутствие в памяти только одного из блоков матрицы наблюдений, что позволяет
организовать
эффективную
помещаются в оперативной памяти.
обработку
массивов,
которые
не
131
Покажем теперь, что после выполнения алгоритма SLSI матрица факторов G ( A) оказывается ортогональной, а относительная ошибка аппроксимации матрицы A с помощью матрицы G ( A) X ( A) не превышает ε . В
Теорема 2.
условиях
алгоритма
SLSI
справедливы
следующие
соотношения:
G T ( A)G ( A) = I , A − G ( A) X ( A) F 2
2
AF
≤ ε.
Доказательство. Из теоремы 1 следует, что QbT Qb = I , а по построению для матрицы
Uτ (Y )
справедливо
U τT (Y )U τ (Y ) = I .
равенство
Отсюда
путем
непосредственной проверки получаем, что G T ( A)G ( A) = I . A − G ( A) X ( A) F 2
Покажем теперь, что выполняется неравенство
2
AF
≤ ε . Если
η = ε , то справедливость данного неравенства непосредственно следует из теоремы 1. Пусть теперь η < ε . Воспользовавшись леммой 2, получим, что A − G ( A) X ( A) F 2
2
AF =1 −
=
QbUτ (Y )UτT (Y )QbT A
A − QbUτ (Y )UτT (Y )QbT A
2
=
F
2
AF 2 F
2
AF
=1 −
≤ 1 − (1 − τ )
Y
Uτ (Y )UτT (Y )Y Y
2 F
Y
2
2 F 2
AF
F
≤
2 F 2
AF
=ε . █
Необходимо отметить, что для возможности практического использования приведенного алгоритма требуется решить ряд дополнительных вопросов, связанных
с
эффективного
организацией
эффективного
хранения
вычисления
сингулярного
разложения,
относительной ошибки аппроксимации.
данных
в
памяти,
выбора
уровня
132
На рис. 28 и 29 приведены графики времени работы и качества кластерного анализа для алгоритмов Ланцоша, SVDUPD, SLSI, полученные в результате экспериментов. 200 180 160
Время (сек)
140 120
LANEIG
100
SLSI SVDUPD
80 60 40 20 0 5000
10000
15000
22885
n Рис. 28. Время работы алгоритмов снижения размерности в зависимости от числа текстов n для массива «Новости 2»
0,7 0,6 0,5
LANEIG
0,4
F
SLSI SVDUPD
0,3 0,2 0,1 0 2
7
12
17
22
27
k Рис. 29. Поведение F-меры в зависимости от числа кластеров k для массива «Reuters-21578-6»
Основным отличием алгоритма SLSI от существующих алгоритмов является то, что размерность пространства факторов не является фиксированной,
133
а динамически изменяется в процессе последовательной обработки текстового массива таким образом, чтобы обеспечивать заданный уровень относительной ошибки аппроксимации матрицы наблюдений. Эксперименты с реальными массивами текстов показали, что алгоритм SLSI можно рассматривать как компромиссный вариант, который обладает более низкой вычислительной сложностью и требованиями к памяти по сравнению со стандартным алгоритмом Ланцоша и не приводит при этом к снижению итогового качества кластерного анализа, в отличие от других последовательных алгоритмов.
5. Методы классификации 5.1. Общее описание методов классификации Методы классификации предназначены для автоматического отнесения документов или их фрагментов к рубрикам на основе анализа содержания их текстов. Можно выделить два основных подхода к классификации документов: − классификация на основе знаний; − классификация на основе обучения на примерах. Классификация на основе знаний. В системах, реализующих первый
подход [КГВ00], используются заранее сформированные экспертами наборы правил, в которых описываются языковые выражения, соответствующие той или иной рубрике, и правила выбора между рубриками. Построенные в рамках данного
подхода
эффективными, проектировались. рубрицирования
средства
но,
классификации
правда,
только
Примером
может
экономических
и
на
оказываются
тех
потоках,
служить финансовых
на
система
достаточно которых
они
автоматического
сообщений
CONSTRUE,
созданная для агентства Рейтер, которая имеет полноту 94% и точность 84% [HW90].
Основными
недостатками
данного
подхода
являются:
высокая
трудоемкость, жесткая привязка баз знаний и алгоритмов не только к предметной области, но и к конкретному рубрикатору, размеру и формату обрабатываемых
134
текстов. Однако в случаях, когда отсутствуют примеры документов для обучения или когда необходимо проводить разделение рубрик, имеющих достаточно «тонкие»
семантические
отличия
в
тематике
(например,
рубрики
«Правонарушения в МВД» и «Борьба МВД с правонарушениями»), подход на основе знаний оказывается наиболее востребованным. Классификация на основе обучения на примерах. В данном случае
построение решающей процедуры производится путем задания примеров текстов для каждой рубрики [LJ98, NCT99]. Отметим, что примеры заранее формируются экспертом вручную, и от качества их подбора во многом зависит эффективность работы всей системы. Эффективность такой рубрикации несколько ниже по сравнению с системами, основанными на знаниях, но она является вполне достаточной для большинства практических приложений. Также необходимо отметить, что в настоящее время данный подход используется в большинстве систем автоматического рубрицирования, которые представлены на рынке. По этой причине основное внимание в настоящей работе будет уделено ему. Использование средств обучаемой классификации включает три основных этапа: − создание классификатора – на этом этапе производится создание структуры рубрик классификатора, подбор обучающих примеров документов и формирование запросов на специальном языке для рубрик; − обучение
классификатора
–
на
данном
этапе
осуществляется
статистический анализ множества обучающих примеров, оценка параметров моделей для рубрик, оценка качества обучения классификатора; − классификация новых наблюдений – на этом этапе происходит классификация новых наблюдений с помощью обученного на предыдущем этапе классификатора. С технологической точки зрения первый этап носит вспомогательный характер. По этой причине рассмотрим только технологию обработки данных на втором и третьем этапах. На рис. 30 показана общая технология обработки данных на этапе обучения классификатора.
135 Оценка качества обучения классификатра
Оценка параметров классификатора
Метаинформация для документов из обучающего множества
Обученная модель комбинированного классификатора
Отчет о результатах обучения
Запросы для рубрик на специальном языке
Метаинформация для документов из обучающего множества
Обученная модель комбинированного классификатора
Структура рубрик классификатора
Запросы для рубрик на специальном языке
Метаинформация для документов из обучающего множества
Структура рубрик классификатора
Запросы для рубрик на специальном языке
Структура рубрик классификатора
Рис. 30. Технология обработки данных на этапе обучения классификатора
На
рис. 31
представлена
технология
обработки
данных
на
этапе
классификации новых наблюдений.
Рис. 31. Технология обработки данных на этапе классификации новых документов
Таким образом, после обучения на вход классификатора поступает вектор x = ( x1 , ..., xm ), где m – размерность пространства признаков (общее число различных слов, словосочетаний во всех текстах обучающего множества),
xi
– частота
встречаемости признака с номером i в некотором фрагменте текста. На выходе формируется два вектора: c = (c1 , ...., ck ) и w = (w1 , ..., wk ) ,
136
где c j ∈ {0, 1} – признак отнесения текста к рубрике ω j , w j ∈ (0, 1) – степень принадлежности текста к рубрике ω j , j = 1, ..., k , k – общее число рубрик. При этом между рубриками может быть задано некоторое иерархическое отношение. С
точки
зрения
используемого
математического
аппарата
методы
классификации можно разделить на три типа: − вероятностные методы классификации – основываются на построении вероятностных моделей отдельных классов (далее будет рассматриваться байесовский подход); − методы классификации на основе расстояний – основываются на построении различных мер близости к текстам и рубрикам; − методы классификации на основе правил – основываются на построении логических выражений, проверяющих наличие или отсутствие определенных информационных признаков в тексте (слов, словосочетаний, шаблонов, понятий). Помимо базовых методов, отдельно выделяют комбинированные и иерархические объединения
методы,
которые
результатов
работы
осуществляют нескольких
классификацию
базовых
путем
классификаторов.
Например, если базовый классификатор может выполнять только бинарную классификацию (отнесение текстов к двум классам), то для выполнения классификации на произвольное число классов осуществляется построение комбинированного
классификатора,
состоящего
из
набора
базовых
классификаторов.
5.2. Оценка качества классификации Оценка качества классификации является ключевым элементом при построении систем автоматической классификации. Потребность в ее проведении возникает при разработке новых алгоритмов, при выполнении обучения классификаторов, при выборе систем автоматической классификации. Далее рассмотрим следующие вопросы: − показатели качества классификации; − вычисление доверительных интервалов;
137
− статистические критерии сравнения классификаторов. Показатели качества классификации. Рассмотрим сначала оценку
качества классификации в случае, когда объекты из некоторого множества X = {x1 , ..., xn } одновременно относятся к нескольким классам из множества
W = {w1 , ..., wk }, где n – число объектов, k – число классов, все классы считаются равнозначными. Заметим, что данный случай является обобщением более традиционного случая, когда отдельный объект из множества X может быть отнесен только к одному классу.
( )
Пусть C 0 = cij0
k ×n
– матрица эталонной классификации (например, может
быть получена путем экспертной классификации объектов) размера ( k × n ) объектов из множества X по классам из множества W , где ⎧1, x j ∈ wi , cij0 = ⎨ ⎩0, x j ∉ wi ,
C = (cij )k×n – матрица оцениваемой классификации (например, получена путем автоматической классификации объектов) размера ( k × n ), где ⎧1, x j ∈ wi , cij = ⎨ ⎩0, x j ∉ wi . Для оценки качества классификации обычно производится вычисление различных мер, характеризующих степень близости оцениваемой классификации объектов C к эталонной классификации C 0 . При обработке текстовых данных наибольшее распространение получил подход, при котором сначала вводятся показатели качества классификации по отношению к отдельным классам, а затем на их основе уже строятся обобщенные показатели для всей совокупности классов. Пусть зафиксирован некоторый класс wi , i = 1, ..., k . Результаты совместной классификации объектов x1 , ..., xn по отношению к данному классу, задаваемые с помощью матриц C 0 и C, можно представить в виде табл. 56, где используются следующие сокращения: Ti – множество объектов, отнесенных к классу wi в классификации C, Fi – множество объектов, не отнесенных к классу wi в
138
классификации C, Ti 0 и Fi 0 – множества объектов, которые отнесены и не отнесены к классу wi в классификации C 0 соответственно, nTTi = Ti 0 ∩ Ti , nTFi = Ti 0 ∩ Fi , nFTi = Fi 0 ∩ Ti , nFFi = Fi 0 ∩ Fi . Таблица 56 – Результаты совместной классификации
Ti
Fi
Ti 0
nTTi
nTFi
Fi 0
nFTi
nFFi
Наибольшее распространение получили следующие показатели: Pi =
nTTi nTTi + nFTi
– точность классификации (от английского слова Precision),
представляет собой процент объектов, правильно отнесенных к классу wi в классификации C по отношению к общему числу объектов, отнесенных к классу wi в классификации C; Ri =
nTTi nTTi + nTFi
– полнота классификации (от английского слова Recall),
представляет собой процент объектов, правильно отнесенных к классу wi в классификации C по отношению к общему числу объектов, отнесенных к классу
wi в классификации C 0 . Точность и полнота классификации характеризуют различные стороны оценки качества, и их нельзя использовать независимо. Например, если построить классификатор, который относит все поступающие на вход документы ко всем классам, то он обеспечит полноту равную 1, но при этом точность будет очень низкая. Для обеспечения возможности сравнения качества работы различных систем друг с другом удобно использовать один показатель, а не несколько. По этой
причине
при
оценке
качества
классификации
часто
используется
139
комбинированный показатель, который называется F-мера. Он определяется следующим образом: −1
⎛ 1 1⎞ Fi (λ ) = ⎜⎜ λ + (1 − λ ) ⎟⎟ , Ri ⎠ ⎝ Pi где λ ∈ [0, 1] . Заметим, что при λ = 0 Fi (0) = Ri , при λ = 1 Fi (1) = Pi , при остальных значениях λ ∈ (0, 1) показатель Fi (λ ) является комбинацией точности и полноты. Обычно на практике используется значение λ = 0.5, в этом случае для F-меры используется обозначение Fi ≡ Fi (0.5) . Рассмотрим
теперь
показатели,
которые
характеризуют
качество
классификации по отношению ко всей совокупности классов. Наибольшее распространение
получили
подходы,
которые
называются
микро-
и
макроусреднение. При
микроусреднении
принимаются
во
внимание
результаты
классификации отдельных объектов. В результате обобщенные показатели определяются следующим образом: k
∑n
μ
P =
i =1
∑ (n k
i =1
TTi
TTi
+ nFTi
)
– микроточность классификации,
k
∑n
μ
R =
i =1
∑ (n k
i =1
TTi
TTi
+ nTFi
)
– микрополнота классификации,
1 ⎞ ⎛ 1 F (λ ) = ⎜ λ μ + (1 − λ ) μ ⎟ R ⎠ ⎝ P
−1
μ
При
макроусреднении
– микро F-мера. принимаются
во
внимание
результаты
классификации только по классам в целом. В результате обобщенные показатели определяются следующим образом: PM =
1 k ∑ Pi – макро очность классификации, k i =1
140
1 k R = ∑ Ri – макрополнота классификации, k i =1 M
FM =
1 k ∑ Fi – макро F-мера. k i =1
При детальном анализе поведения обобщенных показателей на различных массивах текстов можно заметить, что при микроусреднении наибольшее влияние на итоговое качество классификации оказывают классы, содержащие большое число наблюдений, а при макроусреднении большие и маленькие классы оказывают одинаковое влияние на итоговое значение показателей. Помимо обобщенный
точности,
полноты
показатель,
как
и
ошибка
F-меры,
также
классификации.
используется Он
такой
определяется
следующим образом: 1 k n 0 E = ∑∑ cij − cij . kn i =1 j =1
В качестве примера в табл. 57 приведены результаты сравнительного анализа эффективности различных базовых методов классификации при работе с массивом «Reuters-21578-6». Таблица 57 – Эффективность базовых методов классификации Метод
При решении практических задач, связанных с классификацией текстовых данных, часто классы W = {w1 , ..., wk } упорядочиваются с помощью некоторого иерархического отношения (отношения строгого частичного порядка), которое можно представить с помощью матрицы отношения T = (tij ) размера ( k × k ), где
141
w j ⊂ wi ⎧1, tij = ⎨ ⎩0, w j ∩ wi = ∅. В данной ситуации оценка качества классификации с использованием показателей, описанных в предыдущем разделе, не позволяет учесть наличие взаимосвязей между классами. Для иллюстрации данного тезиса рассмотрим следующий пример. Пусть имеется шесть классов w1 , ..., w6 , которые иерархически упорядочены так, как показано на рис. 32.
Рис. 32. Схема взаимосвязей классов w1 , ..., w6
В матричной форме отношения между классами, показанными на рис. 32, имеют следующий вид: ⎛0 ⎜ ⎜0 ⎜0 T =⎜ ⎜0 ⎜0 ⎜ ⎜ ⎝0
Пусть наблюдение x в эталонной классификации относится к классу w3 , т. е. c 0 = (0, 0, 1, 0, 0, 0 ) . Рассмотрим два возможных результата классификации: x T
отнесено к классу w4 , т. е. c1 = (0, 0, 0, 1, 0, 0 ) , и x отнесено к классу w6 , т. е. T
c 2 = (0, 0, 0, 0, 0, 1) . Тогда в первом случае ошибка классификации будет T
2 1 6 0 1 2 e1 = ∑ ci − ci = , а во втором – e2 = . 6 6 i =1 6 Необходимо отметить, что с содержательной точки зрения ошибка классификации в первом случае должна быть меньше, так как наблюдение было
142
отнесено в правильный вышестоящий класс. Для учета данной особенности при оценке качества классификации перейдем от исходных векторов с результатами классификации c j к новым расширенным векторам c~ j , в которых учитывается принадлежность наблюдений к родительским классам, где j = 0, 1, 2. Пусть c = (c1 , ..., ck ) – вектор результатов классификации документа x по T
отношению к классам w1 , ..., wk , между которыми задано отношение частичного порядка T. Элементы ci вектора c определяются следующим образом: ⎧1, x ∈ wi , ci = ⎨ ⎩0, x ∉ wi . T Тогда расширенный вектор результатов классификации c~ = (c~1 , ..., c~k )
определяется следующим образом: ⎧1, c~i = ⎨ ⎩0,
(T + I ) c > 0, (T + I ) c = 0,
где I – единичная матрица, т. е. в расширенном векторе документ дополнительно относится ко всем родительским классам исходных классов. T T В рамках рассмотренного примера c~ 0 = (1, 0, 1, 0, 0, 0 ) , c~1 = (1, 0, 0, 1, 0, 0 ) , T c~1 = (0, 1, 0, 0, 0, 1) .
Отсюда
получаем
значения
расширенных
ошибок
2 4 классификации e~1 = и e~2 = , причем e~1 < e~2 . 6 6 В
общем
случае
оценка
качества
иерархической
классификации
осуществляется путем перехода от исходной матрицы классификации С к ~ расширенной матрице классификации C и вычислении показателей качества (точности, полноты, F-меры) уже на ее основе. Вычисление доверительных интервалов. Вычисление доверительных
интервалов для показателей качества классификации необходимо для оценки надежности полученных результатов. В качестве примера их вычисления рассмотрим задачу оценки вероятности ошибки классификации. Пусть x = ( x1 , ..., xn ), xi ∈ {0, 1}, вектор индикаторов ошибок классификации отдельных наблюдений тестовой выборки, n – число наблюдений в тестовой
143
выборке. В данном случае можно считать, что xi ~ Ber ( p ) , где p – вероятность ошибочной классификации. n
Случайная
величина
τ = ∑ xi ,
равная
числу
ошибочно
i =1
классифицированных наблюдений из тестовой выборки, имеет распределение: ⎛t ⎞ n −t Bi(t | ε , n ) = ⎜⎜ ⎟⎟ε t (1 − ε ) . ⎝n⎠ Математическое ожидание и дисперсия τ равны соответственно nε и nε (1 − ε ) . Оценкой максимального правдоподобия ошибки классификации ε n
1 является e~ = ∑ xi . Отсюда следует, что случайная величина e~ имеет следующее n i =1 распределение: τ ⎛n⎞ n −t F (e~ | ε ) = F (τ / n | ε ) = ∑ ⎜⎜ ⎟⎟ε t (1 − ε ) . t =0 ⎝ t ⎠
Для нахождения центрального α доверительного интервала (ε l , ε u ) для ε необходимо вычислить: ⎛τ ⎞ 1−α ⎛τ −1 ⎞ 1 − α 1− F⎜ | ε1 ⎟ = , F ⎜ | εu ⎟ = . 2 2 ⎝n ⎠ ⎝ n ⎠ На практике для вычисления
(ε l , ε u )
либо пользуются специальными
таблицами для биномиального распределения, либо вместо биномиального распределения используют F-распределение, которое можно рассматривать как обобщение биномиального распределения. Статистические критерии сравнения результатов классификации.
Одной из основных задач при внедрении систем автоматической классификации является сравнение эффективности различных систем. В работе [YL99] рассматриваются следующие статистические критерии проверки значимости различий качества работы пары классификаторов A и B (предполагается, что один документ может быть отнесен к нескольким рубрикам одновременно): − локальный знаковый тест; − глобальный знаковый тест;
144
− глобальный разностный тест. Локальный знаковый тест (s-test). В данном случае используются
следующие обозначения: N
–
общее
число
бинарных
решений
каждого
классификатора
(произведение количества рубрик K на число документов D ); ai ∈ {0, 1} – мера успеха решения с номером i = 1, ..., N для классификатора A; bi ∈ {0, 1} – мера успеха решения с номером i = 1, ..., N для классификатора B; n – число раз, когда ai ≠ bi , i = 1, ..., N ; k – число раз, когда ai > bi , i = 1, ..., N . Далее будем рассматривать только такие значения i = 1, ..., N , при которых решения классификаторов различаются, и будем считать, что k > n. Проверим теперь справедливость гипотезы H o о том, что классификаторы A и B являются эквивалентными, против альтернативной гипотезы H1 о том, что классификатор A предпочтительнее классификатора B. В качестве статистики критерия возьмем случайную величину T = k , ⎛n⎞ n−k которая имеет распределение B(n, p ) , т. е. pk = ⎜⎜ ⎟⎟ p k (1 − p ) . Тогда H 0 : p = 0.5 и ⎝k ⎠
H1 : p > 0.5 . В случае справедливости H o
и n ≤ 12 критический уровень
⎛n⎞ n −i значимости P = ∑ ⎜⎜ ⎟⎟0.5i (1 − 0.5) . При n > 12 для приближенного вычисления i =k ⎝ i ⎠ n
критического
уровня
значимости
предельной теоремой, т. е. T =
можно
(k / n − 0.5) 0.5
n
воспользоваться
центральной
~ N (0,1) . Отсюда получаем, что
⎛ (k / n − 0.5) n ⎞ ⎟ (нулевая гипотеза принимается при P > α ). P = 1 − Φ⎜⎜ ⎟ 0 . 5 ⎝ ⎠ Глобальный знаковый тест (S-test). В этом случае сравниваются не
бинарные решения классификаторов для каждого текста, а значения F-меры для
(
145
(
)
)
каждого класса (т. е. n = K , ai = F piA , ri A , bi = F piB , ri B , i = 1, ..., n ). Во всем остальном данный тест аналогичен локальному знаковому тесту. Глобальный разностный тест (T-test). В данном случае используются те
же обозначения, что и в S-тесте. При этом в качестве статистики применяется 1 n величина d = ∑ di , где di = ai − bi . Нулевая гипотеза в этом случае состоит в n i =1 том, что d имеет нормальное распределение с нулевым средним и неизвестной дисперсией при альтернативе, что среднее значение больше 0. Для проверки данной гипотезы воспользуемся тем, что случайная величина
T=
d n −1 1/ 2
⎛1 n 2⎞ ⎜ ∑ di ⎟ ⎝ n i =1 ⎠
~ tn−1 ,
где tn−1 – распределение Стьюдента с ( n − 1 ) степенью свободы. При n > 40 можно воспользоваться центральной предельной теоремой и считать, что T ~ N (0, 1) . Недостатком такого подхода является необходимость проверки гипотезы нормальности распределения статистики d .
5.3. Вероятностные методы классификации В основе большинства вероятностных методов классификации лежит использование
байесовского
подхода.
Рассмотрим,
как
в
рамках
него
производится задание классификатора. Процедурой классификации (решающим правилом, дискриминантной функцией) называется отображение δ ( X ) : Π → {1, ..., k }, где Π – пространство наблюдений. Пусть множество S j = {x : δ ( x ) = j} соответствует тем x, которые процедура классификации относит к классу ω j , j = 1, ..., k , причем
k
US
j
= Π и Si ∩ S j = ∅
j =1
при i ≠ j. Величины c( j | i ) характеризуют потери, которые повлечет отнесение одного объекта i-го класса к классу j ( cij = 0 при i = j ). Тогда общие потери при классификации n объектов будут равны
146 k
k
Cn = ∑∑ c( j | i )m( j | i ) , i =1 j =1
где m( j | i ) – число объектов из класса i, отнесенных к классу j. В этой ситуации средние удельные потери от неправильной классификации всех анализируемых объектов будут: k
k
i =1
j =1
C = ∑ pi ∑ c( j | i ) p( j | i ) ,
где p( j | i ) – вероятность отнесения объекта из класса i к классу j. Обычно, когда все классы одинаково важны, полагают c( j | i ) = 1 при i ≠ j. В этом случае k
C = 1 − ∑ pi p(i | i ) , т. е. соответствует вероятности неправильной классификации. i =1
Процедура классификации δ ( x ) называется оптимальной (байесовской), если она сопровождается минимальными потерями C среди всех других процедур классификации. Можно показать, что процедура классификации S (опт ) , при которой потери будут минимальными, определяется следующим образом: k k ⎧ ⎫ S (j опт ) = ⎨ x : ∑ pi f i ( x )c( j | i ) = min ∑ pi f i ( x )c(l | i )⎬ . l =1, ..., k i =1,i ≠ l ⎩ i =1,i ≠ j ⎭
При c( j | i ) = 1 наблюдение x будет отнесено к классу ω j тогда, когда p j f j ( x ) = max pl f l ( x ) . l =1, ..., k
Таким образом, для построения байесовского классификатора необходимо знание
априорных
вероятностей
p1 , ..., pk
и
функций
распределений
f1 (u ), ..., f k (u ) . В качестве оценок априорных вероятностей классов можно использовать pˆ j =
nj n
. Задачу оценки параметров функций распределений удобно разбить на
два случая: параметрический и непараметрический. В параметрическом случае предполагается, что f1 (u ), ..., f k (u ) принадлежат одному параметрическому семейству, т. е.
f j (u ) = f (u ,ϑ j ). В этом случае в
147
качестве оценок
fˆ j (u ) неизвестных функций
f j (u ) используются функции
( )
f u ,ϑˆ j , где ϑˆ j – статистическая оценка неизвестного значения параметра ϑ j , полученная по наблюдениям, относящимся в обучающей выборке к классу ω j , j = 1, ..., k . В непараметрическом случае не предполагается знания общего вида функций
f1 (u ), ..., f k (u ) , а строятся непараметрические оценки. В качестве
примера процедуры классификации, основанной на таких оценках, можно привести классификатор k-ближайших соседей. Наибольшее распространение при обработке текстовых данных получили следующие функции распределения: − многомерное нормальное распределение [КВ04]; − вероятностные анализаторы главных компонент [КВ04]; − многомерное распределение Бернулли [ELM03, MN98, Seb02]; − полиномиальное распределение [ELM03, MN98, Nig01, PS03]; − распределение фон Мизеса–Фишера [ZG03]; − распределение Бингхама [ZG03]. Также можно выделить следующие непараметрические методы классификации:
− классификатор k-ближайших соседей [Фук79]; − классификатор на основе вероятностной нейронной сети [Гар99]. Многомерное нормальное распределение. В рамках данной модели
f (u ,ϑ j ) , ϑ j = ( μ j , Σ j ) , j = 1, ..., k , принимает следующий вид: f (u , μ j , Σ j ) = (2π )
−m / 2
Σj
−1 / 2
⎛ 1 ⎞ T exp⎜ − (u − μ j ) Σ −j1 (u − μ j )⎟ , ⎝ 2 ⎠
где u – вектор длины m, μ j – вектор средних длины m, Σ j – матрица ковариаций размера ( m × m ), j = 1, ..., k , k – число элементов смеси. При практическом использовании данной модели во избежание вырождения оценок Σ j при оценивании параметров смеси обычно рассматриваются только такие ковариационные матрицы Σ j , у которых все собственные значения
148
λi (Σ j ) ≥ λ0 > 0 , где j = 1, ..., k . Детальное описание метода оценивания параметров в данном случае приведено в разделе, посвященном рассмотрению вероятностных методов кластерного анализа текстовых данных. Вероятностные анализаторы главных компонент. Данная модель
является
частным
случаем
предыдущей
модели,
в
которой
введены
дополнительные ограничения на вид ковариационных матриц. В частности, используется предположение, что наблюдения, относящиеся к отдельным элементам
смеси,
описываются
ненаблюдаемых факторов, где
с
помощью
небольшого
q<m
числа
m
– исходная размерность пространства
признаков. В частности, пусть u
– случайный вектор размерности m,
принадлежащий j-му элементу смеси, тогда предполагается, что u = Wj y + μ j + ε j ,
(7)
где y ~ N (0, I ) – случайный вектор скрытых переменных, μ j – вектор средних размерности m,
принимает следующий вид: f (u , μ j ,W j , σ 2j ) = (2π )
−m / 2
Σj
−1 / 2
−1 T ⎞ ⎛ 1 exp⎜ − (u − μ j ) (W jW jT + σ 2j I ) (u − μ j )⎟ . ⎝ 2 ⎠
Если теперь объединить ограничения, накладываемые в данной модели на вид ковариационных матриц
Σj
элементов смеси, с введенными выше
ограничениями на собственные значения, то в итоге получим, что Σ j должны иметь вид W jW jT + σ 2j I m , где σ 2j ≥ λ0 . Вид оценок параметров для данного случая будет рассмотрен далее в разделе, посвященном рассмотрению методов кластерного анализа. Многомерное распределение Бернулли. В данной модели
ϑ j = ( p1 j , ..., pmj ), j = 1, ..., k , принимает следующий вид:
f (u ,ϑ j ) ,
149
f (u , ( p1 j , ..., pmj )) = ∏ piju (1 − pij )1−u = m
i
i
i =1
(
)
= exp u T (ln p1 j , ..., ln pmj ) + (1 − u ) (ln (1 − p1 j ), ..., ln (1 − pmj )) , T
T
T
где u = (u1 , ..., um ), ui ∈ {0, 1} (индикатор присутствия признака), i = 1, ..., m, pij – вероятность встречаемости признака с номером i в текстах из класса ω j , j = 1, ..., k , m – размерность пространства признаков. При
практическом
использовании
данной
модели
из-за
сильной
разреженности исходной матрицы наблюдений возможно получение нулевых вероятностей при оценивании pij в рамках стандартного ЕМ-алгоритма. Для исключения этого на практике обычно применяют байесовский подход к нахождению оценок параметров [ZG03]. В результате оценки pij принимают следующий вид: n
pij =
1 + ∑ g sj bsi s =1 n
2 + ∑ g sj
,
s =1
где g sj – апостериорная вероятность принадлежности текста с номером s = 1, ..., n к классу с номером j = 1, ..., k , bsi – признак наличия термина с номером i = 1, ..., m в тексте с номером s = 1, ..., n. Полиномиальное
В
распределение.
данной
f (u ,ϑ j ) ,
модели
ϑ j = ( p1 j , ..., pmj ), j = 1, ..., k , принимает следующий вид: ⎛ m u ⎞! ⎛ m u ⎞! ⎜∑ i ⎟ m ⎜∑ i ⎟ T u ⎝ ⎠ i =1 f (u , ( p1 j ,..., pmj )) = m pij = ⎝ im=1 ⎠ exp u T (ln p1 j ,..., ln pmj ) , ∏ ∏ ui ! i=1 ∏ ui !
(
i
i =1
)
i =1
где u = (u1 , ..., um ) , ui ∈ {0, 1, 2, ...} (частота встречаемости признака), i = 1, ..., m, pij – вероятность встречаемости признака с номером i в текстах из класса ω j ,
j = 1, ..., k , m – размерность пространства признаков.
150
При практическом использовании данной модели также возникает проблема получения нулевых оценок pij . В этом случае байесовские оценки принимают следующий вид: n
pij =
1 + ∑ g sj f si s =1 m n
m + ∑∑ g sj f si
,
i =1 s =1
где g sj – апостериорная вероятность принадлежности текста с номером s = 1, ..., n к классу с номером j = 1, ..., k , f si – частота встречаемости термина с номером
i = 1, ..., m в тексте с номером s = 1, ..., n. Распределение фон Мизеса–Фишера задает распределение данных на
поверхности единичной сферы. Функция f (u ,ϑ j ) , ϑ j = (μ j , κ j ), j = 1, ..., k , имеет следующий вид:
f (u , μ j , κ j ) =
(2π )
κ m / 2−1
m/2
I m / 2−1 (κ )
(
)
exp κ j ⋅ u T μ j ,
где u – вектор длины m, u 2 = 1, μ j – вектор средних длины m, μ j
2
= 1, κ j –
мера разброса данных, I r ( z ) – модифицированная функция Бесселя первого рода порядка r, определяемая следующим образом [КК70]:
⎛z⎞ I r (z ) = ⎜ ⎟ ⎝2⎠
r ∞
1 ⎛z⎞ ⎜ ⎟ ∑ s =0 s!Γ (r + s + 1) ⎝ 2 ⎠
2s
для arg z < π .
При практическом использовании данной модели основной проблемой является высокая вычислительная сложность нахождения значений функции, обратной к функции Бесселя. По этой причине обычно используют различные приближенные схемы нахождения ее значений [ZG03]. Распределение Бингхама. Данное распределение является аналогом
многомерного нормального распределения на поверхности единичной сферы.
Функция f (u ,ϑ j ) , ϑ j = (∑ j ) j = 1, ..., k , принимает следующий вид [Ken94]:
151 −1
⎛ ⎞ κ ⎜ m−1 m−1 ⎟ e js T f (u , Σ j ) = ⎜ 2π ∑ ⎟ exp u Σ j u , s =1 ∏ (κ js − κ ji ) ⎟ ⎜ ⎝ ⎠ i≠s
(
)
где u – вектор длины m, u 2 = 1, Σ j = Q j diag (κ j1 , ..., κ jm )Q Tj – симметричная матрица размера ( m × m ), Q j – ортонормированная матрица размера ( m × m ),
κ j1 < κ j 2 < ... < κ j ( m−1) < κ jm = 0. К сожалению, высокая вычислительная сложность существующих алгоритмов нахождения оценок параметров распределения Бингхама пока не позволяет эффективно использовать его на практике. По этой причине данное распределение не будет рассматриваться в сравнительном анализе. Наряду
с
приведенных
параметрическими
распределениях,
на
классификаторами, практике
также
основанными
на
применяются
и
непераметрические классификаторы. Одним из наиболее распространенных методов является классификатор k-ближайших соседей [Seb02]. Классификатор ближайших соседей. В данном случае в качестве оценки
функции плотности в точке x используется следующая величина:
f r (x ) =
r −1 1 , n λ ( x, ρ r ( x ))
где λ ( x, ρ r ( x )) – объем области, содержащей все точки, расстояния от которых до
x не больше ρ r ( x ) , ρ r ( x ) = ρ (x, xsr ( x ) ) – расстояние от x до sr ( x ) , sr ( x ) – номер
r-го ближайшего соседа к x из множества x1 , ..., xn . В случае использования единичной функции потерь эмпирический байесовский классификатор, принимающий решение относительно испытуемого вектора признаков x заключается в нахождении max p * (ω j ) p * (x | ω j ) . При j =1, ..., k
использовании правила ближайших соседей правило классификации приобретает следующий вид. Пусть n1 , ..., nk – число образов обучающей выборки, принадлежащих соответственно классам ω1 , ..., ωk и попавших в область, содержащую точки, расстояния до которых от x не больше чем ρ r ( x ) , тогда испытуемый образ x
152
nj ⎫ ⎧ относим к классу ωl , если max ⎨ ⎬ = nl . Учитывая, что знаменатель j =1, ..., k ( ( ) ) n x x λ , ρ ⎭ ⎩ r сравниваемых величин не зависит от номера класса, получаем правило: x относим к классу ωl , если max{ n1 , ..., nk } = nl . Решающее правило, основанное на методе ближайших соседей, является очень простым, но требует использования всех образом обучающей выборки для принятия решения относительно неизвестного образа. Это приводит к следующим практическим проблемам:
− при малом объеме обучающего множества выбор избыточного числа ближайших соседей приводит к снижению надежности оценок апостериорных вероятностей классов (в качестве примера на рис. 33 показана зависимость размера обучающей выборки от числа ближайших соседей, обеспечивающая размер доверительного интервала не более 0.1 при уровне значимости 0.95);
− при большом объеме обучающего множества значительно возрастают затраты на его хранение в памяти и нахождение ближайших соседей. 20 19 18 17 16 15 14 13 12 11
1
2
3
4
5
6
7
8
9
10
Рис. 33. Зависимость размера обучающей выборки от числа соседей
В работе [Fuk90] приводится следующая формула для вычисления числа ближайших соседей в зависимости от размера обучающей выборки k ≈ n
4 d +4
,
153
где d – размерность пространства признаков. Данная формула получена из условия минимизации среднеквадратичной ошибки аппроксимации функции плотности распределения данных. Для уменьшения требований к памяти и объему обучающей выборки в ряде работ предлагается производить редактирование (корректировку) исходного обучающего множества путем отбрасывания ошибочно классифицируемых наблюдений и наблюдений, которые не расположены на границе между классами. Для оценки практической эффективности указанных подходов были рассмотрены два алгоритма [Web02, Фук79]: алгоритм отбрасывания ошибочных примеров и алгоритм отбрасывания несущественных наблюдений. Алгоритм отбрасывания ошибочных примеров (редактирование)
1. Разбить множество наблюдений R на N групп R1 , ..., RN . 2. Классифицировать наблюдения из группы Ri с помощью оставшихся наблюдений
и
положить
S
равным
множеству
ошибочно
классифицированных наблюдений на данном шаге. 3. Удалить все ошибочно классифицированные наблюдения из множества R. 4. Перейти к шагу 2, если множество S не пусто, в противном случае завершить работу алгоритма. █ Алгоритм отбрасывания несущественных наблюдений (сжатие)
1. Поместить в множество A первое наблюдение, а в множество B оставшиеся наблюдения обучающей выборки X. 2. Выполнить классификацию наблюдений из множества B с помощью алгоритма ближайшего соседа, используя в качестве эталонов наблюдения из множества A, и занести ошибочно классифицированные наблюдения в множество A. 3. Если все наблюдения из множества B были классифицированы правильно, то положить A в качестве нового обучающего множества и завершить работу алгоритма, в противном случае перейти к шагу 2. █ Проведенные эксперименты с реальными массивами текстов, а также с массивом «Reuters-21578-6» показали, что выполнение процедур редактирования
154
действительно позволяет несколько снизить число наблюдений в обучающей выборке (примернно на 20–30%), однако при этом снижается качество классификации (примерно 1–5%) и повышаются вычислительные затраты на этапе обучения (примерно в 2–3 раза). По этой причине в общем случае использование данных процедур не имеет большого практического смысла. Классификатор
на
основе
вероятностной
нейронной
сети.
Вероятностные нейронные сети основаны на использовании ядерных оценок плотности
для
аппроксимации
вероятностного
распределения
элементов
отдельного класса. Данные сети обычно имеют три слоя: входной, радиальный и выходной. Количество входов сети соответствует размерности пространства признаков m. Число радиальных элементов берется равным числу наблюдений в обучающей выборке. Каждому классу ω j ,
j = 1, ..., k ,
соответствует один
выходной элемент, который соединен со всеми радиальными элементами, относящимися к его классу, а со всеми остальными элементами он имеет нулевое соединение. Пусть ϕ (u ) – базисная функция, используемая в нейронах второго слоя, тогда значение выходного нейрона v j ( x ) , соответствующего классу ω j , j = 1, ..., k , описывается следующим выражением:
⎛ x − xi( j ) ϕ⎜ v j (x ) = m ∑ n jσ i =1 ⎜ σ ⎝ 1
nj
⎞ ⎟, ⎟ ⎠
где xi( j ) – вектор с номером i = 1, ..., n j из обучающей выборки для класса ω j , n j – число элементов в обучающей выборке для класса ω j , j = 1, ..., k . При
выполнении
классификации
на
вход
сети
подается
вектор
информационных признаков x, он относится к классу с номером arg max v j ( x ) . j =1, ..., k
5.4. Методы классификации на основе расстояний
В настоящее время разработано большое число различных структурных методов классификации текстов [Seb02], и по количеству публикаций они
155
значительно превосходят вероятностные методы. Наиболее распространенными при этом являются следующие:
− классификатор, основанный на профилях [HK00, SS98]; − классификатор на основе «машин опорных векторов» [Seb02]; − классификатор на основе многослойного перцептрона [WPW95, WW99]. Классификатор, основанный на профилях. В данном случае рубрики
описываются с помощью векторов весов информационных признаков (профилей рубрик). Решающая процедура для класса ω j ,
j = 1, ..., k , записывается в
следующей форме:
⎧1, d j ( x ) > α j , Hj =⎨ ⎩0, d j ( x ) ≤ α j , m
d j (x ) =
∑w
x
wj
x2
sj s
s =1
2
,
где α j ∈ (0, 1) – пороговое значение, w j = (w1 j , ..., wmj ) – вектор весов признаков для класса ω j , j = 1, ..., k , x = ( x1 , ..., xm ) – вектор документа, ближе
значение
данной
функции
к
единице,
2
тем
– норма вектора. Чем ближе
документ
к
соответствующей рубрике. Существующие методы нахождения профилей рубрик можно разделить на пакетные и последовательные. В пакетных методах профиль
w j класса ω j , j = 1, ..., k , строится путем анализа всего множества примеров из обучающей выборки, а при последовательном – путем последовательного уточнения профиля по мере поступления новых документов. Наиболее распространенным способом вычисления весов является метод, описанный в работе [SS98]. Он основан на использовании формулы Rocchio, которая была первоначально предложена для организации обратной связи с пользователями при осуществлении информационного поиска. В соответствии с ней отдельные компоненты вектора весов w j для класса ω j , вычисляются следующим образом:
j = 1, ..., k ,
156
⎛ β wsj = ⎜ ⎜ ωj ⎝ где
ωj
⎞ ⎛ λ ⎟ ⎜ x ∑ si − ⎟ ⎜ ωj i∈ω j ⎠ ⎝
⎞ ⎟ x ∑ si , ⎟ i∉ω j ⎠
– мощность множества документов из обучающего множества,
относящихся к рубрике ω j
(положительные примеры),
ωj
– мощность
множества документов из обучающего множества, не относящихся к рубрике ω j (отрицательные примеры), β и λ параметры, которые задают относительную важность положительных и отрицательных примеров. Классификатор на основе «машин опорных векторов» (Support Vector
Machine). Данный классификатор основан на построении линейной разделяющей поверхности между двумя классами таким образом, чтобы расстояние M от разделяющей поверхности до ближайших к ней точек каждого из классов было максимальным. Выполнение классификации документов на большее число классов (рубрик) осуществляется путем объединения работы нескольких классификаторов. Решающая функция в данном случае имеет следующий вид:
⎧ 1, wT x + w0 > 0, H SVM ( x ) = ⎨ T ⎩− 1, w x + w0 ≤ 0. Нахождение параметров w и w0 функции H SVM ( x ) осуществляется путем максимизации M – расстояния от классов до разделяющей гиперплоскости при условии, что
1 yi (wT xi + w0 ) ≥ M , i = 1, ..., n, где xi – векторы документов, w
yi ∈ {− 1, 1} – классы документов. Решение указанной задачи эквивалентно нахождению min w , w, w0
(
)
yi wT xi + w0 ≥ 1 , i = 1, ..., n . В случае, когда классы не являются линейно разделимыми, вводятся дополнительные фиктивные переменные ξi , i = 1, ..., n, и оптимизационная задача принимает следующий вид:
157 n
min w + C ∑ ξi , w, w0
i =1
⎧ yi (wT xi + w0 ) ≥ 1 − ξ i , i = 1, ..., n, ⎨ ⎩ξ i ≥ 0, i = 1, ..., n. Для эффективного нахождения параметров решающей функции на практике осуществляется
переход
к
двойственной
задаче
квадратичного
программирования. Классификатор на основе многослойного перцептрона. Многослойный
перцептрон состоит из нескольких слоев нейронов, соединенных таким образом, что выход одного слоя нейронов является входом для другого. В сети данного типа выделяют скрытые слои (выходные сигналы которых непосредственно не доступны для наблюдения) и выходной слой (формирующий выходной сигнал сети). Пример многослойного перцептрона, имеющего два скрытых и один выходной слой, приведен на рис. 34. скрытые слои
выходной слой
в х о д ы
Рис. 34. Пример структуры многослойного перцептрона
При решении задачи классификации число входов сети делается равным размерности пространства признаков, а число нейронов в выходном слое делается равным числу классов. Классификация производится путем подачи на вход сети вектора текста и определения нейрона, имеющего максимальное значение на выходе. Обучение сети производится путем подачи на вход сети векторов из обучающего множества и корректировки весов связей между нейронами в сети таким образом, чтобы минимизировать ошибку классификации. В настоящее
158
время для обучения многослойного перцептрона наибольшее распространение получил алгоритм обратного распространения ошибки (BP – back propagation) в различных
модификациях.
В
его
основе
лежит
использование
метода
градиентного спуска для минимизации ошибки, равной среднеквадратичной разности между желательным и фактическим выходами сети. Пусть обучающее множество состоит из пар векторов
xi = ( xi1 , ..., xim )
(xi , ci ) ,
где
– входной сигнал для нейронной сети (вектор текста),
ci = (ci1 , ..., cik ) – требуемый выходной сигнал сети (вектор классов), где ⎧1, xi ∈ ω j , cij = ⎨ ⎩0, xi ∉ ω j , i = 1, ..., n, j = 1, ..., k . Цель обучения сети состоит в нахождении весов связей между нейронами, для которых суммарная ошибка E работы сети достигала бы наименьшего значения, т. е. нахождения решения следующей оптимизационной задачи: n
n
k
1 min ∑ E ( xi ) = min ∑∑ (vMj ( xi ) − cij ) 2 , w w i =1 i =1 j =1 2
где w = (wlsr ) – множество весов сети, wlsr – вес связи нейрона с номером
s = 1, ..., nl в слое l = 1, ..., M с нейроном r = 1, ..., nl −1 в слое с номером ( l − 1 ), vls ( xi ) – значение на выходе нейрона с номером s = 1, ..., nl в слое l = 1, ..., M , M – число слоев в сети. Схема алгоритма обратного распространения ошибки имеет следующий вид. Схема алгоритма обратного распространения ошибки
1. Установить t = 1 и начальные величины всех весовых коэффициентов wlsr (t ) ( l – номер слоя, s – номер нейрона в слое, r – номер входа нейрона), равные «небольшим» случайным значениям. 2. Повторить для всех представителей обучающего множества
i = 1, ..., n, следующие шаги алгоритма.
(xi , ci ) ,
159
3. Переходя последовательно от входного слоя к выходному, вычислить выходы vls всех нейронов. 4. Двигаясь в обратном направлении от выходного слоя к входному, вычислить все частные производные ∂E / ∂wlsr .
6. Успешно завершить работу алгоритма, если суммарная ошибка
E
принимает допустимое значение, в противном случае положить t = t + 1 и перейти к шагу 2. █
5.5. Методы классификации на основе правил Данные методы включают в себя как методы, основанные на знаниях, так и методы, основанные на обучении на примерах. Рассмотрим примеры трех наиболее распространенных подходов классификации на основе правил. Первый подход на основе деревьев решений осуществляет автоматическое построение правил [ADW98, JOZG02, ADW94]. Второй и третий подходы основаны на ручном построении правил классификации экспертами. Классификатор на основе деревьев решений. В данном случае для
проведения классификации текстов на основе обучающей выборки строится дерево, внутренним узлам которого поставлены в соответствие отдельные информационные признаки (слова, факторы), ветвям – условия на значения весов признаков, а листьям – номера рубрик с вероятностями. На рис. 35 приведен пример дерева решений. Процесс классификации (рубрицирования) текстов заключается в рекурсивной проверке значений весов информационных признаков, начиная с корня дерева до концевого узла. После чего текст относится к рубрике, имеющей максимальную вероятность в данном узле.
160
Рис. 35. Пример структуры дерева решений
В настоящее время разработано большое число методов построения деревьев решений. В основе большинства из них лежит использование метода «ветвей и границ», заключающегося в рекурсивном разбиении множества объектов из обучающей выборки T на подмножества, содержащие объекты, относящиеся к одинаковым классам. Для обучающей выборки T и множества классов ω j , j = 1, ..., k , рекурсивная процедура построения дерева решений имеет следующую схему. Схема рекурсивной процедуры построения дерева решений
1. Если множество T содержит один и более объектов, относящихся к одному классу ω j , j = 1, ..., k , тогда положить дерево решений для T равным листу, у которого вероятность класса ω j равна 1, и завершить работу процедуры, в противном случае перейти к шагу 2. 2. Если множество T не содержит ни одного объекта, тогда положить дерево решений для T равным одному листу, у которого вероятности классов определяются, исходя из распределения объектов в родительском узле, и завершить работу алгоритма, в противном случае перейти к шагу 3.
161
3. Если множество T содержит объекты, относящиеся к разным классам, тогда выбрать один из признаков xi , i = 1, ..., m, значения которого различаются у объектов из разных классов, и разбить все множество объектов T на подмножества T1 , ..., Ts , где Ts содержит все объекты, s
имеющие значения признака xi из интервала Δ j ,
UΔ
j
– множество
j =1
значений признака xi , s – число интервалов деления значения признака xi (обычно равно 2). Для каждого множества T j , j = 1, ..., s, повторить данную процедуру. █ Таким образом, ключевым элементом при построении дерева решений является выбор переменной, по которой производится разбиение исходного множества T на подмножества. Для выполнения данной задачи наибольшее распространение получили методы: С4.5, С5, ID3 [CS99, FHK91]. Классификатор на основе семантической сети. В данном случае знания о
предметной области описываются независимо от рубрикатора с помощью семантической сети или тезауруса, представляющих собой граф, узлам которого соответствуют понятия (дескрипторы), а дугам – отношения и связи между ними. Правила для отдельных рубрик классификатора задаются в форме логических выражений между дескрипторами тезауруса. Процесс классификации нового документа обычно разбивается на два этапа: 1. Формирование
представления
текста
документа
с
использованием
дескрипторов тезауруса. 2. Принятие
решения
о
принадлежности
текста
к
рубрикам
путем
сопоставления описаний текстов и рубрик с учетом смысловых отношений между дескрипторами тезауруса. Для принятия решения о принадлежности текста к рубрике могут применяться различные схемы. В качестве примера рассмотрим процедуру, применяемую в системе «УИС Россия» [Лук96, ЖЮ95]. В данной системе каждая рубрика ω j , j = 1, ..., k , описывается экспертом следующим образом:
162
⎡
⎡
⎤
⎞⎤
⎛
ω j = U D jt = U ⎢I K jts ⎥ = U ⎢I ⎜⎜ U d jtsi ⎟⎟⎥ , t
t
⎣
⎦
s
t
⎣
s
⎝
⎠⎦
i
где d jtsi – «опорные» понятия тезауруса, которые используются для описания рубрики. Для каждого опорного понятия задается правило его расширения с использованием подчиненных ему понятий в тезаурусе (выделяют три правила – без расширения, полное расширение по дереву иерархии тезауруса, расширение по родо-видовым связям). Для оценки релевантности содержания текста рубрике производится соотнесение понятий тезауруса, выделенных в тексте, с булевской формулой описания рубрики, приведенной выше, с учетом информации о весах понятий в тексте. Для вычисления веса конъюнкта K jts применяется формула
(
)
θ (K jts ) = min 1.0, max (θ (d jtsi )) , i
а для вычисления веса дизъюнкта D jt используется формула
⎞ 1 ⎛ m ⎜ ( ) ( ) + θ (D jt ) = θ K S K , K ∑ jts ∑ jts jtl ⎟ ⎟, m + cm2 ⎜⎝ s =1 s
K jtl , основанная на вычислении частоты их совместной встречаемости в тексте в пределах «окна» заданного размера, θ (d jtsi ) – вес отдельного понятия в тексте, который зависит от его положения и частоты встречаемости. Итоговый вес рубрики для текста вычисляется путем нахождения максимума весов дизъюнктов, т. е. θ (ω j ) = max(θ (D jt )) . t
Разработка самих тезаурусов может быть частично автоматизирована. Например, сначала обрабатывается совокупность документов большого объема при помощи программ морфологического и синтаксического анализа с целью выделения групп слов, которые напоминают термины. Затем выделенные группы слов исследуются экспертами и принимаются решения относительно того: может ли данная группа слов быть включена в тезаурус; является ли данный термин дескриптором или синонимом другого дескриптора; как должны быть описаны
163
отношения данного термина. Также имеются специальные средства ведения тезаурусов, которые позволяют поддерживать его в непротиворечивом состоянии, автоматизировать процесс выявления неявных связей между дескрипторами. Основным недостатком данного подхода является сложность разработки и поддержания тезауруса в актуальном состоянии. К достоинствам можно отнести высокое качество работы, наглядность и простоту. Продукционный классификатор. В основе данного метода лежит
выделение из текста концепций (или понятий), заранее описанных экспертом. Каждое понятие предметной области описывается экспертом при помощи особой конструкции (определения понятия), которая представляет собой набор характерных для данного понятия слов и фраз, объединенных с помощью стандартных булевских функций. Дополнительно в языке описания понятий может быть предусмотрена возможность введения контекстуальных ограничений, заключающаяся в указании порядка следования слов в тексте, расстояния между словами и т. п. В качестве примера в табл. 58 приведено краткое описание одного из реальных языков, используемых для задания понятий. Таблица 58 – Пример языка запросов для описания рубрик Запрос
1. Оператор поиска отдельных слов с учетом всех словоформ 2. Оператор поиска словосочетаний с учетом всех возможных словоформ 3. Оператор поиска слов с заданным префиксом 4. Операторы задания логических условий: & – логическое И, | – логическое ИЛИ, ^ – логичесткое НЕ 5. Оператор задания списка эквивалентных слов, которые рассматриваются как одно слово 6.
Оператор группировки простых выражений
Результат применения решающего правила Слово «слово1 слово2 слово3» префикс_слова* выражение1 & выражение2 & ^выражение3 {слово1 слово2 слово3} (выражение1 | выражение2) & (выражение3 | выражение4)
7. Оператор поиска слов в исходной форме (без учета !слово морфологии) 8. Оператор поиска слов с учетом одинарных опечаток типа: пропуск буквы, перестановка букв, %слово замена буквы. 9. Оператор поиска слов с учетом похожести по %%слово звучанию.
164
10. Оператор поиска слов по шаблону 11. Оператор поиска слов (выражений) на заданном расстоянии друг от друга без учета порядка следования слов 12. Оператор поиска слов (выражений), расположенных на заданном расстоянии друг от друга с учетом порядка следования 13. Оператор поиска слов или элементов текста, имеющих заданные графематические и грамматические дескрипторы (например, поиска существительных, слов с большой буквы и т. п.) 14. Оператор использования ранее определенных понятий (каждое понятие задается в виде отдельного выражения)
Процесс классификации текстов разбивается на два этапа. На первом этапе происходит выделение понятий из текста, для чего используется информация из базы определений. Решение о наличии понятия в тексте
принимается
путем
вычисления
справедливости
выражения,
определяющего понятие, для данного текста. Если выражение справедливо, то считается, что понятие присутствует в тексте. На втором этапе принимается решение о принадлежности текста к конкретной рубрике. На его вход поступают понятия, выделенные на предыдущем
шаге
(возможно
с
указанием
веса).
На
основе
правил
рубрицирования, которые формулируются заранее экспертом на языке задания правил, принимаются решения о принадлежности текстов к рубрикам. Данные правила обычно представляют собой конструкции типа ЕСЛИ-ТО. Также часто предоставляется возможность вводить ограничения на длину и структуру сообщений, положение и вероятность понятий в текстах. Определения
понятий
и
правила
рубрицирования
в
совокупности
составляют базу правил. Ее разработка представляет собой очень трудоемкий процесс, требующий привлечения высококвалифицированных специалистов как в предметной области, так и в области лингвистики. Один из возможных методов построения базы правил состоит в том, что на большом массиве документов выявляются
статистические
закономерности,
основанные
на
частоте
встречаемости слов и фраз, а также их совместной встречаемости. Полученные
165
данные затем используются экспертами при описании понятий и формировании правил рубрицирования. Также имеются работы [RL96], в которых предлагаются методы автоматического построения базы правил, основываясь только на примерах текстов, относящихся к рубрикам. Основными недостатками систем, основанных на данном подходе, являются высокая трудоемкость разработки и поддержания системы в актуальном состоянии, а также жесткая привязка к предметной области и характеристикам обрабатываемых текстов. К преимуществам следует отнести высокое качество рубрицирования и высокое быстродействие на тех текстовых потоках, для которых они проектировались.
5.6. Комбинированные методы классификации Комбинированные методы классификации применяются для повышения качества классификации за счет подбора индивидуального метода классификации для
каждой
рубрики,
выполнения
иерархической
классификации
с
использованием одноуровневых классификаторов, построения классификаторов для большого числа классов с использованием бинарных классификаторов. В работе [Web02]
выделяются
следующие три
базовых
варианта
архитектуры комбинированных классификаторов. Вариант 1. Различные пространства признаков у комбинируемых классификаторов. Комбинированный классификатор C представляет собой
классификатор, вероятностей
определенный классов
на
p(w | xi ) ,
пространстве получаемых
оценок с
апостериорных
помощью
отдельных
классификаторов Ci , i = 1, ..., L, и вычисляющий на их основе p(w | x1 , ..., xL ) . Каждый Ci определен на своем пространстве признаков xi , которое не зависит от пространств признаков других классификаторов, i = 1, ..., L. Вариант
2.
Общее
пространство
признаков
у
комбинируемых
классификаторов. В данном случае комбинированный классификатор C
строится на основе отдельных классификаторов
Ci ,
i = 1, ..., L,
которые
определены на общем пространстве признаков x. Классификаторы Ci могут быть
166
разного типа, могут быть одного типа, но обучаться на разных обучающих множествах или использовать разные начальные значения параметров. Вариант комбинируемых
3.
Взаимосвязанные
классификаторов.
В
пространства
данном
случае
признаков
у
комбинированный
классификатор C строится на основе отдельных классификаторов Ci , i = 1, ..., L, пространства признаков которых являются разными, но не независимыми. Рассмотрим теперь основные методы построения комбинированных классификаторов и особенности их реализации. В соответствии с работой [Web02] данные методы можно разделить на две группы. К первой относятся методы, в рамках которых строится фиксированное решающее правило, которое не зависит от качества работы отдельных классификаторов. Пусть имеется объект Z, который необходимо отнести к K классам w1 , ..., wK , и L классификаторов C1 , ..., CL с входными переменными
x , ..., xL соответственно. Тогда, исходя из байесовского правила минимизации 1
ошибки классификации, можно при наличии тех или иных дополнительных упрощающих предположений получить следующие комбинированные решающие правила (случай равных априорных вероятностей классов). Правило произведения апостериорных вероятностей классов. Объект Z
относится к классу w j , j = 1, ..., k , если
L
∏ p(w i =1
L
j
| xi ) > ∏ p(wk | xi ) , где k = 1, ..., K , i =1
k ≠ j. Правило суммирования апостериорных вероятностей классов. Объект
Z
относится к классу
wj ,
j = 1, ..., k ,
если
∑ p(w j | xi ) > ∑ p(wk | xi ), где L
L
i =1
i =1
k = 1, ..., K , k ≠ j. Правило
минимума
(максимума,
медианы)
апостериорных
вероятностей классов. Объект Z относится к классу w j , j = 1, ..., k , если
(
)
min p w | xi > imin p(wk | xi ) , k = 1, ..., K , k ≠ j. =1, ..., L
i =1, ..., L
j
167
Правило большинства голосов. Объект Z относится к тому классу w j , за
который проголосовало большинство классификаторов. Данное правило может рассматриваться
как
вариант
правила
суммирования
апостериорных
вероятностей, в котором p(wk | xi ) заменено на бинарную функцию
⎧1, Δ ki = ⎨ ⎩0,
p(wk | xi ) = max p(w j | xi ), j
в противном случае.
Ко второй группе относятся методы, в рамках которых при построении комбинированного правила классификации учитываются оценки качества работы отдельных классификаторов C1 , ..., CL на проверочном множестве. Байесовский комбинированный метод. Пусть T (i ) обозначает таблицу
сопряженности размера ( K × K ) для классификатора Ci , полученную в результате классификации наблюдений из тестового множества. Элемент t (jki ) матрицы T (i ) соответствует числу наблюдений из класса wk , которые отнесены к классу w j классификатором Ci . Тогда величина (i )
plk =
tlk(i ) K
∑t( ) k =1
i lk
является оценкой условной вероятности того, что наблюдение x, отнесенное к классу wl классификатором Ci , в действительности принадлежит к классу wk . Воспользовавшись правилом произведения апостериорных вероятностей, которое основывается на предположении о независимости классификаторов друг от друга, получаем следующее комбинированное решающее правило: объект Z относится к классу w j , j = 1, ..., k , если L
L
i =1
i =1
∏ pl(iij) > ∏ pl(iis) , где s = 1, ..., K , s ≠ j , wli – класс, к которому отнесен объект Z с помощью классификатора Ci .
168
Метод наилучшего классификатора. В данном случае комбинированный
классификатор получается путем выбора из множества классификаторов C1 , ..., CL одного, который обеспечивает наименьшую ошибку классификации, т. е. K
C = arg max
i =1,..., L
∑t( )
k =1 K K
i kk
∑∑ t j =1 s =1
(i )
.
js
Преимуществом данного правила является то, что на этапе классификации требуется хранить оценки параметров только одного классификатора. В литературе по прикладной статистике [Web02, SSV00] рассматриваются и более сложные методы построения комбинированных классификаторов, такие как Mixture of Experts, Bagging, AdaBoost. Однако их использование при обработке текстовых данных затруднено из-за высокой вычислительной сложности и необходимости выполнения моделирования данных. Например, в методе Bagging предполагается использование бутстреп метода. Построение комбинированного классификатора требует наличия оценок качества работы базовых методов классификации (оценок условных вероятностей отнесения наблюдений из одного класса к другому, оценок показателей точности, полноты, F-меры) еще на этапе обучения классификатора. Для построения таких оценок обычно используются два метода: − метод перепроверки; − метод k-шаговой кросс-проверки. В методе перепроверки исходное множество документов разбивается на обучающее
и
тестовое
множество
документов.
На
первом
множестве
производится обучение базовых классификаторов, а на втором – оценка показателей обучения. Данный метод является наиболее простым и быстрым, но при ограниченных размерах обучающих выборок его использование приводит к сильному разбросу значений оценок параметров. В методе k-шаговой кросс-проверки исходное множество документов X разбивается на k равных частей X 1 , ..., X k . Процедура обучения и оценивания базовых классификаторов выполняется за k шагов.
169
Схема алгоритма обучения комбинированного классификатора имеет следующий вид. Схема алгоритма обучения комбинированного классификатора
1. Получить множество базовых методов классификации S a . 2. Для каждого классификатора из множества S a выполнить процедуру оценивания параметров и оценки качества обучения классификатора с использованием k-шаговой процедуры кросс-проверки. 3. Произвести
оценивание
параметров
и
оценку
качества
обучения
комбинированного классификатора, используя в качестве исходных данных результаты оценки качества, полученные на втором шаге. █ Рассмотрим методы построения иерархических классификаторов. Данные методы можно условно разделить на четыре типа: − методы нисходящей классификации – в данных методах классификация осуществляется сверху вниз, начиная с вершины и заканчивая листьями дерева рубрик, при этом выполнение классификации по отношению к отдельной рубрике выполняется только в том случае, если документ был отнесен к родительской рубрике [Gra03]; − методы восходящей классификации – в этих методах классификация осуществляется независимо для всех рубрик в дереве, при этом если документ был отнесен к какой-то рубрике, то он автоматически относится ко всем родительским рубрикам [CH04]; − методы метаклассификации – в данном случае для каждой рубрики осуществляется построение метаклассификатора, исходными данными для которого служат результаты классификации по отдельным рубрикам [Rui01]; − методы вероятностной иерархической классификации – в этом случае для выполнения иерархической классификации строится специальная вероятностная модель данных, в которой явно учитывается иерархическая природа рубрик [RSSS05, Cha03].
170
5.7. Метод комбинированной иерархической классификации Рассмотрим классификации,
в
построение
метода
котором
совместно
комбинированной применяется
иерархической
большинство
из
рассмотренных выше отдельных методов классификации текстов. В общем виде его работу можно представить следующим образом. На вход поступает вектор весов информационных признаков x анализируемого текста или фрагмента, а на выходе формируются два вектора: c = (c1 , ..., ck ) и w = (w1 , ..., wk ) , где k – общее число рубрик в классификаторе, c j ∈ {0, 1} и w j ∈ [0, 1] – признак и степень принадлежности к рубрике ω j соответственно. Решающие правила для отнесения текстов к рубрикам получаются путем комбинирования результатов работы сразу нескольких базовых методов классификации с помощью метаклассификаторов более высокого уровня. Всего выделяется
три
уровня:
уровень
базовых
классификаторов,
уровень
комбинированных классификаторов, уровень иерархического классификатора. Взаимосвязь данных уровней показана на рис. 36.
Рис. 36. Пример архитектуры иерархического классификатора
На первом уровне для каждой рубрики ω j ,
j = 1, ..., k , производится
построение бинарных решающих правил с помощью следующих базовых методов [Seb02, Web02]:
171
− методов вероятностной классификации, основанной на представлении рубрик в виде смеси распределений Бернулли (BERN), фон Мизеса–Фишера (VMF), полиномиального (MNS) и анализаторов главных компонент (PPCA); − методов
классификации
на
основе
вычислений
расстояний:
классификаторов k-ближайших соседей (KNN), машин опорных векторов (SVM), Роччио (ROC); − методов классификации на основе правил: деревья решений (TREE), логических правил на специальном языке. Все приведенные методы, за исключением логических правил, основаны на обучении на примерах. При этом в процессе обучения для каждого метода реализуется специализированная процедура обработки данных, которая включает проверку достаточности размера обучающей выборки, снижение размерности путем селекции и трансформации признаков, оценивание параметров, построение решающих правил, оценку качества обучения (особенности реализации и параметры по умолчанию для базовых методов показаны в табл. 59).
Таблица 59 – Особенности реализации базовых методов классификации Мин. и макс. размер обучающего множества
Веса признаков
2 – 50000
Бинарные [Seb02]
селекция по частоте документов [Seb02]
байесовское оценивание
5 – 50000
TF-IDF [Seb02]
селекция по частоте документов [Seb02]
байесовское оригинальный правило с откл. робастный алгоритм вер. уровня 95% [Web02]
MNS
2 – 50000
TF-IDF [Seb02]
селекция по частоте документов [Seb02]
байесовское оригинальный правило с откл. робастный алгоритм вер. уровня 80% [Web02]
PPCA
10 – 50000
TF-IDF [Seb02]
селекция по частоте документов,
оригинальный байесовское робастный алгоритм правило с откл. [КВ04], вер. уровня 60%
Метод
BERN
VMF
Снижение размерности
Оценка параметров
Решающее правило
байесовское правило с откл. вер. уровня 65% [Web02]
172
KNN
SVM
последователь ный метод LSI [КВ04]
размерность пространства факторов – 5
5 – 50000
TF-IDF [Seb02]
селекция по частоте документов [Seb02]
число соседей – 5, максимальное число эталонов – 250, оригинальный алгоритм отбора эталонов на основе кластерного анализа
байесовское правило с откл. вер. уровня 60% [Web02]
5 – 50000
TF-IG [Seb02]
селекция по частоте документов [Seb02]
линейная ядерная функция [Web02]
линейная решающая функция
TF-IDF [Seb02]
селекция по частоте документов [Seb02]
стандартный алгоритм [Seb02]
линейная решающая функция
оригинальный алгоритм отбора эталонов на основе кластерного анализа, стандартный алгоритм из пакета matlab
логическое решающее правило
2 – 50000
ROC
TREE
10 – 50000
селекция по частоте документов, Бинарные – метод IDF [Seb02] фильтрации признаков Information Gain [Seb02]
[Web02]
Логические правила строятся вручную для уточнения и дополнения статистических решающих правил, а также построения правил для рубрик без примеров
документов.
Они
разбиваются
на
три
типа:
достаточные
(справедливость достаточна для отнесения текста к рубрике), необходимые (для отнесения текста к рубрике необходима справедливость данного правила и построенного статистического правила), отрицательные (при его справедливости текст не относится к рубрике). Данные правила обеспечивают поиск отдельных слов (с учетом и без учета морфологии, с учетом ошибок, с заданными морфологическими и семантическими характеристиками), задание логических условий, задание условий на расстояние между выражениями в тексте. На втором уровне для каждой рубрики ω j , j = 1, ..., k , осуществляется
построение отдельного комбинированного классификатора на основе бинарных классификаторов первого уровня C j1 , ..., C jL , построенных для данной рубрики,
173
где L – число различных методов классификации. Для этих целей реализована поддержка нескольких методов, которые условно можно разбить на три группы [Web02, КВ06]: – методы, основанные на построении фиксированного решающего правила, которое не зависит от качества работы отдельных классификаторов (например, правило произведения апостериорных вероятностей, правило суммирования апостериорных вероятностей, правило большинства голосов, правила минимума апостериорных вероятностей классов). –
методы,
основанные
на
построении
комбинированного
правила
классификации, учитывающего оценки качества работы классификаторов первого уровня (например, байесовский метод и метод наилучшего классификатора). – методы, основанные на использовании статистического моделирования (например, boosting и bagging). Экспериментальная оценка приведенных групп правил показала, что использование методов первой группы не приводит к улучшению качества классификации, но при этом время работы и требования к памяти заметно возрастают из-за необходимости одновременного использования для каждой рубрики нескольких алгоритмов при классификации. Методы третьей группы требуют выполнения чрезвычайно ресурсоемкого моделирования, которое не позволяет проводить обучение классификаторов за разумное время на практике. В настоящей работе в качестве основного был выбран метод наилучшего классификатора, в рамках которого комбинированный классификатор для рубрики ω j , j = 1, ..., k , получается путем выбора из C j1 , ..., C jL классификатора, обеспечивающего наибольшее значение F-меры на тестовом множестве. Такой подход обладает следующими преимуществами: – при классификации для каждой рубрики требуется хранить в памяти только одно решающее правило; – результаты оценки качества, проводимой для выбора наилучшего метода, могут использоваться для корректировки состава обучающих примеров.
174
На
третьем
уровне
осуществляется
построение
иерархического
классификатора, объединяющего результаты работы бинарных классификаторов второго
уровня
таким
образом,
чтобы
обеспечить
отнесение
текстов
одновременно к нескольким рубрикам с учетом их иерархической структуры. Его работа сводится к выполнению серии процедур, которые, например, при отнесении документа к рубрике осуществляют проверку, относится ли он к родительской рубрике, производят проверку различных аномальных случаев. Схема работы данного алгоритма при обработке текстов целиком (без выделения значимых фрагментов) имеет следующий вид. Схема работы алгоритма иерархической классификации
1. Построние вектора весов и словаря информационных признаков документа. 2. Классификация с помощью экспертных логических правил и путем непосредственного поиска кодов рубрик в тексте документа. 3. Проверка помощью
адекватности
документа
статистических
методов)
(возможности путем
классификации
оценки
доли
с
новых
информационных признаков. 4. Классификация использованием
с
помощью
набора
метода
обученных
нисходящей на
примерах
классификации
с
комбинированных
классификаторов рубрик. 5. Выполнение корректировки результатов классификации с помощью набора структурных правил (выявление текстов без рубрик, текстов, отнесенных к дочерним рубрикам и не отнесенных к родительским, и т. п.). █ Для оценки эффективности разработанной технологии были проведены эксперименты с различными массивами текстов и рубрикаторами. К сожалению, большинство из рассмотренных массивов не являются общедоступными, что затрудняет публикацию информации по ним. По этой причине в качестве примера приведем результаты экспериментов только с массивом «Reuters-21578», который широко используется в различных работах по автоматизированной обработке текстов [Seb02]. Для проведения экспериментов использовался пакет Text Classification Toolboх, реализующий описанный выше комбинированный иерархический
175
алгоритм классификации. При обучении классификатора в рамках данного пакета автоматически производится формирование отчета с оценками качества работы базовых методов и классификатора в целом с использованием метода 5-шаговой кросс-проверки. Для упрощения проведения экспериментов было решено не использовать эталонное разбиение на обучающую и тестовую выборку, которое имеется в массиве «Reuters-21578». Это может приводить к несколько отличным от
других
исследователей
абсолютным
значениям
показателей
качества
классификации, но это не является критичным, так как в данном случае для иллюстрации наибольшее значение имеют относительные значения показателей. Все базовые алгоритмы использовались с приведенными выше значениями параметров. В табл. 60 приводятся оценки качества обучения 13 из 142 рубрик данного массива с помощью 8 методов классификации. Таблица 60 – Качество обучения отдельных рубрик Рубрика (размер)
TREE
PPCA
MNS
KNN
BERN
VMF
ROC
SVM
acq (2261)
85%
95%
40%
54%
92%
95%
3%
98%
alum (59)
91%
85%
59%
83%
73%
89%
54%
94%
dmk (15)
76%
88%
88%
92%
64%
97%
92%
88%
housing (18)
85%
84%
84%
94%
81%
91%
88%
88%
l-cattle (10)
–
–
36%
95%
67%
90%
88%
29%
meal-feed (51)
97%
93%
63%
80%
81%
94%
77%
94%
palm-oil (42)
85%
98%
85%
91%
82%
94%
91%
94%
–
–
–
–
55%
–
80%
–
72%
86%
76%
90%
94%
91%
75%
90%
–
–
100%
–
80%
–
80%
–
soy-oil (26)
22%
36%
7%
20%
51%
40%
33%
26%
strategic-metal (39)
75%
80%
32%
61%
60%
77%
51%
73%
zinc (48)
74%
85%
60%
70%
74%
91%
78%
81%
propane (6) rapeseed (35) sfr (3)
Необходимо отметить, что у ряда рубрик в массиве «Reuters-21578» отсутствуют примеры документов или их число является недостаточным для оценивания параметров моделей данных, применяемых в отдельных методах классификации. Такие случаи отмечены в таблице прочерками.
176
Из табл. 60 видно, что для каждого метода классификации существуют рубрики, на которых он оказывается значительно предпочтительнее других методов. В
табл. 61
приводятся
усредненные
оценки
качества
обучения
комбинированного классификатора для следующих случаев: использования только одного базового метода классификации, использования всех базовых методов без задания и с заданием экспертных логических правил. Оценки коэффициентов точности, полноты и F-меры вычислялись с использованием микроусреднения [Seb02, BFS03]. Таблица 61 – Оценка качества обучения с использованием микроусреднения Точность (дов. инт.)
Полнота (дов. инт.)
F-мера
Процент обученных рубрик
TREE
81% (80%, 82%)
87% (86%, 87%)
84%
50%
PPCA
94% (93%, 94%)
95% (95%, 95%)
94%
50%
MNS
66% (65%, 67%)
60% (60%, 61%)
63%
65%
KNN
76% (76%, 77%)
73% (72%, 74%)
75%
56%
BERN
81% (80%, 82%)
87% (86%, 87%)
84%
70%
VMF
92% (91%, 92%)
93% (92%, 93%)
92%
56%
ROC
41% (40%, 42%)
36% (35%, 36%)
38%
70%
SVM
95% (95%, 95%)
96% (95%, 96%)
95%
56%
Комбинированный метод (без логических правил)
97% (98%, 99%)
97% (98%, 99%)
97%
70%
Комбинированный метод (с логическими правилами)
98% (98%, 99%)
99% (98%, 99%)
99%
100%
Метод классификации
Из табл. 61 видно, что среди базовых методов наилучшие результаты показал метод SVM, что в целом согласуется с результатами экспериментов других авторов с данным массивом текстов [Seb02]. Использование комбинированного метода позволяет дополнительно повысить качество классификации. При этом наилучшие результаты достигаются в том случае, когда дополнительно для рубрик вручную задаются логические правила на специальном языке, которые корректируют ошибки статистической классификации. Необходимо отметить, что
177
в результате задания таких правил также удается построить решающие правила для рубрик, у которых отсутствуют обучающие примеры или их меньше двух. Влияние необученных рубрик и рубрик небольшого размера на показатели качества
обучения
более
отчетливо
проявляется
при
использовании
макроусреднения. В данном случае обобщенные показатели вычисляются как арифметическое среднее показателей для отдельных рубрик. В результате значение F-меры для метода SVM (наилучший метод при микроусреднении) становится равным 49%, а для комбинированного метода – 63% (без задания экспертных логических правил) и 85% (с заданием экспертных логических правил). Значительное отличие микро- и макроусреднения связано с тем, что в массиве имеется несколько больших рубрик, на которых достигаются высокие показатели качества классификации (например, для рубрики «acq» F-мера равна 99%), и большое число пустых и маленьких рубрик, на которых F-мера принимает значения,
близкие
комбинированного
к
нулю.
алгоритма
Повышенные с
значения
экспертными
качества
логическими
работы
правилами
объясняются тем, что за счет подбора данных правил достаточно легко удалось обеспечить точность и полноту классификации, близкую к 100%, для рубрик, состоящих всего из нескольких документов. Таким образом, проведенные эксперименты показали, что построенный комбинированный
алгорим
классификации
позволяет
улучшить
качество
автоматической классификации текстов по сравнением со случаем использования одного метода классификации.
6. Методы кластерного анализа 6.1. Общее описание методов кластерного анализа Задача кластерного анализа заключается в разбиении массива текстов на некоторое число заранее не известных классов ω j , j = 1, ..., k , таким образом, чтобы тексты внутри одного класса были похожи по содержанию друг на друга.
178
Число классов k в большинстве рассматриваемых далее алгоритмов является управляющим параметром и задается пользователем. Методы кластерного анализа можно условно разбить на две группы: − вероятностные методы – основаны на построении вероятностной модели массива документов; − структурные
методы
–
основаны
на
использовании
различных
расстояний между объектами и показателей, оценивающих компактность выделяемых классов. Проведение кластерного анализа массива текстов обычно включает следующие этапы: − снижение размерности пространства признаков; − выделение кластеров; − интерпретация результатов; − оценка качества. Будем считать, что после выполнения снижения размерности исходного пространства признаков, описывающего тексты, с помощью последовательного метода латентного семантического индексирования (LSI) множество текстов представляется в виде матрицы «признак-текст» следующего вида: ⎛ x11 ... x1n ⎞ ⎜ ⎟ X = ⎜ ... ... ... ⎟ , ⎜x ⎟ ⎝ m1 ... xmn ⎠ где xsi есть значение s-го признака для i-го текста, s = 1, ..., m и i = 1, ..., n . Далее будем отождествлять i-й текст с соответствующим ему вектором xi значений признаков, т. е. xi = ( x1i , ..., xmi ) T . Множество всех векторов xi , i = 1, ..., n, также будем обозначать символом X. Кроме того, будем предполагать, что проведена нормировка длины векторов текстов, т. е. xi 2 = 1 , i = 1, ..., n.
6.2. Оценка качества кластерного анализа Оценка качества является важнейшей практической задачей, решение которой дает возможность сравнивать различные системы между собой как на
179
этапе проектирования, так и на этапе эксплуатации, определять, какая из них является лучшей в том или ином смысле, создавать новые и развивать имеющиеся системы.
При
оценке
качества
кластерного
анализа
текстовых
данных
необходимо определить понятие содержательной ценности разбиения текстов на группы, которое невозможно сделать полностью формально. Это приводит к тому, что оценка качества обычно носит эмпирический, а не аналитический характер и выполняется путем оценки степени соответствия разбиений текстов на кластеры, полученных автоматически, эталонным разбиением тех же текстов на кластеры, построенным экспертами вручную. Для определения мер близости классификаций рассмотрим множество X = {x1 , ..., xn } из n объектов и два различных разбиения этого множества на подмножества (классы): U = {U 1 , ..., U k } и V = {V1 , ..., Vl }, где U i ⊂ X , V j ⊂ X , k
UU i =1
l
i
= X = UV j , j =1
U i I U i′ = ∅
и
V j I V j′ = ∅
i, i ′ = 1, ..., k
для
и
i ≠ i′ ,
j , j ′ = 1, ..., l и j ≠ j ′. Пересечения классов, входящих в указанные разбиения, можно представить с помощью таблицы сопряженности T k ×l (см. табл. 62). Ее элементы nij суть числа объектов, общих для U i и V j , i = 1, ..., k и j = 1, ..., l . Дополнительно в T k ×l вводятся столбец и строка сумм основных элементов таблицы по строкам и столбцам, которые соответствуют мощностям множеств U i l
k
j =1
i =1
и Vi , которые представляются в виде ni• = ∑ nij и n• j = ∑ nij соответственно.
Таблица 62 – Таблица сопряженности T
k ×l
Номера категорий
1
2
…
l
Суммы
1
n11
n12
…
n1l
n1•
2
n21
n22
…
n2l
n2•
…
…
…
…
…
…
k
nk1
nk 2
…
nkl
nk •
Суммы
n•1
n•2
…
n•l
n•• ≡ n
180
Результаты одновременного анализа двух разбиений также можно представить в виде другой таблицы сопряженности признаков, для которой примем
обозначение
M 2×2 .
Рассмотрим
индексированное
множество
всевозможных пар исходных объектов, общее число которых равно
⎛n⎞ ⎜⎜ ⎟⎟ . ⎝ 2⎠
Определим для s-й пары и разбиения U так называемый характеристический вектор разбиения
z U , координаты которого для
⎛n⎞ s = 1, 2, ..., ⎜⎜ ⎟⎟ принимают ⎝ 2⎠
следующие значения: ⎧1, если для разбиения U объекты s - й пары находятся в одном классе, z Us = ⎨ ⎩0, в противном случае. Аналогичным образом определим zV для разбиения V. Тогда таблица M 2×2 будет содержать значения числа пар объектов, попадающих в зависимости от значений соответствующих переменных zUs и zVs в одну из четырех категорий (см. табл. 63). Таблица 63 – Таблица сопряженности M
2×2
Категории
zVs = 1
zVs = 0
Суммы
zUs = 1
m11
m12
m1•
zUs = 0
m21
m22
m2•
Суммы
m•1
m•2
⎛n⎞ m•• ≡ ⎜⎜ ⎟⎟ ⎝ 2⎠
Между таблицами T k ×l
и M 2×2
существует тесная связь. Исходя из
определения величин tij , сразу же получаем ⎞ ⎛n ⎞ 1 ⎛ m11 = ∑ ⎜⎜ ij ⎟⎟ = ⎜⎜ ∑ nij2 − n ⎟⎟ . 2 ⎝ i, j i, j ⎝ 2 ⎠ ⎠ Далее имеем
181
⎛n ⎞ ⎛n ⎞ m12 = m1• − m11 = ∑ ⎜⎜ i• ⎟⎟ − ∑ ⎜⎜ ij ⎟⎟ = i ⎝ 2 ⎠ i, j ⎝ 2 ⎠
⎞ 1⎛ ⎜ − ∑ nij2 + ∑ ni2• ⎟ . ⎟ 2 ⎜⎝ i , j i ⎠
Аналогичным образом выводится представление ⎞ 1⎛ m21 = m•1 − m11 = ⎜⎜ − ∑ nij2 + ∑ n•2j ⎟⎟ . 2 ⎝ i, j j ⎠ И, наконец, получаем ⎞ ⎛n⎞ 1⎛ m22 = ⎜⎜ ⎟⎟ − m11 − m12 − m21 = ⎜⎜ ∑ nij2 − ∑ ni2• − ∑ n•2j + n 2 ⎟⎟ . 2 ⎝ i, j i j ⎝ 2⎠ ⎠ Рассмотрим теперь некоторые наиболее распространенные меры близости классификаций (все они опираются на использование приведенных таблиц сопряженности). Мера χ 2 .
Для проверки нулевой гипотезы о независимости двух
категориальных признаков, т. е. фактически об отсутствии какой-либо близости между двумя классификациями, используется статистика типа χ 2 . Чем больше ее значение, тем больше оснований говорить о связи этих двух классификаций. По этой причине нет оснований против включения в набор мер близости величины 2
n n ⎞ ⎛ ⎜⎜ nij − i• • j ⎟⎟ n ⎠ χ2 = ∑⎝ . n n i j • • i, j n Энтропийная мера. Рассмотрим несимметричный случай, когда разбиение
U является эталонным. Тогда для каждого j-го подмножества (кластера) из V можно посчитать оценки вероятностей того, что его элемент принадлежит одному из подмножеств (классов) из U. Эти оценки для i = 1, ..., k суть величины nij n• j . Тогда энтропия каждого j-го кластера принимает вид E j = −∑ i
⎛n ⎞ ln⎜ ij ⎟ . n• j ⎜⎝ n• j ⎟⎠ nij
Энтропийная мера соответствия, согласно [SKK00], основывается на общей энтропии для всех k кластеров, которая вычисляется следующим образом:
182
E=∑ j
⎞ 1⎛ E j = − ⎜⎜ ∑ nij ln nij − ∑ n• j ln n• j ⎟⎟ . n n ⎝ i, j j ⎠
n• j
Если все элементы j-го кластера относятся к определенному классу (элементу разбиения U), то E j = 0 ; любое другое распределение элементов j-го кластера по классам увеличивает энтропию. Таким образом, энтропийная мера достигает «наилучшего» нулевого значения, когда разбиение V полностью соответствует (совпадает с точностью до перестановок номеров классов) разбиению U. Здесь следует предостеречь относительно «прямолинейной» интерпретации нулевого значения E как наилучшего. Если число кластеров равно n, то при любом числе классов E = 0 , что вряд ли имеет практический смысл. Трансформационная мера. В [BA72] сравнение разбиений предлагается
проводить
в
терминах
минимального
числа
шагов,
необходимых
для
преобразования одного разбиения в другое, при этом каждый шаг заключается в перемещении единственного объекта из одного подмножества (класса) в другое. Показано, что соответствующая мера D пропорциональна расстоянию между двумя разбиениями и выражается опять же через элементы таблицы M 2×2 , а именно:
∑
⎛n⎞
zUs − zVs 1 m + m21 . = ⋅ 12 2 ⎛n⎞ ⎜⎜ ⎟⎟ ⎝ 2⎠
1 s =1, 2,...,⎜⎜⎝ 2 ⎟⎟⎠ D= ⋅ 2 ⎛n⎞ ⎜⎜ ⎟⎟ ⎝ 2⎠
F-мера. Эта мера пришла из области оценки качества информационного
поиска [SKK00]. Будем трактовать некоторое подмножество (кластер) разбиения V как результат выполнения информационного запроса, а определенное подмножество
(класс)
разбиения
U
–
как
совокупность
документов,
соответствующих этому же самому запросу. Тогда для каждого j-го кластера и i-го класса полнота Rij поиска суть величины:
(recall) и точность Pij (precision) информационного
183
Rij =
nij
и Pij =
ni•
nij n• j
.
Тогда для j-го кластера и i-го класса F-мера характеризуется величиной −1
⎛1 1 1 1 ⎞ ⎟ . + Fij = ⎜ ⎜2 P 2 R ⎟ ij ⎠ ⎝ ij Для всех кластеров F-мера определяется следующим образом: F =∑ i
Из определения
Fij
ni• max Fij . n j
следует, что
Fij ≤ 1
и
Fij
принимает свое
максимальное значение, когда есть полное соответствие между разбиениями U и V. Rand-индекс основан на оценке совместной встречаемости пар объектов в
разных классификациях [Ran71, HA85]. Он определяется следующим образом: Rand =
m11 + m22 , ⎛n⎞ ⎜⎜ ⎟⎟ ⎝ 2⎠
где m11 и m22 – элементы таблицы M 2×2 . Rand-индекс можно рассматривать как оценку вероятности события, что случайно выбранная пара объектов находится либо в одном классе, либо в разных как для разбиения U, так и для V. Так как элементы таблицы M 2×2 можно выразить через элементы таблицы T k×l , то выражение для вычисления Rand-индекса можно записать следующим образом:
⎛n ⎞ ⎛n ⎞ ⎛n ⎞ 2∑ ⎜⎜ ij ⎟⎟ − ∑ ⎜⎜ i• ⎟⎟ − ∑ ⎜⎜ • j ⎟⎟ 2 2 2 Rand = 1 + i , j ⎝ ⎠ i ⎝ ⎠ j ⎝ ⎠ . ⎛N⎞ ⎜⎜ ⎟⎟ ⎝2⎠ ARand-индекс. Недостатком Rand-индекса является то, что с ростом числа
классов наблюдается систематическое смещение его значений в сторону увеличения. По этой причине на практике обычно используется так называемый уточненный Rand-индекс (ARand-индекс), который определяется следующим образом:
184
ARand =
Rand − E (Rand ) , 1 − E (Rand )
где E (Rand ) – математическое ожидание Rand-индекса для случая, когда классификации объектов являются независимыми и таблица сопряженности получается
случайным
образом
из
обобщенного
гипергеометрического
распределения. Выражение для вычисления ARand принимает следующий вид: ⎛ nij ⎞
ARand =
⎛ ni• ⎞
⎛ n• j ⎞ ⎛ N ⎞
∑ ⎜⎜ 2 ⎟⎟ − ∑ ⎜⎜ 2 ⎟⎟∑ ⎜⎜ 2 ⎟⎟ /⎜⎜ 2 ⎟⎟
⎝ ⎠ i ⎝ ⎠ j ⎝ ⎠ ⎝ ⎠ . ⎛ ⎞ n n n n N ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ 1 ⎜ ∑ ⎜⎜ i• ⎟⎟ + ∑ ⎜⎜ • j ⎟⎟ ⎟ − ∑ ⎜⎜ i• ⎟⎟∑ ⎜⎜ • j ⎟⎟ / ⎜⎜ ⎟⎟ 2 ⎜⎝ i ⎝ 2 ⎠ j ⎝ 2 ⎠ ⎟⎠ i ⎝ 2 ⎠ j ⎝ 2 ⎠ ⎝ 2 ⎠ i, j
После выбора конкретной меры близости актуальным становится вопрос о значимости полученного результата ее измерения (например, не является ли существенное значение меры близости двух разбиений следствием простой случайности). В первую очередь необходимо определиться с нулевой гипотезой о независимости двух разбиений, в качестве которой можно использовать гипотезу независимости двух категориальных признаков в виде H 0 : π ij = π i•π • j для i = 1, ..., k и j = 1, ..., l , в которой речь идет о модели мультиномиальной выборки. Рассмотрим задачу выбора «наиболее» подходящей меры близости в рамках следующих условий: − имеется обучающая выборка, включающая эталонную классификацию (число классов и отнесение объектов к одному из классов); − имеется метод кластерного анализа, оценивающий параметры кластеров при различном их числе (например, EM-алгоритм оценивания параметров смеси нормальных многомерных распределений); − требуется
выбрать
некоторую
меру
близости,
нагляднее
всего
отражающую способность данного метода кластерного анализа и процедуры перебора кластеров «точно» оценивать их число.
185
Объектом анализа служило реальное множество объектов – массив «Reuters-21578-6». Для отдельной меры близости построим график ее значений при сравнении классификации, полученной при некотором числе кластеров, с эталонной. Попутно, для того чтобы удостовериться в «правильности» результатов
кластерного
независимости
анализа,
указанных
проверим
классификаций.
нулевую
Принимая
гипотезу во
H0
внимание,
о что
аналитически реализовать это не удается, прибегнем к методу моделирования. Для этого при условии H 0
найдем для выбранной меры близости оценку
доверительного интервала (далее через
Pc
обозначим соответствующую
доверительную вероятность). Отдельные значения меры представим как в исходном виде, так и в виде St (Rand ) – центрированных и нормированных с помощью выборочных моментов меры при H 0 значений Rand-индекса. Дело в том, что последнее представление оказывается более предпочтительным для сравнения значений меры близости при различном числе классов. Для подтверждения предлагаемых решений на рис. 39 приведено поведение Randиндекса
в
случае,
когда
эталонная
классификация
случайным
образом
перемешивается, т. е. в случае выполнения H 0 . При моделировании число испытаний бралось равным 10 000, а Pc = 100 % . 1,0 0,9 0,8 0,7
Rand
0,6
Rand
0,5
границы
0,4 0,3 0,2 0,1 0,0 1
6
11
16
k
21
26
186
Рис. 37. Поведение Rand-индекса и оценок границ доверительного интервала для него в зависимости от числа кластеров k для массива «Reuters-21578-6»
60 50
St(Rand)
40 30
St(Rand) границы
20 10 0 -10 1
6
11
16
21
26
k
Рис. 38. Поведение St(Rand) и оценок границ доверительного интервала для него в зависимости от числа кластеров k для массива «Reuters-21578-6»
0,8
0,7
Rand
0,6
Rand
0,5
границы
0,4
0,3
0,2 1
6
11
16
21
26
k
Рис. 39. Поведение Rand-индекса и оценок границ доверительного интервала для него в зависимости от числа кластеров k для «случайных» данных
Для выбора подходящей меры необходимые графики сведены в табл. 64.
Анализ табл. 64 позволяет сделать следующие выводы: − энтропийная мера близости E не подходит для демонстрации возможности «точно» оценивать число кластеров; меркнут в этом смысле и достоинства B-меры, заявленные в [FM83];
188
− предпочтительным оказывается использование
χ2
и
Rand
мер
близости, причем при представлении этих характеристик в виде центрированных и
нормированных
значений,
что
подразумевает
использование
метода
моделирования для оценивания первых двух моментов мер близости; − без привлечения метода моделирования вполне удовлетворительные результаты дает использование мер ARand
и F, которые используются в
настоящей работе в качестве основных.
6.3. Вероятностные методы кластерного анализа При проведении кластерного анализа массивов текстов в рамках вероятностно-статистического подхода предполагается, что исходное множество векторов текстов представляет собой выборку из смеси распределений k
f (u ) = ∑ p j f (u ,ϑ j ) ,
(8)
j =1
где k – число элементов смеси, p j и f (u ,ϑ j ) – вероятность и плотность распределения элемента смеси с номером j = 1, ..., k . В данном случае каждый элемент смеси с номером j соответствует отдельной группе (классу) похожих объектов ω j ,
j = 1, ..., k , и задача кластерного анализа сводится к оценке
параметров элементов смеси распределений. Ключевые задачи при использовании данного подхода – это выбор вида вероятностного распределения для отдельных элементов смеси и построение эффективного алгоритма для оценки параметров элементов смеси. Наибольшее распространение при обработке текстовых данных получили такие же вероятностные распределения, как и при решении задач классификации: − многомерное нормальное распределение; − вероятностные анализаторы главных компонент; − многомерное распределение Бернулли; − полиномиальное распределение; − распределение фон Мизеса–Фишера;
189
− распределение Бингхама. Рассмотрим
теперь
более
подробно,
как
осуществляется
синтез
эффективных алгоритмов оценивания параметров элементов смеси в случае использования многомерного нормального распределения и его специального варианта – вероятностных анализаторов главных компонент. При оценивании неизвестных параметров элементов смеси (8) широкое распространение получил метод максимального правдоподобия. В рамках данного метода центральным становится решение следующей оптимизационной задачи: max log L(Θ ) ,
определенная матрица, j = 1, ..., k , k – число элементов смеси (предполагается заранее известным). Для нахождения максимума выражения (9) чаще всего применяется ЕМалгоритм [MP00]. В нем предполагается, что наблюдаемые данные являются неполными. Полные же данные включают, помимо векторов текстов xi , векторы индикаторных переменных
zi = ( zi1 , ..., zik ) , где zij = 1 , если xi принадлежит
элементу смеси с номером j, и zij = 0 – в противном случае. В результате для полных данных ( x1 , z1 ), ..., ( xn , zn ) логарифм функции правдоподобия принимает n
k
вид log LC (Θ ) = ∑∑ zij log( p j f ( xi , μ j , Σ j )). Схема работы ЕМ-алгоритма для i =1 j =1
случая использования нормального распределения выглядит следующим образом.
1. Положить t = 0 и задать начальные значения параметров смеси Θ(t ) . 2. Найти оценки апостериорных вероятностей g ij (t ) = g ij ( x i , p j (t ), μ j (t ), Σ j (t )) и выписать выражение для математического ожидания логарифма функции правдоподобия
3. Найти такие значения Θ(t + 1) , при которых достигает своего максимального значения величина Q(Θ; Θ(t )) по Θ (М-шаг). 4. Завершить процесс нахождения оценки параметров смеси, если эти оценки являются подходящими, или положить t = t + 1 и перейти к шагу 2 в противном случае. █ Таким
образом,
на
Е-шаге
требуется
вычисление
апостериорных
вероятностей g ij (t ) =
p j (t ) f ( xi , μ j (t ), Σ j (t )) k
∑ p (t ) f ( x , μ l =1
l
i
l
,
(t ), Σl (t ))
где i = 1, ..., n и j = 1, ..., k . В свою очередь, для нахождения максимума Q(Θ; Θ(t )) на М-шаге достаточно
найти
отдельно
максимумы
выражений
n
k
∑∑ g i =1 j =1
n
k
∑∑ g i =1 j =1
ij
ij
log( p j )
и
log( f ( xi , μ j , Σ j )) .
Отсюда можно показать, что максимум следующих значениях параметров:
Q(Θ; Θ(t ))
достигается при
191
⎛ n ⎞ ⎛ n ⎞ 1 n p j (t + 1) = ∑ g ij (t ) , μ j (t + 1) = ⎜ ∑ g ij (t )xi ⎟ / ⎜ ∑ g ij (t ) ⎟ , n i =1 ⎝ i =1 ⎠ ⎝ i =1 ⎠ n ⎛ n ⎞ T ⎞ ⎛ Σ j (t + 1) = ⎜ ∑ g ij (t )( xi − μ j (t + 1))( xi − μ j (t + 1)) ⎟ / ⎜ ∑ g ij (t ) ⎟ , ⎝ i =1 ⎠ ⎝ i =1 ⎠
где j = 1, ..., k . После нахождения оценок параметров смеси становится возможным проведение разбиения (классификации) объектов по классам. Для этого вычисляются оценки апостериорных вероятностей gij ( xi , Θ∗j ) , где Θ∗j – значения оценок параметров элементов смеси, i = 1, ..., n, j = 1, ..., k . Полученные оценки gij ( xi , Θ∗j ) служат элементами эмпирического байесовского классификатора, что позволяет принимать решение о принадлежности элемента обучаемой выборки к одному из кластеров. В частности, при единичной функции потерь каждое xi относится к тому кластеру с номером t, для которого
gij
достигает
максимального значения, т. е. g it > g ij , j = 1, ..., k и j ≠ t. Применение EM-алгоритма в описанном виде встречает как общие для итерационных процедур трудности (не определены способ задания начального приближения на первом шаге, критерий завершения работы на последнем шаге, исходное число элементов смеси), так и порождает специфические для обработки массивов
текстовых
данных
проблемы
(большие
объемы
данных,
«вырожденность данных», приводящая к устремлению функции правдоподобия к бесконечности при реализации М-шага алгоритма). Рассмотрим далее варианты решения возникающих в связи с этим задач. Задание начальных приближений. Для этого в настоящее время
предложено большое число разнообразных алгоритмов, которые группируются в рамках следующих общих подходов: − случайный выбор; − применение отличных от EM-алгоритма, обычно более «быстрых» процедур кластерного анализа;
192
− построение разбиения объектов на кластеры в пространстве сниженной размерности. Первый подход к заданию начального приближения заключается в задании параметров элементов смеси случайным образом. При этом встречается множество вариантов данного подхода [MP00]. Например, предполагается, что кластеры равновероятны, центры же кластеров генерируются равномерно распределенными в некоторой области, а ковариационные матрицы у всех элементов смеси полагаются равными единичной матрице. Второй поход заключается в использовании какого-либо быстрого алгоритма кластерного анализа, основанного на расстояниях, для получения первоначального разбиения объектов на кластеры, а затем использования оценок средних и ковариационных матриц полученных кластеров в качестве оценок параметров элементов смеси. Например, в ряде работ [Еню86, MP00, FRB98] описывается использование для этих целей алгоритма k-средних, алгоритмов агломеративной иерархической классификации с различными видами расстояний, алгоритмов модельной иерархической классификации. Третий подход заключается в построении разбиения объектов на кластеры в пространстве сниженной размерности. Например, для построения начальных оценок параметров элементов смеси можно объединять результаты разбиения имеющихся объектов на кластеры, полученные для отдельных размерностей пространства признаков. Идеям снижения размерности, рассмотренным в соответствующем разделе данной работы, отвечает другой прием: строить проекции исходных данных и проводить разбиение объектов на кластеры в пространстве сниженной размерности, а затем использовать полученное разбиение для уточнения оценки параметров элементов смеси в пространстве большей размерности. Для повышения эффективности различных подходов в построении начальных приближений в условиях больших объемов данных применяется следующий прием: многократно решать ту или иную задачу анализа данных на подмножестве исходных документов, случайно выбранных из исходного массива, а затем усреднять получаемые результаты.
193
Проведенный сравнительный анализ различных алгоритмов, реализующих все перечисленные подходы, позволяет сделать общий вывод: с позиций качества получаемых итоговых оценок параметров кластеров эти алгоритмы практически идентичны. Завершение работы EM-алгоритма. Обычным приемом при задании
критерия окончания итерационных алгоритмов является сравнение значений переменных, получающихся на последующих шагах поиска решения задачи. Сравнение аргументов поиска экстремума функции правдоподобия – достаточно сложная задача хотя бы по той причине, что в нем должны участвовать разнотипные переменные: в случае нормального многомерного распределения вектор весов p, набор векторов средних и, наконец, набор ковариационных матриц. При этом решение необходимо принимать простое: продолжать или не продолжать итерационный процесс. Наиболее часто в качестве критерия завершения работы ЕМ-алгоритма используется следующее правило: как только относительное приращение L(Θ(t )) на последовательных шагах итерационного процесса становится меньше заданного порога, процесс оценивания прекращается. Хотя в ряде случаев может возникнуть
ситуация
[Boy83],
когда
сходимость
значений
функции
правдоподобия не приводит автоматически к сходимости оценок Θ(t ) при t → ∞ к некоторому вектору Θ* . Оценка числа элементов смеси. Метод максимального правдоподобия
напрямую не дает для данной задачи решения, имеющего практический смысл. Действительно, рассмотрим в пространстве всевозможных значений векторов
Θ = ( p,ϑ ) = ( p1 , ..., pn , ϑ1 , ..., ϑn ) множество Δ k = {( p,ϑ ) : pk +1 = ... = pn = 0} и поведение функции правдоподобия. Тогда, если
δ ∈ Δk ,
то
δ ∈ Δ k +1.
Следовательно, max L( x, Θ) ≤ max L( x, Θ) . Отсюда получаем Δk
Δ k +1
max L( x, k , p,ϑ ) = max{max L( x, k , p,ϑ )} ≤ max L( x, k , p,ϑ ) = max L( x, n, p,ϑ ). k , p ,ϑ
k
Δk
Δn
p ,ϑ
Пусть max f ( xi ,ϑ ) достигается при ϑ * ( xi ). Тогда в итоге имеем: ϑ
194 n
n
n
n
n
max L( x, n, p,ϑ ) = max ∏∑ p j f ( xi ,ϑ j ) ≤ ∏∑ p j f ( xi ,ϑ ( xi )) = ∏ f ( xi ,ϑ * ( xi )) . p ,ϑ
p ,ϑ
i =1 j =1
*
i =1 j =1
i =1
Таким образом, с точки зрения принципа максимального правдоподобия нужно взять n элементов смеси, связав каждый из этих элементов с отдельным наблюденным значением. В силу неинформативности подобной оценки на практике обычно используется следующая схема оценивания параметров смеси. Сначала задается верхняя граница для возможного числа элементов смеси kmax , и находятся оценки параметров p и ϑ для последовательности фиксированных значений k = 1, ..., kmax . Далее тем или иным способом подбирается «наилучшее» значение k * ∈ {1, ..., kmax }, которое выступает в качестве оценки числа элементов смеси. Проверка гипотезы о числе элементов смеси является важной, но крайне сложной задачей. Обычно проблему обоснования множественного выбора подходящего значения для оценки k ∗ , где k ∗ ∈ {1, 2, ...}, заменяют выбором одного из решений более простых задач сравнения двух предположений: число элементов смеси равно k1∗ или k2∗ , где k1∗ < k2∗ . Так как при анализе данных исследователь чаще всего следует принципу минимизации размерности параметрического пространства, последнюю задачу еще упрощают и рассматривают случай k 2∗ = k1∗ + 1. При этом путем последовательного (начиная со значения k1∗ = 1) перебора предположений ищется такое минимальное число элементов смеси, более которого не имеет смысла усложнять модель. Формально это выглядит следующим образом. Рассмотрим гипотезу H k о том, что число элементов смеси равно k. Задачу оценивания
Ak , включающих нулевую гипотезу H k В качестве оценки
k∗
и
возьмем такое
минимальное значение k, для которого при анализе альтернатив
A1 , ..., Ak −1
предпочтение было отдано конкурирующей гипотезе, а при анализе Ak – нулевой гипотезе.
195
В рамках принципа максимального правдоподобия для обоснования выбора подходящего значения для оценки числа элементов смеси естественно обратиться к критерию отношения правдоподобия. К сожалению, даже в случае нормального распределения выполняются
элементов условия,
правдоподобия
в
для при
подходящем
общей
модели
которых виде
смеси
статистика имеет
распределений
критерия
привычное
не
отношения
асимптотическое
χ 2 -распределение с числом степеней свободы, равным разнице в числе параметров
при
двух
конкурирующих
гипотезах.
Имеющиеся
попытки
аппроксимации распределения статистики критерия отношения правдоподобия обосновываются общими соображениями или методом моделирования в частных случаях. В создавшейся ситуации приходится прибегать к процедурам, в основе которых лежит использование бутстреп-метода. Рассмотрим одну из них – параметрическую процедуру оценки качества принятого решения о числе элементов смеси. В основу различения гипотез положим критерий отношения правдоподобия, статистика которого имеет вид ~ sk =
max ln L(k , Θ) Θ
max ln L(k + 1, Θ)
.
Θ
Далее удобно рассматривать несколько иную форму статистики этого критерия:
sk = − ln ~ sk . Тогда нулевой гипотезе будет отдаваться предпочтение при малых значениях этой статистики, а конкурирующей гипотезе – при больших. Для реализации предложенной процедуры в случае слабого критерия значимости необходимо знать распределение FSk H k
статистики Sk
критерия при условии нулевой
гипотезы H k . Тогда в терминах критического уровня значимости решения будут приниматься по величине α k* = 1 − FSk H k ( sk* ) , где sk* – наблюденное значение статистики критерия. Построить теоретически распределение FSk H k вряд ли возможно, поэтому необходимо прибегнуть к бутстреп-методу. В случае слабого критерия
196
значимости это означает, что вместо α k* = 1 − FSk H k ( sk* ) рассматривается бутстрепоценка
α kB = 1 − FSBk H k ( sk* ) , где FSBk H k (u ) – бутстреп-распределение. Более четкую информацию для принятия решения о числе элементов смеси можно получить из значений ошибок второго рода β при фиксированной ошибке первого рода α , а именно
((
β kB = FSBk H k +1 FSBk H k
) (1 − α )). −1
В рассматриваемом случае бутстреп-распределения
k = 1, 2, ... и
FSB H (u ), k
j
j − k = 0, 1, могут быть получены только методом моделирования, схема которого при фиксированных значениях k и j такова:
− нахождение оценок Θ* ( j ) параметров Θ( j ) по исходной выборке при условии, что число элементов смеси равно j;
− генерация нужного числа наблюденных значений статистики критерия отношения правдоподобия, состоящая из двух шагов: генерации выборки из смеси распределений с параметрами Θ* ( j ) и подсчета значений статистик max ln L(k , Θ) Θ
и
max ln L(k + 1, p,ϑ ) Θ
(включающего опять же оценивание
параметров Θ, но уже по сгенерированной выборке и для двух различных значений числа элементов смеси, а именно k и k + 1 ). Использование
бутстреп-метода
приводит
к
достаточно
большим
вычислительным затратам. По этой причине на практике часто пытаются получить информацию о реальном числе элементов смеси
k*
исходя из
поведения функции правдоподобия, хотя принцип максимального правдоподобия сам по себе не позволяет получить решение задачи оценивания числа элементов смеси. Рис. 40 дает представление о поведении max ln L(k , Θ) как функции от Θ
предполагаемых значений числа k элементов смеси. Из него видно, что
197
исследуемая функция «существенно» изменяется лишь до некоторого значения k, которое и можно неформально принять за оценку искомого числа элементов смеси. 2.2E+04
MaxLn
2.0E+04
1.7E+04
1.5E+04
1.2E+04 1
5
9
13
17
21
25
29
k Рис. 40. Поведение max ln L(k , Θ) (обозначено как MaxLn) в зависимости от числа Θ
кластеров k для массива «Reuters-21578-6»
Дальнейшим развитием приема анализа степени изменения max ln L(k , Θ) Θ
стали идеи подбора модели (в данном случае определенная модель соответствует некоторому значению k) с помощью некоторого показателя (меры) адекватности модели, являющегося компромиссом между приспособленностью модели и ее сложностью. Перебирая различные варианты модели (различные значения k), отдают предпочтение тому из них, которому соответствует экстремум (далее максимум) выбранного показателя. Сложность модели смеси нормальных многомерных распределений, в частности, характеризует число свободных параметров, для которого примем следующее обозначение:
n(n + 1) ⎤ ⎡ . v(k ) = (k − 1) + k ⎢n + 2 ⎥⎦ ⎣ Рассмотрим далее критерии, связанные с различными мерами адекватности.
198
Информационный критерий Akaike. Основывается на асимптотической
теории распределения функции правдоподобия и определяется показателем следующего вида:
AIC (k ) = 2 L(k , Θ* ) − 2v(k ) или его модифицированной формой AIC 3(k ) = 2 L(k , Θ* ) − 3v(k ).
Байесовский критерий. Основывается на аппроксимации интегрального
правдоподобия и определяется показателем следующего вида:
BIC (k ) = 2 L(k , Θ* ) − v(k ) ln n . Классификационные критерии. Основываются на предположении, что
модель смеси описывает отделяемые друг от друга кластеры. Рассмотрим следующее разложение функции правдоподобия:
L ( k , Θ) = C ( k , Θ) + E ( k , Θ) ,
(10)
где
C (k , Θ) = ∑∑ gij ⋅ ln ( p j f ( xi ,ϑ j ) ) , k
n
j =1 i =1
k
n
E (k , Θ) = −∑∑ gij ⋅ ln g ij и E (k , Θ) ≥ 0. j =1 i =1
Из представления (10) получаем
C ( k , Θ) = L ( k , Θ) − E ( k , Θ) .
(11)
Если элементы смеси хорошо отделимы, то матрица апостериорных вероятностей G = ( gij ) определяет разбиение элементов x1 , ..., xn и E (k , p,ϑ ) ≈ 0. В противном случае E (k , p,ϑ ) принимает большие значения. Как следствие, энтропия классификационной матрицы G может нести информацию о числе кластеров. При этом (11) показывает, что классификационное правдоподобие
C (k , p,ϑ ) может рассматриваться как компромисс между адекватностью модели смеси имеющимся данным, измеренной с помощью правдоподобия L(k , p,ϑ ), и способностью модели смеси порождать разбиение данных, измеренное с
199
помощью энтропии классификации E (k , p,ϑ ). Поэтому основой критерия может стать классификационное правдоподобие C (k , p * ,ϑ * ). В заключение необходимо упомянуть об аппроксимации интегрального классификационного правдоподобия в духе байесовского критерия. Она приводит к следующему показателю:
Рис. 41. Поведение мер адекватности моделей для массива «Reuters-21578-6»
Из проведенных исследований (частично представленных на рис. 41) следует, что перечисленные критерии скорее подтверждают наличие кластерной структуры, нежели дают оценку для числа кластеров. Повышение вычислительной эффективности EM-алгоритма. Подходы
к повышению вычислительной эффективности приведенного классического варианта EM-алгоритма можно разбить на два следующих типа: основанные на задании дополнительных ограничений на параметры элементов смеси и основанные на изменении схемы работы ЕМ-алгоритма.
200
Подходы, основанные на задании дополнительных ограничений на параметры элементов смеси, обычно применяются при наличии некоторых дополнительных сведений о характере обрабатываемых данных. В этом случае введение дополнительных ограничений на параметры элементов смеси позволяет, с одной стороны, учесть специфику обрабатываемых данных (уточнить модель данных), а с другой стороны, за счет уменьшения числа оцениваемых параметров снизить требования к объему оперативной памяти и вычислительную сложность. Например, если известно, что информационные признаки независимы, то можно ограничиться использованием диагональных ковариационных матриц. В этом случае сложность Е-шага составит O(knm ) флопов, а М-шага – O(knm ) флопов,
(
)
(
)
вместо O knm2 на Е-шаге и O km3 + knm2 на М-шаге при использовании полных ковариационных матриц. Введение данного ограничения является частным случаем подхода, предложенного в работе [BR91], в рамках которого для задания различных ограничений на вид ковариационных матриц элементов смеси Σ j предлагается воспользоваться вариантом спектрального разложения данных матриц и представить их в следующей форме:
Σ j = λ j 0U j Λ jU Tj , где U j
– ортогональная матрица, столбцы которой являются собственными
векторами матрицы Σ j , λ j 0 Λ j – диагональная матрица с упорядоченными по убыванию собственными значениями матрицы
Σj,
λ j0
– нормирующий
множитель, j = 1, ..., k . Значения λ j 0 выбираются таким образом, чтобы либо Λ j = 1, либо λ j11 = 1 . При таком представлении матрицы Σ j параметр λ j 0
определяет «объем», диагональная матрица Λ j
– форму, а матрица U j
–
ориентацию в пространстве признаков кластера, соответствующего данному элементу смеси. Путем фиксации данных параметров можно задать различные ограничения на ковариационные матрицы. Например, если положить U j = I ,
j = 1, ..., k , то это будет соответствовать случаю, когда все ковариационные матрицы являются диагональными.
201
Другой подход к заданию ограничений основывается на использовании модели смеси факторных анализаторов [GH96], частным случаем которой является модель смеси вероятностных анализаторов главных компонент (PPCA) [TB98].
В
этой
модели
используется
предположение,
что
наблюдения,
относящиеся к отдельным элементам смеси, описываются с помощью небольшого числа q < m ненаблюдаемых факторов. В частности, пусть x – случайный вектор размерности m, принадлежащий j-му элементу смеси. Тогда в соответствии с (7) предполагается, что
x = Wj y + μ j + ε j , где y ~ N (0, I ) – случайный вектор скрытых переменных, μ j – вектор средних
ε ~ N (0,σ 2j I ) – не зависящий от y случайный вектор,
N μ j ,W jW jT + σ 2j I . Предположение, используемое в данной модели, хорошо согласуется с экспериментально установленным свойством кластеров текстов, заключающемся в том, что основную «смысловую» нагрузку несут собственные векторы, соответствующие наибольшим собственным значениям ковариационных матриц кластеров. С вычислительной точки зрения, использование модели смеси PPCA позволяет снизить число вычисляемых элементов ковариационных матриц кластеров с m(m − 1) / 2 до qm + 1. Подходы,
основанные
на
изменении
схемы
работы
стандартного
ЕМ-алгоритма, носят общий характер и обычно не зависят от конкретного вида функции
плотности
и
характера
обрабатываемых
распространенными являются следующие:
− последовательный ЕМ-алгоритм; − разреженный ЕМ-алгоритм; − классификационный ЕМ-алгоритм; − обобщенный ЕМ-алгоритм; − алгоритм на основе MRKD-деревьев;
данных.
Наиболее
202
− алгоритм на основе алгоритмов минимизации функций многих переменных. В
последовательном
ЕМ-алгоритме
[NH98]
множество
имеющихся
наблюдений разбивается на некоторое число непересекающихся блоков и за одну итерацию на Е-шаге осуществляется обновление апостериорных вероятностей не для всех наблюдений, а только для одного блока. При этом М-шаг выполняется обычным образом. В результате использования данного метода вычислительную сложность стандартного ЕМ-алгоритма удается снизить на 20–70%. В разреженном ЕМ-алгоритме [NH98] для снижения вычислительной сложности
Е-шага
предлагается
осуществлять
обновление
только
тех
апостериорных вероятностей gij , i = 1, ..., n , j = 1, ..., k , которые выше некоторого небольшого порогового значения. Данный метод можно совместно использовать с последовательным EM-алгоритмом. В этом случае на отдельных массивах сложность
вычислений
уменьшается
еще
на
25%
по
сравнению
с
последовательным EM-алгоритмом [NM02]. В
классификационном
ЕМ-алгоритме
на
Е-шаге
апостериорным
вероятностям gij присваиваются только дискретные значения из множества {0, 1}. В результате этого на М-шаге при вычислении ковариационных матриц можно
учитывать
только
векторы
наблюдений,
которым
соответствуют
ненулевые значения gij . Недостатком этого алгоритма является отсутствие формального обоснования его сходимости к локальному максимуму функции правдоподобия [MB88] и более низкое по сравнению с классическим ЕМалгоритмом качество получающихся разбиений [NH98]. Данный алгоритм часто используется для получения начального приближения параметров, которое потом уточняется с помощью обычного ЕМ-алгоритма. В работе [Moo99] предлагается подход к повышению эффективности ЕМалгоритма, основанный на использовании MRKD-деревьев (Multiresolution Kdimensional binary search trees). Повышение эффективности работы стандартного ЕМ-алгоритма достигается за счет выполнения разбиения пространства признаков на иерархически взаимосвязанные области, а затем за счет использования вместо
203
самих векторов усредненных по областям значений векторов наблюдений. Однако данный алгоритм дает выигрыш в скорости работы только при небольших размерностях пространства признаков [NM02]. Для снижения вычислительной сложности и упрощения вычисления на Мшаге в обобщенном ЕМ-алгоритме [DLR77] предлагается за одну итерацию на Мшаге находить оценки только части параметров. Например, в работе [MP00a] множество оцениваемых параметров Θ разбивается на два множества: Θ1 и Θ2 . На одном шаге итерации EM-алгоритма попеременно реализуется оценивание параметров первого или второго множества, например то находятся оценки параметров из Θ1 при фиксированных значениях параметров из Θ2 , то из Θ2 при фиксированных значениях параметров из Θ1 . В работе [Mcl96] также рассматриваются различные подходы к повышению скорости сходимости ЕМ-алгоритма за счет применения методов минимизации функций многих переменных (методы градиентного спуска, метод сопряженных градиентов, метод Ньютона и т. п.). Недостатком данных методов является чрезмерное усложнение исходного ЕМ-алгоритма и значительное повышение вычислительной сложности при обработке данных большой размерности. Необходимо отметить, что если в рамках подходов, основанных на задании дополнительных ограничений на параметры элементов смеси, при удачном задании этих ограничений удается понизить вычислительную сложность на несколько порядков, то при использовании подходов, основанных на изменении схемы работы ЕМ-алгоритма, речь может идти в лучшем случае о снижении вычислительной сложности всего в несколько раз. Учитывая, что для обеспечения приемлемой скорости обработки текстовых данных требуется значительное снижение вычислительной сложности стандартного ЕМ-алгоритма, то наиболее интересным представляется исследование возможности применения подходов первого
типа.
Подходы
же
второго
типа
можно
рассматривать
как
дополнительное средство снижения вычислительной сложности. При проведении кластерного анализа больших массивов текстов, размер которых
превышает
объем
оперативной
памяти,
требуется
разработка
204
модифицированных
алгоритмов
кластерного
анализа,
обеспечивающих
возможность последовательной (блочной) обработки данных. Необходимо отметить, что не все рассмотренные алгоритмы кластерного анализа допускают возможность построения последовательных модификаций. Наиболее естественным образом последовательные модификации строятся для алгоритмов, основанных на смеси распределений или сводящихся к ним (например, алгоритм k-средних, нечеткий алгоритм k-средних). Алгоритм
k-ближайших соседей и агломеративные иерархические алгоритмы требуют присутствия в памяти всей матрицы данных и не допускают последовательной обработки данных. В большинстве работ [MP00, Sat99, NH98] построение последовательных модификаций для алгоритмов кластерного анализа, основанных на смеси распределений, опирается на представление оцениваемых параметров с помощью достаточных статистик, которые оцениваются отдельно для каждого блока наблюдений.
в
Разработанные
указанных
источниках
последовательные
алгоритмы обеспечивают снижение вычислительной сложности, но не требований к оперативной памяти, которой, как и в стандартном ЕМ-алгоритме, требуется порядка O(n ) , где n – число наблюдений. В настоящей работе рассматривается последовательный вариант ЕМалгоритма оценивания параметров смеси, требования к памяти которого не зависят от числа обрабатываемых наблюдений. Далее в качестве примера рассмотрим реализацию данного алгоритма для случая оценивания параметров смеси многомерных нормальных распределений. Пусть исходный массив текстов разбит на B блоков и справедливы следующие соотношения: B
n
T = ∑ T = ∑ gij , T = P j
b =1
B
P jb
i =1
n
P jb
nb
T jM = ∑ T jbM = ∑ gij xi , T jbM = b =1
i =1
∑g
i = nb −1 +1
ij
nb
∑g
i = nb −1 +1
,
x ,
ij i
205 B
n
T = ∑T = ∑ g x x , T = C j
b =1
C jb
C jb
T ij i i
i =1
nb
∑g
i = nb −1 +1
T ij i i
xx ,
где gij – апостериорная вероятность класса j = 1, ..., k при наличии наблюдения
i = 1, ..., n, nb – число наблюдений в блоке b = 1, ..., B,
B
∑ nb = n.
Основные
b =1
оцениваемые параметры элементов смеси p j , μ j , Σ j , j = 1, ..., k , представляются через данные статистики следующим образом:
pj =
μj =
T jP n T jM T jP
,
,
T jM ⎛ T jM Σj = P − P ⎜ P Tj T j ⎜⎝ T j T jC
В
результате
последовательный
T
⎞ ⎟ . ⎟ ⎠
ЕМ-алгоритм
можно
представить
следующим образом. Схема последовательного ЕМ-алгоритма для смеси многомерных нормальных распределений
1. Вычислить начальное разбиение документов на кластеры с помощью последовательного алгоритма k-средних. Построить начальные оценки параметров элементов смеси ( p j , μ j , Σ j ) на основе вектора классификации, положить t = 1 . 2. Положить достаточные статистики T jP = 0 , T jM = 0 , T jC = 0 , j = 1, ..., k и для каждого блока наблюдений b = 1, ..., B выполнить следующие шаги: a. вычислить
апостериорные
вероятности
i = nb −1 + 1, ..., nb из блока b, где gij =
gij
для
p j (t ) f (xi ,θ j (t )) k
∑ p (t ) f (x ,θ (t )) s =1
s
i
s
b. вычислить T jbP , T jbM и T jbC ; c. положить T jP = T jP + T jbP , T jM = T jM + T jbM , T jC = T jC + T jbC .
;
наблюдений
206
3. Вычислить p j (t +1) =
T jP n
, μ j (t +1) =
T jM T
P j
, Σ j (t + 1) =
T jC T
P j
− μ j (t + 1)μ j (t + 1) . T
4. Если алгоритм не закончил свою работу, то перейти к шагу 2. █ Несложно заметить, что приведенный алгоритм полностью эквивалентен классическому ЕМ-алгоритму с точки зрения вычисляемых оценок параметров. Сравним
теперь
требования
к
памяти,
предъявляемые
данными
алгоритмами. Для хранения оценок параметров в классическом алгоритме используется k скаляров p j , k векторов μ j длины m и k матриц Σ j размера ( m × m ). В последовательном алгоритме к ним добавляются следующие достаточные статистики: k скаляров T jP , k векторов T jM длины m, k матриц T jC размера ( m × m ), т. е. для хранения оценок параметров в последовательном алгоритме требуется в два раза больше памяти. В то же время в стандартном алгоритме на Е-шаге для хранения матрицы апостериорных вероятностей G требуется kn ячеек памяти, а для хранения матрицы наблюдений X требуется mn ячеек памяти. В последовательном алгоритме требуется присутствие в памяти только одного блока наблюдений и оценок апостериорных вероятностей для него. Если в этой ситуации все блоки наблюдений имеют одинаковый размер, то последовательный алгоритм потребует в B раз меньше оперативной памяти по сравнению со стандартным алгоритмом. Таким образом, использование разработанного в настоящей работе последовательного алгоритма оценивания параметров кластеров совместно с разработанным
в
работе
[КВ04]
последовательным
методом
снижения
размерности позволяет организовать полностью последовательную обработку больших массивов текстов. Обработка текстовых данных при нарушении условия ограниченности функции правдоподобия. Существенным недостатком EM-алгоритма является
возможность
обработки
только
ограниченной
по
величине
функции
правдоподобия [АБЕ89]. В большинстве случаев кластерам текстовых данных присуща размерность параметрического пространства меньшая, чем принятая для совокупности кластеров, что приводит к вырождению функции правдоподобия
207
при использования стандартного ЕМ-алгоритма. Это вызывает необходимость использования
уточненной
(невырожденной)
модели
смеси
многомерных
нормальных распределений, в которой введены ограничения на множество возможных значений ковариационных матриц элементов смеси, обеспечивающие невырожденность их оценок. Рассмотрим, как могут быть введены данные ограничения. Пусть все собственные значения λi (Σ j ) всех ковариационных матриц Σ j элементов смеси ограничены снизу некоторой положительной константой λ0 , т. е. λi (Σ j ) ≥ λ0 > 0 , i = 1, ..., m. Заметим, что в этом случае Σ j положительно определенная матрица, поэтому
Σ −j 1
также положительно определенная.
Учитывая ограничения на собственные числа матрицы Σ j , получаем, что собственные числа λi (Σ −j 1 ) матрицы Σ −j 1 должны удовлетворять следующим неравенствам: 0 < λi (Σ −j 1 ) ≤ λ0−1 , i = 1, ..., m. Для реализации М-шага ЕМ-алгоритма необходимо и достаточно для n
каждого допустимого значения j найти решение задачи max ∑ g ij ⋅ ln f ( xi , μ j , Σ j ) . μ j ,Σ j i =1
Последняя эквивалентна задаче минимизации функции n ⎛ n ⎞ −1 ϕ ( μ j , Σ ) = −⎜ ∑ gij ⎟ ln Σ j + ∑ gij ( xi − μ j )T Σ −j1 ( xi − μ j ). ⎝ i =1 ⎠ i =1 ∗
−1 j
Обозначим через
λ(i )
(12)
i-й по порядку элемент в упорядоченной по
возрастанию последовательности значений λi , i = 1, ..., m. Лемма 4. Если B = {bij } – некоторая симметричная матрица с собственными
значениями λi , то λ(1) ≤ bii ≤ λ( m ) , i = 1, ..., m. Доказательство.
B
–
симметричная
матрица,
тогда
существуют
ортогональная матрица O и диагональная матрица Λ = diag (λ1 , ..., λm ) , что
B = O T ΛO . Отсюда сразу же следуют требуемые неравенства, например 2 2 bii = λ1oi21 + ... + λmoim ≤ λ( m )oi21 + ... + λ( m )oim = λ( m ) ,
208
что и требовалось доказать. █ Для упрощения записи при фиксированном значении j введем следующие обозначения: b = (b1 , ..., bm )T = μ j , G = Σ −j 1 , ϕ ∗ = ϕ ∗ ( μ j , Σ −j 1 ) , n
n
i =1
i =1
ei = g ij , i = 1, ..., n, w = ∑ ei = ∑ g ij . Тогда (12) принимает вид n
ϕ = − w ⋅ ln G + ∑ ei ( xi − b)T G ( xi − b) . ∗
i =1
Для произвольного набора наблюденных значений xi и заданных величин g ij , i = 1, ..., n, j = 1, ..., k , определены следующие оценки: n
b* = D*
Матрица
∑ ei xi i =1
w
n
, D* =
является
∑ e ( x − b )( x − b ) ∗
i
i =1
i
∗ T
i
w
линейной
.
комбинацией
неотрицательно
определенных симметричных матриц с положительными коэффициентами, поэтому она также неотрицательно определенная симметричная матрица. Отсюда T
получаем, что существует такая ортогональная матрица U ∗ , что U ∗ D *U ∗ = Λ* , где Λ* = diag (λ1* , ..., λ*m ) – матрица с собственными значениями матрицы D* на диагонали. Теорема 3. Минимум функции n
ϕ = − w ⋅ ln G + ∑ ei ( xi − b)T G ( xi − b) ∗
i =1
при произвольных значениях b и положительно определенных симметричных матрицах
G,
неравенствам ∗
** −1
G = U (Λ ) U
собственные значения которых
0 < λi (G ) ≤ λ0−1 , ∗T
i = 1, ..., m,
, где Λ = diag (λ **
** 1 , ...,
λ
** m)
удовлетворяют
достигается
при
⎧λ*i , если λ*i ≥ λ0 , и λ =⎨ * ⎩λ0 , если λi < λ0 . ** i
следующим b = b*
и
209
Воспользовавшись
Доказательство. ∗ T
∗
∗
∗ T
( xi − b ) G ( xi − b ) = tr (G ( xi − b )( xi − b ) ) ,
n
∑ ei ( xi − b
равенствами * T
) = 0,
i =1
n
∑ ei ( xi − b∗ ) = 0 , i =1
преобразуем выражение для ϕ * : n
ϕ = − w ln | G | + ∑ ei ( xi − b)T G ( xi − b) = *
i =1
⎛ n ⎞ * = − w ln G + ∑ ei ( xi − b ) G ( xi − b ) + ⎜ ∑ ei ⎟(b − b)T G (b* − b) = i =1 ⎝ i =1 ⎠ n
* T
*
(
)
= − w ln |G | + w ⋅ tr GD * + w(b* − b)T G (b* − b) . Так как
w > 0 , то для минимизации ϕ *
достаточно минимизировать
функцию
ψ = − ln |G | +tr (GD * ) + (b* − b)T G (b* − b) .
(13)
В силу положительной определенности матрицы G третье слагаемое в выражении (13) всегда неотрицательно и равно нулю только тогда, когда b = b ∗ независимо от конкретного значения матрицы G. Таким образом, в точке минимума верно равенство b = b* , и далее достаточно рассматривать поведение функции ψ = − ln G + tr (GD ∗ ) . Последующие рассуждения будут основываться на снижении размерности m
признакового пространства, что в необходимых случаях отразится на
обозначениях, например вместо ψ будет использоваться запись ψ m , вместо Λ∗ −1
T
– Λ∗m×m . В силу того что U ∗ = U ∗ , ψ m можно представить следующим образом:
(
)
ψ m = − ln | U ∗ GU ∗ | +tr U ∗ GU ∗U ∗ D∗U ∗ = − ln | Vm×m | +tr (Vm×m Λ∗m×m ) , T
T
где Vm×m = U ∗ Gm×mU ∗
T
и Vm×m
T
– положительно определенная симметричная
матрица. Кроме этого, так как U ∗ – ортогональная матрица, то собственные числа матриц Vm×m и Gm×m совпадают. Разложим на блоки матрицы Vm×m и Λ∗m×m , а именно:
210
V ⎛ Λ* ⎛V ⎞ 0⎞ ⎟. Vm×m = ⎜⎜ m−T1×m−1 m−1×1 ⎟⎟ и Λ∗m×m = ⎜⎜ m −1×m −1 * ⎟ V v 0 λ mm ⎠ ⎝ m−1×1 m⎠ ⎝ В соответствии с правилами оперирования с блоками матрицы имеем: Vm×m =
=ψ m −1 + vmm λ*m − ln vmm − VmT−1×1Vm−−11×m −1Vm −1×1 . Матрица Vm матрица
– положительно определенная и симметричная, поэтому
Vm−1×m−1
и,
следовательно,
Vm−−11×m−1
являются
положительно
определенными симметричными матрицами, т. е. для произвольного ненулевого вектора x верно неравенство x T Vm−−11×m −1 x > 0 . Отсюда получаем, что независимо от конкретного вида матрицы Vm−−11×m−1 справедливо следующее неравенство:
(
)
vmm λ*m − ln vmm − VmT−1×1Vm−−11×m −1Vm −1×1 ≥ vmm λ*m − ln vmm , где равенство достигается при Vm −1×1 = (0, ..., 0)T . Для нахождения минимума функции η (vmm ) = vmmλ*m − ln vmm рассмотрим три возможных случая:
λ*m = 0,
0 < λ*m < λ0 и λ*m ≥ λ0 . Если λ*m = 0, то необходимо найти минимум функции η ( vmm ) = − ln vmm . В силу леммы 4 и ограничений λi (G ) ≤ λ0−1 получаем vmm ≤ λ( m ) (G ) ≤ λ0−1 .
(14)
Поэтому функция η (vmm ) при λ*m = 0 достигает своего единственного минимума при vmm = λ0−1 .
211
Если λ*m > 0, то единственный безусловный минимум функции η (vnn ) −1
достигается при vmm = λ∗m . Если дополнительно λ∗m < λ0 , то λ−01 < λ∗m −1
vmm ≤ λ0−1 < λ∗m ; следовательно, минимум
помощью (14) получаем
−1
достигается при vmm = λ0−1 . Если λ∗m ≥ λ0 , то λ0−1 ≥ λ∗m
−1
и с
η (vmm )
и с помощью (14) −1
получаем, что минимум функции η (vmm ) достигается при vmm = λ∗m . Таким образом, доказано, что независимо от конкретного вида матрицы Vm−1×m−1 справедливо неравенство
требуемому ограничению на собственные числа. Раскладывая и анализируя аналогичным образом функции ψ m −1 , ..., ψ 1 , получим, что максимум функции T
правдоподобия достигается при b = b* и G = U ∗ ( Λ** ) −1U ∗ , что и требовалось доказать. █ Таким
образом,
из
условиях: λi (Σ j ) ≥ λ0 > 0 ,
приведенной
теоремы
следует, k
i = 1, ..., m,
максимум функции
n
∑∑ g j =1 i =1
что (t ) ij
при
ln f ( xi ,ϑ j )
достигается при значениях параметров, которые для каждого значения допустимого j последовательно находятся следующим образом (реализация М-шага): n
1. вычислить μ (jt +1) =
∑g i =1 n
∑g i =1
n
~ 2. вычислить Σ j =
∑g i =1
(t ) ij i
(t ) ij
x
; (t ) ij
( xi − μ (jt +1) )( xi − μ (jt +1) )T n
∑g i =1
; (t ) ij
212
~ ~ 3. найти матрицы U (jt +1) , Λ j , которые задают спектральное разложение Σ j ; ~ 4. определить элементы λ(jlt +1) матрицы Λ(tj +1) через элементы матрицы Λ j по
~ формулам λ(jlt +1) = max{λ jl , λ0 } , l = 1, ..., m ; 5. вычислить Σ (jt +1) = U (jt +1) Λ( tj +1) (U (jt +1) )T . В модели смеси PPCA множество допустимых ковариационных матриц элементов
смеси
ограничивается
матрицами,
которые
представляются
в
следующем виде: Σ j = W jW jT + σ 2j I ,
(15)
где W j – матрица коэффициентов размера ( m × q ), σ 2j > 0 , j = 1, ..., k . Необходимо отметить, что представление является неоднозначным, так как в данном случае одну ковариационную матрицу можно представить несколькими различными способами. По этой, а также по ряду других причин алгоритмического характера удобнее воспользоваться спектральным разложением матрицы W jW jT = U j Λ jU Tj
и представить ковариационные матрицы Σ j в следующем виде: Σ j = U j Λ jU Tj + σ 2j I m , где
Uj
–
собственными диагональная
матрица
с
векторами матрица
значениями матрицы
с
ортонормированными матрицы
W jW jT ,
упорядоченными
W jW jT ,
j = 1, ..., k .
а по
столбцами,
являющимися
Λ j = diag (λ j1 , ..., λ jq ) убыванию
–
собственными
В данном случае спектральное
разложение матрицы Σ j имеет следующий вид: ⎛ Λ j + σ 2j I q 0 ⎞ ⎟ (U j ,U j )T , Σ j = (U j ,U j )⎜⎜ 2 0 σ j I m−q ⎟⎠ ⎝
(16)
где U j – матрица размера m × (m − q ) , являющаяся ортогональным дополнением матрицы U j до базиса всего пространства. Заметим, что в этом случае столбцы
213
матрицы
Uj
Σ j , соответствующими
являются собственными векторами
собственным значениям
(λ j1 + σ 2j ), ..., (λ jq + σ 2j ),
а остальные собственные
векторы соответствуют собственному значению, равному σ 2j , и задаются с помощью матрицы U j . Для
обеспечения
устойчивой
работы
ЕМ-алгоритма
дополнительно
требуется введение ограничений снизу на значения σ 2j , а именно будем считать, что существует такая положительная константа σ 02 > 0 , что σ 2j ≥ σ 02 при j = 1, ..., k . Заметим, что при наличии данного ограничения и q = m получается ранее описанная модель смеси многомерных нормальных распределений с ограничениями снизу на собственные значения ковариационных матриц. В связи с введением новых ограничений на ковариационные матрицы требуется определить вид оценок для параметров элементов смеси. Иными
∑∑ g ln( f (x , μ , Σ )) n
словами, требуется найти максимум выражения
k
i =1 j =1
условии, что при
ij
i
j
j
при
j = 1, ..., k ковариационные матрицы Σ j имеют вид (16) и
σ 2j ≥ σ 02 > 0 . Как и ранее для его нахождения необходимо для каждого допустимого значения j при описанных выше ограничениях найти решение задачи n
max ∑ g ij ln ( f (xi , μ j , Σ j )), которая эквивалентна задаче минимизации следующей μ j ,Σ j i =1
~ ~ ~ ~ ~ ~ где Λ = diag λ1 , ..., λm , λl = max λl (Σ j ), σ 02 для l = 1, ..., q и λl = max σ 2j ,σ 02
} для
l = q + 1, ..., m и при m ⎧ 1 ⎫ ~ σ = max ⎨ λs Σ j ,σ 02 ⎬ . ∑ ⎩ m − q s =l +1 ⎭
( )
2 j
Доказательство. Проводится по схеме доказательства теоремы 3, но более сложным путем. █ В
результате
получаем,
что
для
реализации
М-шага
необходимо
последовательно выполнить следующие действия: n
1) вычислить μ
( t +1) j
=
∑g i =1 n
∑g i =1
n
~ 2) вычислить Σ j =
∑g i =1
(t ) ij i
(t ) ij
x
; (t ) ij
( xi − μ (jt +1) )( xi − μ (jt +1) )T n
∑g i =1
; (t ) ij
~ ~ ~ 3) найти матрицы U j , Λ j , которые задают спектральное разложение Σ j ; 4) взять в качестве матрицы U (jt +1) размера ( m × q ) первые q столбцов ~ матрицы U j , определить элементы λ(jlt +1) матрицы Λ(tj+1) размера ( q × q ) через
{
}
~ ~ элементы матрицы Λ j по формулам λ(jlt +1) = max λ jl ,σ 0 , l = 1, ..., q ;
6) вычислить Σ(jt +1) = U (jt +1)Λ(tj+1) U (jt +1) + σ 2j T
t +1)
Im .
Заметим, что в описанных ситуациях пространство параметров ограничено и максимум функции правдоподобия может лежать на границе, в силу этого
215
полученные оценки не подпадают под условия о сходимости EM-алгоритма, сформулированные в [Wu83]. Требуемые результаты были получены в [Net98]. Задание ограничения снизу на собственные значения ковариационных матриц элементов смеси необходимо для предотвращения устремления функции правдоподобия в бесконечность и потери (превышения) порядка при выполнении операций с числами с плавающей точкой. Однако при этом возникает необходимость решения задачи выбора этого ограничения λ0 . С одной стороны, значение λ0 должно быть достаточно большим, чтобы обеспечить выполнение указанных условий, с другой стороны, неразумное увеличение этого значения может привести к снижению качества кластерного анализа (например, слишком
λ0
большие значения
приведут к потере какой-либо индивидуальности
кластеров). Оценим теперь, в каких пределах могут изменяться собственные значения ковариационных матриц элементов смеси. В соответствии с ЕМ-алгоритмом для j = 1, ..., k
справедливы следующие соотношения для векторов средних и
ковариационных матриц элементов смеси: n
μ
( t +1) j
∑g
=
i =1 n
(t ) i ij
∑g i =1
x
, (t ) ij
n
~ Σ (jt +1) =
∑ g (t ) ( xi − μ (jt +1) )( xi − μ (jt +1) )T i =1
ij
n
∑ g (t ) i =1
где
n
wij = g ij( t ) / ∑ g lj( t ) .
n
= ∑ wij ( xi − μ (jt +1) )( xi − μ (jt +1) ) T , i =1
ij
Заметим,
что
по
определению
l =1
xi = U mT (H )hi ,
i = 1, ..., n.
ортонормированными
Здесь
столбцами,
U mT (H ) hi
–
–
X = U mT (H )H
матрица
нормированный
или
факторов вектор
с
частот
встречаемости слов в тексте. Непосредственно можно показать, что в данном случае xi 2 ≤ 1 . Отсюда получаем, что справедливы следующие соотношения:
216
μ
( t +1) j 2
=
n
∑x w i =1
i
~
2
n
~
(
≤ ∑ wij xi − μ (jt +1) i =1
Таким
образом,
n
i =1
i =1
≤ ∑ wij xi 2 ≤ ∑ wij = 1 ,
ij
λs (Σ (jt +1) ) ≤ Σ (jt +1) 2 =
n
∑ w (x − μ )(x − μ ) n
ij
i =1
n
i =1
( t +1) T j
i
≤ 2
) ≤ ∑w ( x 2
( t +1) j
i
ij
собственные
i
) ≤∑ 4 w n
2
+ μ (jt +1) 2
2
значения
ij
i =1
= 4.
ковариационных
матриц
оказываются ограниченными сверху константой, которая не зависит ни от размерности признакового пространства, ни от объема массива текстов. На рис. 42 показаны границы для собственных значений выборочных ковариационных матриц для кластеров, выделенных в массиве «Reuters-21578-6», а на рис. 43 – для массива «Новости 2» (для определенного номера собственного значения приведены максимальное и минимальное собственные значения, полученные по всем выделенным кластерам).
Собственное значение
1.E+00
1.E-01
1.E-02
1.E-03
1.E-04
1.E-05
1.E-06 1
2
3
4
5
6
7
8
9
10
11
Номер собственного значения Рис. 42. Границы собственных значений выборочных ковариационных матриц для массива «Reuters-21578-6»
217
Собственное значение
1.E+00
1.E-01
1.E-02
1.E-03
1.E-04
1.E-05
1.E-06 1
2
3
4
5
6
7
8
9
Номер собственного значения Рис. 43. Границы собственных значений выборочных ковариационных матриц для массива «Новости 2»
Заметим, что количество текстов в массивах «Reuters-21578-6» и «Новости 2» отличается в несколько раз, однако собственные значения ковариационных матриц принимают значения из одного диапазона, что позволяет использовать
единые
ограничения
снизу
на
собственные
значения
ковариационных матриц для массивов различного размера. Рассмотрим теперь зависимость итогового качества кластерного анализа от величины ограничения на собственные значения. На рис. 44 и 45 приведены соответствующие графики зависимости качества классификации от принятых ограничений на собственные значения для массивов «Reuters-21578-6» и «Новости 2».
218 0,7 0,6 0,5
F
0,4 0,3 0,2 0,1 0 1,E-08
1,E-06
1,E-04
1,E-02
1,E+00
Ограничение на собственные значения Рис. 44. Поведение F-меры в зависимости от величины ограничения снизу на собственные значения ковариационных матриц для массива «Reuters-21578-6» 0,7 0,6 0,5
F
0,4 0,3 0,2 0,1 0 1,E-08
1,E-06
1,E-04
1,E-02
1,E+00
Ограничение на собственные значения Рис. 45. Поведение F-меры в зависимости от величины ограничения снизу на собственные значения ковариационных матриц для массива «Новости 2»
Таким
образом,
вычислительных
как
проблем
и
компромисс качеством
между
риском
кластерного
возникновения
анализа
в
качестве
ограничения снизу на собственные значения ковариационных матриц элементов смеси целесообразно использовать число порядка 10 −5 . В ситуациях, когда априорная информация о кластерах полностью отсутствует, подбор λ0 можно осуществлять от большего значения к меньшему с
219
помощью следующего итерационного процесса: начать, например, со значения 1 и провести построение кластеров; далее уменьшить значение λ0 на порядок, повторить построение кластеров и сравнить классификации, полученные на этом и предыдущем шагах; если классификации практически совпадают, то завершить процесс подбора, в противном случае перейти к шагу уменьшения значения λ0 . В качестве иллюстрации на рис. 46 представлены результаты подобной процедуры для массива «Reuters-21578-6» (например, для λ0 = 10−4 приведено значение Fмеры, полученное при сравнении классификаций для λ0 = 10−3 и λ0 = 10−4 ). Из этого рисунка следует, что подходящим значением является λ0 = 10 −8 . 1,0
0,8
0,6
k=4
F
k=6 k=8
0,4
0,2
0,0 1,E-10
1,E-08
1,E-06
1,E-04
Ограничение на собственные значения
1,E-02
Рис. 46. Поведение F-меры для последовательных парных сравнений классификаций в зависимости от величины ограничения снизу на собственные значения ковариационных матриц для массива «Reuters-21578-6»
6.4. Структурные методы кластерного анализа К структурным методам кластерного анализа относятся следующие: − алгоритм k-ближайших соседей; − алгоритм k-средних; − нечеткий алгоритм k-средних; − агломеративный иерархический алгоритм;
220
− алгоритм на основе самоорганизующихся карт Кохонена. Алгоритм k-ближайших соседей. Выделение кластеров производится
путем нахождения локальных максимумов функции плотности распределения векторов
объектов,
оценка
которой
производится
с
помощью
метода
k-ближайших соседей [Фук79]. В качестве оценки функции плотности в точке x используется следующая величина: f k (x ) =
k −1 1 , n λ ( x, ρ k ( x ))
где λ ( x, ρ k ( x )) – объем области, содержащей все точки, расстояние от которых до
(
)
x не больше ρ k ( x ) , ρ k ( x ) = ρ x, x sk ( x ) – расстояние от x до sk ( x ) , sk ( x ) – номер k-го ближайшего соседа к x из множества x1 , ..., xn . Для нахождения максимумов функции плотности на практике используются различные
алгоритмы
[АБЕ89,
JMF99,
TWB03]
и
др.
Управляющими
параметрами являются: k – число учитываемых ближайших соседей, ρ – вид расстояния между объектами. Схема алгоритма нахождения максимумов функции плотности
1. Задать значение k, для каждого наблюдения xi найти k ближайших соседей
(
)
s1 ( xi ), ..., sk ( xi ) и вычислить значение ci = arg max f k xs j ( xi ) для i = 1, ..., n . j =1,...,k
2. Положить c~i = cci , i = 1, ..., n . 3. Если для всех i = 1, ..., n справедливо ci = c~i , то завершить работу алгоритма, в противном случае положить ci = c~i , i = 1, ..., n , и перейти к шагу 3. █ В результате работы данного алгоритма каждому объекту xi ставится в соответствие номер ci объекта xci , являющегося локальным максимумом оценки функции плотности. В качества расстояния ρ между объектами в настоящей работе используется евклидово расстояние. Алгоритм k-средних. Данный алгоритм относится к категории алгоритмов,
основанных на представлении кластеров с помощью эталонов (типичных, наиболее характерных представителей).
221
У алгоритма k-средних существует большое число модификаций [АБЕ89, Ман88, Еню86, JMF99, Har75]. Управляющими параметрами являются: k – число классов, ρ – вид расстояния между объектами и эталонами (центрами) классов. Схема алгоритма k-средних
1. Задать значение k, положить t = 0 , вычислить начальные значения центров классов e1(0 ) , ..., ek(0 ) . 2. Построить минимальное дистанционное разбиение
Ω ( t ) = {ω1( t ) , ..., ωk( t ) }
объектов x1 , ..., xn на классы следующим образом:
ω1( t ) = ⎧⎨ x : ρ (e1( t ) , x ) = min ρ (e (jt ) , x ) ⎫⎬ , j =1, ..., k ⎭
⎩
ω
(t ) l
l −1 ⎧ ⎫ = ⎨ x : X \ U ωi( t +1) , ρ ( el( t ) , x ) = min ρ ( e (jt ) , x ) ⎬ , l = 2, 3, ..., k . j =1, ..., k ⎩ ⎭ i =1
3. Если Ω(t ) = Ω(t −1) , то перейти к шагу 4, в противном случае вычислить e(jt +1) =
1
ωj
∑x ,
j = 1, ..., k , положить t = t + 1 и перейти к шагу 2.
x∈ω j
4. Для каждого наблюдения
( ( ))
xi , i = 1, ..., n, найти δWis = min δWij , где j =1, ..., k
( )
( )
∂Wij = W M ij Ω(t ) − W Ω(t ) , M ij Ω(t ) – разбиение, получаемое из разбиения Ω(t ) путем переноса объекта xi в класс ω j , W (Ω ) – сумма квадратов
расстояний от объектов до их центров. Если δWis < 0 , то положить
( )
Ω(t +1) = M is Ω(t ) , e (jt +1) =
1
ωj
∑x ,
j = 1, ..., k , t = t + 1.
x∈ω j
5. Если перемещений наблюдений между классами на шаге 4 не было, то завершить работу алгоритма, в противном случае перейти к шагу 4. █ При обработке текстов в качестве расстояния ρ используется косинусное расстояние. Для нахождения начальных значений центров классов e1 , ..., ek реализованы следующие стратегии: случайный выбор k образов из x1 , ..., xn , генерация k точек из равномерного распределения на области значений X, задание центров вручную.
222
Нечеткий алгоритм k-средних. Нечеткий алгоритм k-средних, так же как и
предыдущий алгоритм, основан на описании классов с помощью эталонов, однако в процессе работы данного алгоритма не строится разбиение, а находится степень принадлежности uij ∈ (0,1) объектов xi к классам ω j , где
k
∑u j =1
ij
= 1 , i = 1, ..., n,
j = 1, ..., k . Существуют различные модификации данного алгоритма [АБЕ89, JMF99]. Основными параметрами алгоритма являются: k – число выделяемых кластеров,
ρ – вид расстояния, ϕ (u ) – произвольная монотонная функция на отрезке [0,1] , ϕ (0) = 0 , ϕ (1) = 1 . Схема алгоритма
1. Задать значения k, α , положить t = 0 и найти начальные значения uij ∈ (0,1) , (0 )
k
∑ u ( ) = 1 , i = 1, ..., n и j =1
0 ij
j = 1, ..., k .
2. Вычислить центры классов e(jt ) , j = 1, ..., k , по следующей формуле: (t )
⎧k ⎫ min ϕ (u j )ρ xi , e (jt ) ⎬ . = arg ⎨ ∑ u1 , ..., uk ≥ 0, ∑ u j =1 ⎩ j =1 ⎭
(
)
4. Если uij(t +1) = uij(t ) для всех i = 1, ..., n и j = 1, ..., k , то завершить работу алгоритма, в противном случае положить t = t + 1 и перейти к шагу 2. █ В качестве ϕ (u ) используются функции вида u α , α ∈ (1, ∞ ) – константа; в качестве ρ используется евклидово расстояние; начальные значения uij(0 ) строятся на основе выборки из равномерного распределения. Итоговое разбиение объектов получается путем отнесения xi , i = 1, ..., n, к классу ωs , где s = arg max uij . j =1, ..., k
223
Агломеративный иерархический алгоритм. Данный алгоритм основан на
последовательном объединении объектов x1 , ..., xn во все более крупные классы. Известно большое число различных вариантов агломеративных алгоритмов [АБЕ89, Жам88, Ман88]. Основными его параметрами являются: ρ – вид расстояния между объектами, δ – вид расстояния между классами. Схема агломеративного иерархического алгоритма
1. Положить
t = 0,
{
}
Ω ( 0) = ω1( 0) , ..., ωn( 0) ,
где
ωi( 0) = {xi } ,
δ ij(0 ) = ρ (xi , x j ) ,
i, j = 1, ..., n. 2. Построить разбиение Ω(t +1) путем объединения классов ωl(t ) и ωr(t ) в разбиении Ω(t ) , где (l , r ) = arg
min
i , j =1, ..., n − t , i ≠ j
δ (ωi(t ) , ω (jt ) ).
3. Если t = n − 1 , то завершить работу алгоритма, в противном случае положить t = t + 1 и перейти к шагу 2. █
Расстояния δ (ωi , ω j ) между классами ωi и ω j , i, j = 1, ..., k , вычисляются путем нахождения расстояний ρ между отдельными объектами, входящими в данные классы. Наиболее распространенными расстояниями между классами являются:
δ min (ωi , ω j ) = min ρ ( x, y ) – расстояние ближнего соседа, x∈ωi , y∈ω j
δ max (ωi , ω j ) = max ρ ( x, y ) – расстояние дальнего соседа, x∈ωi , y∈ω j
δ avr (ωi , ω j ) =
1 ni n j
∑ ∑ ρ (x, y ) – расстояние средней связи.
x∈ωi y∈ω j
В качестве ρ обычно используется косинусное расстояние, а в качестве δ – расстояние дальнего соседа. Для получения разбиения объектов x1 , ..., xn на k = 1, ..., n классов достаточно взять разбиение Ω(n−k ) , получаемое на ( n − k )-м шаге алгоритма. Алгоритм на основе самоорганизующихся карт признаков Кохонена.
Данный алгоритм можно рассматривать как последовательный вариант алгоритма k-средних, в процессе работы которого учитывается информация о взаимном
224
расположении классов, размещенных в узлах некоторой пространственной решетки (обычно прямоугольной или гексагональной) [KHL96]. В результате каждый кластер ω j описывается с помощью вектора центра e j размерности m (вычисляется в процессе работы алгоритма) и фиксированного вектора координат на решетке rj , где j = 1, ..., k , k – число кластеров. Пример самоорганизующейся карты, у которой кластеры располагаются в узлах двухмерной прямоугольной решетки, показан на рис. 47.
различные алгоритмы [Ko87, Осо02]. Схема алгоритма Кохонена
1. Положить t = 0 , определить количество кластеров k, их координаты в узлах пространственной решетки rj и начальные координаты центров классов e(j0 ) , j = 1, ..., k . 2. Вычислить e(jt +1) = e(jt ) + ηcj(t ) (xi − e(jt ) ), где j ∈ N c(t ) – множество соседей класса
ωc , ηcj(t ) ∈ (0, 1) – функция соседства, определенная на узлах решетки, c = arg min xi − el , i = t modn. l =1, ..., k
3. Если t > tmax , где tmax – константа, то завершить работу алгоритма, в противном случае положить t = t + 1 и перейти к шагу 2. █
225
Начальные координаты центров e(j0 ) классов определяются случайным образом. В качестве ηcj(t ) обычно используется следующая функция: 2⎞ ⎟⎟ , r r − c i 2 2 σ t ⎠ ⎝
⎛
ηcj(t ) = α t exp⎜⎜ −
1
где α t ∈ (0,1) и σ t2 > 0 – параметры такие, что limα t = 0 , lim σ t2 = 0 , t →∞
t →∞
∞
∑α t =0
t
= ∞.
Характер изменения множества соседей N c(t ) класса ωc , c ∈ {1,..., k }, в зависимости от номера итерации t показан на рис. 48.
N c (t2 )
N c (t3 )
N c (t1 ) Рис. 48. Пример множества соседей класса
ωc
После обучения самоорганизующейся карты производится классификация объектов путем отнесения xi , i = 1, ..., n, к классу c = arg min xi − el . l =1, ..., k
Необходимо отметить, что определяемое автоматически число классов k обычно является избыточным из-за ориентации самоорганизующихся карт признаков на решение задач векторного квантования, аппроксимации и визуализации данных, в которых требуется наличие большого числа узлов в решетке. По этой причине для получения требуемого числа классов после обучения проводят дополнительную кластеризацию векторов центров e1 , ..., ek с помощью другого алгоритма кластерного анализа.
226
6.5. Интерпретация результатов кластерного анализа После проведения кластерного анализа возникает проблема, связанная с необходимостью интерпретации полученных результатов и представления их в виде, удобном для восприятия аналитиком и использования в процессе информационно-аналитической
деятельности.
Это
особенно
важно
при
разработке систем анализа текстовой информации, так как в большинстве случаев предполагается, что пользователи подобных систем не являются специалистами в области статистических методов анализа данных [Вас01]. В
большинстве
представления
существующих
результатов
систем
традиционно
кластерного
применяется
анализа
подход,
для
который
заключается в описании содержания выделенных кластеров с помощью списка «характерных слов». Обычно выделение характерных слов производится с использованием тех же методов, что и снижение размерности. В частности, в работе [LK99] для определения «характерных слов» для кластера с номером j = 1, ..., k всем словам присваиваются веса в соответствии со следующей формулой: wij =
τ ij2
,
k
∑τ l =1
il
d
где τ ij = nij / ∑ nij , nij – число текстов в кластере j, в которых встречается слово с i =1
номером i = 1, ..., d , а затем отбирается некоторое заранее определенное число слов, имеющих наибольший вес. За счет применения вероятностно-статистического подхода к кластерному анализу появляется также ряд дополнительных средств, которые могут быть использованы аналитиками (пользователями системы) для интерпретации и оценки полученных результатов. В частности, вычисляемые в процессе работы ЕМ-алгоритма апостериорные вероятности gij , i = 1, ..., n,
j = 1, ..., k , могут
использоваться для оценки степени соответствия тематики текстов и кластеров. В рамках модели смеси многомерных нормальных распределений относительно
227
просто решаются задачи по выявлению типичных и аномальных текстов для отдельных кластеров и всего массива в целом [LHSC02]. Существенным
недостатком
указанных
средств,
с
точки
зрения
пользователя, является низкая наглядность (предоставляется большой набор численных характеристик). При этом открытыми остаются вопросы оценки однородности и отделимости различных кластеров, получения комплексного представления о структуре массива в целом, что является необходимым на практике, например для определения фактического числа кластеров в массиве и принятия решения о целесообразности объединения или разделения отдельных из них; для оценки качества полученного разбиения и необходимости проведения повторного анализа с новыми параметрами алгоритмов обработки данных и т. д. Один из возможных подходов к решению данных вопросов заключается в построении проекций текстовых массивов на плоскость. В настоящее время разработано множество методов построения проекций многомерных данных. Их обычно разделяют на линейные и нелинейные. К линейным методам [АБЕ89] относятся следующие: методы многомерного шкалирования, методы анализа главных компонент, методы факторного анализа, методы целенаправленного проецирования, методы дискриминантного анализа. К нелинейным методам относятся следующие: нелинейные методы многомерного
шкалирования
[АБЕ89]
(например,
метод
нелинейного
проецирования Саммона и его быстрые модификации), вероятностные методы (например, метод GTM порождающего топографического отображения [BSW97], метод проецирования с помощью радиальных базисных функций [TL97]), нейросетевые
методы
(например,
самоорганизующиеся
карты
признаков
Кохонена [KHL96], алгоритмы на основе многослойных сетей прямого распространения [MJ95]). При
визуализации
текстовых
данных
наибольшее
распространение
получили нелинейные методы. Это связано с тем, что при использовании линейных методов качество проецирования, как правило, оказывается низким, например, из-за наложения друг на друга различных кластеров. На рис. 49 и 50 показаны примеры линейных проекций одного из массивов, полученные с
228
помощью метода анализа главных компонент и метода дискриминантного анализа. Как видно, четко отделяются только несколько кластеров, а остальные оказываются наложенными друг на друга.
Рис. 49. Пример проекции на главные компоненты
Рис. 50. Пример проекции на дискриминантные оси
Наиболее распространенными нелинейными методами являются: − самоорганизующиеся карты признаков Кохонена; − метод нелинейного проецирования Саммона; − метод вероятностного отображения. Самоорганизующиеся карты признаков Кохонена рассмотрены в
предыдущем разделе в контексте решения задачи выделения кластеров. Однако с математической точки зрения они осуществляют не только разбиение объектов на фиксированное число кластеров, но и размещают их в узлах некоторой
229
пространственной решетки (обычно прямоугольной или гексагональной). Узлы решетки обладают тем свойством, что близкие на решетке кластеры являются близкими и в исходном пространстве признаков. Недостатком данного метода является то, что все тексты, соответствующие одному кластеру, отображаются в одну точку на проекции, а расстояния между центрами кластеров на проекции оказываются слабо связаными с расстояниями между данными кластерами в исходном пространстве признаков. Для
частичного
устранения
указанных
недостатков
используются
различные подходы. Приведем примеры двух наиболее характерных. В первом из них для удобства восприятия производится градиентная закраска карты с помощью оценки плотности распределения в точках, соответствующих узлам карты. Данный подход применяется в системах WebSOM (www.cis.hut.fi) и ThemeScape (www.cartia.com). Во втором подходе, в отличие от стандартного алгоритма Кохонена, используется модифицированная нелинейная функция модификации весовых коэффициентов. В этом случае при определенных параметрах данной функции несколько улучшается соответствие расстояний между кластерами на проекции и в исходном пространстве признаков. На рис. 51 приведен пример проекции массива документов с помощью метода Кохонена. В данном случае используется одновременно несколько приемов раскраски карты: градиентная раскраска плотности, цветовое выделение узлов из различных кластеров, индикация размеров узлов, вывод названий кластеров.
230
Рис. 51. Пример проекции Кохонена
Метод нелинейного проецирования Саммона. Суть данного метода
состоит в минимизации разницы расстояний в исходном пространстве и на проекции между всеми парами точек [Sam69]. При обработке текстов в качестве точек выступают векторы весов информационных признаков. В качестве меры, характеризующей качество проекции, вводится величина, называемая стрессом: ES =
n
1 n
∑D i< j
ij
∑ i< j
(D
ij
− dij )
2
Dij
,
(17)
где Dij – некоторое расстояние между входными векторами i и j в исходном пространстве признаков, dij – расстояние между соответствующими векторами в пространстве проекции (обычно евклидово расстояние). В работе [Тер86] формула стресса обобщается и принимает следующий вид: ES =
1 2 D p (Dij − dij ) , p ∑ ij ∑ Dij i< j i< j
231
где p – произвольное действительное число. При p < 0 более точно передаются небольшие расстояния, при p > 0 – большие. Нахождение координат точек в пространстве проекции производится путем непосредственной минимизации выражения (17). В частности, в работе [Sam69] для этих целей используется метод Ньютона. С целью снижения вычислительной сложности стандартного алгоритма Саммона
были
предложены
различные
модификации
этого
метода
проецирования, имеющие линейную сложность: блочный вариант алгоритма Саммона [CL73], алгоритм быстрого нелинейного отображения с помощью опорных точек [АБЕ89], быстрый алгоритм нелинейного проецирования многомерных данных [АБЕ89]. Данные подходы основываются либо на отбрасывании в формуле стресса ряда слагаемых, либо на модификации формулы стресса таким образом, чтобы ее минимизацию можно было провести за линейное время. Метод вероятностного отображения. При использовании вероятностно-
статистического подхода к кластерному анализу появляются дополнительные возможности по построению проекций текстовых данных на плоскость, основанные на использовании специальных моделей порождения данных. В качестве
примера
рассмотрим
построение
комбинированного
алгоритма
проецирования (CPA), который, с одной стороны, опирается на вероятностную модель PPCA, а с другой стороны, на метод многомерного шкалирования Саммона. В рамках метода CPA предполагается, что случайный вектор x, относящийся к j-му элементу смеси, будет представляться следующим образом: x = W j β −1 (z − η j ) + μ j + ε j ,
где μ j – вектор средних размерности m, задающий координаты центра кластера в
(
пространстве слов, ε j ~ N 0,σ 2j I
)
– не зависящий от z случайный вектор,
соответствующий случайным данным из кластера, σ 2j – положительная скалярная величина, j = 1, ..., k , η j – вектор размерности q, задающий координаты текста на
(
проекции, z ~ N η j , β 2 I проекции
)
232
– случайный вектор скрытых координат текста на
размерности
β
q,
–
некоторая
положительная
константа,
характеризующая размер (разброс) кластеров в пространстве проекции, W j – линейное отображение данных из пространства проекции в наблюдаемое пространство слов. Таким образом предполагается, что данные изначально генерируются в ненаблюдаемом пространстве проекции, а затем отображаются в пространство большей размерности. Задача состоит в том, чтобы восстановить распределение данных в пространстве проекции. Для этих целей каждому вектору документа xi , i = 1, ..., n, ставится в соответствие условное распределение в пространстве факторов z, функция плотности которого имеет следующий вид: k
f ( z | xi ) = ∑ g ij f ( z | j , xi ) , j =1
где gij – апостериорная вероятность элемента смеси с номером j, f ( z | j , xi ) – условное распределение относящегося к j-му элементу смеси случайного вектора z, которое является следующим:
(
(
))
N η j + βW jT Σ −j1 (x − μ j ), β 2 I − W jT Σ −j1W j , Σ j = W jW jT + σ 2j I , j = 1, ..., k . Для визуализации каждое такое распределение f ( z | j , xi ) заменяется его математическим ожиданием zi = E{z | xi } , значения которого и будут выступать в роли проекций отдельных векторов xi . Пусть
( )
Σ j = U Wj ΛWj U Wj где
U Wj
–
матрица
с
T
+ σ 2j I ,
ортонормированными
столбцами,
(
являющимися
)
собственными векторами матрицы W jW jT , а ΛWj = diag λWj1 , ..., λWjq – диагональная матрица с упорядоченными по убыванию собственными значениями матрицы W jW jT , j = 1, ..., k . Тогда k
(
( ) (Λ
zi = ∑ gij η j + β ΛWj j =1
1/ 2
W j
+ σ 2j I
) (U ) (x − μ )). −1
W T j
i
j
233
При этом для вычисления координат центров кластеров на проекции η j , j = 1, ..., k ,
применяется
стандартный
алгоритм
Саммона.
В
результате
комбинированный алгоритм проецирования принимает следующий вид.
расстояние Бхатачария, евклидово расстояние) для измерения расстояний между элементами смеси. 2. Вычислить расстояния ρij , j = 1, ..., k , между всеми парами элементов смеси. 3. Найти с помощью метода проецирования Саммона проекции η j , j = 1, ..., k , векторов средних элементов смеси μ j . 4. Найти проекции векторов текстов
zi
путем нахождения условных
математических ожиданий скрытых переменных z в модели смеси PPCA с помощью следующего выражения: k
(
( ) (Λ
zi = ∑ gij η j + β ΛWj j =1
1/ 2
W j
+ σ 2j I
) (U ) (x − μ )), где i = 1, ..., n. █ −1
W T j
i
Пример проекции массива приведен на рис. 52.
j
234
Рис. 52. Пример проекции массива текстов с помощью алгоритма CPA
Проведенные эксперименты с алгоритмом CPA показали, что при отображении на проекции большого числа текстов возникают сложности с их интерпретацией
(выявлением
взаимосвязей
классов)
из-за
загромождения
проекций точками и названиями кластеров. Для решения данной проблемы одним из
возможных
подходов
масштабирования,
является
обеспечивающих
использование возможность
методов
нелинейного
увеличения
отдельных
фрагментов проекции (например, соответствующих выделенному классу), а также методов дополнительного раскрашивания проекций. Для нелинейного масштабирования можно воспользоваться методом «рыбий глаз», описанным в работах [SB92] и [LA94]. Возможны два варианта нелинейного масштабирования двухмерных проекций: декартовый и полярный. Оба основаны на использовании следующего алгоритма масштабирования одномерных данных. Схема алгоритма масштабирования одномерных данных
1. Задать координаты точки фокуса x f и коэффициент увеличения τ .
235
2. Перенести начала координат в точку фокуса x f , т. е. положить ~ xi = xi − x f , где i = 1, ..., n, n – число наблюдений. 3. Выполнить нормализацию, т. е. положить x€i =
~ xi , i = 1, ..., n. max ~ xj
j =1, ..., n
4. Вычислить новые координаты точек yi =
(1 + τ )~xi , i = 1, ..., n. τ ~xi + 1
5. Вычислить степень увеличения точек τ i =
1+τ , i = 1, ..., n. █ 2 ~ (τ x + 1) i
Необходимо отметить, что вычисляемые в процессе работы приведенного алгоритма степени увеличения точек τ i используются для определения размера точек и надписей на проекции. В
декартовом
варианте
масштабирование
по
каждой
координате
производится независимо, а в полярном варианте сначала производится переход к полярным координатам, а затем производится масштабирование только длины радиус-вектора. На рис. 53 показан пример проекции, на которой увеличен с помощью полярного
метода
«рыбий
глаз»
класс
с
именем
«НАТО,
ВОСТОЧНОЕВРОПЕЙСКИЙ, ЕВРОПА» (координаты центра данного класса используются в качестве координат точки фокуса), а на рис. 54 приведен пример проекции, на которой с помощью того же метода увеличен класс «АТЭС, ВАНКУВЕР, ЭКОНОМИЧЕСКИЙ».
236
Рис. 53. Пример нелинейного масштабирования проекции массива «Новости 1» с помощью метода «рыбий глаз» (выделена рубрика «НАТО, ВОСТОЧНОЕВРОПЕЙСКИЙ, ЕВРОПА»)
237
Рис. 54. Пример нелинейного масштабирования проекции массива «Новости 1» с помощью метода «рыбий глаз» (выделена рубрика «АТЭС, ВАНКУВЕР, ЭКОНОМИЧЕСКИЙ»)
В целом результаты экспериментов с приведенными методами нелинейного масштабирования позволяют сделать вывод о целесообразности их использования на практике с целью облегчения анализа проекций, получаемых с помощью комбинированного алгоритма проецирования. Для дополнительного облегчения проведения интерпретации проекции массивов текстов в настоящей работе также были разработаны следующие два подхода к цветовой раскраске фона проекции: − раскрашивание фона проекции массива в соответствии с теоретическими значениями плотности распределения данных (см. рис. 55); − разделение
пространства
проекции
на
области,
соответствующие
отдельным классам (см. рис. 56 и 57). Используемая в комбинированном алгоритме проецирования модель порождения данных предполагает, что в пространстве проекции (пространстве скрытых переменных) данные имеют следующее распределение: k
f (z ) = ∑ p j f (z | j ) , j =1
где f ( z | j ) – функция плотности многомерного нормального распределения
(
)
N η j , β 2 I . При этом параметры
pj , η j , и β
элементов данной смеси
оцениваются непосредственно в ходе работы алгоритмов выделения кластеров и проецирования. Это позволяет явным образом вычислять значения функции плотности распределения
f (z )
в пространстве проекции и производить
соответствующим образом раскраску фона карты. Необходимо отметить, что вычисление значений функции плотности во всех точках проекции является достаточно сложной с вычислительной точки зрения задачей, что обусловлено необходимость вычисления экспоненты. Для снижения вычислительной сложности можно воспользоваться тем фактом, что в
238
пространстве проекции дисперсия всех элементов смеси является одинаковой и довольно быстро убывает. В результате оказывается достаточно вычислить значения функции плотности
f ( z | j ) только для элемента смеси
j =1 в
окрестности его центра, а значения остальных получить с помощью следующего
соотношения: f ( z | j ) = f (z + η1 − η j | j = 1). Проведенные эксперименты показали,
что такой прием позволяет снизить примерно на порядок вычислительную сложность и не приводит к визуально различимым искажениям проекции.
Рис. 55. Пример раскрашивания фона проекции в соответствии с теоретическими значениями плотности распределения данных на проекции для массива «Новости 1»
Для эффективного выполнения разделения пространства проекции на области, соответствующие отдельным классам, воспользуемся тем, что все классы в пространстве проекции имеют двухмерное нормальное распределение с различными центрами и одинаковыми ковариационными матрицами вида β 2 I
239
(классы имеют сферическую форму). В этой ситуации разделяющие поверхности между любыми двумя классами являются линейными и перпендикулярными линии, соединяющей координаты центров данных классов. В результате появляется возможность воспользоваться быстрыми алгоритмами построения областей классов, описанными в работе [BDH96]. На рис. 56 и 57 показаны примеры разделения пространства проекции на области классов с одновременным масштабированием с помощью метода «рыбий глаз».
Рис. 56. Пример разбиения пространства проекции массива «Новости 1» на области, соответствующие отдельным классам
240
Рис. 57. Пример разбиения пространства проекции массива «Новости 1» на области, соответствующие отдельным классам
Таким образом, в настоящем исследовании были разработаны новые методы нелинейного масштабирования и раскрашивания проекций, получаемых с помощью комбинированного алгоритма проецирования. Важной особенностью предложенных методов раскрашивания проекций является то, что все они имеют общую теоретическую основу и прозрачную вероятностную интерпретацию.
241
6.6. Сравнительный анализ методов кластерного анализа Для проведения сравнительного анализа методов кластерного анализа были проведены две серии экспериментов: − сравнительный анализ вероятностных методов кластерного анализа; − сравнительный анализ структурных методов кластерного анализа. В обоих случаях эксперименты проводились по следующей схеме. Схема проведения экспериментов
1. Загрузить матрицу наблюдений A размера ( d × n ), d – исходное число признаков, n – число текстов. 2. Построить матрицу X размера ( m × n ), являющуюся представлением матрицы наблюдений A в пространстве факторов (в данном случае с помощью метода LSI). 3. Для каждого k ∈ [kmin , kmax ] (в данной работе k min = 2 , k max = 30 ) произвести по t экспериментов, включающих разбиение наблюдений из X на k кластеров, вычисление значения ARand-индекса, оценку времени работы. █ Все рассмотренные в ходе экспериментов алгоритмы кластерного анализа реализованы в виде функций, входящих в состав как стандартных, так и дополнительных библиотек для системы MATLAB 6.5. В табл. 65 приведено краткое описание используемых при проведении экспериментов библиотек. Таблица 65 – Библиотеки, используемые при проведении экспериментов Название библиотеки
1. MATLAB 6.5 Statistics Toolbox
2. TCLIB 1.0
3. SOM Toolbox 2.0 beta
Используемые алгоритмы кластерного анализа Алгоритм k-средних, алгоритмы иерархической классификации Алгоритм на основе смеси многомерных нормальных распределений
Алгоритм на основе самоорганизующихся карт Кохонена
Комментарий
Стандартная библиотека из MATLAB 7.1 (www.mathworks.com) Дополнительная библиотека для MATLAB 7.1 авторской разработки Дополнительная библиотека для MATLAB 7.1 (http://www.cis.hut.fi/projects/ somtoolbox/)
242
4. Pattern Recognition Tools 3.1.7
Алгоритм k-ближайших соседей
5. MATLAB 6.5 Fuzzy Logic Toolbox
Нечеткий алгоритм k-средних
Дополнительная библиотека для MATLAB 7.1 (http://www.ph.tn.tudelft.nl/pr tools, http://prtools.org/) Стандартная библиотека из MATLAB 7.1 (www.mathworks.com)
На рис. 58 и 59 приведены результаты экспериментов с вероятностными методами кластерного анализа при различных значениях числа кластеров k для массива «Reuters-21578-6». Используются следующие условные обозначения: GMM – смесь многомерных нормальных распределений, PPCA-5 – смесь распределений вероятностных анализаторов главных компонент c числом факторов q = 5 , BERN – смесь многомерных распределений Бернулли, MN – смесь полиномиальных распределений, VMF – смесь распределений фон Мизеса– Фишера. При снижении размерности с помощью метода LSI относительное качество аппроксимации было равно 80%. 0,8 0,7 0,6
GMM PPCA-5 BERN MN VMF
F
0,5 0,4 0,3 0,2 0,1 0 2
7
12
17
22
27
k Рис. 58. Поведение F-меры в зависимости от числа кластеров k для массива «Reuters21578-6» для различных моделей кластерной структуры
243 7 6
Время (сек.)
5
GMM PPCA-5 BERN MN VMF
4 3 2 1 0 2
7
12
17
22
27
k Рис. 59. Время работы алгоритмов в зависимости от числа кластеров k для массива «Reuters-21578-6»
Анализ приведенных рисунков позволяет заметить, что несколько лучшие результаты достигаются при использовании модели смеси многомерных нормальных распределений, а также модели смеси PPCA (при q = m данная модель полностью совпадает с моделью GMM). Такие результаты, по видимому, объясняются более глубоким учетом взаимосвязей между признаками в моделях GMM и PPCA, что непосредственно видно из соответствующих выражений для плотностей распределений.
В перспективе вызывает
интерес разработка
работоспособных алгоритмов и проведение экспериментов с моделью смеси распределений Бингхама. Схема проведения экспериментов со структурными методами кластерного анализа в данном случае такая же, как и при сравнении вероятностных алгоритмов кластерного анализа. Результаты работы алгоритма на основе смеси многомерных нормальных распределений, алгоритма k-средних, нечеткого алгоритма k-средних и алгоритма на основе самоорганизующихся карт признаков Кохонена зависят от начальных значений параметров, которые выбираются случайным образом. По этой причине для повышения устойчивости получаемых результатов оценки качества кластерного анализа при каждом значении k ∈ [kmin ,kmax ] требуется проведение нескольких экспериментов (в настоящей
244
работе t = 10 ). В алгоритме k-ближайших соседей, в отличие от остальных алгоритмов, управляющим параметром является число ближайших соседей, а число кластеров оценивается автоматически. По этой причине для данного алгоритма оценки качества кластерного анализа вычислялись не для всех значений k. На рис. 60 и 61 приведены средние значения F-меры и времени работы алгоритмов для k ∈ [kmin ,kmax ]. Используются следующие обозначения алгоритмов: PPCA – алгоритм на основе смеси вероятностных анализаторов главных компонент, KNN – алгоритм k-ближайших соседей, KMEAN – алгоритм kсредних, FCM – нечеткий алгоритм k-средних, HAC – иерархический агломеративный алгоритм, SOM – алгоритм на основе самоорганизующихся карт признаков Кохонена. 0,8 0,7
PPCA KNN KMEAN FCM HAC SOM
0,6
F
0,5 0,4 0,3 0,2 0,1 0 2
8
14
20
26
k Рис. 60. Поведение среднего значения F-меры в зависимости от числа кластеров k для массива «Reuters-21578-6»
245 12.01
Время (сек.)
10.01
PPCA KNN KMEAN FCM HAC SOM
8.01
6.01
4.01
2.01
0.01 2
8
14
20
26
k
Рис. 61. Среднее время работы алгоритмов в зависимости от числа кластеров k для массива «Reuters-21578-6»
Таким образом, алгоритм на основе смеси вероятностных анализаторов главных компонент оказывается несколько предпочтительнее других алгоритмов. Оценки вычислительной сложности алгоритмов в полной мере согласуются с числом оцениваемых параметров в каждом из них и для всех алгоритмов являются вполне приемлемыми с практической точки зрения. Качественные характеристики рассмотренных алгоритмов приведены в табл. 66. Таблица 66 – Качественные характеристики методов кластерного анализа Характеристика Возможность параметрического описания отдельного кластера Возможность построения иерархической структуры кластеров Возможность оценки количества кластеров
PPCA
KNN
KMEAN
FCM
HAC
SOM
+
+
–
–
–
–
–
–
–
–
+
–
+
+
–
–
–
–
246
7. Прикладные средства анализа текстов 7.1. Комплексная технология классификации текстовых данных В области автоматизированной обработки текстов уже сложился ряд относительно самостоятельных направлений (задач): извлечение объектов и признаков,
реферирование,
интеллектуальный
поиск,
классификация,
фактографический
кластерный анализ,
анализ,
пространственный
(географический) анализ. В настоящей работе указанные базовые задачи анализа текстов рассматриваются не независимо друг от друга, а как элементы комплексной технологии автоматической классификации текстовых данных, обеспечивающей
эффективную
обработку
информации
и
представление
результатов анализа для конечных пользователей (см. рис. 62). Фаза классификации
Фаза обучения
Обучающий массив Массив документов
Вычисление формального представления текстов Классификация текста и фрагментов
Тексты Тексты по по рубрике рубрике
Тексты Тексты по по рубрике рубрике
Анализ результатов классификации Классифицированный массив
Формирование сводного документа
Вычисление формального представления текстов Классификатор
Формирование решающих правил и оценивание качества обучения
Отчет об обучении Корректировка обучающего массива и настройка правил классификации
247
Рис. 62. Общая схема комплексной технологии классификации текстов
Краткое описание задач, решаемых в рамках приведенных на рис. 62 функциональных блоков, дается в табл. 67. Таблица 67 – Описание функциональных блоков комплексной технологии Функциональный блок
Задачи функционального блока
1. Вычисление формального представления текстов
1. Получение текста документа (идентификация формата, языка, кодировки документа, очистка текста от элементов оформления, разбиение на составные части). 2. Лингвистический анализ (графематический, морфологический и постморфологический анализ, выделение словосочетаний). 3. Формирование векторного (матричного) представления текстов
2. Классификация текстов и фрагментов
1. Предварительная обработка текстов (отображение словаря признаков документа на пространство признаков классификатора; оценка адекватности и возможности классификации текста с помощью данного классификатора). 2. Классификация текста и выделение значимых фрагментов в нем (выделение кодов рубрик с помощью регулярных выражений; применение логических правил, построенных экспертами, и статистических решающих правил; корректировка результатов классификации с учетом иерархической структуры рубрик)
3. Анализ результатов классификации
1. Выявление «почти» дубликатов документов. 2. Выявление основных тем документов в рубриках
4. Формирование сводного документа
Формирование сводного документа (упорядочение документов по их релевантности рубрике; упорядочение фрагментов с учетом их близости друг к другу; построение объединенного документа)
5. Формирование решающих правил и оценивание качества обучения
1. Формирование обучающих и тестовых множеств для рубрик (построение разбиения обучающего массива на блоки; анализ взаимосязей и пересечений отдельных рубрик; формирование множеств отрицательных и положительных примеров). 2. Оценивание параметров базовых моделей рубрик (вычисление весов признаков; снижение размерности; оценивание параметров моделей; формирование решающих правил; оценка качества обучения). 3. Построение комбинированных решающих правил для отдельных рубрик и классификатора в целом. 4. Формирование отчета о результатах обучения (описание решающих правил, описание терминологии рубрик, рекомендации по корректировке примеров документов, описание взаимосвязей рубрик)
6. Корректировка обучающего массива и настройка правил
1. Корректировка обучающих примеров для рубрик путем анализа добавленных и пропущенных документов в рубриках, значимых фрагментов, взаимосвязей рубрик. 2. Настройка правил классификации для отдельных рубрик (явное
248
классификации
задание предпочтительных статистических моделей, задание необходимых, достаточных и исключающих логических правил на специальном языке)
Описанная выше технология полностью реализована как в виде отдельного пакета «Text Classification Toolbox» для системы Matlab [ВКЕ06], так и в виде элемента ряда заказных информационно-аналитических систем. При ее построении особое внимание было уделено учету особенностей реальных массивов текстов, которые часто оказывают негативное влияние на итоговое качество классификации текстов. В табл. 68 приведено описание наиболее типичных из них (отмечаются во многих работах и наблюдались автором на практике), а также способы их учета в рамках предлагаемой технологии. Таблица 68 – Типичные особенности и недостатки реальных массивов текстов Особенности и недостатки
Проблемы и средства их решения в рамках комплексной технологии
1. Недостаточное число или полное отсутствие обучающих примеров для ряда рубрик [Seb02, BFS03, АДЛ04, DLS02]
Проблемы: невозможность построения правил классификации для большинства методов, основанных на обучении на примерах; низкая надежность оценки качества обучения. Решение: поддержка совместного использования трех типов решающих правил для рубрик: статистических (обучаемых на примерах документов), логических (задаются экспертами на специальном информационнопоисковом языке), шаблонных (задаются экспертами в виде регулярных выражений)
2. Наличие ошибок и непоследовательность формирования эталонного распределения текстов по рубрикам [Seb02, Web02, АДЛ04, DLS02]. Односторонность примеров в обучающем массиве текстов [Seb02]. Наличие рубрик с одинаковым содержанием, но разными названиями
Проблемы: формирование ошибочных правил классификации; результаты оценки качества обучения оказываются некорректными. Решение: – автоматическое выполнение при обучении оценки качества классификации и ошибок в эталонном распределении документов по рубрикам; – формирование обучающих примеров для отдельных рубрик с учетом оценки степени тематической близости рубрик друг к другу; – реализация оригинальной интерактивной процедуры обучения классификатора, обеспечивающей корректировку обучающих примеров и задание
249
логических правил
3. Несоответствие тематики и характера обучающего массива текстов тематике и характеру классифицируемых текстов [АДЛ04, DLS02]
Проблемы: результаты классификации текстов могут быть неопределенными и зависеть от незначительных случайных факторов; результаты оценки качества обучения являются завышенными. Решение: – выполнение оценки качества классификации в процессе обучения; – обеспечение переобучения в процессе обработки новой информации; – использование дополнительных словарей квазисинонимов для повышения полноты классификации
4. Многоуровневый (иерархический) характер классификаторов [Seb02, АДЛ04]. Совместное использование нескольких оснований (принципов) разделения данных на классы (тема и тональность). Неоднородность характера текстов в рубриках
Проблемы: сложность построения эффективных процедур классификации, основанных на использовании одной модели или метода для всех рубрик и уровней классификатора. Решение: – поддержка нескольких типов признаков (лексических, грамматических, синтаксических); – использование оригинального комбинированного иерархического метода классификации, обеспечивающего подбор для каждой рубрики наиболее подходящих для нее моделей и методов классификации [КВ06]
5. Одновременная оценка текстов с использованием нескольких классификаторов (например, страна, организация, тема, жанр) [Бра01]
Проблемы: сложность подбора примеров документов и обучения объединенного классификатора, получаемого путем декартового произведения рубрикаторов для отдельных фасетов; сложность или невозможность независимого обучения классификаторов из-за наличия контекстных связей между рубриками классификаторов. Решение: поддержка режима фасетной классификации, который обеспечивает независимое обучение отдельных фасетов и комбинирование их работы с использованием специальных логических правил
6. Политематический и составной характер документов [Seb02]. Наличие служебных элементов и посторонних блоков текста, не относящихся к основной тематике документа [Seb02]. Наличие в обучающем массиве аномальных документов (пустых, в неизвестных кодировках и т. п.) [Web02]
Проблемы: сложность автоматического формирования решающих правил для рубрик из-за негативного влияния посторонней информации; снижение качества классификации из-за наложения нескольких рубрик друг на друга; сложность интерпретации результатов классификации из-за неопределенности расположения в тексте информации, релевантной рубрике. Решение: – реализация полного комплекса средств для идентификации форматов, языков и кодировок
250
документов; – реализация оригинальных алгоритмов для очистки текста документов от элементов оформления, основанных на оценке распределения плотности текста на странице; – реализация оригинальных алгоритмов для исключения из текстов вспомогательной информации, основанных на сопоставлении лексического состава отдельных предложений; – реализация робастных вариантов алгоритмов оценивания параметров моделей и методов классификации [КВ06, КВ04]; – реализация эффективного выделения значимых фрагментов в текстах путем использования оригинальной иерархической модели представления текстов (основывается на представлении текста множеством векторов признаков, соответствующих элементам специального иерархически упорядоченного перекрывающегося множества фрагментов текста) [Вас07]
7. Наличие повторяющейся информации во входном потоке текстов [YC05]. Большие объемы и неоднородность входного потока текстов [BFS03]
Проблемы: сложность просмотра и анализа результатов классификации. Решение: – реализация оригинального алгоритма упорядочения документов в рубриках, который учитывает не только релевантность документов рубрике, но и их тематическую близость друг к другу; – реализация оригинального алгоритма для выявления «почти дубликатов» документов, основанного на использовании методов иерархического кластерного анализа и иерархической модели представления текстов; – реализация оригинальных алгоритмов кластерного анализа результатов классификации, основанных на использовании модели смеси вероятностных анализаторов главных компонент и обеспечивающих эффективное формирование графических карт массивов текстов [КВ04]
Реализация технологии, обеспечивающей учет приведенных особенностей текстов, требует решения большого числа различных задач по предварительной обработке текстовых данных и анализу результатов классификации. Рассмотрим теперь более подробно методы решения нескольких таких задач: − выявление дубликатов текстов; − тематическое упорядочение текстов;
251
− выделение значимых фрагментов в текстах; − очистка страниц от элементов оформления. В заключительной части данного раздела описывается программная реализация комплексной технологии классификации текстов в виде законченной системы «СКАТ 2.5». 7.2. Методы выявления дубликатов и тематического упорядочения текстов
Средства выявления дубликатов документов предназначены для выявления и объединения в группы таких документов, которые содержат эквивалентные или очень близкие по своему содержанию блоки текста. Такие документы иногда называют «почти дубликатами». В работах [YCS06, YC05] выделяются следующие типы дубликатов документов: − документы целиком похожи друг на друга; − один документ похож на часть другого документа; − документы имеют части, которые похожи друг на друга. Указанным трем типам дубликатов документов соответствуют различные способы выявления с алгоритмической точки зрения и различные прикладные задачи. С прикладной точки зрения выявление дубликатов первого типа в большей степени соответствует задаче очистки массивов текстов от сообщений, которые представляют собой различные варианты изложения одного и того же события разными средствами массовой информации. Выявление дубликатов второго типа соответствует задаче поиска разных версий одного документа, т. е. когда один документ является развитием или дополнением второго документа. Выявление дубликатов
третьего
типа
соответствует
задаче
выявления
документов,
содержащих материалы из других документов. Необходимо отметить, что хотя задача выявления дубликатов по своей природе очень близка к задаче кластерного анализа, она имеет и ряд отличительных особенностей: − при
проведении
кластерного
анализа
производится
выделение
небольшого числа крупных кластеров (содержат несколько десятков документов),
252
соответствующих общим тематикам в анализируемом массиве. При выявлении дубликатов, напротив, выделяется большое число небольших групп документов (содержат по два или три документа), соответствующих отдельным событиям; − при проведении кластерного анализа имеет значение как точность, так и полнота
выделяемых
кластеров.
При
выявлении
дубликатов,
напротив,
наибольшее значение имеет точность, т. е. отсутствие в выделяемых группах неправильных элементов; − при проведении кластерного анализа требуется решать отдельную задачу интерпретации результатов анализа (описания для пользователя содержания кластеров). При выявлении дубликатов для этого достаточно предъявить один из дубликатов. Наличие
указанных
особенностей
приводит
к
необходимости
использования специальных методов анализа для выявления дубликатов документов. Для выявления дубликатов документов разработан метод, основанный на использовании агломеративных иерархических методов кластерного анализа (пример одного из них рассмотрен в предыдущем разделе). В данных методах осуществляется последовательное объединение наиболее близких текстов из исходного множества x1 , ..., xn во все более крупные классы. При этом уже на первых шагах работы соответствующего алгоритма формируются наиболее компактные классы. Указанная особенность позволяет организовать эффективное нахождение большого числа небольших компактных групп документов. Как
уже
отмечалось
ранее,
основными
параметрами
алгоритма
агломеративного иерархического кластерного анализа являются: ρ
– вид
расстояния между текстами, δ – вид расстояния между классами. На вход алгоритма поступает множество векторов документов x1 , ..., xn , а на выходе формируется
{
последовательность
разбиений:
{
}
Ω ( 0) = ω1( 0) , ..., ωn( 0) ,
…,
}
Ω( n−1) = ω1( n−1) , где ωi( 0 ) = {xi } и ω1( n −1) = {x1 , ..., xn }. После завершения работы алгоритма для получения разбиения наблюдений
x1 , ..., xn на k = 1, ..., n классов достаточно взять разбиение Ω(n−k ) , получаемое на
253
( n − k )-м шаге алгоритма. Число выделяемых классов k при этом определяется исходя из ограничения на максимальный размер класса, а вид функции размера зависит от функции расстояния между классами. Например, если используется расстояние дальнего соседа, то в качестве размера класса берется величина, равная максимальному расстоянию между элементами класса. Необходимо отметить, что так как для большинства видов расстояний между классами справедливо свойство монотонного возрастания размера получаемых в результате объединения классов [Жам88], то фактически работа агломеративного иерархического алгоритма может быть прервана, как только будет впервые превышено заданное ограничение на размер класса. При этом так как ограничения на размер классов накладываются достаточно жесткие, то такое прерывание работы происходит достаточно быстро. В зависимости от типа выявляемых дубликатов используются разные модели представления документов. Для
выявления
дубликатов
первого
типа
отдельные
документы
представляются в виде векторов весов слов x1 , ..., xn ∈ R m таких, что xi 2 = 1 и
xi > 0 , i = 1, ..., n , m – число различных слов во всех документах. В качестве расстояния между документами используется косинусное расстояние ρcos , которое определяется следующим образом: ρcos ( x, y ) = 1 − xT y (исходя из свойств векторов весов следует, что ρcos ∈ (0,1) ). В качестве расстояния между классами
используется δ max (ωi , ω j ) = max ρ ( x, y ) . Оценка числа выделяемых классов x∈ωi , y∈ω j
производится путем задания ограничения ρ0 на максимальное расстояние между документами в классе. Для выделения дубликатов второго и третьего типов используется расширенное
косинусное
расстояние
определяется следующим образом:
ρcos
между
документами,
которое
254
ρcos ( x, y ), ρcos ( x, y ) ∈ [0, ρ0 ], ⎧ ⎪ ⎞ ⎛s +s ⎪ ρcos ( x, y ) = ⎨min⎜⎜ x y , ρcos ( x, y )⎟⎟, ρcos ( x, y ) ∈ ( ρ0 , ρ1 ], ⎪ ⎠ ⎝ nx + n y ⎪⎩ 1, ρcos ( x, y ) ∈ ( ρ1 ,1], где ρ1 > ρ0 – константа, задающая ограничение сверху на размер класса; X, Y – матрицы размера ( m × nx ) и ( m × n y ) векторов отдельных предложений в документах; nx – число предложений в документе x; n y – число предложений в документе y; sx – число предложений в документе x, для которых существует предложение в документе y на расстоянии, меньшем ρ0 ; s y – число предложений в документе y, для которых существует предложение в документе x на расстоянии, меньшем ρ 0 . Дополнительно расстояние между документами может корректироваться (при указании пользователем соответствующих опций) путем учета дат и размера сравниваемых документов. Стандартные
агломеративные
иерархические
алгоритмы
требуют
вычисления расстояний между всеми парами текстов в анализируемом массиве. В зависимости от размера массива текстов требуется использовать различные стратегии организации вычислений: − если
размер
анализируемого
массива
относительно
небольшой
(несколько тысяч элементов), то вычисление всех расстояний можно провести заблаговременно и использовать специальные рекуррентные формулы типа Ланса–Уильямса–Жамбю [Жам88] для перерасчета расстояний между классами в процессе их объединения; − если массив текстов среднего размера (несколько десятков тысяч элементов), то целесообразно использовать агломеративные алгоритмы, которые не используют таблицу расстояний [Жам88]; − если массив текстов большого размера (сотни тысяч текстов), то уже имеет смысл применять последовательные алгоритмы кластерного анализа [Ман88].
255
Для
определения
наиболее
подходящего
значения
для
порогового
расстояния ρ0 , а также оценки итогового качества выявления дубликатов был сформирован массив из 264 новостных сообщений, разбитый вручную на 21 группу «почти дубликатов». На рис. 63 приводится график зависимости величины F-меры от значения 1 − ρ0 для трех типов расстояний между классами: расстояния ближнего соседа (single), расстояния дальнего соседа (complete) и расстояния средней связи (average).
Рис. 63. Зависимость F-меры от порогового значения расстояния
Анализ приведенного графика показывает, что наилучшие результаты достигаются при использовании расстояния дальнего соседа при ρ 0 = 0.6 . Получаемая
при
проведении
иерархического
кластерного
{
анализа
}
последовательность вложенных друг в друга разбиений Ω ( 0) = ω1( 0) , ..., ωn( 0) , …,
{
Ω( n−1) = ω1( n−1) набора
}
также может использоваться для тематического упорядочения
документов.
Оно
необходимо,
например,
для
автоматического
формировании сводных документов, в которых материалы, описывающие одно и
256
тоже событие, но пришедшие в различное время, расположены рядом друг с другом. Формально задачу упорядочения документов можно сформулировать следующим образом. Требуется найти такую перестановку
(l1 , ..., ln )
элементов множества
{1, ..., n}, на которой достигается минимум функции n
(
)
C (l1 , ..., ln ) = ∑ d xli −1 , xli . i =2
Несложно заметить, что в таком виде она совпадает с задачей коммивояжера,
которая
является
NP-полной
задачей.
Для
нахождения
приближенного решения воспользуемся тем фактом, что на каждом шаге t = 1, ..., n − 1 работы агломеративного алгоритма разбиение Ω (t +1) получается путем объединения двух ближайших классов ωs(t ) и ωr(t ) в разбиении Ω(t ) , т. е.
(s, r ) = arg
min
i , j =1, ..., n − t , i ≠ j
δ (ωi(t ) , ω (jt ) ) , где δ – функция расстояния между классами. В
(l , ..., l ), * 1
качестве приближенного решения возьмем такую перестановку
* n
в
которой для любого t = 1, ..., n − 1 элементы классов ωs(t ) и ωr(t ) располагаются непосредственно друг за другом (без перемешивания). Причем порядок следования классов должен быть таким, чтобы обеспечить минимум функции C (l1 , ..., ln ) . Для нахождения перестановки
(
L* = l1* , ..., ln*
)
можно воспользоваться
следующей рекурсивной процедурой. Пусть для элементов классов ωs(t ) и ωr(t ) ,
(
* объединяемых на шаге t, уже построены перестановки L*s = l s*1 , ..., l sn s
(
)
и
)
* L*r = l r*1 , ..., l rn соответственно, где ns – число элементов в классе ωs(t ) , nr – число r
элементов в классе ωr(t ) . Для произвольной перестановки (u1 , ..., un ) оператор R(u , p ) , p ∈ {0, 1}, определяется следующим образом:
R ((u1 , ..., un ), 0) ≡ (u1 , ..., un ) , R ((u1 , ..., un ), 1) ≡ (un , un −1 , ..., u1 ) .
257
Тогда
L*s∪r
перестановка
для
объединенного
класса
ωl ∪r = ωl ∪ ωr
получается следующим образом:
( p , p ) = arg * s
* r
( (
) (
))
min d Rns L*s , ps , R1 L*r , pr ,
ps , pr ∈{0 ,1}
((
) (
))
L*s∪r = R L*s , ps* , R L*r , pr* . Несложно заметить, что вычислительная сложность данной процедуры с учетом проведения иерархического кластерного анализа составляет O (n 2 ), где n – число элементов. На
рис. 64
приведен
пример
тематического
упорядочения
набора
документов с использованием приведенной процедуры, реализованной в системе «СКАТ 2.5».
Рис. 64. Пример упорядочения набора новостей
7.3. Методы выделения и классификации значимых фрагментов в текстах Пусть ω1 , ..., ωk рубрики иерархического классификатора, задающие темы, которые представляют интерес и которые требуется автоматически выделять в
258
текстах,
X = ( X 1 , ..., X n ) – текст на естественном языке, состоящий из n
предложений, X i – вектор весов слов в предложении i = 1, ..., n размерности m, где m – общее число слов в тексте. Требуется для каждой рубрики ω j , j = 1, ..., k , определить факт наличия в тексте информации по ней и в случае положительного решения найти предложения, ей соответствующие. Иными словами, для рубрики
ω j , j = 1, ..., k , требуется найти вектор t j = (t j1 , ..., t js ), где ⎧1, t ji = ⎨ ⎩0,
X i ∈ω j , X i ∉ω j .
Задача выделения значимых фрагментов тесно связана со следующими классическими задачами анализа текстов: − классификация текстов – определение принадлежности текстов к рубрикам классификатора (в данном случае производится оценка отдельных предложений); − сегментация текстов – разделение текстов на тематически однородные фрагменты (в данном случае производится выделение в тексте групп предложений, относящихся к одной теме); − реферирование текстов – выделение значимых предложений в тексте с целью
построения
его
краткого
изложения
(в
данном
случае
производится выделение не всех значимых предложений, а только относящихся к определенной тематике). Основной сложностью при выделении значимых фрагментов в текстах является то, что в общем случае оценку принадлежности предложения к рубрике нельзя проводить без учета соседних предложений. Например, возможна ситуация, когда фрагмент текста X, состоящий из предложений X i , X i +1 , ..., X i + s , относящийся к рубрике ω j , j = 1, ..., k , при классификации целиком будет отнесен к данной рубрике, а при классификации предложений X i , X i +1 , ..., X i + s по отдельности ни одно из них может быть не отнесено к данной рубрике ω j . Также возможна и обратная ситуация, что предложение X i относится к рубрике ω j , но
259
при рассмотрении вместе с соседними предложениями оно уже не будет отнесено к данной рубрике. Для сегментации текстов предложено большое число различных подходов: − процедурный подход; − структурный подход; − вероятностный подход; − оптимизационный подход. Процедурный подход основан на построении правил, учитывающих различные элементы текста: отступы строк, знаки препинания, ключевые слова, референтные связи между словами, а также различные элементы оформления документов (заголовки, разделы, параграфы). Данный подход оказывается эффективным только в том случае, если формат обрабатываемых документов является известным. Структурный подход основан на использовании различных мер близости между предложениями или фрагментами текста. При этом возможно как вычисление простейших статистик совместной встречаемости слов в различных блоках текста, так и использование методов кластерного анализа. При этом наибольшее
распространение
получил
метод
скользящего
окна
или
«перекрывающегося текста» (text-tiling) [CCC04], основанный на нахождении мест в тексте, где мера близости между двумя соседними блоками предложений минимальна. Вероятностный подход для сегментации текстов основан на построении различных вероятностных моделей порождения слов в текстах. На практике наибольшее распространение получило представление текстов с помощью скрытых марковских моделей [GMF01, BM01]. В частности, в работе [GMF01] рассматривается задача разделения составного текста, представляющего запись передач новостей по радио, на отдельные новостные сообщения. В данном случае открытым состояниям скрытой марковской модели, формальное определение которой будет дано далее, соответствуют отдельные слова в тексте, а скрытым
260
состояниям – позиции слов в отдельных сообщениях, т. е. первым словам каждого сообщения будет соответствовать состояние с номером 1. Оптимизационный подход основан на задании некоторого показателя качества разделения текста на фрагменты и нахождении такого разделения, которое обеспечивало бы его максимум. В частности, в работе [FPK03] показатель качества зависит от длины фрагмента текстов и степени близости соседних фрагментов текстов. Для нахождения максимума показателя используется алгоритм на основе методов динамического программирования. Рассмотрим в качестве примера два метода выделения значимых фрагментов, в которых используются отдельные элементы описанных выше подходов к сегментации текстов. В первом методе для определения границ фрагментов используется скрытая марковская модель в комбинации с методом скользящего окна. Во втором методе вводится новая мера близости предложений и классов, основанная на использовании покрытия предложений фрагментами текста. Общим элементом обоих методов является использование для выделения фрагментов произвольных алгоритмов классификации, ориентированных на работу с векторами документов. Первый метод основан на использовании скрытых марковских моделей. В соответствии с работой [Rab89] скрытая марковская модель с дискретным временем определяется как набор следующих элементов: S = {S1 , ..., S N } – множество скрытых состояний;
Q1 , ..., Qn – последовательность случайных величин на множестве скрытых состояний, являющихся стационарной цепью Маркова первого порядка;
A – матрица размера ( N × N ), элементы которой aij = P (Qt = S j | Qt −1 = Si ) –
условные вероятности перехода из состояния Si в момент времени t − 1 в состояние S j в момент времени t; U – множество наблюдаемых состояний (может быть как дискретным, так и непрерывным);
261
F1 (u ), ..., FN (u )
–
множество
условных
функций
распределения
в
пространстве U, где Fi (u ) – функция распределения, соответствующая скрытому состоянию Si , i = 1, ..., N ;
π = (π 1 , ..., π N ) – вектор начальных вероятностей скрытых состояний, где π i = P(Q1 = Si ) . Последовательность u1 , ..., un ∈U порождается следующим алгоритмом. 1. Получить начальное скрытое состояние q1 ∈ S из распределения π и положить t = 1 . 2. Получить наблюдение ut из распределения Fqt (u ) . 3. Получить скрытое состояние qt +1 ∈ S в соответствии с матрицей условных вероятностей A, положить t = t + 1. 4. Если t > n , то завершить, в противном случае перейти к шагу 2. █ Основной
практической
последовательности
скрытых
задачей состояний
при
этом
цепи
является
Маркова
по
определение наблюдаемой
последовательности открытых состояний u1 , ..., un . Для решения последней задачи наибольшее распространение получил алгоритм Витерби, основанный на использовании методов динамического программирования [Rab89]. Рассмотрим теперь, как с использованием аппарата скрытых марковских моделей
можно
производить
выделение
в
тексте
X
предложений,
соответствующих рубрике ω j , j = 1, ..., k . Каждому предложению X i поставим в соответствие следующие векторы: b
yi = ∑ wt X i +t , t =− b 0
y = ∑ wt X i +t , − i
t =− b b
y = ∑ wt X i +t , + i
t =0
262
где b – константа, задающая размер блока (число учитываемых предложений справа и слева от предложения с номером i), wt – вес предложения с индексом i + t , i = 1, ..., n, wt = (1 + t ) , wt = 1 , t – целое. −1
Положим wij , wij− и wij+ равными оценкам степени соответствия блоков yi , yi− и yi+ рубрике ω j , получаемым при использовании некоторого статистического классификатора, g (x i | ω j ) = (wij , wij− , wij+ , g i 4 ) , где g i 4 = 1 − max{wij , wij− , wij+ }. С
учетом
приведенных
обозначений
скрытая
марковская
модель
определяется следующим образом: − наблюдаемые состояния X 1 , ..., X n ; − скрытые состояния ω1 , ..., ωk ; − условные распределения g ( x | ω1 ), ..., g ( x | ωk ); − матрица переходных вероятностей Z =
(Ek + ε ) , (1 + kε )
где Ek – матрица размера ( k × k ), состоящая из всех единиц. Общая схема работы алгоритма выделения фрагментов в результате приобретает следующий вид. Схема работы алгоритма выделения фрагментов
1. Выделить
предложения
в
тексте
и
сопоставить
им
отдельных
предложений
с
векторы
информационных признаков. 2. Произвести
классификацию
помощью
обученного классификатора и получить матрицу весов классификации. 3. С использованием алгоритма Витерби произвести оценивание скрытых состояний цепи Маркова. 4. Произвести разметку текстов путем раскраски предложений из различных классов. █ Основным недостатком этого алгоритма является то, что при его работе предполагается использование фиксированного размера блоков. Рассмотрим
263
теперь принцип работы второго метода выделения фрагментов, который лишен данного недостатка. В этом методе текст X = ( X 1 , ..., X n ) представляется в виде множества векторов ⎧ l2 ⎫ F = ⎨∑ X t | 1 ≤ l1 ≤ l2 ≤ n ⎬ , ⎩ t =l1 ⎭ которое
соответствует
множеству
всех
непрерывных
фрагментов
(последовательностей предложений без пропусков), содержащихся в тексте. Для оценки степени соответствия текста рубрике используются следующие формулы: wij = max g j (Y ) или wij = mean g j (Y ) , i = 1, ..., n, j = 1, ..., k , Y ∈F , X i ∈Y
Y ∈F , X i ∈Y
(18)
где g j (Y ) – функция, осуществляющая вычисление степени соответствия вектора Y рубрике ω j ,
j = 1, ..., k , построенная в результате обучения некоторого
статистического классификатора. В соответствии с (18) вес
wij
предложения
X i , i = 1, ..., n,
равен
максимальному значению степени соответствия рубрике ω j всех фрагментов, содержащих данное предложение. Несложно заметить, что в данном случае для выделения значимых фрагментов в тексте для каждой рубрики требуется выполнить классификацию составляет порядка O (n 2 ). Для
снижения
n ⋅ (n + 1) фрагментов, т. е. вычислительная сложность 2
вычислительной
сложности
можно
воспользоваться
представлением текста X в виде следующего иерархически упорядоченного множества векторов фрагментов (иерархического покрытия): ⎛ [log2 (n )+1] ⎞ H = H 0 ∪ ⎜⎜ U H t ⎟⎟ , ⎝ t =1 ⎠ ⎧⎪ l 2t −1 + 2t ⎡ n ⎤ ⎫⎪ H t = ⎨ ∑ X i | l = 0,..., ⎢ t −1 + 1⎥ ⎬ . ⎪⎩i =1+l 2t −1 ⎣2 ⎦ ⎪⎭
264
Несложно заметить, что для мощности множества H справедливы следующие соотношения: H = H0 +
[log 2 ( n )+1]
∑H t =1
t
≤n+
[log 2 ( n )+1]
∑ t =1
⎛ n ⎞ ⎜ t −1 + 1⎟ ≤ ⎝2 ⎠
∞
1 ≤ log 2 (n ) + 1 + 3n t −1 2 t =1
≤ log 2 (n ) + n + 1 + n∑ Таким
образом,
при
использовании
иерархического
покрытия
H
вычислительная сложность нахождения степени соответствия текста отдельной рубрике составляет порядка O(n ) . Для построенного иерархического покрытия H справедлива следующая теорема, которая говорит о качестве аппроксимации полного множества фрагментов F с помощью множества H. Теорема 5. (Об иерархическом покрытии.)
Для любого фрагмента Y ∈ F существует фрагмент Z ∈ H такой, что YΔZ 1 ≤ . Y 2 Доказательство.
– неотрицательное целое. Отсюда получаем, что 1 Y. 2
265
3.
Y < 2l + 2l −1
Пусть
и
Y > 2l.
Тогда
Y=
∑X
i i∈[ s , s + 2 +δ −1]
,
где
l
{
}
s ∈ 1, ..., n − 2 − δ + 1 , l
и
существует
Z=
v 2l −1 + 2l
∑ Xi ∈ H
i =1+ v 2
(
)
s − 1 + v 2 l −1 ≤ 2 l − 2 , YΔZ ≤ 2 ⋅ 2l −2 − δ ≤
v
такое,
что
l −1
– неотрицательное целое. Отсюда получаем, что
1 Y .█ 2
Таким образом, для каждого фрагмента Y из F существует фрагмент из H, который отличаются от него не более чем на половину его длины. В табл. 69 приводятся оценки качества классификации массива «Новости 1» с выделением фрагментов с использованием предложенного иерархического покрытия и без выделения фрагментов.
Таблица 69 – Результаты классификации массива текстов Массив
C выделением фрагментов
Без выделения фрагментов
Точность
Полнота
F-мера
Точность
Полнота
F-мера
Обучающий массив
94%
98%
96%
97%
95%
96%
Тестовый массив
92%
99%
95%
99%
71%
82%
Пример разметки текста с помощью второго алгоритма приведен на рис. 65.
266
Рис. 65. Пример выделения значимых фрагментов в тексте
7.4. Методы очистки текста от элементов оформления Одним из основных источников открытой информации являются сайты в сети Интернет, текстовая информация на которых в большинстве случаев представлена в виде документов в формате HTML (гипертекстовый язык разметки документов).
Для
этого
формата
существуют
стандартные
библиотеки,
позволяющие получить весь текст из HTML-страницы. Однако использование таких
простых
средств
оказывается
неприемлемым
для
обеспечения
автоматического анализа содержания страниц. В
качестве
примера
рассмотрим
структуру
типичной
страницы,
содержащейся на сайте новостей. На ней, кроме информационной статьи, могут располагаться такие текстовые фрагменты, как реклама, заголовки и первые абзацы других статей, опросы, подписи под изображениями и т. п. Все эти
267
текстовые фрагменты не имеют никакого отношения к основному содержанию опубликованной статьи. В свою очередь, наличие в текстовом материале побочной информации может приводить к заметному снижению качества работы средств автоматического анализа. Таким образом, возникает задача извлечения основного текстового содержания из HTML-страницы с сопутствующим отбрасыванием всей побочной текстовой информации. Более точно указанную задачу можно сформулировать так: необходимо извлечь из HTML-страницы текст, который является основным текстовым содержанием этой страницы, отбрасывая при этом всю побочную информацию типа меню, рекламных баннеров, табличного и гипертекстового форматирования, новостей, опросов, прогнозов погоды и т. п. В качестве примера на рис. 66 выделено основное содержание HTMLстраницы. Все, что справа и слева от выделения, – разного рода побочная информация.
Рис. 1. Пример основного текста HTML-страницы
Необходимо отметить, что в общем случае выделение основного содержания HTML-страниц сопряжено со многими сложностями. Например, на страницах может иметься большое количество текста, но при этом отсутствовать основное содержание. Такими являются страницы, содержащие только рекламные
268
баннеры и ссылки на другие ресурсы сети. Другим примером являются страницы, на которых основное содержание выделяется неоднозначно. Например, на странице может быть размещено несколько блоков новостей вперемежку с рекламой, объявлениями, анонсами и т. п. Можно выделить три основных подхода к решению задачи автоматического выделения основного текста HTML-страниц. Подход на основе задания шаблонов страниц. Такой подход основан на
формировании для каждого типа обрабатываемых HTML-страниц регулярных выражений, осуществляющих извлечение основного текста и атрибутов (автор, название,
дата).
Подготовка
соответствующих
регулярных
выражений
осуществляется путем анализа особенностей оформления страниц на сайте [АВ05]. Данный подход является наиболее простым с точки зрения реализации и наиболее распространенным на практике. Однако его использование возможно только в случаях, когда источники информации (сайты в Интернете) известны заранее и оформление страниц редко изменяется. Подход на основе анализа страниц со схожим оформлением. Этот
подход основан на статистическом анализе структуры страниц, взятых с одного сайта, и выделении на них общих элементов (баннер, дерево разделов, текст опроса и т. п.). Для каждой выявленной группы общих элементов автоматически формируются правила для их выделения на странице, которые обычно представляются
в
форме
регулярных
выражений
[BR02,
RI04,
НП02].
Необходимым условием для возможности применения указанного подхода является наличие априорной информации об источниках информации и достаточного числа примеров одинаково оформленных страниц для каждого из источников. Подход на основе анализа дерева документа. Данный подход основан на
анализе древовидного DOM-представления страницы (представления страницы в виде набора вложенных друг в друга элементов) и отборе в этом дереве наиболее информативных узлов. При таком подходе не требуется заранее знать источник и способ оформления HTML-страниц. В работах [Br03, Ch01, GK04] рассмотрены различные варианты оценки узлов дерева, однако все они направлены на
269
формирование упрощенного представления страницы, а не на выделение ее основного содержания. Иными словами, после их применения на странице еще остается достаточное количество различных вспомогательных элементов. В настоящей работе рассматривается новый подход к выделению основного содержания страниц, который в первую очередь ориентирован на последующий автоматический анализ, т. е. основными требованиями являются независимость от источника информации и высокая точность выделения основного содержания страницы. В рамках предлагаемого подхода к выделению основного текста обработка HTML-страниц разбивается на два этапа:
− построение остова страницы – получение страницы, очищенной от тэгов и избыточных элементов форматирования;
− выделение основного содержания – выделение из остова страницы основного содержания путем анализа плотности распределения текста в остове. Для построения остова HTML-страницы из нее производится удаление содержимого служебных тэгов: , <script>, , <select>, <style>, а также содержимого всех тэгов, которые расположены вне тэга . После этого производится удаление из оставшегося текста всех оставшихся тэгов, за исключением гиперссылок. Отдельные тэги при удалении из текста заменяются различным числом символов пробела и переноса строки, таким образом чтобы сохранить относительное расположение частей текста на странице. После построения остова страницы выделение основного содержания осуществляется путем поиска самого крупного непрерывного блока текста, либо группы «соседних» блоков текста, чья длина в совокупности будет превышать длины всех остальных блоков и групп блоков. Для обеспечения эффективного поиска таких блоков текста вводится оценочная функция f ( x ) , которая определяется следующим образом:
f ( x) =
max K (
xi ∈[ x − I , x + I ]
x − xi ), I
270
где x ∈1, ..., L , xi – позиции печатных символов в остове страницы, i = 1, ..., n, n – общее число печатных символов в остове, I – константа, K (u ) – радиальная базисная функция (функция с центром в некоторой точке, возвращающая для каждой входной точки тем большие значения, чем меньше расстояние от центра до этой точки). Для выделения блоков текста, являющихся кандидатами на наличие основного
текста
документа,
используется
решающая
функция,
которая
определяется следующим образом:
⎧1, gα (x ) = ⎨ ⎩0,
f (x ) ≥ α , f (x ) < α ,
где α ∈ (0, 1) – некоторая константа. Блоку b соответствует такая последовательность символов
(ci , ..., ci ) 1
2
максимально возможной длины, что для любого i ∈ i1 , ..., i2 gα (i ) = 1, где i1 < i2 ,
i1 , i2 ∈1, ..., L . Групповому блоку g соответствует такая последовательность символов, которая получается в результате объединения последовательности соседних блоков b j1 , ..., b j2 максимально возможной длины, у которой длина хотя бы одного из блоков b j , j ∈ j1 , ..., j2 , больше некоторой константы S и число символов между соседними блоками, входящими в группу, меньше I. Рассмотрим теперь алгоритм выделения основного содержания. Пусть B – множество всех выделенных блоков; G – множество всех выделенных групповых блоков; I – число символов переноса строки, заменяющих тэги
и
при построении остова страницы; W ∈ (0, 1) – максимальный допустимый вес ссылок в блоке; S – минимальная допустимая длина блока; SG – минимальная допустимая длина группы блоков; R – коэффициент сравнения длины блока с группой блоков. Параметр W отвечает за фильтрацию блоков-претендентов на основное содержание. Полагается, что если в блоке слишком большая часть текста является текстом ссылок, то блок, скорее всего, является блоком рекламы, меню, прогнозов
271
и т. п., но не основным текстовым содержанием – эти блоки алгоритмом отбрасываются. Параметры S, SG , R отвечают за выбор блоков-претендентов на основное содержание страницы, они должны отбрасывать слишком маленькие блоки (группы блоков) текста, которые не могут быть основным содержанием страницы в силу своей длины. Коэффициент сравнения R показывает, во сколько раз должна длина выбранной группы блоков превышать длину выбранного блока, для того чтобы принять группу, а не блок. Таким образом, алгоритм имеет следующий вид. Алгоритм выделения основного текстового содержания из остова страницы
1. Построить множество блоков B и множество групповых блоков G. 2. Выбрать в B блок bmax , имеющий наибольшую длину. Если длина bmax меньше S, то завершить работу алгоритма. 3. Выбрать в G блок g max , имеющую наибольшую длину. Если длина группового блока g max меньше SG , то завершить работу алгоритма. 4. Если длина bmax в R раз меньше длины g max , то положить C = g max и перейти к шагу 5. 5. Если g max стоит левее или содержит bmax , то положить C = g max , в противном случае положить C = bmax . 6. Вычислить Wa =
La , где LC – общая длина текста в блоке C, La – длина LC
текста внутри гиперссылок в блоке C. 7. Если Wa > W или в блоке C есть запрещенные слова, то исключить блок C из множества блоков и групповых блоков и перейти к шагу 2, в противном случае положить C в качестве основного содержания страницы и завершить работу алгоритма █. Для определения наиболее эффективных значений параметров и общей оценки качества работы алгоритма был создан массив из 250 HTML-файлов,
272
подобранных
таким
образом,
чтобы
они
представляли
наиболее
часто
встречаемые в Интернете типы страниц: новости, статьи, обзоры, блоги. Для определения эффективного значения параметра I, задающего число символов перевода строки, вставляемых на границах таблиц, была проведена оценка величины K s (I ) , которая определяется следующим образом:
Ks (I ) =
a( I ) , a( I ) + d ( I )
где a(I ) – число страниц в тестовом массиве, где замена тэгов
и
на I переносов строк привела к однозначному, видимому при просмотре текста вручную, отделению основного текстового содержания от прочих блоков текста,
d (I ) – число всех оставшихся страниц, где такого отделения не произошло. Результаты экспериментов приведены в табл. 70. Таблица 70 – Зависимость K s (I ) от I
I
K s (I )
5 6 7 8 9 10 11 12 13
0.67 0.73 0.79 0.88 0.97 1 1 1 1
Таким образом, было получено, что при значении I ≥ 10 достигается безошибочная обработка текстов. По этой причине в дальнейших экспериментах было решено зафиксировать значение I = 10. Для выбора вида функции K(u) и параметра α была проведена оценка их влияния величину
K a ( I ,α , K (.)) =
a ( I ,α , K (.)) , a ( I ,α , K (.)) + h( I ,α , K (.))
где a ( I ,α , K (.)) – число страниц в тестовом массиве, которые при автоматическом разбиении на блоки были разбиты так же, как при ручном разбиении, т. е. в
273
которых были правильно выделены блоки основного текстового содержания,
h( I ,α , K (.)) – число оставшихся страниц в тестовом массиве, для которых это не так. В результате проведения экспериментов было определено, что в среднем качество разбиения не сильно зависит от выбора ядерной функции, и треугольная функция лишь немного лучше двух других (см. табл. 71). В дальнейшем было решено остановиться на использовании треугольной ядерной функции и α = 0.5 . Таблица 71 – Результаты экспериментов по выбору ядерной функции и эффективного значения
α
α
Гауссова
Треугольная
Епанечникова
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0.14 0.38 0.51 0.84 0.96 0.77 0.46 0.21 0.04
0.12 0.31 0.49 0.71 0.97 0.74 0.55 0.36 0.07
0.09 0.26 0.43 0.66 0.97 0.87 0.53 0.32 0.17
Для оценки влияния параметров W, S, SG , R на итоговое качество работы алгоритма была вычислена зависимость доли страниц с ошибочно выделенным основным содержанием E при различных значениях данных параметров. В табл. 72–75 приведены соответствующие значения E. Таблица 72 – Зависимость доли страниц с ошибками от W W 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
E 36% 9% 3% 13% 46% 61% 78% 83% 95%
Таблица 73 – Зависимость доли страниц с ошибками от S S 100
E 22%
274
200 300 400 500 600 700 800 900
4% 24% 38% 69% 85% 94% 94% 95%
Таблица 74 – Зависимость доли страниц с ошибками от SG
SG 100 200 300 400 500 600 700 800 900
E 32% 11% 3% 34% 66% 87% 93% 95% 95%
Таблица 75 – Зависимость доли страниц с ошибками от R R 1 2 3 4 5
E 15% 2% 33% 47% 72%
В результате экспериментов было решено остановиться на использовании следующих значений параметров: W = 0.3 , S = 200 , SG = 300 , R = 2 . Для итоговой оценки эффективности алгоритма были вычислены стандартные коэффициенты точности и полноты. В результате были получены следующие значения показателей качества: точность – 95%, полнота – 97%.
7.5. Система классификации и анализа текстов Большая часть рассмотренных в настоящей работе методов обработки и анализа текстовых данных реализована в рамках системы классификации и анализа текстов «СКАТ 2.5», которая имеет следующие базовые функции:
− загрузка (импорт) текстов и описаний рубрик из внешнего представления во внутреннее, основанное на языке XML;
275
− автоматическое формирование разбиения текстов на рубрики с помощью методов кластерного анализа;
− обучение средств автоматической классификации на основе примеров и лингвистических правил, сформированных экспертом;
− редактирование
результатов
экспертной
и
автоматической
классификации;
− автоматическая классификация и выделение значимых фрагментов в текстах;
− сохранение результатов автоматической классификации во внутреннем формате, основанном на языке XML;
− экспорт документов из внутреннего формата в заданный внешний формат, который может быть загружен во внешнюю информационную систему. Функциональная схема системы в нотации IDEF0 представлена на следующих рисунках. На рис. 67 показаны основные исходные данные для работы подсистемы, которые разбиваются на массивы документов для обработки, управляющую
информацию
(методика
обучения,
параметры
моделей
классификации, лингвистические словари и т. п.), программное обеспечение (библиотеки, системное программное обеспечение). На рис. 68 показана взаимосвязь основных функций данной подсистемы.
Рис. 67. IDEF0 контекстная диаграмма A0
276
Рис. 68. IDEF0 контекстная диаграмма A0. Функции подсистемы автоматической классификации
На рис. 69 показана технология подготовки массива документа для обработки.
Рис. 69. IDEF0 контекстная диаграмма A1. Функция импорта
На рис. 70 и 71 показаны, основные операции, выполняемые при обучении и использовании классификатора.
277
Рис. 70. IDEF0 контекстная диаграмма A2. Функция обучения классификатора
Рис. 71. IDEF0 контекстная диаграмма A3. Функция классификации текстов
На рис. 72 более подробно показаны процедуры, выполняемые при оценивании параметров моделей рубрик с использованием комбинированного иерархического метода классификации.
278
Рис. 72. IDEF0 контекстная диаграмма A22. Функция оценивания параметров классификатора
На рис. 73 приведена детализация операций, выполняемых в процессе кластерного анализа.
Рис. 73. IDEF0 контекстная диаграмма A5. Функция кластерного анализа
Рассмотрим теперь примеры представления результатов обработки текстов на
различных
классификации.
технологических
этапах
работы
системы
автоматической
279
Для обеспечения просмотра содержания и редактирования атрибутов документов, а также отображения выделенных фрагментов в них реализовано представление документов, показанное на рис. 74.
Рис. 74. Просмотр содержания документа с разметкой
После обучение классификатора создается специальный отчет, содержащий описание результатов обучения классификатора. Данный отчет представляет собой XML-документ, который может просматриваться с помощью Internet Explorer, и имеет следующую структуру:
− описание основных параметров обучения классификатора; − описание сравнительной эффективности различных моделей; − таблица с оценками качества обучения отдельных рубрик;
280
− таблица с наиболее пересекающимися рубриками; − описание содержания отдельных рубрик. На рис. 75 приведен пример вывода первых двух разделов отчета о результатах обучения классификатора в окне Internet Explorer.
Рис. 75. Фрагмент отчета о результатах обучения классификатора
На рис. 76 приведен фрагмент таблицы из отчета о результатах обучения классификатора, содержащей оценки качества обучения рубрик. Данная таблица имеет следующие столбцы (приведены в порядке следования в таблице):
− номер – содержит код рубрики; − название рубрики – содержит название рубрики и общее число текстов проверочного множества, которое в нее попало;
281
− правильные – содержит процент правильно классифицированных документов;
− пропущенные – содержит процент документов, которые должны были попасть в рубрику, но при классификации не попали;
− добавленные – содержит процент документов, которые не должны были попасть в рубрику, но в нее попали;
− собственная точность-полнота – содержит значения коэффициентов точности и полноты без учета документов в подрубриках;
− общая точность-полнота – содержит значения коэффициентов точности и полноты с учетом документов в подрубриках;
− модель – содержит название модели классификатора, которая была выбрана для данной рубрики в процессе обучения.
Рис. 76. Фрагмент таблицы с оценками качества обучения по отдельным рубрикам
282
Описание содержания отдельных рубрик включает описание общих характеристик рубрик и описание текстов проверочного множества, которые были классифицированы правильно и неправильно. Все тексты, отнесенные к рубрике, разбиваются на три группы: правильные, пропущенные и добавленные. На рис. 77 приведен фрагмент отчета, содержащий описание общих характеристик рубрики «Культура России. Проблемы науки, медицины, религии».
Рис. 77. Фрагмент отчета с описанием общих характеристик рубрики «Культура России. Проблемы науки, медицины, религии»
Данный отчет предназначен как для обеспечения возможности общей оценки качества обучения классификатора и отдельных рубрик, так и для выполнения коррекции рубрик, к которым относятся документы.
283
Необходимость выполнения такой коррекции объясняется тем, что в процессе ручной классификации часто возможны ошибки как связанные с ошибочным отнесением фрагментов текстов к нерелевантным рубрикам, так и к пропуску некоторых релевантных рубрик. Формируемый отчет позволяет выделить такого рода тексты путем анализа списков пропущенных и добавленных документов. Для обучения классификатора в системе поддерживается следующая интерактивная методика. Методика обучения классификатора
1. Произвести обучение и оценку качества работы классификатора. 2. Проверить общее качество обучения. Если оно окажется приемлемым, то перейти к шагу 6, в противном случае перейти к шагу 3. 3. Выбрать для корректировки рубрики, имеющие низкие значения оценок точности и полноты классификации. 4. Для каждой выбранной рубрики выполнить следующие проверки: a. Если в рубрике много дополнительных документов и они относятся более чем к двум другим рубрикам, то рубрика недостаточно отделяется от других рубрик и возможны следующие операции по ее корректировке: i. Добавить дополнительные документы в рубрику. ii. Выбрать более подходящие обучающие примеры. b. Если в рубрике много дополнительных документов из одной или двух других рубрик, то возможны следующие операции по корректировке рубрики: i. Добавить дополнительные документы в рубрику. ii. Объединить пересекающиеся рубрики. c. Если в рубрике много пропущенных документов и они относятся более чем к двум другим рубрикам, то возможны следующие операции по корректировке рубрики: i. Выбрать более подходящие обучающие примеры. ii. Удалить рубрику.
284
d. Если в рубрике много пропущенных документов, но они попадают только в одну или две другие рубрики, то возможны следующие операции по корректировке рубрики: i. Добавить пропущенные документы в другие рубрики. ii. Объединить пересекающиеся рубрики. e. Если много документов попадает в рубрику «Другие» или оценка адекватности массива отрицательна, то возможна следующая операция по корректировке рубрики: i. Добавить новые обучающие документы, соответствующие стилю и размеру документов, попадающих в рубрику «Другие». 5. Перейти к шагу 1. 6. Завершить процедуру обучения классификатора. █ В целом эксперименты с указанной методикой показали, что выполнение корректировки рубрик имеет большое значение для повышения качества классификации. При выполнении классификации массива новых документов создается специальный отчет (сводный гипертекстовый документ), содержащий описание распределения текстов по рубрикам, и выполняется выделение в каждом документе наиболее значимых фрагментов. В процессе формирования отчета для каждой
рубрики
автоматически
вызываются
процедуры
группировки
«дубликатов», кластерного анализа и тематического упорядочения документов. Система «СКАТ 2.5» может использоваться для решения следующих практических задач:
− классификация текстов в фоновом режиме; − классификация фрагментов в активном режиме; − коррекция ошибок в массиве документов; − формирование сводных документов по определенной тематике; − формирование обобщенных документов. Первая задача заключается в том, что после детальной проработки некоторой проблемы часто возникает потребность в продолжении сбора и
285
систематизации поступающей информации по ней в фоновом режиме без привлечения экспертов для классификации документов. Технология организации такой классификации текстов показана на рис. 78 (для представления технологии используется диаграмма потоков данных).
Выгрузка классифицированных текстов из внешней ИС
Массив классифицированных текстов по проблеме
Импорт и лингвистический анализ массива
Массив текстов в XML-формате
Обучение классификатора
Обученная модель классификации
Массив новых (неклассифицированных) текстов
Классификация и корректировка документов
Импорт и лингвистический массива
Массив новых текстов в XMLформате
Экспорт классифицированного массива
Классифицированный массив новых документов в заданном формате
Загрузка классифицированн ого массива во внешнюю ИС
Рис. 78. Технология организации фоновой классификации текстов
Вторая задача заключается в том, что в процессе выполнения ручного анализа (классификации) текстов часто оказывается сложным определение рубрик, к которым должен быть отнесен отдельный документ (например, из-за большого числа рубрик в классификаторе). В данной ситуации после выполнения ручной систематизации некоторого начального множества текстов можно произвести обучение автоматического классификатора на данном множестве фрагментов, а дальнейшую обработку документов производить в соответствии с технологией, представленной на рис. 79.
286
Массив исходных документов по проблеме
Ручное разбиение на фрагменты и классификация
Массив классифицированных фрагментов по проблеме
Обучение классификатора
Обученная модель классификации
Массив новых документов из отдела открытой информации
Ручное разбиение на фрагменты
Автоматическая классификация фрагментов
Массив значимых фрагментов новых документов
Ручная корректировка результатов классификации
Рис. 79. Технология организации оперативной классификации текстов
Также средства автоматической классификации могут использоваться для выявления и исправления ошибок, полученных при ручном распределении текстов по рубрикам (схема обработки данных показана на рис. 80). В основе показанной на рис. 80 технологии лежит использование итерационной процедуры обучения классификатора.
287
Выгрузка классифицированных текстов из внешней ИС
Массив классифицированных текстов по проблеме
Импорт и лингвистический анализ массива
Обучение классификатора
Массив текстов в XML-формате
Отчет о результатах обучения
Корректировка документов
Экспорт классифицированного массива
Скорректированный массив документов в заданном формате
Загрузка классифицированного массива во внешнюю ИС
Рис. 80. Технология коррекции существующего массива документов
Схема автоматического формирования сводных документов показана на рис. 81 и включает следующие этапы:
− сбор сообщений из различных источников; − фильтрация и автоматическая классификация текстов в соответствии с тематиками решаемой задачи или исследования;
− автоматизированное выявление сообщений с похожей или дублирующей информацией;
− автоматизированное выявление основных подтем в рубриках, которые содержат избыточное количество сообщений;
− автоматическое тематическое упорядочение сообщений по одной задаче таким образом, чтобы близкие сообщения выдавались рядом друг с другом;
− формирование обобщенного сводного гипертекстового отчета по всем интересующим тематикам.
288
Рис. 81. Технология автоматического формирования сводок
На рис. 82 и 83 показаны примеры выявления подтем в рубриках «Национальные проекты» и «Коррупция в МВД» с помощью методов кластерного анализа. Примеры тематического упорядочения документов и группировки дубликатов показаны на рис. 84 и 85 (документы с похожим содержанием расположены рядом друг с другом).
289
Рис. 82. Подтемы в рубрике «Национальные проекты \ Здоровье»
Рис. 83. Результаты кластерного анализа документов в рубрике «Коррупция в МВД»
290
Рис. 84. Пример тематического упорядочения документов в рубрике
291
Рис. 85. Результаты тематического упорядочения и группировки дубликатов
В ряде случаев требуется формирование не только сводных документов на базе текущих поступлений, а поддержание в актуальном состоянии обобщенных документов по определенной тематике. Для формирования такого рода документов можно предложить использование технологии, показанной на рис. 86.
Рис. 86. Технология пополнения обобщенных сводок
В рамках данной технологии обобщенный документ задает структуру справки по определенной тематике (задается экспертом вручную в виде обычного текстового документа по данной тематике за предыдущий период времени). При поступлении новых документов в них производится автоматическое выделение фрагментов и их размещение в тексте справки таким образом, чтобы новые фрагменты располагались рядом с соответствующими им материалами в справке.
Automatic Document Categorization. A Hummingbird White Paper. – Hummingbird Ltd., 2000. – 10 p. Apte C., Damerau F., Weiss S. M. Automated Learning of Decision Rules for Text Categorization // IBM Research Report RC 18879, 1994. – 20 p. Apte C., Damerau F., Weiss S. M. Text Mining with Decision Trees and Decision Rules / in Conference on Automated Learning and Discovery, Carnegie-Mellon University, June 1998. – 5 p. Boorman S. A., Arabie P. Structural measures and the method of sorting / in Multidimensional Scaling: Theory and Applications in the Behavioral Science, R. N. Shepard, A. K. Romney and S. Nerlove (eds.). – Seminar Press, New York, 1972. Bhatia S. K., Deogun J. S. Conceptual Clustering in Information Retrieval. – Departament of Mathematics and Computer Science University of Missouri, 1998. – 32 p. Barber C. B., Dobkin D. P., Huhdanpaa H. T. The Quickhull Algorithm for Convex Hulls // ACM Transactions on Mathematical Software, Dec. 1996. Vol. 22. No. 4. – P. 469–483. Berry M. W., Drmac Z., Jessup E. R. Matrices, Vector Spaces, and Information Retrieval // SIAM Review, 1999. Vol. 41. No. 2. – P. 335– 362. Berry M. W., Dumais S. T., O'Brien G. W. Using linear algebra for intelligent information retrieval // SIAM Review, 1995. Vol. 37. No. 4. – P. 573–595. Berry M. W., Fierro R. D. Low-Rank Orthogonal Decompositions for Information Retrieval Applications // Numerical Linear Algebra with Applications, 1996. Vol. 1. No. 1. – P. 1–27. Baldi P., Frasconi P., Smyth P. Modeling the Internet and the Web // Probabilistic Methods and Algorithms. – JohnWiley & Sons Ltd, 2003. – 306 p. Blei D., Moreno P. J. Topic Segmentation with an Aspect Hidden Markov Model // SIGIR’01, September 9–12, 2001, New Orleans, Louisiana, USA. – 6 p. Boyles R. A. On the convergence of the EM algorithm // Journal of Royal Statistical Society, B, 1983. Vol. 45 – P. 47–50. Bar-Yossef Z., Rajagopalan S. Template Detection via Data Mining and its Applications // WWW2002, Honolulu, Hawaii, 2002. Breuel T. M. Information Extraction from HTML Documents by Structural Matching, 2003. Banfield J., Raftery A. E. Model-based Gaussian and non-Gaussian clustering // Biometrics, 1991. Vol. 49. – P. 803–821. Binstock A., Rex J. Metaphone: A Modern Soundex. Practical Algorithms For Programmers. – Addison-Wesley, 1995. – P. 160–169. Bishop C. M., Svensen M., Williams C. K. I. GTM: The Generative
Topographic Mapping. Technical Report NCRG/96/015, 1997. – 16 p. (www.ncrg.aston.ac.uk). Chua1 T., Chang S., Chaisorn L., Hsu W. Story Boundary Detection in Large Broadcast News Video Archives – Techniques, Experience and Trends // MM’04, October 10–16, 2004, New York, USA. – P. 656–659. Church K. W., Gale W. A. A comparison of the enhanced Good-Turing and deleted estimation methods for estimating probabilities of English bigrams // Computer Speech and Language 5, 1991. – P. 19–54. Chakrabarti S. Integrating the Document Object Model with Hyperlinks for Enhanced Topic Distillation and Information Extraction // WWW10, Hong Kong, 2001. Cai L., Hofmann T. Hierarchical Document Categorization with Support Vector Machines // CIKM’04, November 8–13, 2004. – 10 p. Chakrabarti S. Mining the Web. Discovering knowledge from hypertext data. – Morgan Kaufmann Publishers, USA, 2003. – 363 p. Chang C. L., Lee R. C. T. A Heuristic Relaxation Method for Nonlinear Mapping in Cluster Analysis // IEEE Transactions on Systems, Man, and Cybernetics, March, 1973. – P. 197–200. Cohen W. W., Singer Y. Context-sensitive learning methods for text categorization// ACM Transactions on Information Systems, 1999. Vol. 17. No. 2 – P. 141–173. Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm (with discussion) // Journal of Royal Statistical Society, B, 1977. Vol. 39. – P. 1–34. Dumais S. T., Lewis D. D., Sebastiani F. Report on the Workshop on Operational Text Classification Systems // SIGIR-02, Tampere, Finland. – 4 p. (http://www.sigir.org/forum/F2002/sebastiani.pdf). Dhillon I. S., Modha D. S. Concept Decomposition for Large Sparse Text Data using Clustering. – IBM Almaden Research Center, 1999. – 36 p. Eyheramendy S., Lewis D. D., Madigan D. On the Naïve Bayes Model for Text Categorization. – Departament of Statistics Rutgers University, 2003. – 8p. Eckart C., Young G. The approximation of one matrix by another of lower rank // Psychometrika, 1936. Vol. 1. P. – 211–218. Fuhr N., Hartman S., Knorz G., Lustig G., Schwantner M., Tzeras K. AIR/X – a rule-based multistage indexing system for large subject fields // In Proceedings of RIAO-91, 3-rd International Conference «Recherche d'Information Assistee par Ordinateur», 1991. – P. 606–623. Fowlkes E. B., Mallows C. L. А method for comparing two hierarchical clusterings // Journal of the American Statistical Association, 1983. Vol. 78. – P. 553–569. Fragkou P., Petridis V., Kehagias Ath. Linear Text Segmentation using a Dynamic Programming Algorithm, 2003. – 8 p. Fayyad U. M., Reina C. A., Bradley P. S. Initialization of Iterative Refinement Clustering Algorithms // Proceedings of the 4th International Conference on Knowledge Discovery & Data Mining (KDD98),
294
[Fuk90] [GH96] [GK04] [GMF01]
[Gra03] [GSE97] [HA85] [Har75] [HB78] [HK00]
[HW90]
[IMT99] [JM00] [JMF99] [JOZG02] [Ken94] [KH00]
R. Agrawal, P. Stolorz and G. Piatetsky-Shapiro (eds.), 1998. – P. 194– 198. Fukunaga K. Introduction to statistical pattern recognition. Second Edition. – New York: Academic Press, 1990. – 400 p. Ghahramani Z., Hinton G. E. The EM Algorithm for Mixtures of Factor Analyzers // Departament of Computer Science University of Toronto. Technical Report CRG-TR-96-1, 1996. – 8 p. Gupta S., Kaiser G. E., Grimm P., Chiang M. F., Starren J. Automating Content Extraction of HTML Documents. – Kluwer Academic Publishers, Printed in the Netherlands, 2004. Greiff W., Morgan A., Fish R., Richards M., Kundu, A. Fine-grained hidden markov modeling for broadcast-news story segmentation // Proceedings of the First international Conference on Human Language Technology Research (San Diego, March 18–21, 2001). Human Language Technology Conference. Association for Computational Linguistics, Morristown, NJ, 2001. – P. 1–5. Granitzer M. Hierarchical Text Classification using Methods from Machine Learning. – Graz University of Technology, 2003. – 104 p. Getting Started with Excalibur RetrievalWare for Jasmine. RetrievalWare version 6.1. // www.excalibur.com. Hubert L., Arabie P. Comparing Partitions // Journal of Classification, 1985. Vol. 2. – P. 193–218. Hartigan J. A. Clustering algorithms. – N.Y.: Wiley, 1975. – 386 p. Huber L., Baker F. Evaluating the conformity of sociometric measurements // Psychometrika, 1978. Vol. 43. – P. 31–41. Han E.-H. S., Karypis G. Centroid-based document classification: Analysis & experimental results. Tech. Rep. 00-017, Computer Science, University of Minnesota, Mar. 2000. – 8 p. (http://citeseer.ist.psu.edu/han00centroidbased.html). Hayes P. J., Weinstein S. P. CONSTRUE/TIS: a system for content-based indexing of a database of news stories // In Proceeding of IAAI-90, 2nd Conference on Innovative Applications of Artificial Intelligence, 1990. – P. 1–5. Intelligent Miner for Text Version 2.3. Getting Started. – IBM Corp., 1999. – 62 p. (www.ibm.com). Jurafsky D., Martin J. H. Speech and Language Processing. Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. – New Jersey: Prentice Hall, 2000. – 975 p. Jain A. K., Murty M. N., Flynn P. J. Data Clustering. A Review // ACM Computer Surveys, 1999. Vol. 31. No. 3. – P. 264–323. Jonson D. E., Oles F. J., Zhang T., Goetz T. A Decision Tree based symbolic rule induction system for text categorization // IBM System Journal, 2002. Vol. 41. No. 3. – P. 428–437. Kent J. T. The complex Bingham distribution and shape analysis // Journal of Royal Statistical Society, B, 1994. Vol. 44. – P. 285–299. Karypis G., Han E. Concept Indexing. A Fast Dimensionality Reduction
Algorithm with Applications to Document Retrieval and Clustering. Technical Report №00-016 University of Minnesota, Department of Computer Science, 2000. – 20 p. Kasky S., Honkela T., Lagus K., Kohonen T. Creating an order in Digital Libraries with Self-Organazing Maps // In Proc WCNN, 1996. – P. 814– 817. Kohonen T. Self-Organization and Associative Memory. 2nd ed. – Berlin, Springer Verlag, 1987. Kolda T., O'Leary D. A semi-discrete matrix decomposition for latent semantic indexing in information retrieval // ACM Trans. Inform. Systems, 1998. Vol. 16. – P. 322–346. Katz L., Powell J. H. A proposed index of the conformity of one sociometric measurement to another // Psychometrika, 1953. Vol. 18. – P. 249–255. Leung Y. K., Apperley M. D. A Review and Taxonomy of distortionoriented presentation techniques // ACM Transactions on ComputerHuman Interaction, 1994. Vol. 1. No. 2. – P. 126–160. Larsen J., Hansen L. K., Szymkowiak A., Christiansen T., Kolenda T. Webmining: Learning from the World Wide Web // Special issue of Computational Statistics and Data Analysis, 2002. Vol. 38. – P. 517–532. Li Y. H., Jain A. K. Classification of text documents // The Computer Journal, 1998. Vol. 41. No. 8. – P. 537–546. Lagus K., Kaski S. Keyword selection method for characterizing text document maps, 1999. – 6 p. (www.cis.hut.fi). McLachlan G. J., Basford K. E. Mixture models: inference and applications to clustering. Statistics, textbooks and monographs. – Marsel Dekker, 1988. – 253 p. McLachlan G. J. On Aitken's method and other approaches for accelerating convergence of the EM algorithm // Proceedings of the A. C. Aitken Centenary Conference, University of Otago, August 1995. – Dunedin: University of Otago Press, 1996. – P. 201–209. Mao J., Jane A. K. Artificial neural networks for feature extraction and multivariate data projection // IEEE Transactions on Neural Networks, 1995. Vol. 6. No. 2. – P. 296–317. Mahesh K., Kud J., Dixon P. Oracle at Trec8: A Lexical Approach // In NIST Special Publication The Eights Text REtrieval Conference (TREC 8). National Institute of Standards and Technology, 1999. – 10 p. (http://trec.nist.gov). McCallum A., Nigam K. A comparison of Event Models for Naïve Bayes Text Classification // AAAI-98 Workshop on Learning for Text Categorization, 1998. – 8p. Moore A. W. Very Fast EM-based mixture model clustering using multiresolution kd-trees // Advances in Neural Information Processing Systems 11, M. S. Kearns, S. A. Solla, D. A. Cohn (Eds.). – Cambridge, Massachusetts: MIT Press, 1999. – P. 543–549. McLachlan G. J., Peel D. Finite Mixture Models. – New York: Wiley,
2000. – 419 p. McLachlan G. J., Peel D. Mixtures of factor analyzers // In Proceedings of the Seventeenth International Conference on Machine Learning / P. Langley (Ed.). – San Francisco: Morgan Kaufmann, 2000. – P. 599– 606. Manning C., Schutze H. Foundations of Statistical Natural Language Processing. – MIT Press. Cambridge, MA, 1999. – 620 p. Nigam K., McCallum A. K., Thrun S., Mitchell T. Text Classification from Labeled and Machine Learning, 1999. – 34 p. Nettleton D. Convergence properties of the EM algorithm in constrained parameter spaces. – Department of Mathematics and statistics University of Nebraska-Lincoln, 1998. – 20 p. (www.citeseer.nec.com) Neal R. M., Hinton G. E. A View of the EM Algorithm that justifies incremental, sparse, and other variants // Learning in Graphical Models / M. I. Jordan (Ed.). – Dordrecht: Kluwer, 1998. – P. 355–368. Nigam K. P. Using Unlabeled Data to Improve Text Classification: PhD Thesis. – Carnegie Mellon University. CMU-CS-01-126, 2001. – 138 p. Ng S. K., McLachlan G. J. On the choice of the number of blocks with the incremental EM algorithm for the fitting of normal mixtures // Statistics & Computing, Vol. 3, Issue 1, 2003. – P. 45-55. Peng F. Schuurmans D. Combining naive Bayes and n-gram language models for text classification // In Twenty-Fifth European Conference on Information Retrieval Research (ECIR-03), 2003. – 15 p. Rabiner L. A tutorial on hidden markov models and selected applications in speech recognition // Proc. IEEE, 1989. Vol. 77. No. 2. – P. 257–286. Rand W. M. Objective Criteria for the Evaluation of Clustering Methods // Journal of the American Statistical Association, 1971. Vol. 66. – P. 846– 850. Введение в Russian Context Optimizer 3.0. – Гарант-Парк-Интернет, 2000. – 30 c. Руководство администратора RCO Pattern Extractor: компонент выделения объектов в тексте. Версия 1.0 (Microsoft Windows). – М.: Гарант-Парк, 2003. – 37 с. Ramaswamy L., Iyengar A., Liu L., Douglis F. Automatic Detection of Fragments in Dynamically Generated Web Pages // WWW2004, New York, 2004. Van Rijsbergen C. J. Information Retrieval. Second edition. – Buttersworth, London, 1979. Riloff E., Lorenzen J. Extraction-based text categorization: generating domain-specific role relationship automatically, 1996. (www.cs.utah.edu). Robert L. Name Search Techniques // New York State Identification and Intelligence System. Special Report. No. 1. – Albany, New York, 1970. Rousu J., Saunders C., Szedmak S., Shawe-Taylor J. Learning Hierarchical Multi-Category Text Classification Models // Proceedings of the 22nd International Conference on Machine Learning, Bonn, Germany, 2005. – 8 p.
Ruiz M. Combining machine learning and hierarchical structures for text categorization. – The University of Iowa, 2001. – 174 p. Sammon J. W. A nonlinear mapping for data structure analisis // IEEE Transactions on Computers, 1969. Vol. C-18. No. 5. – P. 402–409. Sato M. Fast Learning of on-line EM-algorithm // ART Human Information Processing Research Laboratories, 1999. – 20 p. (citeseer.ist.psu.edu/330617.html). Sarkar M., Brown M. N. Graphical fisheye views of graphs // Proceedings of CHI92, ACM, New York, 1992. – P. 83–91. Sebastiani F. Machine Learning in Automated Text Categorization. – Consiglio Nazionale delle Ricerche, Italy, 2000. – 63 p. Sebastiani F. Machine learning in automated text categorization // ACM Computing Surveys, 2002. Vol. 34. No. 1. – P. 1–47, Steinbach M., Karypis G., Kumar V. A comparison of document clustering techniques // Department of Computer Science and Engineering, University of Minnesotw / Technical Report #00-034 (steinback, karypis, [email protected]). Schapire E. R., Singer Y., Singhal A. Boosting and Rocchio Applied to Text Filtering // ACM SIGIR, 1998. – 9 p. Sebastiany F., Sperduty A., Valdambrini N. An Improved Boosting algorithm and its Application to Text Categorization // Proceedings of the Ninteenth International Conference on Information and Knowledge Management, 2000. – 8 p. Salton G., Wong A., Yang S. A Vector Space Model for Automatic Indexing // Communications of the ACM, 1975. No. 18. – P. 613–620. Simon H., Zha H. On Upadating Problems in Latent Semantic Indexing / Tech. Rep. CSE-97-011. – The Pennsylvania State University, University Park, PA, 1997. – 9 p. Tipping M. E., Bishop C. M. Mixtures of Probabilistic Principal Component Analyzers / Technical Report NCRG/97/003. 1998. – 32 p. (http://www.ncrg.aston.ac.uk). Tipping M. E., Lowe D. Shadow Targets: A Novel Algorithm for Topographic Projections by Radial Basis Functions. – Neural Computing Research Group, Aston University, Birmingham, 1997. – 6 p. (www.ncrg.aston.ac.uk). Tran T. N., Wehrens R., Buydens L. Knn Density-Based Clustering for High Dimensional Multispectral Images. – URBAN 2003-84, 2003. – 5 p. Webb R. A. Statistical Pattern Recognition. Second Edition. – John Wiley & Sons Ltd., England, 2002. – 515 p. Wiener E., Pedersen J. O., Weigend A. S. A neural network approach to topic spotting // In Proceedings of SDAIR-95, 4th Annual Symposium on Document Analysis and Information Retrieval. – Las Vegas, US, 1995. – P. 317–332. Wu C. F. J. On Convergence properties of the EM algorithm. // Ann. Statist., 1983. Vol. 11. – P. 95–103. Weigend A. S., Wiener E. D., Pedersen J. O. Exploiting hierarchy in text
298
[YC05]
[YCS06]
[YL99]
[ZG03] [АБЕ89] [АБИ92] [АВ05] [АДЛ04]
[ББ73] [Бра01]
[Вас07] [ВКЕ06] [Гар99]
categorization // Information Retrieval, 1999. Vol. 1. No. 3. – P. 193–216. Yang H., Callan J. Near-duplicate detection for eRulemaking // Proceedings of the 2005 National Conference on Digital Government Research, DG.O 2005, Atlanta, Georgia, USA, May 15–18, 2005. – P. 78– 86. Yang H., Callan J., Shulman S. W. Next steps in near-duplicate detection for eRulemaking // Proceedings of the 7th Annual International Conference on Digital Government Research, DG.O 2006, San Diego, California, USA, May 21–24, 2006. – pp. 239–248. Yang Y., Liu X. A re-examination of text categorization methods // In SIGIR'99: Proceedings of the 22th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999. – P. 42–49. Zhong S., Ghosh J. A Comparative Study of Generative Models for Document Clustering, 2003. – 13 p. (http://citeseer.ist.psu.edu/). Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности. Справочное издание. – М: Финансы и Статистика, 1989. – 607 с. Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л., Лазурский А. В. и др. Лингвистический процессор для сложных информационных систем. – М.: Наука, 1992. – 256 с. Агеев М. С., Вершинников И. В., Добров Б. В. Извлечение значимой информации из web-страниц для задач информационного поиска // Yandex Grants 2005 Submission Style Guide, 2005. Агеев М. С., Добров Б. В., Лукашевич Н. В. Поддержка системы автоматического рубрицирования для сложных задач классификации текстов // Труды 6-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL2004, Пущино, Россия, 2004. – 10 с. Белоногов Г. Г., Богатырев В. М. Автоматизированные информационные системы. – М.: Сов. радио, 1973. Браславский П. И. Использование стилистических параметров документа при поиске информации в Internet // Доклады VI рабочего совещания по электронным публикациям – EL-PUB–2001. – Новосибирск: ИВТ СО РАН, 2001. (http://www.ict.nsc.ru/ws/elpub2001/1812). Васильев В. Г. Автоматическое выделение значимых фрагментов в текстах // Редакция журнала «ОПиПМ». Т. 14. Вып. 3. – М., 2007. – с. 518. Васильев В. Г., Кривенко М. П., Ефременкова М. В. Библиотека процедур классификации текстовых данных // Редакция журнала «ОПиПМ». Т. 13. Вып. 1. – М., 2006. – с. 743. Гареев А. Ф. Применение вероятностной нейронной сети для автоматического рубрицирования текстов // Сборник научных трудов всероссийской научно-технической конференции «Нейроинформатика –99». Часть 3. – М.: МИФИ, 1999. – С. 71–78.
Голуб Дж., Ван Лоун Ч. Матричные вычисления / Пер. с англ. – М.: Мир, 1999. – 548 с. Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. – М.: Наука, 1985. – 143 с. Енюков И. С. Методы, алгоритмы, программы многомерного статистического анализа: Пакет ППСА. – М.: Финансы и Статистика, 1986. – 232 с. Жамбю М. Иерархический кластер-анализ и соответствия. – М.: Финансы и Статистика, 1988. Журавлев С. В., Юдина Т. Н. Информационная система РОССИЯ // НТИ. Сер. 2, 1995. № 3. – С. 18–20. Зеленков Ю. Г., Сегалович И. В., Титов В. А. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог’2005. Каньковски П. Русский Метафон // Программист, 2002. № 8. Кривенко М. П., Васильев В. Г. Кластерный анализ массивов текстовых данных (препринт) – М.: Институт проблем информатики РАН, 2004. – 189 с. Кривенко М. П., Васильев В. Г. Проблемы разработки и внедрения технологий извлечения информации // Системы высокой доступности 3-4. Т. 2. – М.: Радиотехника, 2006. – С. 6–21. Корнеев В. В., Гареев А. Ф., Васютин С. В., Райх В. В. Базы данных. Интеллектуальная обработка информации. – М.: Нолидж, 2000. – 352 с. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. – М.: Наука, 1970. – 720 с. Лукашевич Н. В. Автоматическое рубрицирование потоков текстов по общественно-политической тематике // НТИ. Сер. 2, 1996. № 10. – С. 22–30. Мандель И. Д. Кластерный анализ. – М: Финансы и Статистика, 1988. Ножов И. М. Морфологическая и синтаксическая обработка текста (модели и программы). Диссертация на соискание ученой степени кандидата технических наук. – Москва, 2003. – 140 с. Некрестьянов И., Павлова Е. Обнаружение структурного подобия HTML-документов // Труды четвертой всероссийской конференция RCDL'2002. – Дубна, 2002. Осовский С. Нейронные сети для обработки информации. – М.: Финансы и Статистика, 2002. – 344 с. Попов Э. В. Общение с ЭВМ на естественном языке. Изд. 2-е, стереотипное. – М.: Едиториал УРСС, 2004. – 360 с. Руководство пользователя системы Классификатор 1.0. – Медиалингва, 1997. – 10 с. Рубашкин В. Ш. Представление и анализ смысла в интеллектуальных
300
[СТ05]
[Тер86] [Тес01] [Фук79] [ХЕ99]
[Шум01] [Шур00] [ШЯЗ99]
информационных системах. – М.: Наука, 1989. Сокирко А. В., Толдова С. Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) // Интернет-математика 2005. Автоматическая обработка веб-данных. – М.: Яндекс, 2005. Терехина А. Ю. Анализ данных методами многомерного шкалирования. – М.: Наука, 1986. – 168 с. Тестелец Я. Г. Введение в общий синтаксис. – М.: РГГУ, 2001. – 800 с. Фукунага К. Введение в статистическую теорию распознавания образов / Пер. с англ. – М.: Наука, 1979. – 367 с. Харламов А. А., Ермаков А. Е. Автоматический анализ текста в системе TextAnalist – модель обработки информации правым полушарием мозга // Сборник трудов V Всероссийской конференции «Нерокомпьютеры и их применение». – М.: Радио и связь, 1999. – С. 275–277. Шумский С. Интернет разумный // Открытые системы, 2001. № 3. – С. 43–46. Шурыгин А. М. Прикладная стохастика: робастность, оценивание, прогноз. – М.: Финансы и Статистика, 2000. – 224 с. Шумский С. А., Яровой А. В., Зорин О. Л. Ассоциативный поиск текстовой информации // Сборник научных трудов всероссийской научно-технической конференции «Нейроинформатика-99». Часть 3. – М.: МИФИ, 1999. – С. 101–109.
301
Приложение 1. Тестовые массивы
Тестовые массивы необходимы для иллюстрации специфических свойств текстовых данных, оценки качества работы и объемно-временных характеристик алгоритмов их обработки. Для решения указанных задач массивы текстов должны удовлетворять ряду требований. Во-первых, для возможности оценки качества классификации и кластерного анализа необходимо наличие экспертной классификации текстов массива по рубрикам. Во-вторых, для получения практически полезных результатов экспертная классификация и сами тексты не должны быть идеальными, а должны воспроизводить типичные недостатки реальных массивов текстов и ошибки ручного индексирования. Например, реальные массивы текстов могут иметь следующие недостатки:
− отдельный текст может быть отнесен либо не ко всем требуемым рубрикам, либо к избыточному числу рубрик;
− число текстов, отнесенных к различным рубрикам, может сильно различаться;
− тематика рубрик может существенным образом пересекаться. В-третьих, для возможности воспроизведения результатов необходима общедоступность и известность массива текстов для других исследователей. Данным требованиям в наибольшей степени удовлетворяет массив «Reuters21578». Он был создан специально для исследовательских целей агентством «Reuters» на основе сообщений средств массовой информации и в настоящее время
доступен
в
Интернете
для
всех
желающих
по
адресу:
http://www.daviddlewis.com/resources/testcollections/reuters21578/. Массив «Reuters21578» состоит из 21 578 текстов, отнесенных к 123 рубрикам. Часть текстов и рубрик в данном массиве являются пустыми. После отбрасывания пустых остается 11 287 текстов.
302
На основе «Reuters-21578» для упрощения иллюстраций отдельных свойств текстовых данных в настоящей работе был создан упрощенный массив «Reuters21578-6», который состоит из 935 текстов, относящихся к рубрикам GNP, GOLD, GAS, NAT_GAS, SHIP, SUGAR. В табл. 76 для удобства сведены основные характеристики приведенных выше массивов текстов. Таблица 76 – Основные характеристики тестовых массивов текстов Характеристика
Reuters-21578-6
Reuters-21578
Число текстов
935
11 287
Число рубрик
6
123
Среднее число текстов в рубрике
156
98
Среднее число слов в тексте
72
143
Необходимо отметить, что в настоящее время как за рубежом, так и в России периодически проводятся специальные семинары и конференции, на которых осуществляется сравнительный анализ различных методов анализа текстов на заранее подготавливаемых массивах. Наиболее известной зарубежной конференцией является Text Retrieval Conference (trec.nist.gov) – TREC, ее отечественный
аналог
–
Российский
семинар
по
оценке
методов
информационного поиска (romip.narod.ru) – РОМИП. В
рамках
конференции
TREC
в
различное
время
производились
эксперименты по следующим направлениям: поиск блогов, поиск информации об организациях, поиск инфоромации по генетическим исследованиям, поиск правовой информации, поиск ответов на вопросы, фильтрация спама, кроссязыковой поиск, классификация текстов по тематикам, высокоточный поиск, выявление
новой
информации,
робастная
классификация,
поиск
видеоинформации, обработка терабайтных массивов текстов, классификация вебстраниц. Для каждого из направлений создаются специальные массивы текстов, которые обновляются каждый год и распространяются только между участниками конференции. Для использования массивов требуется заключение специального
303
соглашения с организаторами конференции, что затрудняет возможность их широкого применения в исследовательских целях вне рамок данной конференции. В рамках семинара РОМИП проводится оценка различных методов информационного поиска, ориентированных на работу с русским языком. В 2006 году проводились эксперименты по следующим направлениям: поиск по запросу, тематическая классификация веб-страниц и нормативно-правовой информации, фактографический поиск в массивах новостей, кластеризация потоков новостной информации, контекстно-зависимое аннотирование текстовых документов, поиск похожих документов по документу-образцу или фрагменту текста, вопросноответный поиск. Для экспериментов созданы четыре массива документов: «Вебколлекция Narod.ru» – псевдослучайная выборка сайтов из домена narod.ru объемом 728 тысяч документов, «Веб-коллекция DMOZ» – массив из 300 тысяч страниц с 2 100 сайтов Интернета, «Коллекция нормативных документов» – массив из 61 тысячи нормативно-правовых документов законодательства Российской Федерации, «Новостная коллекция» – массив, содержащий около 31 тысячи новостных сообщения из 25 источников и охватывающий 3 временных интервала. Массивы предоставляются организаторами только при заключении специального соглашения, что так же, как и в случае с конференцией TREC, ограничивает их свободное использование. В данной работе для иллюстрации лингвистических процедур обработки текстов также используются два массива новостных сообщений на русском языке, для которых отсутствует информации о делении на рубрики (см. табл. 77). Таблица 77 – Массивы на русском языке без деления на рубрики Характеристика
Новости 1
Новости 2
Число текстов
3 078
22 885
Число сайтов
90
90
21.05.2007
09.08.2007 – 16.08.2007
Дата опубликования
304
Научное издание Васильев Виталий Геннадиевич Кривенко Михаил Петрович МЕТОДЫ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ ТЕКСТОВ
Редактор Е. Н. Арутюнов
Оригинал-макет подготовлен в ИПИ РАН Подписано в печать Тираж
___.___.2008
экз. Заказ №
Издательство ИПИ РАН 119333, Москва, ул. Вавилова, д. 44, корп. 2