Кластеризация текстовых коллекций: помощь при содержательном поиске и аналитический инструмент

А. А. Афонин, М. Г. Крейнес Кластеризация текстовых коллекций: помощь при содержательном поиске и аналитический инструм...

Author: Афонин А.А. | Крейнес М.Г.

10 downloads 218 Views 157KB Size Report

This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!

Report copyright / DMCA form

DOWNLOAD PDF

А. А. Афонин, М. Г. Крейнес

Кластеризация текстовых коллекций: помощь при содержательном поиске и аналитический инструмент

●

Аннотация В статье рассмотрены:

— предложенные авторами оригинальные методы кластериза ции текстовых коллекций;

— использование результатов кластеризации для формирова ния адекватных информационным потребностям пользова теля поисковых запросов; — аналитические возможности кластеризации текстовых кол лекций.

ВВЕДЕНИЕ Интернет создал у непрофессионалов прочные иллюзии доступности информации для потребителей и наличия читате лей для ее владельцев и авторов. При отсутствии априорных сведений (у потребителей информации — прямых ссылок на необходимые информационные ресурсы, а у владельцев ресур сов — адресов заинтересованных пользователей) доступ к ин формации и ее востребованность должны обеспечивать поиско вые технологии — поисковые системы и каталоги. По сложив шейся практике, для текстовых документов в Интернете поисковые системы указывают на адреса документов, в которых встречаются конкретные слова. Функционирование поисковых систем основано на словарных индексах — специальных вто ричных информационных ресурсах, формируемых по первич ным информационным ресурсам интернета и устанавливающих связь между словами и адресами информационных ресурсов, в которых эти слова встречаются. Каталоги информационных

510

ресурсов Интернета — это тематические указатели, которые да ют информацию об адресах ресурсов, посвященных конкретной тематике. Создание и использование словарных индексов явля ется трудоемкими и ресурсоемкими процедурами, а создание каталогов требует не только содержательного анализа конкрет ных документов, но и формирования системы рубрикации — модели предметной области или сразу нескольких областей. В настоящее время при коммерчески успешном развитии поисковых технологий и стремительном росте объемов инфор мационные ресурсы глобальных и локальных информационных сетей становятся не более, а менее доступными. Чтобы убедить ся в этом, достаточно осуществить поиск в Яndex или Google по популярным словам или фамилиям. Поисковые машины дек ларируют, что они нашли сотни тысяч ссылок за десятые доли секунды. Но реально удается получить только несколько сотен найденных ссылок на документы, из которых совсем немногие способны удовлетворить информационные потребности ищу щего. Существенны три базовых механизма уменьшения доступ ности ресурсов интернета: информационноинфраструктурные, технологические, экономические.

Информационноинфраструктурные механизмы снижения доступности ресурсов Интернета Информационноинфраструктурные механизмы снижения доступности ресурсов Интернета обусловлены неадекватностью используемых базовых моделей поиска информации задачам удовлетворения информационных потребностей человека с ис пользованием практически неограниченных ресурсов глобаль ных информационных сетей. Сформированная в рамках кибер нетического романтизма 1960—70х годов и господствующая до сих пор модель вычислительного решения задачи поиска текс товой информации основана на достаточно очевидной, но, как это ясно теперь, слишком примитивной картине. В рамках этой наивной модели поиска у человека есть за прос, у компьютера есть доступ к информационным ресурсам, каждый из которых характеризуется определенным набором параметров, а мир устроен таким образом, что запрос можно легко сравнить с описанием ресурса и в результате сравнения выбрать адекватный запросу ответ. Основные способы реализа ции господствующей наивной модели — упомянутые выше по иск по словам и поиск по тематическим рубрикам. Эти методы применяются в большинстве универсальных поисковых меха низмов Интернета, таких, как OpenFind, Google, AlltheWeb, Inktomi, WiseNut, AltaVista, Яndex, Rambler и другие, и в их ана

511

логах в локальных информационных сетях. В соответствии с наивной моделью поиск по словам и поиск по тематическим рубрикам используют в качестве описаний информационных ресурсов словарные индексы и тематические каталоги — вто ричные информационные ресурсы. Однако базовое предполо жение наивной модели поиска о возможности «простого» срав нения запроса и описания ресурса в рассматриваемых случаях представляется неоправданным. Причины неадекватности мето дов поиска по словам не только в сложности для человека фор мирования поискового образа в виде небольшого по объему списка слов, адекватно выражающего информационную потреб ность. Недостаточно эффективно само использование в качест ве критерия отбора информации набора определенных слов, включенных в поисковый образ. Поиск по рубрикам основан на исключительно ресурсоемкой и плохо воспроизводимой априорной смысловой индексации текстов, среди которых может выполняться поиск. В ходе индексации квалифицирован ный специалистпредметник должен определить принадлеж ность документов к фиксированным тематическим рубрикам, чем и обеспечивается выполнение условий наивной модели поиска (притом, что поиск производится по тем же рубрикам). Такая тематическая индексация всегда осуществляется на осно ве понятийной содержательной схемы (модели) предметной области (тезауруса, онтологии или базы знаний). Используемая понятийная схема предметной области создается определенным коллективом и может не только не соответствовать интересам и потребностям конкретного пользователя, но и вносить грубые искажения в представления о предметной области. Неадекватность наивной базовой модели поиска и пробле мы, связанные с ее использованием, могут быть (и были) неза метны при небольшом числе информационных ресурсов, но значительно усугубляются при существенном росте их числа и объема. Становится трудно (а иногда практически невозможно) сформулировать разумный запрос: пользователь получает либо слишком много документов, среди которых не может найти данные, адекватные информационной потребности, либо слишком мало документов, в которых не содержится нужная информация. Традиционные методы поиска по словам и тема тическим рубрикам часто не способны привести к отбору инте ресных для конкретного пользователя текстов и отсеву неинте ресных. Исключить влияние рассмотренных информационноинф раструктурных механизмов снижения доступности ресурсов Интернета может только создание новых моделей поиска ин формации в глобальных и локальных информационных сетях и формирование соответствующих им новых типов вторичных информационных ресурсов.

512

Технологические механизмы снижения доступности ресурсов Интернета Технологические механизмы снижения доступности ресур сов Интернета определяются приемами формирования и ис пользования в поисковых машинах вторичных информацион ных ресурсов (на сегодняшний день — словарных индексов и тематических каталогов документов) и значимо усиливают от рицательное влияние информационноинфраструктурных меха низмов. Построение словарных индексов и тематическая кате горизация выполняются для webстраниц. При этом принимает ся негласное предположение, что индексируемая страница и содержательный документ, который может интересовать поль зователя поисковых сервисов, совпадают. О том, что данное предположение не выполняется, давно осведомлены технологи поисковых машин, которые уже 10 лет назад боролись с сайтами, размещающими на невидимых поль зователю полях списки из сотен повторяющихся слов, призван ных обеспечить продвижение сайта в рейтинге поисковиков (борьба сводилась и сводится к внесению таких сайтов в чер ные списки). Но технологии индексирования не изменились, и пользователь поисковых машин работает со словарным индек сом, построенным по содержательному документу и по некото рой добавке к документу. (Например, если словарный индекс построен по новостной ленте в Интернете, то в индексы отдель ных сообщений попадут слова из самих сообщений и из основ ных заголовков дня, которые приводятся на каждой странице новостной ленты.) С точки зрения пользователя, такой индекс содержит шум, который затрудняет и без того сложный поиск адекватной информации. Аналогична ситуация с тематической каталогизацией доку ментов. Вычислительная поддержка процессов каталогизации необходима при большом числе документов, но основана на не реалистических предположениях о структуре документов и воз можностях извлечения из них содержательных сведений. Поэ тому поисковые машины Интернета и их лоббисты проводят масштабные кампании в попытках навязать авторам и владель цам информационных ресурсов трудоемкие в реализации стан дарты представления и описания информации (к последним следует отнести и проект «Семантический web»). Представляется, что разработка новых моделей поиска и создание новых технологий формирования и использования со ответствующих новых типов вторичных информационных ре сурсов способны служить основой для разработки необремени тельных в использовании, эффективных стандартов представле ния информации в Интернете и превратить технологические механизмы снижения доступности информационных ресурсов

513

Интернета в технологические механизмы повышения доступ ности информационных ресурсов.

Экономические механизмы снижения доступности ресурсов Интернета Экономические механизмы снижения доступности ресур сов Интернета, по существу, используют трудности, обусловлен ные действием информационноинфраструктурных и техноло гических механизмов для формирования дополнительных источников прибыли для владельцев поисковых машин. Поис ковые машины глобальной информационной сети пытаются заработать не только на обычной и поисковой рекламе, но и непосредственно на потребителях информационных ресурсов и их владельцах. Поисковая система Яndex, например, использует XMLсервис, в рамках которого пользователь платно (за каждый документ) получает ссылки (адреса документов в Интернете) и определенное количество фрагментов, содержащих слова из запроса пользователя, из каждого найденного документа. В этом случае число предоставляемых ссылок не ограничивается. Вла дельцы информационных ресурсов, если они хотят попасть в первые сотни результатов поиска по популярным запросам (например, по словам, характеризующим распространенные направления деятельности владельца информационного ресур са), вынуждены взаимодействовать с лицами, занимающимися «раскруткой сайтов» — продвижением информационных ресур сов Интернета в «рейтингах» поисковых машин, определяющих место ресурса в результатах информационного поиска. Переход к новым моделям поиска позволит сформировать новые незамутненные источники доходов для поискового биз неса, связанные с предоставлением сервисов по интеллектуаль ному анализу результатов поиска информации в локальных и глобальных информационных сетях. В данной работе предложены принципиальные и техноло гические подходы к формированию новой модели информаци онного поиска. Основной сюжетной линией изложения при этом является классическая задача кластеризации текстовых коллекций. Задача кластеризации текстовых коллекций — классическая задача в области поиска и анализа текстовой информации, до сих пор не нашедшая эффективного решения. В общем виде эта задача формулируется следующим образом. Априори задана или получена в результате поиска коллекция текстовых документов, для которой отсутствует информация о принадлежности конк ретных документов к определенным тематическим (содержа тельным) группам. Требуется выделить в коллекции тематичес

514

ки (содержательно) однородные группы документов и найти их семантические детерминанты. Доступным для обозрения и зна комства примером стандартного решения задачи кластеризации может служить выделение групп документов метапоисковой системой NIGMA (www.nigma.ru) в результате использования классических алгоритмов кластеризации [1, 2]. Выделение групп документов в новостном потоке поисковой системой Яndex не является примером использования кластеризации: по существу, на Яndex используется категоризация документов — отнесение документов к одной из заранее определенных и некоторым образом описанных тематических групп. Создание эффективных методов и алгоритмов кластериза ции осложняется тем, что серьезной самостоятельной пробле мой является оценка качества кластеризации текстовых коллек ций. Тексты на естественных языках обладают удивительной (хотя и без труда объяснимой) способностью внушать иллюзию разумности результатов их формального анализа. Представляет ся, что адекватным (но плохо формализуемым) критерием каче ства кластеризации может быть только полезность результатов кластеризации для организации поиска информации и ее ана лиза. Использование такого критерия требует, помимо техноло гической реализации, методов кластеризации формирования определенного методического аппарата и накопление опыта их совместного использования.

1

Ч Т О Т А К О Е К Л АС Т Е Р И З А Ц И Я ТЕКСТОВЫХ КОЛЛЕКЦИЙ

Кластеризация текстовых коллекций — это вычислительное определение наличия и состава тематически (содержательно) однородных групп в текстовой коллекции в случае, когда апри орное описание групп отсутствует. При использовании предлагаемых нами методов в резуль тате кластеризации для каждой из найденных тематических групп определяются: — состав группы (список входящих в группу документов с указанием количественной оценки типичности докумен та для данной группы), — семантические детерминанты, дающие пользователю аг регированную информацию о тематике документов груп пы, — ключевые слова, характеризующие основную тема тику, и аннотация группы. Выделенные тематические группы могут быть дополнитель но объединены в более крупные группы, а внутри каждой из групп — мелкие тематические подгруппы (проведена вторичная кластеризация).

515

2

НА ЧЕМ ОСНОВАНА И Ч Е Г О С Т О И Т К Л АС Т Е Р И З А Ц И Я ТЕКСТОВЫХ КОЛЛЕКЦИЙ

Осуществление кластеризации текстовых коллекций, в принципе, предполагает выполнение следующих этапов ана лиза документов анализируемой коллекции: 1) поиск схожих по содержанию (тематике) документов; 2) количественная оценка сходства содержания (тематики) документов; 3) количественная оценка принадлежности документа к те матической группе; 4) построение семантических детерминант (например, ключевых слов) тематических групп документов; 5) построение аннотаций тематических групп документов. В «простых» системах кластеризации часть этих этапов мо жет отсутствовать или выполняться достаточно грубо. Напри мер, поиск похожих по содержанию документов сводится к по иску документов, ссылающихся друг на друга или содержащих определенное число одинаковых слов; количественная оценка принадлежности документа к тематической группе может вооб ще отсутствовать; ключевыми словами группы могут объявлять ся общие слова документов группы, а в качестве аннотации те матической группы допустимо использование фразы документа, содержащей одно из ключевых слов тематической группы. Вместе с тем понятно, что достаточно полная реализация перечисленных этапов кластеризации должна учитывать специ фику текста на естественном языке как носителя информации, и особенности восприятия человеком текстовой информации. А это означает, что технологическая реализация эффективной вычислительной кластеризации текстовых коллекций предпо лагает наличие специальных технологических и информацион ных ресурсов — средств семантического анализа текстовых документов. В большой степени принципиальная сложность решения задачи кластеризации связана с трудностью создания эффективных средств семантического поиска и анализа тексто вой информации. Предложенные нами методы кластеризации основаны на оригинальной технологии семантического поиска и анализа текстовой информации. Наши методы ориентированы на ис пользование специальных вторичных информационных ресур сов — электронных библиотек (далее — ЭБ) с полностью авто матическими сервисами высокоточного семантического поиска и анализа текстовой информации. Такие электронные библио теки создаются в результате анализа текстовых коллекций — первичных информационных ресурсов. При этом анализируе

516

мые коллекции текстовых документов могут иметься у пользова теля или могут формироваться по результатам стандартного по иска (например, по словам или тематическим рубрикам) во внеш них источниках информации — в базах данных или в Интернете. Для создания электронных библиотек с сервисами семантическо го поиска и анализа информации мы используем разработанную нами оригинальную вычислительную технологию поиска и ана лиза информации «Ключи к Текстам» (К2Т) [37].

3

ТЕХНОЛОГИЯ «КЛЮЧИ К ТЕКСТАМ»

Создание и функционирование используемых нами элект ронных библиотек с сервисами высокоточного семантического поиска и анализа текстовой информации основано на ориги нальной двухуровневой модели восприятия человеком тексто вой информации [35], в соответствии с которой в восприятии текстовой информации выделяются два уровня: семиотический (знаковый) и семантический. Семиотический уровень, на кото ром определяется «о чем текст», не использует информации о смысле и значении слов, а реализует статистические механиз мы восприятия для выявления знаков — слов, несущих основ ную информацию о содержании текста. Семантический уровень, на котором определяется, «кто кому что сделал» [8, стр. 11], ори ентирован на восприятие отдельных предложений и основан на логикосемантической модели языка. Истинное понимание текста предполагает совместную интерпретацию его содержа ния на базе двух механизмов и активного использования апри орных знаний носителя языка и, видимо, не может быть выпол нено в отсутствие человека. При создании и функционировании технологии К2Т в качестве базовой математической модели текста используется семиотическая модель. Простейшая семиотическая модель текста внешне почти тривиальна: текст является неструктурированной совокупностью знаков — слов и может быть охарактеризован списком исполь зованных знаков — словарным составом, с указанием частоты встречаемости каждого слова — частотным словарем. В соотве тствии с упомянутой выше двухуровневой моделью именно час тотный словарь задает восприятие текста на семиотическом уровне. Семиотическая модель текста использована в технологии К2Т для вычислительного формирования вторичных информа ционных ресурсов, обеспечивающих выполнение базовых для наших электронных библиотек сервисов по поиску и анализу информации. Формирование электронной библиотеки исполь

517

зует определение для произвольного текста набора слов с веса ми (оценивающими значимость слова в тексте), в своей сово купности являющихся наиболее характерными для рассматрива емого текста. Рассчитанный набор наиболее характерных слов оказывается носителем основной тематики текста и поэтому называется списком смысловых слов (ССС, список СС, смысло вой список) текста. Таким образом, в основе создания электрон ной библиотеки и предложенного решения проблемы кластери зации текстовых коллекций лежит оригинальная процедура вычислительного смыслового индексирования текстов, которая, как было рассмотрено выше, не требует и не использует инфор мацию о смысле и значении слов. Смысловые списки являются высоко достоверной индиви дуальной характеристикой текста: близким текстам соответству ют близкие смысловые списки и, наоборот, если списки двух текстов схожи, то тексты также имеют близкий смысл. В рамках технологии «Ключи к текстам» текст, посвящен ный одной проблеме, является самоподобной структурой в том смысле, что если его разделить на части, то ССС частей будут очень близки между собой и со смысловым списком исходного текста. Наличие свойства самоподобия позволяет, помимо инди видуальных характеристик текстов, строить интегральные характеристики коллекции текстов, рассматривая совокупность текстов как один текст. Однако процедуры дробления или объ единения текстов в определенный момент могут приводить к нарушению самоподобия текста как знаковой структуры, и это обнаруживается в существенном изменении ССС. В таких ситу ациях содержательная интерпретация текста показывает, что разрушение семантической структуры текста или (при объеди нении текстов) возникновение новой семантической структуры действительно имеет место. В этом смысле показательны результаты наших экспери ментов с сообщениями новостных агентств, в ходе которых рас считывались ССС для совокупности документов, появляющихся в течение дня, недели, месяца. Наиболее «весомыми» словами получаемых ССС, действительно, оказывались основные линг вистические детерминанты наиболее значимых событий дня, недели, месяца. И главное, как и в реальной жизни, в соответ ствии с оценками, даваемыми ССС, событие месяца весьма час то не совпадало с главными событиями недель и дней. Масштаб рассмотрения, в соответствии с высказанными соображениям, напрямую соответствовал оценкам значимости событий. Для построения ССС текста необходимы, помимо самого текста, представительный для языка предметной области набор текстов, в рамках которого следует рассматривать анализируе мый текст (этот набор называется базовой эталонной совокуп ностью текстов, или фоном), и формализованные знания о морфологии языка. Список смысловых слов одного и того же

518

текста будет варьироваться в зависимости от выбора фона, поскольку фон является средством описания восприятия конк ретного текста (моделью контекста при восприятии конкретной информации). Для расчета ССС текста определяется его словар ный состав (словоформы в тексте), учитывается возможность присутствия в тексте различных грамматических форм слова (словоформ), определяются соответствующие разным слово формам слова леммы (грамматически нейтральные формы слов) для документов коллекции и документов эталонной сово купности и выполняются необходимые вычисления. Механизм формирования списка смысловых слов основан на отыскании в тексте наиболее сильно связанных пар слов. Критерий, определяющий силу связи слов, аналогичен крите рию Стьюдента [6] и зависит от частоты совместной встречае мости слов в тексте и эталонной совокупности. Для расчета ССС текста необходимо построить частотные словари лемм для документов коллекции и документов эталонной совокупности, а затем рассчитать ССС в виде списка лемм для каждого из до кументов коллекции. На основе применения технологии «Ключи к текстам» по произвольной коллекции текстовых документов можно постро ить полно, достоверно и воспроизводимо характеризующий каждый документ коллекции набор вторичных информацион ных ресурсов — структур данных, к которым относится словар ный состав каждого документа и список его смысловых слов (лемм СС). С учетом роли, способов построения и характера ис пользования, эти структуры данных называются семантически ми структурами коллекции текстовых документов. Эффективность поиска в семантических структурах дости гается за счет построения по ним индексных структур. При этом каждой словоформе и каждой лемме присваиваются внут ренние номера (коды), а затем для каждого документа строятся индексы словоформ и лемм, устанавливающие соответствие между документом и кодами словоформ и лемм, содержащихся в нем. Такой же индекс строится и для списка смысловых слов. Наличие индексных структур позволяет обеспечить быструю вычислительную реализацию функций поиска и анализа доку ментов, представленных набором рассмотренных семантичес ких структур. Набор семантических структур для документов из заданной коллекции и соответствующих индексных структур образует электронную библиотеку, в которой можно осуществлять эф фективное вычислительное решение следующих содержатель ных задач семантического поиска и анализа текстовой инфор мации: — поиск документов, содержательно похожих на заданный текст; — аннотирование документов;

519

— создание эффективных средств формирования поисковых запросов и тематической навигации по коллекции докумен тов; — формирование агрегированных характеристик отдельных документов и/или коллекций документов; — точное и воспроизводимое сравнение запросов и найден ных по ним документов; — сравнение тематики документов, упорядочение документов по степени их релевантности запросу и тематическому сходству между собой. Кратко остановимся на принципах решения перечислен ных задач на основе семантических структур наших ЭБ.

Поиск документов, содержательно похожих на заданный текст В качестве запроса, адекватно описывающего содержание текстаобразца, мы используем его ССС. При поиске в ЭБ с по мощью индексных структур отыскиваются документы, в кото рых встречается не менее заданного количества слов из ССС образца. Найденные таким образом документы подозрительны на наличие содержательного (тематического) сходства с текс томобразцом. При этом мы предполагаем, что отсутствие в документе слов из ССС образца означает полное отсутствие содержательного сходства. Далее сравнение текстаобразца и подозрительных на наличие с ним содержательного сходства документов выполняется методами сравнения запросов и най денных по ним документов (см. ниже). Учет синонимии может осуществляться введением специального словаря синонимов, объявляющего определенные леммы эквивалентными.

Аннотирование документов Под аннотацией документа мы понимаем его фрагмент за данного объема (набор предложений), содержащий наиболее значимые слова из ССС документа (аннотация документа как он есть) или наиболее значимые слова из ССС документаобразца (аннотация документа в контексте запроса). Задача построения аннотации сводится к определению наиболее «весомых» в смыс ле выбранного ССС предложений.

Создание эффективных средств формирования поисковых запросов и тематической навигации по коллекции документов Объединение ССС документов коллекции и упорядочение слов из суммарного ССС по количеству документов, в которых

520

они использованы, позволяет наглядно представить основные темы ЭБ или ее фрагмента, полученного в результате решения задачи поиска. Выбор определенного слова из такого объеди ненного списка выявляет основные смысловые (тематические) связи выбранного слова (полученный результат называется «адаптивный диалоговый тезаурус») и формирует информа ционное обеспечение для тематической навигации по коллек ции — дальнейшего выбора ключевых слов, соответствующих интересам пользователя и обязательно присутствующих в доку ментах коллекции.

Формирование агрегированных характеристик отдельных документов и/или коллекций документов ССС являются уникальной и воспроизводимой семантичес кой характеристикой отдельных документов и позволяют фор мировать агрегированные семантические характеристики кол лекций документов в форме адаптивного диалогового тезауруса или в форме списков ключевых слов тематически однородных групп документов. В последнем случае в качестве набора клю чевых слов тематической группы можно использовать набор суммарно самых «тяжелых» ключевых слов включенных в груп пу документов.

Точное и воспроизводимое сравнение запросов и найденных по ним документов Сравнение запроса (ССС текстаобразца) и найденных до кументов сводится к поиску общих слов в запросе и ССС наход ки и вычислении количественного показателя сходства на ос новании весов общих слов. Таким образом, сравнение семанти ки текстовых документов сводится к формальным вычислениям.

Сравнение тематики документов, упорядочение документов по степени их релевантности запросу и тематическому сходству между собой Упорядочение документов по степени релевантности запросу и тематическому сходству, а также сравнение тематики докумен тов между собой выполняется по результатам вычислений количе ственного показателя сходства — по результатам формальных вычислений, использующих сравнение ССС документов. Существенно, что все сервисы смыслового поиска и анализа информации реализуются технологией К2Т на базе единых теоре тических моделей и методов анализа текстовой информации.

521

Важными свойствами технологии К2Т являются техноло гичность процессов анализа информации, точность и воспро изводимость получаемых результатов.

4

А Л Г О Р И Т М К Л АС Т Е Р И З А Ц И И ТЕКСТОВЫХ КОЛЛЕКЦИЙ

Предложенный нами алгоритм кластеризации текстовых коллекций реализуется следующими основными этапами анали за документов коллекции: — поиск содержательно похожих документов для каждого до кумента коллекции (используются методы поиска по текс туобразцу, основанные на семантических структурах ЭБ); — определение количественного показателя сходства содер жания найденных документов и текстов, использовавшихся в качестве образцов для поиска (на основе сравнения ССС текстов); — построение матрицы содержательного сходства всех доку ментов коллекции друг с другом по результатам попарного сравнения тематики документов (матрица строится один раз для всей кластеризуемой коллекции по результатам по иска содержательно похожих документов и определения количественного показателя сходства содержания докумен тов и используется на следующих этапах решения задачи кластеризации); — построение начального приближения для состава тема тически однородных групп коллекции (по матрице содер жательного сходства документов выделяются группы доку ментов, сильно связанных друг с другом, — значение коли чественных показателей сходства между какимилибо документами группы выше порогового); — расчет «притяжения» конкретного документа ко всем выде ленным тематическим группам — вычисление значений предложенной авторами нелинейной функции величин ко личественных показателей сходства содержания документа и документов, включенных в группу; — итеративное определение состава тематических групп (в ходе итераций документ переносится в те группы, «при тяжение» к которым максимально, осуществляется разделе ние групп на подгруппы не связанных друг с другом доку ментов, если такие образуются в результате изъятия из группы ранее объединявшего подгруппы элемента, и пере расчет величин «притяжения» документов к группам), кри терием остановки итеративного процесса является постоян ство состава всех групп в течение двух последовательных итераций (очевидно, в этом случае дальнейшие итерации

522

не приведут к изменению числа и состава групп) или цик лическое перемещение небольшого числа документов по сформированным группам; — построение ключевых слов тематических групп документов на основе ССС документов, включенных в группы; — построение аннотаций тематических групп документов на основе ССС групп и текстов документов, включенных в группы. С примером результатов кластеризации текстовой коллек ции, полученной в результате поиска в архиве публикаций рос сийской прессы с 1995 г. до середины 2003 г. (всего около 2 500 000 документов) по запросу из одного слова — «Тихонов», можно познакомиться в Приложении. Приведены семантичес кие детерминанты и численность 10 первых по числу входящих в них документов тематических групп. Всего по запросу было найдено 8386 документов.

5

ИСПОЛЬЗОВАНИЕ Р Е З У Л ЬТ А Т О В К Л АС Т Е Р И З А Ц И И ТЕКСТОВЫХ КОЛЛЕКЦИЙ ПРИ ФОРМИРОВАНИИ ЗАПРОСОВ

Информационные сети (Интернет и локальные сети) ха рактеризуются поисковой ситуацией, в которую попадает поль зователь информационных ресурсов сети, — совокупностью поисковых сервисов и ограничений на их реализацию, выпол нение и использование. Именно поисковая ситуация и особен ности постановки задачи поиска пользователем [9] в конечном итоге определяют возможность удовлетворения информацион ных потребностей на базе ресурсов сети. Для Интернета с его развитой и разнообразной системой поисковых машин и ката логов, претендующих на индексирование большой доли налич ных информационных ресурсов, характерны следующие типы ситуаций: — точно знаю, что ищу, и нахожу нужную информацию; — знаю, что ищу, но не очень точно, и нахожу нужную ин формацию; — знаю, что ищу, но не очень точно, и не могу найти нужную информацию; — точно знаю, что ищу, но не могу найти, — очень много найденных ссылок (документов); — точно знаю, что ищу, но не могу найти, — системы поиска ограничивают объем результатов поиска (количество ссы лок на документы). Для дальнейшего подробного рассмотрения интерес пред ставляют три последние ситуации. В них кластеризация,

523

по существу, неадекватных информационным потребностям пользователя результатов поиска способна реально помочь в организации процессов поиска необходимой информации, а использование семантических детерминант результатов клас теризации при формировании запросов является высокоэффек тивным механизмом адаптации пользователя к поисковой си туации. Рассмотрим случай использования поисковых машин в Интернете для получения ссылок на потенциально интерес ные документы, последующего формирования по найденным ссылкам текстовых коллекций — результатов поиска и их вы числительного анализа, в ходе которого для коллекции создает ся ЭБ с сервисами семантического поиска и анализа текстовой информации.

«Знаю, что ищу, но не очень точно» Пользователь способен в форме небольшого по объему списка слов приблизительно описать свои информационные потребности, но полученные результаты поиска не содержат необходимой информации. Кластеризация полученных резуль татов позволяет найти основные тематические группы доку ментов, соответствующих «приблизительному» запросу, и оп ределить их ключевые слова — по существу, наборы базовых понятий предметной области, соответствующей «приблизитель ному запросу». Теперь появляется возможность «семантическо го расширения» — изменения, дополнения и модификации исходного запроса за счет привлечения рассчитанных ключе вых слов взамен определенных слов исходного запроса. Резуль татом является формирование новых поисковых запросов, адекватно отображающих информационные потребности поль зователя.

«Очень много найденных документов» Пользователь способен в форме небольшого по объему списка слов описать свои информационные потребности, полу ченные результаты поиска содержат необходимую информа цию. Но найденных документов очень много, и пользователь не в силах самостоятельно выбрать из найденного массива конк ретные нужные документы. Здесь кластеризация полученных результатов также позволяет найти основные тематические группы документов, соответствующих запросу, и осуществлять дальнейший поиск внутри конкретных тематических групп до кументов, оценивая отдельные группы и выбирая подходящие по их семантическим детерминантам.

524

«Поисковики ограничивают объем результатов поиска» Многие популярные и широко используемые поисковые машины Интернета ограничивают число реально предоставляе мых пользователю ссылок на информационные ресурсы. Ни о каких десятках и сотнях тысяч найденных документов не мо жет быть и речи: максимум, что можно получить — это дветри тысячи ссылок. При этом информационные ресурсы, с очевид ностью соответствующие простым запросам, но оставшиеся вне предоставляемого списка, могут оказаться недоступными для всех, кто не знает прямых ссылок на указанные ресурсы. Мож но только догадываться, что определяет подобное поведение администраторов поисковиков. Первыми приходят в голову предположения о реализации бизнесстратегии, напрямую свя зывающей предоставление информации о клиенте (его инфор мационном ресурсе) или получение информации пользовате лем с непосредственным доходом (продажа мест среди предос тавляемых пользователям ссылок или продажа большого объема ссылок пользователям). Для пользователя поисковых машин результатами такой стратегии являются иногда невозможность найти нужную ин формацию и необходимость всегда учитывать, что использова ние функции поисковой машины «искать в найденном» может привести к грубому искажению реального «информационного поля», соответствующего запросу пользователя. Ограниченные поисковой машиной наборы ссылок, как правило, дают доста точно разумную и неискаженную («несмещенную») оценку свя занной с запросом базовой тематики. Одновременно результа ты поиска в найденном часто могут ввести в явное заблуждение. Это легко увидеть, анализируя кластеризацию трех коллекций документов: ограниченных результатов поиска (типичный объ ем результатов — тысячи документов), результатов дополнитель ного поиска в рамках полученных ограниченных результатов (поиск удобно выполнить по слову из адаптивного диалогового тезауруса, соответствующего ограниченному результату, или по ключевому слову одной из тематических групп, полученной при кластеризации указанного результата; типичный объем резуль татов — сотни документов) и независимого поиска по исходно му запросу, дополненному выбранным словом (типичный объ ем результатов — тысячи документов). Оказывается, что выяв ленные тематические группы документов для второй и третьей текстовых коллекций часто значимо различаются: существенно изменяется порядок групп (при упорядочении по убыванию числа документов в группе) и ведущая в действительности тема может оказаться малозначимой по результатам анализа второй коллекции. Возможно появление новых групп документов, от сутствовавших при анализе «маленькой» коллекции. Это и де

525

монстрирует искажения «информационного поля» при поиске в найденных документах в случае ограничения поисковой ма шиной общего числа предоставляемых ссылок. Одновременно описанный прием показывает возможность решить проблему ограничения числа предоставляемых поиско выми машинами ссылок на основе кластеризации текстовых кол лекций, получаемых по результатам поиска. Найдя интересные пользователю группы документов, необходимо вернуться к услу гам поисковой машины с запросом, расширенным за счет вклю чения ключевых слов вызвавшей интерес группы документов. Раз работка статистической модели, позволяющей проанализировать механизмы возникновения рассмотренных искажений, предста вит безусловный теоретический интерес и будет способствовать уточнению стратегии предложенного расширения запросов.

6

К Л АС Т Е Р И З А Ц И Я Т Е К С Т О В Ы Х КОЛЛЕКЦИЙ — АНАЛИТИЧЕСКИЙ ИНСТРУМЕНТ

Решение задачи кластеризации в рамках электронной биб лиотеки возможно в двух вариантах: «статическая» кластериза ция всей коллекции (для коллекций, насчитывающих десятки тысяч документов) или «динамическая (текущая)» кластеризация части библиотеки, выделенной пользователем в результате решения конкретной задачи поиска. Статическая и динамическая кластеризация обеспечивает ранее недоступные вычислительные возможности по аналити ческому представлению и изучению «пейзажа и жанра» коллек ции в целом и интересующей пользователя темы: — семантические детерминанты тематически однородных групп, выделенных в коллекции, позволяют понять, о чем говорят документы коллекции, являются агрегированной оценкой тематики и содержания документов коллекции; — численность выделенных групп определяет представлен ность и распространенность в коллекции соответствующей тематики; — изучение динамики во времени или распределения по ис точникам информации семантических детерминант или численности тематически однородных групп идентифици руют время и место появления новых тем; — распределение результатов поиска информации (по запро су в виде набора слов или по текстуобразцу) по тема тическим группам, выделенным в результате статической кластеризации, формирует объективную картину контек стов запроса и определяет, что значат найденные доку менты;

526

— сравнение распределений результатов поиска информации (по запросу в виде набора слов или по текстуобразцу) из определенных источников по тематическим группам, выде ленным в результате статической кластеризации, формиру ет объективную картину направленности и тенденций источников (картину качества источников). Остановимся подробнее на рассмотренных аналитических возможностях кластеризации. Агрегированная оценка тематики и содержания документов коллекции (семантические детерминанты вместе с числен ностью выделенных групп) — это готовая аналитическая справ ка по результатам поиска информации. Результаты динамической кластеризации позволяют полу чить агрегированные оценки тематики документов, соответству ющих запросу пользователя, — состав тематически однородных групп, их ключевые слова и аннотации. Таким образом, иденти фицируются основные темы документов, соответствующих пользовательскому запросу. Сопоставление указанной информа ции для документов, соответствующих различным временным периодам или источникам информации, позволяет выявить мо мент и место появления принципиально новой информации, а также возникновения новых оценок интересующих пользова теля лиц и событий. Вычислительное распределение соответствующих запросу пользователя документов по тематическим группам, выявлен ным в результате кластеризации всех документов текстовой кол лекции, дает пользователю достоверную оценку тематических и семантических контекстов, в рамках которых следует трактовать и воспринимать запрос и соответствующую запросу информа цию. Такая картина контекстов часто оказывается более инфор мативной и ценной, чем сами результаты поиска. Здесь также появляется возможность выявления новой информации и новых оценок и их сопоставления с имеющейся у пользователя апри орной информацией, не включенной в текстовую коллекцию. По существу, речь идет о вычислительном механизме поиска адекватной информации для случаев, когда в коллекции доку ментов информация в явном виде отсутствует. Например, пусть нас интересует возможная причина радикального изменения взаимоотношений публичных лиц А и В, которая произошла ориентировочно в момент времени Т и не описана в докумен тах коллекции (эффективно работают PR службы А и В). Клас теризация текстовых коллекций дает нам готовый инструмент для решения сформулированной задачи. Попытаемся найти в результатах статической кластеризации коллекции документов про А и В тематически однородную группу, документы которой появились или описывают события, непосредственно предшест вующие моменту времени Т. Если такая группа существует, ее се мантические детерминанты, скорее всего, дадут ответ на наш

527

вопрос. Таким образом, для поиска причин событий, которые не описаны и не упомянуты в документах коллекции, можно ис пользовать поиск тематических групп документов, появившихся синхронно с представляющим интерес событием. И если участ ники события действительно публичные люди, никакие PR службы им не помогут.

7

НОВОЕ О СТАРОЙ ПРОБЛЕМЕ А В Т О Р С К И Х П РА В

Рассмотренные в данной работе методы и технологии ана лиза текстовой информации позволяют поновому подойти к решению застарелой и крайне болезненной, в первую очередь для науки и образования, проблемы авторских прав [10]. В на шей модели поиска и анализа документов самоценными ока зываются как отдельные документы, так и профессионально подобранные коллекции документов. Наша технология нагляд но демонстрирует, что вне общего контекста конкретный профессиональный документ означает совсем не то, чем он в действительности является, и не может быть не только аде кватно проанализирован, но даже разумно отнесен к кон кретной тематической группе. Поэтому объектами авторских прав должны быть не только отдельные документы, но и сформированные издателями или провайдерами информацион ных ресурсов авторитетные коллекции документов. Соответ ственно должны появиться цена использования конкретного до кумента и цена использования коллекции профессиональных документов.

8

КАКИЕ ТЕХНИЧЕСКИЕ И П Р О Г РА М М Н Ы Е С Р Е Д С Т В А Н У Ж Н Ы Д Л Я К Л АС Т Е Р И З А Ц И И

Для формирования и использования электронных библио тек и выполнения кластеризации необходимы достаточно мощ ные технические средства. Это обеспечивает масштабируемость программного обеспечения, реализующего технологию К2Т, и создаваемых при ее использовании ЭБ, а также гарантирует вы сокую надежность и производительность, способность техноло гии к развитию и модификациям, разумную стоимость ее раз вертывания и эксплуатации. Требования к составу технических средств, которые спо собны обеспечить функционирование технологии К2Т:

528

— webсервер и соединенные с ним дополнительные компь ютеры (из расчета один процессор примерно на каждые 200 тыс. документов), работающие под управлением ОС Linux (Unix), с общей файловой системой для обеспечения формирования новых ЭБ, пополнения и работы с уже име ющимися ЭБ; — подключение к Интернету webсервера и компьютера, ис пользуемого для закачки информации из внешних инфор мационных ресурсов; — сетевое соединение между webсервером и остальными компьютерами на скорости от 10 Мбит/с (неуправляемый коммутатор). Требования к параметрам технических средств: ● для webсервера, работающего под управлением ОС Linux (Unix): процессор 32разрядный, не менее; тактовая частота процессора 1.8 Ггц, не менее; оперативная память 1 Гбайт, не менее; дисковый накопитель HDD, скорость чтения и записи 6 Мбайт/с, не менее, объем 60 Гбайт, не менее; отображающее устройство (монитор) ЭЛТ или TFT устройство с разрешающей способностью 800600 то чек, 256 цветов, не менее; устройства ввода: алфавитноцифровая клавиатура, ма нипулятор мышь, считывающее устройство с компакт дисков, сетевой интерфейс; ● для отдельных компьютеров (процессоров), имеющих об щую файловую систему с webсервером: процессор 32разрядный, не менее; тактовая частота процессора 1.8 Ггц, не менее; оперативная память 1 Гбайт, не менее; дисковый накопитель HDD, скорость чтения и записи 6 Мбайт/с, не менее, объем 60 Гбайт, не менее; отображающее устройство (монитор) не требуется; устройства ввода — считывающее устройство с ком пактдисков, сетевой интерфейс. Наша технология работает под ОС Linux с реализованным на ней webсервером APACHE. Расчетные компьютеры, соеди ненные с сервером, работающим под ОС Linux, должны иметь общую файловую систему. Для поддержки пользовательского интерфейса необходимо наличие webбраузера на стороне пользователя; пользовательские компьютеры могут функциони ровать как под ОС Linux, так и под ОС Windows. Вычислительное решение задачи кластеризации является весьма трудоемким. Кластеризация коллекций, насчитывающих сотни документов, требует минут, а кластеризация коллекций из 10 тысяч документов может потребовать 7—8 часов процессор ного времени. При этом время кластеризации зависит не толь

529

ко от наличного вычислительного ресурса, но и от свойств текстовой коллекции: от наличия и силы смысловых (темати ческих) связей между документами коллекции и от тематичес кого разнообразия документов коллекции.

Литература 1. BaezaYates R. Modern Information Retrieval / R. Baeza Yates, B. RibeiroNeto. — ACM Press, 1999. 2. Salton G. Introduction to modern Information Retrieval. McGrawHill Computer Science Series / G. Salton, M.J. McGill. — McGrawHill, New York, 1983. 3. Крейнес М. Г. Информационная технология смыслового поиска и индексирования текстовой информации в электрон ных библиотеках: ключи от текста / М. Г. Крейнес // Научный сервис в сети Интернет. — М.: Издво МГУ, 1999. 4. Kreines M. G. Information Technology “Key to text” for Semantic Search and Indexing of Textual Information. An Essential Tool for Electronic Publishing / M. G. Kreines // Electronic Publishing In The Third Millennium. — Kaliningrad/Svetlogosk, 2000. 5. Крейнес М. Г. Архитектура и пользовательские характе ристики системы вычислительного смыслового поиска и анали за текстовой информации «Ключи от текста» / М. Г. Крейнес, А. А. Афонин // Научный сервис в сети Интернет: тезисы докладов Всероссийской научной конференции. — М.: Издво МГУ, 2000. 6. Крейнес М. Г. Технология смыслового поиска информации в сетевых информационных ресурсах / М. Г. Крейнес // Искус ственный интеллект. — Донецк. — 2000. — № 2. 7. Крейнес М. Г. Использование профессиональных инфор мационных ресурсов в сфере науки и образования и новые информационные технологии смыслового анализа текстов / М. Г. Крейнес, А. А. Афонин // Труды Всероссийской научной конференции «Научный сервис в сети Интернет». — М.: Издво МГУ, 2001. 8. Пинкер С. Язык как инстинкт: пер. с англ. / С. Пинкер. — М., Едиториал УРСС, 2004. 9. Афонин А. А. Поиск образовательных информационных ресурсов: принципы, архитектура, реализация / А. А. Афонин, М. Г. Крейнес // Интернетпорталы: содержание и технологии: сб. науч. ст. Вып. 1 / Редколл.: А.Н. Тихонов (пред.) и др.; ГНИИ ИТТ «Информика». — М.: Просвещение, 2003. 10. Kreines M. G. Intellectual Information Technologies and Scientific Electronic Publishing: Changing World and Changing Models / M. G. Kreines // elpub 2002 Technology Interactions, Proceedings of the 6th International ICCC/IFIP Conference on Electronic Publishing, Verlag fur Wissenschaft und Forschung. — Berlin, 2002.

530

Приложение Ниже представлены результаты кластеризации текстовой коллек ции, полученной в результате поиска в архиве публикаций россий ской прессы с 1995 г. до середины 2003 г. (всего около 2 500 000 документов) по запросу из одного слова — «Тихонов». Приведены семантические детерминанты (характерные слова и аннотации) и численность 10 первых по числу входящих в них документов темати ческих групп. Ключевые слова групп упорядочены по величине сум марного «веса» в документах группы, а в скобках после каждого сло ва указано число документов, в которых слово встречается. Всего по запросу было найдено 8386 документов. В тексте аннотаций темати ческих групп ключевые слова групп выделены жирным шрифтом. Напомним, что в нашей технологии в качестве основы семанти ческого анализа используются леммы слов, а не словоформы. Поэто му по запросу «Тихонов» найдены документы, в которых упоминает ся «Тихон» (в соответствии с морфологией русского языка). Докумен ты про Патриарха Тихона и композитора Тихона Хренникова образовали отдельные тематические группы. Характеристики наибо лее популярных в российской прессе проанализированного периода Тихоновых легко получить из семантических детерминант соответ ствующих им тематических групп документов. Характерные слова для тематической группы № 1 из 2500 док.: Спартаку (1264), матч (1476), ЦСКА (999), команды (1847), Романцев (586), чемпионата (1699), Локомотива (780), тренер (1590), сборной (1256), чемпионов (1280), Крылья (663), футболе (1026), болельщик (882), игрок (1155), футболисты (879), Алании (435), Филимонов (308), хоккей (518), забить (647), спартаковских (385). Аннотация: ...Результаты 23го тура: Положение после 23го тура В Н П Мячи О «Ротор» 14 4 5 4322 46 «Динамо» 13 7 3 3013 46 «Спартак» 13 5 4 3816 44 «Торпедо» 12 4 7 3825 40 «Локомотив» М 9 9 5 2922 36 «Черноморец» 9 8 5 2720 35 «Алания» 10 4 9 36 25 34 «Ростсельмаш» 7 11 5 2319 32 «Крылья Советов» 8 6 9 1820 30 «Шинник» 7 9 7 2026 30 «Балтика» 6 12 5 2419 30 «Жемчужина» 8 5 10 2127 29 «Зенит» 7 8 8 1319 29 ЦСКА 6 6 11 1832 24 ФК «Тюмень» 6 5 12 1831 23 «КамАЗ» 6 1 16 2753 19 «Факел» 5 3 15 14 27 18 «Локомотив» НН 5 3 15 1637 18 «Ротор» — «Балтика» — 2:1 (Бурлаченко, Беркетов; Малай), «Динамо» — «Локомотив» М — 3:1 (Терехин, Э.Косолапов, Куценко; Лоськов), «Спартак» — «КамАЗ» — 6:2 (Дмитриев, Ширко, Цымбаларь, Бахарев, Хлестов, Тихонов; Евдокимов, Лухвич), «Торпедо» — ЦСКА — 3:0 (Хохлов, Янкаускас, Камольцев), «Черноморец» — ФК «Тюмень» — 4:0 (Геращенко, Демин, Березнер — 2), «Алания» — «Ростсельмаш» — 0:0, «Жемчужина» — «Крылья Сове тов» — 0:1 (Авалян), «Шинник» — «Зенит» — 2:0 (Аваков, Гришин), «Факел» — «Локомотив» НН — 2:0 (Трендафилов, Шмаров)... Характерные слова для тематической группы № 2 из 572 док.: НОВОСИБИРСК (456), Тулеева (501), МИКОМ (192), Амана (451), кеме ровского (411), покушения (479), губернатора (472), олимпийскому (357), Четырехкратному (129), УФСБ (165), биатлонисту (119), обви няемому (378), биатлону (124), областном (228), чемпиону (360), Никаноров (58), Живило (294), лечения (133), следствия (287), Адво кат (246). Аннотация: ...Однако в областном управлении ФСБ недовольны решением прокурора, так как там считают, что это усложнит ход следствия, которое попрежнему будет продолжаться. Адвокат Тихо нова Владимир Калиниченко сообщил, что его подзащитный болен

531

тяжелой формой тромбофлебита и, по заключению врачей ФСБ, нуж дается в лечении в условиях стационара. ...Сын четырехкратного олимпийского чемпиона по биатлону Александра Тихонова, об" виняемого в подготовке покушения на кемеровского губернато" ра Амана Тулеева, обратился в УФСБ по Новосибирской области с просьбой назначить его общественным защитником отца. ...А вот за казчиком убийства новосибирские оперативники (операцию по за держанию проводило именно новосибирское УФСБ) считают пред седателя Совета директоров ЗАО «Международная инвестиционная компания» («МИКОМ») Михаила Живило, уехавшего за границу и объявленного в розыск. ...Адвокаты бывшего биатлониста полагают, что на их подзащитного оказывается моральное давление. ...Также был допрошен другой свидетеля — Сергей Никаноров... Характерные слова для тематической группы № 3 из 389 док.: Церковь (302), православной (295), Патриархии (253), храме (247), церковные (207), митрополите (144), епископом (170), священника (157), соборе (170), монастыре (157), Свято (247), верующих (142), Архангельская (63), Божьей (154), холмогорской (49), Святейшего (86), духовную (190), храм (133), епархии (110), архимандрит (73). Аннотация: ...Он родился в семье священника. ...«сам факт про ведения настоящего конгресса свидетельствует о достижении право" славной журналистикой определенной зрелости», — звучат слова приветствия Святейшего патриарха Московского и всея Руси Алек сия II. ...Этот величественный, самый большой в Карелии храм, ког дато украшавший город, был разорен в 1934 году и пока еще не вос становлен. ...Причина, которая вызывает упорное отстаивание юлианс кого календаря, названа в определении Священного синода РПЦ: «В нашей церковной среде юлианский календарь (старый стиль) отождествляется с частью национальной духовной традиции, пре данность которой стала нормой религиозной жизни миллионов людей». ...Архимандрит Тихон (Шевкунов), лично знакомый с прези дентом (его даже называли в СМИ «духовником» Путина), активно выступает против введения индивидуальных номеров налогоплатель щика, видя в них зашифрованное «число Зверя» из Апокалипсиса — 666. ...В Знаменской церкви находилась икона Знаменской Божьей Матери, писанная около 1624 г., когда церковь была еще деревянной, и пережила невредимой все пожары. ...Рассмотрев доклад председате ля Синодальной комиссии по канонизации святых митрополита Крутицкого и Коломенского Ювеналия, Священный синод в соответ ствии с определением Юбилейного Архиерейского Собора, благосло вившего включение в состав Собора новомучеников и исповедников российских новых святых в послесоборный период, причислил к этому Собору 57 новых святых, имена которых были представлены АлмаАтинской, Вологодской, Екатеринбургской, Московской, Рязан ской, Пензенской, Саратовской, Тамбовской, Ярославской епархиями и СпасоПреображенским Валаамским монастырем. ...Священный си нод возблагодарил Господа о состоявшемся в ноябре этого года освя щении Блаженнейшим Патриархом Александрийским и всей Афри ки Петром VII в сослужении с представителями Русской Православ" ной Церкви храма Святого великомученика Димитрия Солунского в Каире (Египет) предназначенного для окормления русских правос" лавных верующих. ...Епископ Архангельский и Холмогорский Тихон провел в Холмогорах архиерейское богослужение... Характерные слова для тематической группы № 4 из 195 док.: Актер (152), фильм (160), роль (160), актрисе (89), сниматься (130), актерского (78), театра (111), съемки (89), играл (125), сыграть (114),

532

кино (133), артиста (105), спектаклей (78), картины (103), сценарий (76), режиссера (147), Бондарчуком (35), Ростоцкий (32), Мордюкова (34), мгновений (42). Аннотация: ...заявил Бондарчуку, что сниматься у него не бу дет никогда! ...Прислали сценарий, договорились о сроках. ...Татьяна Лиознова пригласила певца записать песни к фильму «Семнадцать мгновений весны». ...К примеру, для эпизода в бане на съемках кар" тины «А зори здесь тихие» Ростоцкий уговорил актрис раздеться догола. ...О том, что ждет зрителей и труппу в новом сезоне, расска зывает в беседе с нашим обозревателем художественный руководитель Малого театра народный артист СССР Юрий Соломин: «Как извест но, пьесы Островского входят у нас в «обязательную программу» — мы каждый год ставим Островского. ...Когда заканчивается драма Ост ровского «Гроза», Тихон говорит последние слова над умирающей Ка териной: «Хорошо тебе, Катя!» И шепотом добавляет ей на ухо: «А мне еще водевиль играть!» Много лет назад замечательный режиссер Петр Васильев поставил спектакль «Пучина», где мне посчастливи лось сыграть Кисельникова (кстати, сегодня у нас тоже идет «Пучи на» в постановке Александра Коршунова). ...Пришлось на съемках ле жать в гробу и актеру Владимиру Тихонову, сыну Вячеслава Тихоно ва и Нонны Мордюковой. ...ПОСЛЕДНЯЯ актерская работа замечательного актера в художественном кино — роль слепого вете рана Льва Моргулиса в фильме Сергея Урсуляка «Сочинение ко Дню Победы»... Характерные слова для тематической группы № 5 из 174 док.: Минимущества (100), ОАО (68), директоров (137), Юсуфов (62), акци онеров (120), РФ (115), совета (150), РАО (50), Христенко (61), ЕЭС (50), Медведев (75), энергетике (102), заместителю (123), имуществен ных (105), ФЭК (57), утвердить (64), департаментов (122), Греф (54), Косарев (34), избрания (104). Аннотация: ...Бизнесобозрение»: кандидатов в новый Совет ди" ректоров РАО ЕЭС планируется утвердить в марте. Совет дирек" торов РАО «ЕЭС России» планирует в марте утвердить список кан дидатов в новый Совет директоров компании, сообщил председа тель правления РАО Анатолий Чубайс на телефонной конференции с акционерами и инвесторами. ...В список кандидатов входят руково дитель администрации Президента РФ Александр Волошин, первый замминистра финансов РФ Сергей Вязалов, министр экономического развития Герман Греф, три представителя в Совете Федерации: Валентин Завадников (от Саратовской области), Александр Казаков (от Ростовской области), Оганес Оганян (от КомиПермяцкого окру га), замминистра имущественных отношений РФ Сергей Косарев, руководители департаментов Минимущества Станислав Лычагин и Александр Тихонов, первый зампред ФЭК Юрий Сахарнов, первый заместитель руководителя Минприроды Николай Тарасов, вице премьер РФ Виктор Христенко, председатель правления РАО Анато лий Чубайс, министр по антимонопольной политике Илья Южанов, глава Минэнерго РФ Игорь Юсуфов. ...В список кандидатур для из" брания в Совет директоров «Газпрома» вошли: заместитель пред седателя правления ОАО «Газпром» Александр Ананенков, председа тель правления Ruhrgas AG Буркхард Бергманн, министр имущест" венных отношений РФ Фарид Газизуллин, министр экономического развития и торговли РФ Герман Греф, директор по корпоративным исследованиям фонда Hermitage Вадим Клейнер, член правления ОАО «Газпром» Александр Красненков, первый заместитель руководителя аппарата правительства РФ Александра Левицкая, первый замести" тель руководителя администрации президента РФ Дмитрий Медве"

533

дев, председатель правления ОАО «Газпром» Алексей Миллер, предсе датель Совета директоров ЗАО «Объединенная финансовая группа» Райан Чарльз, заместителя председателя правления ОАО «Газпром» Александр Рязанов, заместитель председателя Федеральной энерге тической комиссии РФ Юрий Сахарнов, руководитель аппарата прав ления ОАО «Газпром» Михаил Середа, руководитель департамента имущества ТЭК Минимущества РФ Александр Тихонов, замести" тель министра энергетики РФ Геннадий Устюжанин, акционер ОАО «Газпром» Борис Федоров, заместитель председателя правитель ства РФ Виктор Христенко, управляющий директор ЗАО «Объеди ненная финансовая группа» Илья Щербович, министр энергетики РФ Игорь Юсуфов... Характерные слова для тематической группы № 6 из 168 док.: образования (135), вузов (89), школе (134), образовательной (69), рек тор (59), учителей (90), учебные (96), преподавателям (71), студентов (74), Минобразования (30), педагогическое (49), педагогов (54), школьников (57), школьных (65), заведения (64), учеником (60), Фи липповым (25), экзаменов (37), вузовские (24), учительской (16). Аннотация: ...А.А. Тихонов, Кузьминов и ваш покорный слуга — это своего рода триптих: линия первого прослеживается как мощно управленческая; второй выступает как экономист, который снабжает управленческий вектор реальными финансовоэкономическими обос нованиями; третий прорабатывал собственно педагогическую, со держательную, сторону. ...И действительно, Сергей Кириенко уже под писал постановление № 600 (от 17 июня) «Об утверждении «Програм мы экономии государственных расходов», где в рамках положения об «оптимизации работников бюджетных организаций», в частности, идет речь об увеличении числа студентов на одного преподавате" ля, о добавлении нагрузки педагогам в учреждениях начального и среднего образования, о слиянии вузов с техникумами в некие «комплексы» и «оптимизации» структуры образовательных учрежде ний на всех уровнях. ...В вузы поступает только 10 процентов школь" ников. ...Филиппов предлагает заменить выпускные школьные эк" замены и вступительные институтские Единым государственным эк" заменом. ...Все это создает разрыв между требованиями вузовских приемных комиссий и реальной подготовкой учеников. ...министра общего и профессионального образования РФ Александра ТИХО НОВА: — Позиция Минобразования заключается в том, что мы прекрасно понимаем: невозможно проводить реформы, не пробуждая заинтересованности в успехе этих реформ во всех участниках учеб" ного процесса — профессоре, преподавателе, студенте, учителе, ученике, семье. ...Ломоносова открылся V съезд Российского союза ректоров (РСР) высших учебных заведений РФ — самый прес тижный на сегодняшний день форум отечественной высшей школы, на который собрались главы 700 высших учебных заведений страны. ...С февраля опять начали расти долги по учительской зар плате... Характерные слова для тематической группы № 7 из 93 док.: ХРЕННИКОВ (60), оркестр (71), концерт (82), симфонические (46), композиторы (58), Чайковского (36), залы (68), музыкального (66), му зыкант (46), консерватории (49), солисты (42), музыки (67), Гергиев (16), исполнят (30), песни (39), академический (26), концертный (37), Башмет (19), дирижера (32), хор (34). Аннотация: ...Кошмар — Кадышева: сама на 150 кг, и песни у нее такие же жиром заплывшие. ...Выступления в качестве дирижеров Башмета, Спивакова, Рудина, Политикова, Андропова. ...Композитор,

534

джазовый и рокмузыкант Филипп Гласс. ...В концерте 4 марта, ко торый состоится в Большом зале Московской консерватории, проз вучит выпускное сочинение Чайковского, посвященное Тихону Хренникову, — Шесть вариаций и тема (концерт для виолончели с оркестром). ...Историческую программу исполнят Академический большой симфонический оркестр под управлением Владимира Федосеева и Московский государственный академический камер ный хор. ...Чтобы привлечь в концертный зал публику, которая раньше не особенно охотно посещала любые концерты, организа торы музыкального Общества посчитали необходимым пригла шать в первое время солистов из северной столицы и Москвы. ...Прокофьев всегда умел писать гениальную музыку на сомнительные тексты, а Гергиев — один из лучших интерпретаторов музыки Про кофьева... Характерные слова для тематической группы № 8 из 93 док.: театра (87), Хренниковой (48), оперы (59), балет (50), спектаклях (78), МУЗЫКАЛЬНОМ (66), Постановка (53), композиторов (48), Мариин ского (22), оперного (35), Геликон (11), гастролей (23), оркестр (41), артиста (39), солистов (29), дирижера (38), Бертманом (12), сцене (67), творческого (38), академическом (24). Аннотация: ...Наш город не зря называют культурной столицей юга России, творческая жизнь здесь кипит. «...Ее декорации и костю мы очень легкие, воздушные, что было также необходимым услови ем для предстоящих зарубежных гастролей. ...Нужно знать сцену и сценические приемы. ...Но постановку осуществляет сам Васильев вместе со скандально известным Дмитрием Бертманом. ...Он играл блистательно, причем во время спектакля никто не решал кроссвор ды, что я с немалым удивлением наблюдал в оркестре Мариинско" го театра во время исполнения оперы «Золото Рейна» в Большом театре. ...Этот спектакль с триумфом прошел в городах земли Север ный Рейн—Вестфалия, с большим успехом принимался на Междуна родных оперных фестивалях в Чебоксарах и Иванове, вызывает не изменный интерес у нижегородской публики. ...В концерте примут участие заслуженные артисты России Сергей Куракин (педагог Алек сандра) и Леонид Сычев, солисты и артисты балета. ...В постанов" ке принимал участие сам композитор. «...В Московском государ ственном академическом детском музыкальном театре имени Наталии Сац состоялась премьера нового балета Тихона Хренни" кова «Капитанская дочка». ...Приятная неожиданность «Фальстаф» в «Геликон"опере» под управлением греческого дирижера Теодора Курентзиса (2)... Характерные слова для тематической группы № 9 из 77 док.: губернаторов (71), Черногоров (30), губернаторских (39), Машковцев (30), Пермяцком (29), областях (75), Ивановской (55), Головков (33), Трутнев (21), выборов (70), КПРФ (48), тур (43), Полуянов (19), действующий (48), Кислицын (24), Ставропольском (32), Избиратели (42), Малакова (18), регион (55), кандидат (48). Аннотация: ...В Ивановской области успех сопутствовал КПРФ — ее кандидат, депутат Госдумы Владимир Тихонов, получил около 48% голосов — неплохой задел, а председатель областного пра вительства Анатолий Головков — всего 33%. ...Накануне прошедших там 3 декабря губернаторских выборов мы подробно писали о том, как бывший губернатор Геннадий Игумнов затеял игру в псевдопреем ника — назначил таковым мэра города Перми Юрия Трутнева, но за тем «передумал». ...Действующий руководитель республики Вячеслав Кислицын получил 33,82% голосов избирателей и уступил замести

535

телю гендиректора «Росгосстраха» Леониду Маркелову (58% ). ...В ос тальных областях и краях во второй тур вышли: в Ставропольском крае — действующий губернатор края Александр Черногоров и бывший председатель правительства края Станислав Ильясов; в Архан гельской области — действующий глава администрации Анатолий Ефремов и бывший глава правительства региона Николай Малаков; в КомиПермяцком автономном округе заместитель председателя счет ной палаты области Геннадий Савельев и действующий глава адми нистрации Николай Полуянов; в Камчатской области — действую" щий первый вицегубернатор Борис Синченко и лидер местных коммунистов Михаил Машковцев; в Рязанской области — действу" ющий глава администрации области Вячеслав Любимов и президент Региональной ассоциации строителей Валерий Рюмин; в Иванов" ской области — депутат Госдумы от КПРФ Владимир Тихонов и председатель правительства области Анатолий Головков... Характерные слова для тематической группы № 10 из 73 док.: Хренников (51), конкурс (66), Чайковского (44), пианистов (36), жю ри (54), вокалистами (22), скрипачей (30), лауреатов (40), виолонче листы (25), музыкантов (38), конкурсантов (18), оргкомитета (37), премий (38), музыкальное (39), композитор (39), Мацуеву (12), кон серватории (36), Состязания (14), соревнований (21), виолончель (19). Аннотация: ...Уязвимость главного музыкального состязания СССР стала особенно заметна после перестройки: доказывать пре имущества всего советского оказалось не нужно. ...Однако уровень да же самых удачных выступлений конкурсантов был школьным: в луч шем случае все сводилось к ровному, без запинок, воспроизведению текста. ...Подверстка 2 Судьи и победители Председатель оргкомитета Тихон Хренников Художественный руководитель (должность введена впервые) Ирина Архипова Председатели жюри по специальностям: сольное пение — Ирина Архипова фортепиано — Андрей Эшпай скрипка — Лиана Исакадзе виолончель — Карен Хачатурян Лауреа" ты первых премий: скрипка — Николай Саченко фортепиано — Де нис Мацуев виолончель — Денис Шаповалов сольное пение — Ми ко Сато, Бесик Габиташвили На полях: Лауреаты первых премий прошлых конкурсов имени Чайковского: 1958 Вэн Клайберн (фор тепиано) Валерий Климов (скрипка) 1962 Владимир Ашкенази (форте пиано) Борис Гутников (скрипка) Наталья Шаховская (виолончель) 1966 Григорий Соколов (фортепиано) Виктор Третьяков (скрипка) Ка рине Георгиан (виолончель) Джейн Марш, Владимир Атлантов (вокал) 1970 Владимир Крайнев, Джон Лилл (фортепиано) Гидон Кремер (скрипка) Давид Герингас (виолончель) Тамара Синявская, Елена Об разцова, Евгений Нестеренко, Николай Огренич (вокал) 1974 Андрей Гаврилов (фортепиано) Борис Пергаменщиков (виолончель) Иван По номаренко (вокал) 1978 Михаил Плетнев (фортепиано) Илья Груберт, Элмар Оливейра (скрипка) Натаниэль Розен (виолончель) Людмила Шемчук (вокал) 1982 Виктория Муллова, Сергей Стадлер (скрипка) Ан тонио Менезес (виолончель) Лидия Забиляста, Паата Бурчуладзе (во кал) 1986 Барри Дуглас (фортепиано) Илья Калер, Рафаэль Олег (скрип ка) Марио Брунелло, Кирилл Родин (виолончель) Наталья Ерасова, Гри горий Грицюк, Александр Морозов (вокал) 1990 Борис Березовский (фортепиано) Акико Суванаи (скрипка) Густав Ривиниус (виолончель) Дебора Войт, ХансЧой (вокал) 1994 Гранпри — Хибла Герзмава (во кал) Первая премия Че Е Юен, Марина Лапина (вокал) (C)Журнал «ИТОГИ» №26 06/07/1998 ХI МЕЖДУНАРОДНЫЙ КОНКУРС ИМ. ...Чтобы отобрать наиболее достойных российских музыкантов, оргкомитет предоставил жюри Всероссийских конкурсов пианис" тов, скрипачей, виолончелистов, а также Международных кон"

536

курсов вокалистов имени Рахманинова и Глинки право рекомен довать своих лауреатов для участия в конкурсе Чайковского без дополнительного прослушивания. ...Для исполнителей, которые не участвовали в этих соревнованиях по тем или иным причинам с 20 января по 1 февраля в Московской консерватории состоялись специальные отборочные прослушивания. ... Еще одной приятной особенностью стало то, что в репертуаре всех исполнителей были про изведения татарских композиторов и обработки татарских народных мелодий...

Кластеризация текстовых коллекций: помощь при содержательном поиске и аналитический инструмент

Recommend Documents