М.Л. ЖМУДЯК, А.Н. ПОВАЛИХИН, А.В. СТРЕБУКОВ, А.В. ГАЙНЕР, А.Л. ЖМУДЯК, Г.Г. УСТИНОВ
ДИАГНОСТИКА ЗАБОЛЕВАНИЙ МЕТОДАМИ ТЕОРИИ ВЕРОЯТНОСТЕЙ
Издательство АлтГТУ БАРНАУЛ 2006
УДК 519.23/.25
ДИАГНОСТИКА ЗАБОЛЕВАНИЙ МЕТОДАМИ ТЕОРИИ ВЕРОЯТНОСТЕЙ/ М.Л. Жмудяк, А.Н. Повалихин, А.В. Стребуков, А.В. Гайнер, А.Л. Жмудяк, Г.Г. Устинов; Алт. гос. тех. ун-т им. И.И. Ползунова. – Барнаул: Изд-во АлтГТУ, 2006.–168с. ISBN 5-7568-0524-9 В книге поставлены и решены задачи: совмещения медицинского и математического подходов к диагностике; диагностики с учетом многократно определенных диагностических признаков (в частности, диагностики с учетом динамики заболеваний); оптимальной последовательности обследования, иными словами, нахождения диагностического признака, наиболее необходимого для дальнейшего уточнения диагноза, и др. В ходе исследований предложены и изучены: диагностика методом наибольшего правдоподобия, алгоритм, повышающий скорость и надежность определения вероятности болезни методом наибольшего правдоподобия; критерий эффективности диагностики, проведенной расчетными методами; использование многомерных распределений при диагностике; имитационные модели болезней для решения методических проблем диагностики и тестирования разрабатываемых методов. Содержание изложено на 168 страницах, включает 35 рисунков и 30 таблиц, список использованной литературы из 144 публикации.
ISBN 5-7568-0524-9
© М.Л. Жмудяк, А.Н. Повалихин, А.В. Стребуков, А.В. Гайнер, А.Л. Жмудяк, Г.Г. Устинов, 2006
Оглавление Предисловие......................................................................................................................... 5 Введение ............................................................................................................................... 5 Термины и обозначения...................................................................................................... 6 Глава 1 Диагностика с использованием искусственного интеллекта и медицинская диагностика желтух............................................................................................................. 9 1.1 Обзор методов диагностики с помощью искусственного интеллекта ................ 9 1.2 Медицинская диагностика желтух ........................................................................ 23 Глава 2 Теоретические разработки.................................................................................. 37 2.1 Совмещение медицинского и математического подходов к диагностике заболеваний.................................................................................................................... 37 2.1.1 Кратко о моделировании ................................................................................. 37 2.1.2 Использование условных вероятностей ........................................................ 38 2.1.3 Дополнение статистики и уточнение распределений .................................. 39 2.2 Использование многомерных распределений ...................................................... 40 2.3 Диагностика методом максимального (наибольшего) правдоподобия............. 43 2.3.1 Итерационный алгоритм диагностики заболеваний .................................... 43 2.3.2 Обобщение поперек траекторий..................................................................... 48 2.3.3 Обобщение по отдельным ДП ........................................................................ 49 2.3.4 Обобщение вдоль траекторий ......................................................................... 49 2.3.5 Диагностирование с использованием «чистого» критерия максимального правдоподобия ........................................................................................................... 50 2.4 Учет взаимозависимости диагностических признаков и динамики заболеваний в байесовском подходе к диагностике ........................................................................ 53 2.4.1 Использование формулы Байеса..................................................................... 53 2.4.2 Учет динамики заболеваний при байесовском подходе .............................. 54 2.4.3 О совмещении методов диагностики ............................................................. 56 2.5 Определение исследования (анализа), наиболее необходимого для диагностики.................................................................................................................... 56 2.6 Оценка результатов диагностики .......................................................................... 66 2.6.1 Уровень надежности и неопределенный диагноз ......................................... 66 2.6.2 Критерий эффективности диагностики ......................................................... 67 2.6.3 Влияние отдельного ДП на диагноз ............................................................... 70 2.7 Модельные болезни и исследование на них теоретических вопросов .............. 72 Глава 3 База данных, вероятности и плотности вероятностей диагностических признаков............................................................................................................................ 77 3.1 Характеристика статистических данных .............................................................. 77 3.2 Дискретные и непрерывные диагностические признаки, построение гистограмм ..................................................................................................................... 80 3.2.1 Дискретные и непрерывные диагностические признаки ............................. 80 3.2.2 Особенности построения гистограмм непрерывных диагностических признаков ................................................................................................................... 81 3.3 Построение искусственных распределений ......................................................... 87 3.4 Построение многомерных распределений............................................................ 90 3.5 Особенности работы со статистической базой данных ...................................... 94 3.6 Исследование взаимозависимости диагностических признаков........................ 97 3.6.1 Независимые и зависимые диагностические признаки в формуле Байеса 97 3
3.6.2 Экспертная оценка зависимости признаков ................................................ 100 3.6.3 Наборы (ядра) независимых признаков ....................................................... 100 Глава 4 Учет динамики заболеваний при диагностике ............................................... 103 4.1 Методика учета динамики и взаимозависимость диагностических признаков ....................................................................................................................................... 103 4.2 Диагностика при многократном определении признака................................... 107 4.3 Влияние лечения на динамику заболевания ....................................................... 111 Глава 5 Результаты диагностики с применением различных методических приемов ........................................................................................................................................... 115 5.1 Применение уровня надежности и коэффициента эффективности для оценки качества диагностики .................................................................................................. 115 5.2 Серия экспериментов при различных приемах формирований распределений ....................................................................................................................................... 118 5.3 Серия экспериментов при различных приемах формирования базы данных. 121 5.5 Серия экспериментов с учетом динамики заболеваний.................................... 132 5.6 Результаты байесовской диагностики с учетом динамики заболеваний......... 135 Глава 6 Сравнение результатов дифференциальных диагностик методами Байеса, дискриминантного анализа, классификационных деревьев и нейронных сетей...... 137 Заключение....................................................................................................................... 140 Литература........................................................................................................................ 142 Приложение 1 Сходимость итерационного алгоритма и его связь с методом максимального правдоподобия ..................................................................................... 156 Приложение 2 Примеры построения гистограмм по различным методикам ........... 161
4
Предисловие Настоящая работа дважды получала поддержку, за которую авторы благодарят проректора АлтГТУ д.ф.-м.н. профессора Б.В. Семкина и организаторов конкурса «Ползуновские гранты». Особую благодарность авторы выражают коллегам – научным сотрудникам Р.Х. Ицекзон и О.Н. Зацепиной, помогавшим на всех этапах работы, и О. В. Ловцкой за полезные научные советы. Раздел 2.3.5 и приложение 1 написаны в приятном сотрудничестве с Г.Ш. Львом. Адреса
для
замечаний
и
предложений:
[email protected];
[email protected] Введение Компьютерная (на математической основе) диагностика заболеваний является для врача таким же инструментом, как расчеты для инженера: расчетная диагностика не заменяет врача, но помогает ему. Поэтому актуально развивать методики диагностики и сравнивать их эффективность. Авторы старались посмотреть на математические методы диагностики как с математической, так и с медицинской точек зрения, что привело к постановке и решению новых задач. Например, в известных работах для диагностики используются диагностические признаки, определенные в один день, признаки в другие дни в расчетах не участвуют. То есть, не учитывается динамика болезни – важнейший при постановке диагноза фактор. Приведенный пример иллюстрирует актуальность создания методики учета динамики заболеваний, что и сделано в этой работе. В книге предложены пути совмещения врачебного и математического подходов, поставлены и решены задачи об оптимальной последовательности обследования пациента и др. Применяемые вероятностные и статистические методы с использованием базы данных о прошедших лечение больных, собственно, являются одной из форм обращения к накопленному опыту и, как показано в книге, обеспечивают высокий уровень диагностики.
5
Термины и обозначения Часто встречающиеся в тексте слова «диагностические признаки» будем записывать аббревиатурой «ДП». Под ДП понимаются симптомы заболевания, клинические анализы, данные инструментальных обследований пациента, а также его пол и возраст. Другие часто используемые обозначения: АЛАТ – ферменты аланинаминотрансфераза, АСАТ – ферменты аспартатаминотрансфераза, ММП – метод максимального правдоподобия. Индексы
j = 1,2 ,3,..., n – номер болезни; i = 1,2 ,3,..., m – номер ДП;
t = 1,2 ,3,..., τ(i ) – момент (день), отсчитываемый с начала болезни. Отсутствие индекса t говорит о том, что есть информация только за один день (момент) или о том, что рассматривается множество величин, относящихся к моментам t1 , t2 , t3 , ...,
τ . Обозначение τ (i ) использовано потому, что для разных
ДП число дней, в которые ДП определялись, разное. « o » – индекс, указывающий, что величина ДП получена обследованием диагностируемого пациента. Отсутствие этого индекса указывает на то, что величина симптома или анализа или другого ДП относится к данным о течении болезни, статистике вариантов течения болезни, статистике величин ДП при болезни
j
(т.е. отсутствие индекса « o » говорит о том, что величина не относится к
обследованию конкретного пациента, у которого диагностируется болезнь). Величины
π j – доля больных болезнью j среди больных диагностируемыми болезнями; P – распределение вероятностей диагностируемых болезней у пациента, например, P{p1, p2 } ;
a – величина анализа, рассматривается как переменная (как величина x ) и является общим обозначением любой из возможных величин ДП; 6
ai – величина i -го ДП, например, СОЭ=28 или «есть боль», т.е. « a » может быть непрерывной или дискретной величиной;
aoi – конкретное значение i -го ДП, полученное в результате обследования пациента;
aoit – то же, полученное в день t ;
q – распределение, то есть распределение вероятностей дискретного ДП; или плотность
распределения
вероятностей
непрерывного
ДП
(непрерывно
распределенного ДП). Аналогично q обозначает распределение сочетания ДП – распределение многомерного ДП. Под вероятностью будем понимать также выборочные оценки соответствующих величин. q обозначает распределение, полученное статистически или моделированием.
qijt (ai ) – распределение i -го ДП при болезни j в момент (день) t ; распределение определено сбором статистики или относится к модели, к траектории болезни и определяет вероятности или плотности вероятностей при всех значениях ДП. Такое обозначение подчеркивает, что плотность вероятности есть функция от величины a, от величины ДП. Два индекса
i
в одном обозначении можно не t
t
t
употреблять, а использовать более краткие обозначения q j(ai ) или qij(a) , или qij .
qijt (aoit ) – вероятность i -го ДП величиной aoit при болезни j в день t . Вообще говоря, два индекса
t в одном обозначении – излишняя
информативность, т.к. очевидно, что если ДП величиной aoi определен в день t , то для определения вероятности или плотности вероятностей разумно использовать t
распределение q j(ai ) только в этот же день t . То есть можно обойтись t
обозначением q j (aoi ) .
{
}
qij(ai ) = qijt1(ai ), qijt 2(ai ), qijt 3(ai ),..., qijτ(ai ) – совокупность распределений ДП
i
при болезни
j
во все моменты (дни) заболевания (или в один из дней, если
нет информации о других днях, или распределение ДП
7
i
при болезни
j,
когда
информация о моментах (днях) анализов или днях определения других ДП не рассматривается).
qijt (aoit ) – средняя ордината распределения вблизи величины aoit , полученной t
в результате обследования пациента. Когда интервал вблизи величины aoi мал,
qijt (aoit ) приближается к q tj(aoit ) .
8
Глава 1 Диагностика с использованием искусственного интеллекта и медицинская диагностика желтух 1.1 Обзор методов диагностики с помощью искусственного интеллекта Анализ литературы показал, что с первых лет применения информационных технологий в здравоохранении одним из ведущих направлений являлись системы поддержки процесса принятия клинических решений, развившиеся в технологии интеллектуальных систем. В начале восьмидесятых годов в исследованиях по искусственному интеллекту сформировалось самостоятельное направление, получившее название «экспертные системы» [1 – 4 и др.]. Экспертные системы используются для разработки программ, которые при решении задач, трудных для эксперта – человека, получают результаты, не уступающие по качеству и эффективности решениям, получаемым экспертом. Исследователи в области экспертных систем для названия своей дисциплины часто используют также термин «инженерия знаний», введенный Е. Фейгенбаумом как «привнесение принципов и инструментария исследований
из
области
искусственного
интеллекта
в
решение
трудных
прикладных проблем, требующих знаний экспертов» [7]. Вначале большинство экспертных систем базировалось на правиле продукций: «Если – то», [1 – 4 и др.]. С использованием правила продукций создано много диагностических экспертных систем для конкретных групп болезней [5, 6, 8 – 18 и др.]. Диагностические экспертные системы развивались в направлении их универсализации и расширения возможностей [11 – 18]. Созданы системы, самостоятельно строящие дерево вопросов [12] и т.п. Одним из популярных методов обнаружения знаний стали алгоритмы поиска ассоциативных правил [19], которые с успехом используются во многих областях, в том числе в задачах медицинского анализа и диагностики [20 – 22]. Использование подтверждающий,
что
ассоциативных развитие
правил
экспертных
приведено систем
идет
как в
пример,
ожидавшемся
направлении: универсализации (преодолевается свойственная ранним экспертным системам пригодность только для одной задачи и абсолютная зависимость от 9
эксперта) за счет алгоритмов высокого уровня. Среди найденных экспертных систем и реализующих их программ имеется и программа: “Дифференциальная диагностика желтух” [23], алгоритм которой, по утверждению авторов этой программы, может помочь развеять сомнения в диагнозе и сократить время диагностики. Точность определения правильного диагноза экспертными системами имеет большой разброс, а процент правильно определенных диагнозов – невысок. Так, экспертная система медицинской диагностики Diagnos.ru [12] выдает в среднем 70% диагнозов, которые соответствуют истине. Диагностические решения экспертной системы “Эсбад” в 87% случаев совпадают с клиническим диагнозом [16]. Экспертная система МУТАНТ, созданная сотрудниками ЭВЦ Московского университета, позволила получать эффективность только 56% [24]. Впрочем, в источнике
говорится
о
начальных
этапах
эксплуатации
этой
системы.
Автоматизированная система ранней диагностики наследственных болезней “ДИАГЕН“, позволяющая идентифицировать свыше 1200 форм, показывает эффективность 90% в сравнении с 60% у врачей медико-генетических консультаций [16]. По результатам обзора складывается впечатление, что заявляемая в публикациях эффективность диагностических программ, основанных на экспертных системах, по-прежнему (как и в годы начала наших исследований) недостаточно высока и изменяется в широких пределах, в основном, от 56 до 90% правильных диагнозов. Даже во времена, когда экспертные системы были очень распространены и модны, авторам эти системы казались не слишком привлекательными, так как правило продукций «Если – то», в общем-то, фельдшерский подход… Страшно сказать, но развившиеся в последние годы и действительно эффективные методы диагностики, включая нейронные сети, также в основе фельдшерские, конечно, суперфельдшерские, но все же … Авторам
представлялось,
что
диагностика
должна
базироваться
на
моделировании заболеваний, включая их динамику, и математической оценке близости смоделированных «траекторий» развития болезни у конкретного больного 10
и наблюдаемых у него диагностических признаков [25, 26]. Диагностика на основе моделирования с учетом патофизиологии процессов, к сожалению,
мало
распространена
по
сравнению
с
другими
подходами.
Математические же методы диагностики развиваются очень бурно, опережающими по сравнению с экспертными системами темпами [27 – 88 и др.]. Среди математических методов наиболее постепенно развивается байесовский подход, используемый для диагностики более полувека. Байесовский подход изложен в книгах Н. Бейли [29, 30], А. Вальда [36], Е.В. Гублера [42, 43], Е.В. Гублера и А.А. Генкина [44], Л. Ластеда [51], С.А. Айвазяна, В.М. Бухштабера, И.С. Енюкова и Л.Д. Мешалкина [55] и др. Применению байесовского подхода в диагностике посвящены многочисленные статьи [39, 40, 71 – 76, 87 и др.]. Болезни
описываются
не
одним,
а
несколькими
диагностическими
признаками. В связи с этим для диагностики широкое применение нашли многомерные статистические методы, такие как факторный, регрессионный, дисперсионный, кластерный, дискриминантный и другие методы анализа данных [31]. Дисперсионный анализ – метод статистического анализа, позволяющий определить достоверность гипотезы о различиях в средних значениях исследуемых величин на основании сравнения дисперсий распределений [32]. Регрессионный анализ – статистический метод для определения связи переменных.
Если
зависимая
переменная
является
дихотомической
или
категориальной, необходимо использовать логистическую регрессию. Факторный анализ – это совокупность методов, которые на основе реально существующих связей признаков (или объектов) позволят выявлять латентные обобщающие характеристики структуры и механизма развития изучаемых явлений и процессов [33]. Факторный анализ является методикой, которая в определенном смысле сама является
источником
возникновения
гипотез.
Остановимся
вначале
на
специфическом характере гипотез, порождаемых факторным анализом. Мы исходим из того, что несколько измеряемых переменных сильно коррелируют между собой. 11
Это означает, что-либо они взаимно определяют друг друга, либо связь между этими переменными
обусловливается
какой-то
третьей
величиной,
которую
непосредственно измерить нельзя. Модель факторного анализа всегда связана с последним предположением, т.е. измеряемая величина является лишь формой проявления
величины,
непосредственному
остающейся
измерению.
на
заднем
Возникает
плане
задача,
и
можно
не ли
поддающейся по
данным
переменным выделить величину, так называемый фактор, который объяснил бы наблюдаемые связи. Слово фактор используется в другом смысле, чем это принято обычно: речь идет о математической величине, получаемой на основе наблюдений. Факторный анализ заглядывает за кулисы того, что непосредственно измеряется, и стремится определить истинные функциональные величины, лежащие в основе данного явления. Основная цель факторного анализа состоит в выявлении гипотетических величин, или факторов, по небольшому числу экспериментальных данных. Факторы должны быть по возможности простыми и достаточно точно описывать и объяснять наблюдаемые величины. Число выделяемых факторов должно быть меньше набора исходных величин, структура этих факторов и их взаимосвязь должны быть возможно более простыми. Исходной предпосылкой анализа является наличие взаимосвязи между несколькими
одновременно
наблюдаемыми
переменными.
В
качестве
количественной меры связи между двумя переменными используется коэффициент корреляции. Он может принимать значения от − 1 до + 1. Если он при этом приближается к нулю, то это свидетельствует об отсутствии линейной связи, и чем более он близок k + 1 или k − 1, тем более тесная линейная связь существует между переменными.
Все
вычисленные
коэффициенты
корреляции
располагаются
соответствующим образом в корреляционной матрице. При анализе такой корреляционной матрицы получают гипотетические величины, так называемые факторы, которые находятся в определенных взаимоотношениях с переменными. Факторы
представляют
собой
влияющие
величины,
не
поддающиеся
непосредственному измерению, которые могут быть определены только в результате анализа. Примечательно то, что факторный анализ делает возможным выдвижение дифференцированных гипотез о структуре взаимосвязи переменных и 12
факторов, не задаваясь этой структурой заранее и не имея о ней никаких сведений. Эта структура находится по результатам наблюдений. Полученные гипотезы могут быть проверены в ходе дальнейших экспериментов. Как в любой прикладной науке, здесь следует обращать внимание на различие между математической моделью и реальным содержанием изучаемого явления. Вычислительная сторона метода, в которой речь идет только о решении системы уравнений и точности вычислений, является лишь одним аспектом проблемы. Для факторного анализа характерен также статистический подход, применяемый, например, при проверке гипотезы о числе факторов, подлежащих выделению. Наряду с этим существует еще проблема содержательной интерпретации выделенных факторов, что не имеет места при построении математикостатистической
модели.
Три
вышеназванных
аспекта
–
алгебраически-
вычислительную сторону, статистический подход и интерпретацию факторов – следует учитывать при проведении факторного анализа и разграничивать их [42]. Метод главных компонент. Разработан Хотеллингом [32]. Позволяет при заданной
m-мерной корреляционной
матрице найти новую ортогональную
m-мерную систему координат и именно так, чтобы максимум полной дисперсии лежал в направлении первой главной оси, а максимум оставшейся дисперсии – в направлении второй главной оси и т.д. Метод главных компонент заключается в нахождении последовательности ортогональных осей координат, вдоль которых каждый раз в убывающем порядке определяется максимум полной дисперсии. Кластерный
анализ
–
это
совокупность
методов,
позволяющих
классифицировать многомерные наблюдения, каждое из которых описывается некоторым набором переменных. Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами. В отличие от комбинационных группировок кластерный анализ приводит к разбиению на группы с учетом всех группировочных признаков одновременно. Кластерный анализ объединяет различные процедуры, используемые для проведения классификации. В результате применения этих процедур исходная совокупность объектов разделяется на кластеры или группы (классы) схожих между собой объектов. 13
Сложность задач кластерного анализа состоит в том, что объединение объектов в группы проводится в пространстве многих измерений. В целом методы кластеризации делятся на агломеративные (от слова агломерат – скопление) и итеративные дивизивные (от слова division – деление, разделение). В агломеративных или объединительных методах происходит последовательное объединение наиболее близких объектов в один кластер [40]. Исходными данными могут быть собственно объекты и их параметры. Данные для анализа могут быть так же представлены матрицей расстояний между объектами, в которой на пересечении строки с номером записано расстояние между i -м и
i
и столбца с номером
j
j -м объектами. Если расстояния не даны сразу,
то агломеративные алгоритмы начинают с вычисления расстояния между объектами. Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся в множестве X , разбить множество объектов I на m кластеров (подмножеств) π1 , π 2 ,..., π m так, чтобы каждый объект Ii принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время как объекты, принадлежащие разным кластерам, были разнородными (несходными). Дискриминантный анализ – статистический метод, используемый для прогнозирования
вероятности
какого-либо
события.
Относится
к
методам
классификации с обучением. Используется для разделения респондентов в различающиеся между собой группы на основе некоторых характеристик. Дискриминантный
анализ
является
одним
из
методов
многомерного
статистического анализа. Цель дискриминантного анализа состоит в том, чтобы на основе измерения различных характеристик (признаков, параметров) объекта классифицировать его, то есть отнести к одной из нескольких групп (классов) некоторым оптимальным способом. Под оптимальным способом понимается либо минимум математического ожидания потерь, либо минимум вероятности ложной классификации. Этот вид анализа является многомерным, так как измеряется несколько параметров объекта, по крайней мере, больше одного, например, температура, влажность в технологическом процессе, давление, состав крови, 14
температура больного и т.д. [43]. При применении дискриминантного анализа обычно имеются несколько переменных, и задача состоит в том, чтобы установить, какие из переменных вносят свой вклад в дискриминацию между совокупностями, определить, имеются ли значимые различия между группами (с точки зрения всех переменных). Современные
версии
дискриминантного
анализа
и
реализующих
его
компьютерных программ сделали технологию дискриминантного анализа доступной широкому кругу пользователей [85]. В
медицине
прогнозирования
дискриминантный
исхода
инсульта
при
анализ
успешно
различных
применяется
методах
его
для
лечения,
выживаемости больных, оперированных по поводу рака почки, и определения срока дожития больных раком почки, имеющих метастазы в различных органах. Искусственные нейронные сети (сокращенно ИНС) развиваются быстрее других математических методов. Теория нейронных сетей включает широкий круг вопросов из разных областей науки: биофизики, математики, информатики, схемотехники и технологии. Поэтому понятие «нейронные сети» детально определить сложно. «Искусственные нейронные сети – совокупность моделей биологических нейронных сетей, представляют собой сеть элементов — искусственных нейронов, — связанных между собой синаптическими соединениями. Сеть обрабатывает входную информацию и в процессе изменения своего состояния во времени формирует совокупность выходных сигналов». Также это набор математических и алгоритмических методов для решения широкого круга задач [41]. «Нейронная сеть – система, состоящая из множества работающих параллельно простых обрабатывающих элементов, функция которой определяется структурой сети, силой связей и обработкой, происходящей в вычислительных элементах или узлах» [52]. К. Гурни в своей книге, считающейся на западе одной из лучших по введению в теорию ИНС, определяет нейронную сеть как «связанный ансамбль единичных обрабатывающих элементов, функциональность которых в широком смысле базируется на работе биологических нейронов. Умение сети обрабатывать данные 15
хранится в силе ее внутренних соединений, или весах, полученных в процессе адаптации (или обучения) сети к набору обучающих данных». С
середины
«нейроинформатика»
80-х
годов
или
в
научном
лексиконе
«нейрокомпьютинг».
появились
термины
«Нейрокомпьютинг –
это
технология создания систем обработки информации (например, нейронных сетей), которые способны автономно генерировать методы, правила и алгоритмы обработки в виде адаптивного ответа в условиях функционирования в конкретной информационной среде. Нейрокомпьютинг представляет собой фундаментально новый подход, а рассматриваемые в рамках этого подхода системы обработки информации существенно отличаются от упомянутых ранее систем и методов». Искусственный
нейрон
имитирует
в
первом
приближении
свойства
биологического нейрона. На вход искусственного нейрона поступает некоторое множество сигналов, каждый из которых является выходом другого нейрона. Каждый вход умножается на соответствующий вес, аналогичный синаптической силе, и все произведения суммируются, определяя уровень активации нейрона. Среди всех интересных свойств искусственных нейронных сетей ни одно не захватывает так воображения, как их способность к обучению. Их обучение до такой степени напоминает процесс интеллектуального развития человеческой личности, что может показаться, что достигнуто глубокое понимание этого процесса. Возможности обучения искусственных нейронных сетей ограничены, и нужно решить много сложных задач. Тем не менее, уже получены убедительные достижения, такие как «говорящая сеть» Сейновского, и возникает много других практических применений. Цель обучения. Сеть обучается, чтобы для некоторого множества входов давать желаемое (или, по крайней мере, сообразное с ним) множество выходов. Каждое такое входное (или выходное) множество рассматривается как вектор. Обучение
осуществляется
путем
последовательного
предъявления
входных
векторов с одновременной подстройкой весов в соответствии с определенной процедурой. В процессе обучения веса сети постепенно становятся такими, чтобы каждый входной вектор вырабатывал выходной вектор. Обучение с учителем. Различают алгоритмы обучения с учителем и без 16
учителя. Обучение с учителем предполагает, что для каждого входного вектора существует целевой вектор, представляющий собой требуемый выход. Вместе они называются обучающей парой. Обычно сеть обучается на некотором числе таких обучающих пар. Предъявляется выходной вектор, вычисляется выход сети и сравнивается с соответствующим целевым вектором, разность (ошибка) с помощью обратной связи подается в сеть, и веса изменяются в соответствии с алгоритмом, стремящимся
минимизировать
ошибку.
Векторы
обучающего
множества
предъявляются последовательно, вычисляются ошибки и веса подстраиваются для каждого вектора до тех пор, пока ошибка по всему обучающему массиву не достигнет приемлемо низкого уровня. Обучение без учителя. Несмотря на многочисленные прикладные достижения, обучение с учителем критиковалось за свою биологическую неправдоподобность. Трудно вообразить обучающий механизм в мозге, который бы сравнивал желаемые и действительные значения выходов, выполняя коррекцию с помощью обратной связи. Обучение без учителя является намного более правдоподобной моделью обучения в биологической системе. Развитая Кохоненом и многими другими, она не нуждается в целевом векторе для выходов и, следовательно, не требует сравнения с предопределенными идеальными ответами. Обучающее множество состоит лишь из входных векторов. Обучающий алгоритм подстраивает веса сети так, чтобы получались согласованные выходные векторы, т.е. чтобы предъявление достаточно близких входных векторов давало одинаковые выходы. Процесс обучения, следовательно, выделяет статистические свойства обучающего множества и группирует сходные векторы в классы. Предъявление на вход вектора из данного класса даст определенный выходной вектор, но до обучения невозможно предсказать, какой выход будет производиться данным классом входных векторов. Практическое использование ИНС для медицинской диагностики (по литературным данным) приводит к исключительно высокому качеству диагностики [79, 82, 83 и др.] Приведенный обзор показывает, что использование методов статистического анализа в медицине результативно и должно развиваться. В настоящее время выдвигают следующие важнейшие медико-биологические проблемы, к которым 17
применимы
современные
статистические
методы: математическое
описание
поведения физиологической системы во времени; математическое описание процессов регулирования, например описание реакции живой системы в ответ на химическое воздействие; проблемы медицинской диагностики и лечения, имеющие целью как можно раньше обнаружить и как можно быстрее ликвидировать отклонение от равновесия в сложной системе; математическое изучение (в том числе и моделирование) проблем поведения центральной нервной системы и мозга, памяти и обучения и т.д. Так, например, в клинической практике для объединения признаков в группы идентичные понятию «синдром» заболевания, а также для иерархической классификации больных применяются факторный и кластерный анализы. В проанализированных публикациях, в основном, содержатся данные о диагностике одним методом. Нет сколько-нибудь значительной информации о сравнительной эффективности разных методов, нет сравнения разных методов в одинаковых условиях тестирования. Поэтому одна из задач настоящей работы – сравнить диагностику несколькими методами на одних и тех же данных – постановкой диагноза одним и тем же больным. Сравнение методов – это частная задача. Общим выводом обзора является сравнительно меньшее развитие моделирования и то, что в медицинской диагностике превалируют два подхода: А – использование экспертных систем; В – использование методов теории вероятностей и математической статистики, и/или формально-математические приемы. Не вдаваясь в тонкости классификации, подчеркнем принципиальное отличие подходов: А – базируется на знаниях и опыте врача, В – на формальной обработке данных (игнорируя мнение врача). Авторы полагают, что постановочна задача о совмещении подходов А и В. Действительно, подход А использует знания врача в области физиологии и патофизиологии и т.п., что очень ценно. Однако подход (А) не универсален и не в полной мере использует статистику. (Статистику включает на интуитивном уровне в виде личного опыта и знаний об опыте коллег.) Подход В инвариантен относительно диагностики болезни, позволяет достаточно полно использовать статистическую информацию, т.е. накопленный 18
опыт, но не обращается к знаниям о механизмах взаимосвязи процессов в организме и т.п. Постановка и варианты решения задачи совмещения подходов А и В являются одной из целей данной работы. Труды,
являющиеся
базой
для
теории
диагностики,
в
основном,
рассматривают многомерные распределения [28, 48, 53 – 56 и др.]. В прикладных работах многомерные распределения используются редко [38 и др.]. Поэтому нет ответа на ряд вопросов, связанных с многомерными распределениями при ограниченном
количестве
данных.
Например,
неясно,
какие
именно
диагностические признаки (ДП) нужно объединять, когда имеются данные для 2 – 3 – мерных распределений, но нет данных для формирования распределений большей размерности. Не ясно даже, какова эффективность использования многомерных распределений вместо одномерных. (Большинство практических работ по диагностике использует одномерные распределения). Перечисленные и другие вопросы говорят о необходимости исследования диагностики на базе многомерных распределений. Одномерные распределения используются и при байесовском подходе, данные о распространенности которого приведены выше. При расчете вероятностей болезней по формуле Байеса общепринята гипотеза о взаимонезависимости диагностических признаков между собой. На самом деле, в едином организме диагностические признаки взаимозависимы. Понимание этого присутствует в ряде публикаций.
Однако
при
рассмотрении
ДП
как
независимых
результаты
диагностики – хорошие. Возможно поэтому взаимозависимость ДП в изученных публикациях не учитывается. Вместе с тем, для повышения качества диагностики необходимо уделить внимание проблеме учета взаимозависимости ДП. В известных работах для диагностики и прогноза исхода лечения (операции) используются диагностические признаки, определенные в один день, признаки в другие дни в расчетах не участвуют. То есть, не учитывается динамика болезни – важнейший при постановке диагноза фактор. Такой (без учета динамики) подход используется во всех методах диагностики: от Байеса до искусственных нейронных сетей. 19
Авторам с самого начала работы над этой темой [25, 26] было ясно, что при диагностике необходимо учитывать динамику диагностических признаков [25, 26, 89 – 120], т.к. течение заболевания во времени является одним из основных источников дифференциальной диагностики. В силу изложенного, одной из целей исследования стала разработка методики учета динамики ДП при диагностике заболеваний. Разработанные методики и компьютерные программы диагностики с учетом динамики заболеваний обладали неплохими диагностическими способностями, то есть процент верных диагнозов был достаточно высок [94, 98]. Дальнейшие исследования показали, что предложенные методы являются нетрадиционной формой метода наибольшего правдоподобия, причем в наших разработках этот метод учитывает динамику заболеваний [90 – 101, 110]. В связи с полученными результатами, включая достаточную эффективность предложенных методов диагностики, был проведен анализ литературы. При анализе литературы авторов интересовали: применение метода наибольшего правдоподобия для диагностики, особенно, для дифференциальной диагностики заболеваний, учет динамики изменения анализов и симптомов пациента при диагностике заболеваний, эффективность и результаты диагностики, практическое использование компьютерной диагностики, особенно при диагностике желтух. Метод максимального правдоподобия является одним из широко известных методов, входящих в учебники по теории вероятностей. Этот метод широко применяется в разных областях науки и практической деятельности. Так, метод наибольшего правдоподобия применяется в эконометрии, биометрии, эвентологии, астрономии, компьютерной лингвистике [86, 88, 121]. Метод
максимального
правдоподобия
используется
также
при
автоматическом анализе биологических сигналов и во многих других исследованиях [122 – 129]. Используется метод максимального правдоподобия и в медицине: в 20
компьютерных методах обработки электрокардиограммы [130]; для улучшения прогностической значимости шкалы SAPS (Simplified Acute Physiology Score) в Институте хирургии им. А.В. Вишневского РАМН [131]; при исследовании фактора хронических болей программой Amos 4.0 (Arbuckle, 1999) в James A. Haley Veterans’ Hospital and the University of South Florida [132]. Хотя приведённый выше обзор говорит о значительном применении метода наибольшего правдоподобия в медицинских исследованиях, включая обработку данных, прямого применения этого метода для дифференциальной диагностики не было найдено. Видимо, для дифференциальной диагностики заболеваний метод максимального правдоподобия используется очень редко. Во всех найденных работах метод максимального правдоподобия реализуется в его классической форме, то есть проводится перебор параметров. Алгоритма решения, основанного на разработанном авторами итерационном процессе, не было найдено. Не удалось обнаружить и работ, в которых метод наибольшего правдоподобия учитывал бы динамику заболевания. Более того, удивительно, что вообще не найдено диагностических методов, учитывающих изменение симптомов, анализов, данных инструментальных исследований во времени. Разрабатываемые
в настоящем
исследовании
диагностические
методы
тестировались на диагностике желтух. При этом одним из результатов работ стала программа дифференциальной диагностики механической и паренхиматозной желтух. Данная программа в настоящее время используется в больницах. Востребованность программы связана с тем, что с больными желтухой приходится встречаться врачам различных специальностей (врач общей практики, инфекционист, хирург, детские врачи). Для этих врачей дифференциальная диагностика
механической
и
паренхиматозной
желтух
может
оказаться
затруднительной, и врач в ряде случаев хотел бы согласовать свой диагноз с расчетом вероятности болезни по программе. При механической желтухе нужна операция, часто срочная; паренхиматозная желтуха лечится терапевтически, и операция принесет вред. Выбор между операцией и консервативным лечением нередко нужно принимать срочно, в условиях неполного (незавершенного) обследования. Особенно программа полезна для тех пациентов, у которых 21
результаты анализов и инструментальных методов исследования противоречивы. Литературный поиск показал, что очень мало упоминаний о программах, ориентированных на дифференциальную диагностику желтух и, конкретно, на диагностику механической и паренхиматозной желтух. Одной из найденных программ является упоминавшаяся выше программа «Дифференциальная
диагностика
желтух»,
автор
которой
А.В.
Устинов,
заведующий общетерапевтическим отделением филиала Клинической больницы Управления делами Президента РФ, создал ее в 1997 году (по крайней мере, удалось найти версию, датируемую именно этим годом). В резюме к программе сказано: ”Широкое распространение заболеваний печени разной этиологии требует ежедневного обращения к данной программе врачей различных специальностей. Примененный алгоритм может помочь развеять сомнения и сократить время диагностики. В программе имеется большая и подробная программа помощи, содержащая информацию о типах желтух, обмене билирубина и т.п.” [23]. Также в сети Internet удалось найти еще одну программу дифференциальной диагностики желтух, условно называемую jaundice.arj (по названию файла архива). Эта программа: «… обладает возможностью распознавания, примерно, по 250 признакам 79 нозологий, в число которых входит и желтуха. Допускается неполнота и неточность входной информации». Автор Нечмиров, домашняя страница в Интернет не указана [133]. Найденные программы основаны на экспертных системах. Следовательно, ограничены субъективностью оценок эксперта. Нет информации об учете динамики заболевания этими экспертными системами, о реальной эксплуатации программ в лечебных учреждениях, о проценте верно поставленных диагнозов. В изученной литературе не обнаружено математической постановки задачи об оптимальной последовательности обследования пациента – о том, какой именно ДП нужно определить в первую очередь, чтобы наилучшим образом уточнить диагностику и лечение. Нет в публикациях и информации о модельных болезнях – искусственных болезнях,
придуманных
для
изучения
создаваемых методов. 22
задач
диагностики
и
тестирования
И, наконец, во всех встретившихся при поиске
работах эффективность
диагностики оценивалась как отношение числа правильно поставленных диагнозов к числу всех диагностируемых пациентов. Авторы считают, что возможен более тонкий анализ результатов, что будет показано ниже. Проведенный анализ литературы подтвердил актуальность и новизну теоретических и практических целей и задач настоящего исследования. Теоретически
задачи
математического распределений,
подходов диагностика
включают: к при
совмещение
диагностике,
медицинского
использование
взаимозависимых
симптомах
и
многомерных и
анализах,
диагностика с учетом динамики заболеваний, диагностика методом наибольшего правдоподобия, оптимальная последовательность обследования пациента и др. Практические диагностической
задачи:
программы
создание и
ее
универсальной
использование
для
компьютерной дифференциальной
диагностики механической и паренхиматозной желтух; сравнение различных методов диагностики и др. Разработанные авторами методы и компьютерные программы диагностики и прогноза абсолютно универсальны и пригодны для диагностики и прогноза исхода любых заболеваний, а также могут быть использованы в технике, геологии и других немедицинских областях деятельности. Тестирование и практическое использование предложенных методов и реализующей эти методы программы проводилось на диагностике желтух. Ниже приведен краткий обзор распространенности и медицинской диагностики болезней, сопровождающихся желтухой, и причин появления этого синдрома. 1.2 Медицинская диагностика желтух Болезни печени и внепеченочных желчных путей занимают значительное место в структуре заболеваний человека. Так, вирусные гепатиты А, В, С, D, G, TT и др. – самое распространенное заболевание в мире. Гепатитом болеют 0,5 – 1% всего населения в Европе, 4 – 10% – и в Африке, Азии, Ближнем Востоке (Т.И. Лопаткина, 1997). Заболеваемость вирусным гепатитом B в России за период 1992 – 1996 годы увеличилась в 2 раза и достигла 35,8 больных на 100 тыс. населения. В мире длительное время было 350 млн. человек – носителей вируса гепатита, к 2000 году 23
число их достигло 400 млн. (В.Э.Де Клерк, 2000; А.А. Ильянкова и соавт., 2001; Д.Т. Абдурохманов, 2002). В целом в странах СНГ ежегодно регистрируется около 100 тысяч случаев острого гепатита, а фактическая заболеваемость в них, по крайне мере, вдвое выше (Д.К. Львов, 1996). Ежегодно на планете от вирусного гепатита и его исходов умирает около 2 млн. человек. Каждые 15 – 20 лет от вирусного гепатита и его исходов гибнет больше людей, чем за всю Вторую мировую войну. Из них ежегодно 100 тысяч – от молниеносной формы, еще полмиллиона – в течение острой инфекции, около 700 тысяч – от цирроза печени и 300 тысяч от карциномы печени. Желчнокаменная болезнь в развитых странах относится к числу наиболее часто встречающихся заболеваний – у 10 – 15% населения. Вирусные гепатиты и желчнокаменная болезнь – основные (но не единственные) причины желтух. Желтуха – это один из наиболее ярких синдромов, которые часто сопровождают заболевания печени. Основными проявлениями его являются: пожелтение
склер
и
кожных
покровов,
кожный
зуд,
потемнение
мочи,
обесцвеченный кал. Иктеричность склер и желтушность кожных покровов заметны при уровне сывороточного билирубина 35 – 45 мкмоль/л, т.е. когда нормальные показатели превышены в 2 и более раз. В основе желтухи лежит нарушение обмена билирубина, приводящее к появлению избыточного его количества в крови. Таким образом, маркером любой желтухи
является
билирубин
(общий,
конъюгированный
–
прямой,
неконъюгированный – непрямой). Диагноз желтухи поставить достаточно просто. Как говорили старые клиницисты, – диагноз написан на лице. Однако врачу недостаточно видеть желтуху, важнейшим является определить причину (вид) желтухи, ибо от этого зависит выбор лечения – оперировать больного или лечить его консервативно. Процент диагностических ошибок в определении вида желтух достаточно велик и колеблется в широких пределах – от 8 до 30. Кроме того, по данным Алтайского гепатологического центра более 90% пациентов с механической желтухой, нуждающихся в хирургическом лечении, поступают на 15-й день и позднее (рис. 1.2.1). Они лечатся в различных стационарах совершенно с другим диагнозом. 24
До 5 дн. 8% До 15 дн. 33%
Более 15 59%
Рис. 1.2.1 Длительность желтухи при поступлении в гепатологический центр Хорошо известно, что послеоперационная летальность находится в прямой зависимости от продолжительности желтухи (табл. 1.1). Таблица 1.1 Зависимость летальности от продолжительности желтухи Длительность желтухи до 5 дней до 15 дней более 15 дней
Летальность, % до 1 2,3 7,9
Современные методы диагностики многочисленны и не всегда достаточно информативны, порой занимают продолжительное время, что ведет к утяжелению состояния больного и позднему проведению операции. Сложность в диагностике состоит еще и в том, что желтуха появляется не только при заболеваниях печени, но и при поражении других органов и систем: поджелудочной железы, желчного пузыря, системы крови и т.д. Это и создает определенные трудности и ошибки в постановке правильного диагноза и назначения соответствующего лечения. Отсюда видно, что желтуха – один из синдромов, требующих дифференциальнодиагностического поиска. Метаболизм билирубина Для того, чтобы понять причины (патогенез) желтух, необходимо иметь представление об обмене билирубина. Билирубин – основной продукт распада гемоглобина, высвобождающегося из стареющих эритроцитов. В организме здорового человека эритроцит, прожив 120 дней, распадается с 25
образованием гема (белковая часть гемоглобина крови), который попадает в органы ретикулоэндотелиальной системы и в результате трех последовательно идущих реакций превращается в билирубин. В сутки у человека распадается, примерно, 1% циркулирующих эритроцитов: содержание гемоглобина в них равно 6 – 8 г. Учитывая, что из 1 г гемоглобина образуется 35 – 36 мг билирубина, суточная продукция его теоретически должна составлять 220 – 290 мг. Однако в сутки билирубина
образуется
несколько
больше
250
мг
за
счет
билирубина,
образующегося на других путях обмена, – распад миоглобина, свободный тканевой гем, ферменты цитохромы, содержащие гем (цитохром, каталаза, перексидаза и др.). Это так называемый шунтовой билирубин. Образующийся на этом этапе неконъюгированный билирубин, будучи высокотоксичным и плохо растворимым веществом, связывается с альбумином плазмы крови. Только очень небольшая часть билирубина способна подвергаться диализу, однако под влиянием веществ, конкурирующих с билирубином за связывание с альбумином, она может увеличиваться. В комплексе альбумин – билирубин неконъюгированный билирубин попадает в систему воротной вены печени. Печень выполняет три функции в обмене билирубина (рис. 1.2.2): - захват билирубина печеночной клеткой из крови; - процесс
конъюгации,
присоединение
глюкуроновой
кислоты
в
эндоплазмотической сети (ретикулуме); - экскреция водорастворимого конъюгата билирубина в желчные капилляры. Реакция конъюгации пигмента, протекающая в печени, имеет огромный биологический смысл, превращая высокотоксичный билирубин в малотоксичное, хорошо
растворимое
соединение
билирубин-глюкуронид
(конъюгированный
билирубин). Процесс конъюгации и внутриклеточной транспортировки происходит в гепатоците однонаправленно – от капиллярного полюса к билиарному. Таким образом, конъюгированный билирубин через билиарный полюс гепатоцита выделяется в желчные ходы, а затем в кишечник.
26
Сосудистый полюс 2. Конъюгация 1. Захват
Билиарный полюс
3. Экскреция
Рис. 1.2.2 Захват, конъюгация и экскреция гемоглобина в печеночной клетке Функция захвата билирубина гепатоцитом в физиологических условиях высокоэффективна и имеет «запас прочности», благодаря чему уровень билирубина в плазме постоянен и не превышает 20 – 22 мкмоль/л. Повышение уровня билирубина в крови (гипербилирубинемия) возникает в результате: избыточной продукции билирубина; уменьшения поглощения билирубина печенью; уменьшения конъюгации в печени (конъюгации, необходимой для экскреции); уменьшения экскреции с желчью. Отсюда
желтуху
подразделяют
на
надпеченочную
(гемолитическую),
печеночную (паренхиматозную) и подпеченочную (обтурационную, механическую). Гемолитическая развивается при избыточном распаде эритроцитов. Например, при гемолитической желтухе, внутрисосудистом распаде (гемолизе) эритроцитов, 27
при всасывании из обширных тканевых гематом. Образуется настолько много билирубина, что печень становится не способной весь его конъюгировать и выводить. При этом увеличивается уровень неконъюгированного билирубина в крови и накопление его в тканях. Клиническими проявлениями гемолитической желтухи является умеренная желтушность кожных покровов и склер, цвет желтухи лимонно-желтый, отмечается умеренная бледность. При обследовании находят увеличение селезенки при нормальных размерах печени, отсутствие потемнения мочи и обесцвеченного кала. Лабораторные критерии представлены в таблице 1.2. Таблица 1.2 Лабораторные критерии гемолитической желтухи Лабораторные тесты Число ретикулоцитов Форма и величина эритроцитов Продолжительность жизни эритроцитов Осмотическая резистентность эритроцитов Гемоглобин крови Свободный гемоглобин плазмы крови Содержание билирубина в крови Активность ферментов АЛАТ, АСАТ Щелочная фосфатаза
Их характеристика Увеличено Микросфероцитоз, макроцитоз, серповидные и др. изменения Укорочена Снижена Снижен Присутствует Увеличено за счет непрямого (неконъюгированного) Не изменена Показатели в норме
Паренхиматозная желтуха возникает при поражении самой печени при таких заболеваниях как острые и хронические вирусные гепатиты, циррозы печени, токсическом поражении печени алкоголем, медикаментами, другими токсинами. При этом печеночная клетка (гепатоцит) не способна конъюгировать билирубин и в крови
накапливается
неконъюгированный
билирубин.
Кроме
того,
через
пораженную мембрану гепатоцита в кровь попадают различные ферменты и другие компоненты клетки. Клинические
проявления
паренхиматозной
желтухи
зависят
от
вида
заболевания. Однако лабораторные тесты имеют общую направленность. Для паренхиматозной желтухи характерны гипербилирубинемия за счет увеличения неконъюгированного
(непрямого)
билирубина 28
и
увеличение
активности
ферментов – АЛАТ и АСАТ, в то же время активность щелочной фосфатазы остается в пределах нормы. Причиной механической желтухи является нарушение оттока желчи на различных уровнях: от печеночной клетки до двенадцатиперстной кишки. Заболеваний, приводящих к обтурации желчных путей, достаточно много. Их можно подразделить на заболевания, создающие препятствие току желчи по желчным путям, – камни, опухоли, рубцовые стриктуры, врожденные аномалии и т.д. и патологические состояния, приводящие к сдавливанию извне: опухоль, воспалительный инфильтрат, хронический панкреатит и т.д. Выраженная желтуха, кожный зуд, темная моча и обесцвеченный стул – основные клинические критерии нарушения оттока желчи. При механической желтухе
в
крови
накапливается
конъюгированный
(прямой)
билирубин,
увеличивается активность щелочной фосфатазы при нормальном уровне активности аминотрансфераз – АСАТ, АЛАТ. Дифференциальная диагностика желтух строится на анализе и оценке лабораторных и инструментальных данных (табл. 1.3) Таблица 1.3 Дифференциальная диагностика желтух Тип желтухи
Надпеченочная. Гемолитическая Печеночная. Паренхиматозная
Характер основного патологического процесса Усиленный распад эритроцитов
Поражение гепатоцитов
ПодпеченоНарушение чная. проходимост Механическая и желчных путей
Ведущий механизм развития желтухи Увеличение образования билирубина. Недостаточная функция захвата Нарушение захвата, конъюгации, экскреции Нарушение экскреции, регургитация
Нозологические формы Лабораторные показатели и синдромы Гемолитическая анемия. Неконъюгированный Обширная гематома билирубин, увеличена осмотическая резистентность эритроцитов, свободный гемоглобин плазмы Острые и хронические Увеличен гепатиты, цирроз неконъюгированный печени, токсические билирубин и активность поражения, ПБЦ, АЛАТ, АСАТ, пигментные гепатозы Опухоли, кисты, Увеличены паразиты, камни конъюгированный билирубин и активность щелочной фосфатазы. Не изменена активность АЛАТ, АСАТ
Таким образом, казалось бы, нет каких-то трудностей по лабораторным 29
показателям определить вид желтухи. При паренхиматозной и гемолитической желтухе
повышается
уровень
неконъюгированного
билирубина,
а
при
механической – конъюгированный – прямой (рис. 1.2.3). Активность ферментов также характерна при каждом виде желтух. Так, при гемолитической желтухе нет повышения активности АЛАТ, АСАТ и щелочной фосфотазы (ЩФ). В то же время, при паренхиматозной желтухе наблюдается высокая активность АЛАТ, АСАТ и незначительно повышается щелочная фосфотаза. Для механической желтухи характерны, наоборот, высокая активность щелочной фосфатазы и незначительное повышение активности АЛАТ и АСАТ (рис. 1.2.4) 250
200
Общий
150
Прямой 100
Непрямой
50
0 Паренхим
Гемолит.
Механич.
Рис. 1.2.3 Уровень билирубина в зависимости от вида желтухи 10 9 8 7 6
АЛАТ АСАТ ЩФ
5 4 3 2 1 0 Паренхим.
Гемолит.
Механич.
Рис. 1.2.4 Активность ферментов в сыворотке крови в зависимости от вида желтух 30
Однако, данные показатели характерны для желтух первых 10 – 15 дней. В последующем при механической желтухе в процесс вовлекается печеночная клетка. Функция ее нарушается и в крови, как при паренхиматозной желтухе, увеличивается содержание неконъюгированного (непрямого) билирубина и нарастает активность аминотрансфераз – АЛАТ и АСАТ. Исходя из этого, исследование билирубина крови и его фракций, определение активности ферментов (АЛАТ, АСАТ, ЩФ) при желтухах являются скрининговым методом. Наиболее достоверным признаком паренхиматозной желтухи является определение маркеров вируса гепатита. Число выявленных возбудителей гепатита постоянно растет. Если на протяжении почти ста лет, а первое описание «катаральной желтухи» было дано в 1883 году, медицине было известно всего три вида вирусного гепатита – гепатит А, гепатит В и гепатит ни А ни В, в настоящее время известны 7 этиологически самостоятельных вирусных гепатитов, которые принято обозначать буквами латинского алфавита: A, B, C, D, E, G, TTV. Выделены вирусы гепатита А, В, С, D, Е - соответственно HAV, HBV, HCV, HDV, HEV. Антигены вирусов обозначаются символом Ag, антитела к этим антигенам – символом Ab. Маркеры гепатита A. Острый гепатит А диагностируется на основании обнаружения в сыворотке крови HAV-IgMAb. При этом важно учитывать, что синтез анти-HAV IgM начинается еще до появления первых клинических симптомов и нарастает в острой фазе болезни, а затем содержание антител постепенно снижается, и они исчезают из циркуляции через 3-6 недель болезни. Маркеры гепатита В. Они наиболее многочисленны. Антигены вируса: HBsAg – поверхностный антиген гепатита В; HBsAgIgM – поверхностный антиген гепатита В класса иммуноглобулина М (IgM); HBeAg – субъединица поверхностного антигена гепатита В; HBcAg – ядерный антиген гепатита В; HBV-DNA – ДНК вируса гепатита В; DNA-p – ДНК-полимераза гепатита В. 31
Соответствующие антитела к антигенам гепатита В: HBsAb, HBcAb, HBeAb, HBcIgMAb. Острый вирусный гепатит В диагностируется при выявлении в сыворотке крови HBsAg и высоких титров HBcAb, являющегося основным маркером заболевания, регистрируемым еще задолго до появления клинических признаков болезни и в течение всего преджелтушного и желтушного периодов. При этом важно учитывать, что при остром течении болезни HBsAg исчезает из крови к концу первого месяца от начала желтухи. Дальнейшее выявление HBsAg указывает на затяжное или хроническое течение болезни. На активную репликацию вируса гепатита B указывает обнаружение в крови HBeAg и ДНК HBV. Маркеры гепатита С. HCVAb – антитела к вирусу гепатита С, наличие их указывает на хронический гепатит С при определенной клинике. HCV-RNA – маркер стадии репликации вируса гепатита С. Маркеры гепатита D. HDVAb – антитела к вирусу гепатита D. Они свидетельствуют об активности D-инфекции, которая сопровождает и утяжеляет гепатит В. Выявленные маркеры могут отражать коинфекцию с вирусным гепатитом B или суперинфекцию вируса D на хроническую HBV-инфекцию в стадии репликации или стадии интеграции вируса гепатита B. Клинически диагностировать гепатиты G и TTV практически невозможно. Мысль о возможности этих форм вирусных гепатитов должна возникать в том случае, когда у пациента с признаками гепатита получены отрицательные результаты обследования на вирусные гепатиты A, B, C, и в случае, если у таких больных бывает положительный результат на РНК HGV (вирусный гепатит G) или ДНК TTV (вирусный гепатит TTV). Определение у пациента тех или иных маркеров указывает на то, что он либо болен гепатитом, либо перенес вирусный гепатит, либо является носителем. Для
дифференциальной
инструментальные
методы
диагностики
наиболее
исследования:
рентгенологические, компьютерная томография и др. 32
важными
являются
ультразвуковые
(УЗИ),
Часто используемым и достаточно информативным методом является УЗИ. Во время ультразвукового исследования обращают внимание на состояние ткани печени, ее трубчатых структур (внутрипеченочных сосудов, внутрипеченочных желчных ходов), размеры печени, селезенки, желчного пузыря, внепеченочных желчных путей (табл. 1.4). Таблица 1.4 УЗИ в дифференциальной диагностике желтух УЗИ признаки
Вид желтухи Паренхиматозная
Гемолитическая
Размер печени Несколько увеличена Размеры Увеличение селезенки
Обтурационная
Увеличена
Редко увеличена
Может быть увеличена
Не увеличена
Эхоструктура Обычная или слегка Акустически неоднородная акустически неоднородна Трубчатые Сужение диаметра печеночных структуры Нормальные вен. Увеличение размеров портальной и селезеночных вен Состояние капсулы Не изменена Утолщена печени Другие УЗИ Пигментные камни Дистальное затихание звука признаки в желчном пузыре
Ультразвуковыми
признаками
Акустически неоднородная Расширение внутрипеченочных желчных ходов, холедоха и желчного пузыря Не изменена Камни в желчном пузыре и холедохе, увеличение головки поджелудочной железы
паренхиматозной
желтухи
могут
быть
увеличение pазмеpов печени, повышение эхогенности паренхимы, ее акустическая неоднородность,
появление
ярких
эхосигналов
интенсивности и pаспpостpаненности, pасшиpение
большей
или
меньшей
диаметра воротной вены и
сужение печеночных вен. Как правило, изменений со стороны желчевыводящих путей нет (рис. 1.2.5). Наиболее частым ультразвуковым симптомом гемолитической желтухи было увеличение pазмеpов селезенки. Пpи
механической
желтухе
на
ультpасоногpаммах
отчетливо
видны
pасшиpенные мелкие внутpипеченочные желчные ходы (рис. 1.2.6 А). Величина диллятации внутрипеченочных желчных протоков зависела от продолжительности желтухи. При длительности желтухи свыше 10 – 15 дней отмечено более 33
значительное их расширение – от 4 до 8 мм.
А Б Рис. 1.2.5 Ультрасонограммы печени при паренхиматозной желтухе А. Акустическая неоднородность печени и утолщение капсулы. Б. Увеличение диаметра портальных вен Желчные протоки в отличие от расширенных печеночных вен имеют неправильный ход, звездчатое строение при их слиянии и прослеживаются до периферии. Желчный
пузырь пpи механической желтухе, вызванной обтуpацией
дистального отдела холедоха, увеличен в pазмеpах, имеет сфеpическую фоpму, при УЗИ наблюдается выраженное усиление эхосигнала за ним (рис. 1.2.6 Б).
А Б Рис. 1.2.6 Ультрасонограммы печени (А) и желчного пузыря (Б) при механической желтухе Особое внимание при проведении дифференциальной диагностики желтухи уделяется исследованию внепеченочных желчных ходов. Диаметр общего желчного протока, в зависимости от длительности обтурации желчных путей, колеблется от 9 до 26 мм (рис. 1.2.7 А). Наиболее частыми пpичинами непроходимости желчных 34
путей является наличие камней в желчных путях (рис. 1.2.7 Б) и опухоли головки поджелудочной железы.
А Б Рис. 1.2.7 Ультрасонограмма общего желчного протока А. Расширенный, извитой общий желчный проток. Б. Расширенный общий желчный проток, в просвете которого желчный камень Следует отметить, что УЗИ является скрининговым методом. У большинства больных с помощью УЗИ не удается определить патологию внепеченочных желчных путей – камни в холедохе, опухоли. Поэтому при подозрении на механический характер желтухи применяется прямое введение контрастного вещества в желчные ходы с помощью эндоскопической техники, – метод называется эндоскопическая
ретроградная
холангиопанкреатография
(ЭРХПГ).
Метод
позволяет определить камни в желчном пузыре, желчных ходах (рис. 1.2.8 А), выявить расширение внутри- и внепеченочных желчных ходов (рис. 1.2.8 Б).
А Б Рис. 1.2.8 Контрастное рентгенологическое исследование желчных путей А. Механическая желтуха, камень в общем желчном протоке и желчном пузыре. Б. Механическая желтуха, расширение внутрипеченочных желчных ходов 35
В диагностике опухоли головки поджелудочной железы как причины механической желтухи важное место принадлежит компьютерной томографии (рис. 1.2.9).
Рис. 1.2.9. Компьютерная томограмма. Рак поджелудочной железы. Увеличен размер головки поджелудочной железы. Увеличен желчный пузырь. Расширены внутрипеченочные желчные ходы Следует отметить огромный поток информации, получаемый врачом при клиническом,
лабораторных
и
инструментальных
методах
исследования,
являющихся базой для постановки правильного диагноза. Использование всех результатов обследования для диагностики требует запоминания и анализа очень большого по объему информационного материала, что не всегда под силу врачу, особенно молодому. Парадоксально то, что увеличение числа методов исследования не уменьшает частоту диагностических ошибок при желтухах. Выход из создавшейся ситуации можно видеть в разработке и использовании методов и компьютерных программ, которые будут решать дифференциальнодиагностические задачи с учетом вариабельности, неопределенности результата, обусловленной изменчивостью биологических систем, в случаях как избытка, так и недостаточности клинических, лабораторных, инструментальных данных.
36
Глава 2 Теоретические разработки Диагностируя, считаем сочетание заболеваний отдельной, «самостоятельной» болезнью. Если для последней имеются распределения ДП, то «суммарная» болезнь диагностируется так же, как другие, если данных о ДП нет, сочетание заболеваний исключается
из
рассмотрения.
Возможность
описания
распределения
ДП
совокупности болезней по распределениям ДП составляющих болезней – предмет отдельного исследования, выходящего за рамки настоящей монографии. 2.1 Совмещение медицинского и математического подходов к диагностике заболеваний 2.1.1 Кратко о моделировании Выше отмечалось, что диагностика на основе предложенного метода траекторий является и одной из форм совмещения медицинского и математического подходов: медицинский подход используется при моделировании траекторий ДП, а математический
–
при
сравнении
траекторий
ДП
реального
больного
с
траекториями диагностируемых болезней [25, 26, 90, 91, 92, 104]. Когда нет моделей, основанных на медицинских знаниях, на физиологии и патофизиологии, примитивную модель можно построить на основе статистики. При построении основанной на базе данных модели для каждого признака заболевания изучается траектория математического ожидания (т.е. зависимость средних в каждый день заболевания величин признака от времени, прошедшего с начала заболевания). Затем на основании медицинских знаний решается: какими параметрами траектории допустимо варьировать, чтобы описать индивидуальное (у конкретного больного) течение данной ( j -й) болезни. Или, шире, как допустимо изменять траекторию, чтобы отразить индивидуальное течение болезни. При этом в простой форме учитываются и взаимосвязи признаков. Например, повышение траектории одного признака может быть только при повышении другого; или превышение одного признака над средним уровнем связано с уменьшением другого признака и т.п. Таким образом, получаем модели динамики признаков, и их совокупность можно рассматривать как упрощенную модель болезни. Далее, найденные у больного величины диагностических признаков аппроксимируются 37
траекториями с учетом ограничений, наложенных на форму (течение) траекторий. Затем
постулируется
форма
распределения
признаков
(величин
анализов)
относительно индивидуальных траекторий. За неимением данных о распределении признаков вокруг индивидуальных траекторий во многих случаях допустимо принять, что распределение относительно индивидуальных траекторий такое же, как относительно математических ожиданий – относительно основной траектории болезни. Подчеркнем, что изложенная аппроксимация проводится для каждой ( j -й) болезни. После этого тем или иным методом рассчитывается вероятность болезни. Очень краткое изложение диагностики с использованием моделей болезней выше приведено, скорее, для сведения о том, что такое направление было предложено [25, 26, 90, 91, 97, 117]. 2.1.2 Использование условных вероятностей Другой путь использования знаний физиологии, патофизиологии и т.п. состоит в том, чтобы задать степень взаимозависимости между симптомами и анализами, исходя из медицинских знаний. Этот путь включения медицинских знаний рассмотрим применительно к использованию формулы Байеса. В обзоре (глава 1) отмечалось, что при расчете вероятностей по формуле Байеса признаки заболеваний необоснованно считаются независимыми. Учет зависимости симптомов не проводится из-за недостаточного объема статистики. В этой ситуации степень зависимости одних симптомов от других могла бы задаваться
на
основании
знаний
медиков.
Этим
медицинские
знания
компенсировали бы недостаточный объем статистики. Аналогично на основании медицинских опыта и знаний можно задать условные вероятности одних диагностических признаков относительно других. Задание условных вероятностей и степеней зависимости эквивалентны, так как условные вероятности однозначно пересчитываются в степени зависимости диагностических признаков между собой. Задание условных вероятностей может быть развито в метод диагностики, суть которого в следующем. Кроме условной вероятности задается допустимый диапазон ее изменения. При заданных условных вероятностях ставятся (вычисляются) компьютерные 38
диагнозы больным из базы данных. (Напомним, что в базе данных собраны больные с
точно
установленными
диагнозами.)
Затем
методами
нелинейного
программирования, например, методами параметрической оптимизации внутри заданного допустимого диапазона изменения условных вероятностей находятся такие величины условных вероятностей, при которых диагностика – наилучшая, – наибольшее количество компьютерных диагнозов верно. Полученный оптимальный набор условных вероятностей используется для диагностики больных [104]. 2.1.3 Дополнение статистики и уточнение распределений Поставленная задача совмещения медицинского и математического подходов имеет общий характер как проблема совмещения знаний в предметной области и расчетов на основе статистики, но здесь излагается только отображение указанной задачи на медицинскую диагностику. В медицинской диагностике превалируют два подхода: А – использование экспертных систем; В – использование методов теории вероятностей и математической статистики, и/или формально-математические приемы. Не вдаваясь в тонкости классификации, подчеркнем принципиальное отличие подходов: А – базируется на знаниях и опыте врача, В – на формальной обработке данных (игнорируя мнение врача). Очевидно, что постановочна задача о совмещении подходов А и В. Действительно, подход А использует знания врача в области физиологии и патофизиологии и т.п., что очень ценно. Однако этот (А) подход не универсален и не в полной мере использует статистику. (Статистику включает на интуитивном уровне в виде личного опыта и знаний об опыте коллег.) Подход В позволяет достаточно полно использовать статистическую информацию, т.е. накопленный опыт, но не обращается к знаниям о механизмах взаимосвязи процессов в организме и т.п. Выше
отмечена
возможность
совмещения
подходов
А
и
В
путем
моделирования болезней. Когда модели болезни нет, предлагается включить медицинские знания в чисто математический подход В через уточнение и дополнение используемой статистики (собранной и используемой базы данных). Имеющиеся распределения ДП всегда получены (построены) по ограниченным выборкам. Медицинские знания позволяют эти распределения уточнить и 39
дополнить. Таким уточнением и дополнением статистики в математический подход включаются знания врача о физиологии и патофизиологии, течении болезни, воздействии лекарств и т.п. Предлагаемое уточнение распределений за счет медицинской информации можно дополнить вариационным подходом. Можно задать интервал вероятных кривых распределения каждого ДП. Затем, используя имеющуюся (тестовую) базу данных, внутри интервала выбрать те кривые, при которых диагностика наилучшая. Расчет вероятностей болезней в известных нам публикациях проводится по одномерным распределениям. Переход к многомерным распределениям снял бы многие проблемы. Но сбор данных, достаточных для построения многомерных распределений, в большинстве случаев непосилен. Вместе с тем, используя доступную статистику, в ряде случаев можно по одномерным распределениям «построить» многомерные распределения за счет медицинских знаний – вследствие понимания взаимосвязи симптомов и анализов. Многомерные распределения являются неограниченным «потребителем» дополнения распределений: если богатая статистика и медицинские знания позволили построить двумерные распределения, более обширные знания позволят построить трехмерные распределения и т.д. Выше изложены методы совмещения медицинского и математического подходов к диагностике. Начать реализацию предложенных методов рационально с самого простого из них: с дополнения одномерных и двумерных распределений данных (ДП) на основе медицинских знаний. 2.2 Использование многомерных распределений Переход к многомерным распределениям повышает уровень диагностики за счет органического учета взаимозависимости ДП. Этот переход важен, как минимум, для диагностики с расчетом вероятностей болезней по формуле Байеса. Диагностические
признаки
заболевания
взаимозависимы.
Но
выявить
эти
зависимости, опираясь на статистику, трудно, в основном, из-за того, что нужен огромный
объем
приближение:
при
статистических расчетах
по
данных.
Поэтому
формуле
Байеса
распространено ДП
болезни
грубое
считаются
независимыми, хотя в общем случае в едином организме независимость признаков 40
исключена. Многомерное распределение органически содержит в себе взаимосвязь признаков заболевания, поэтому построение таких распределений избавляет от необходимости учета взаимозависимости признаков. Предельный случай – многомерное распределение всех признаков заболевания
g j(a1, a2 , a3 , … , am ) , где j – номер болезни, ai ( i = 1,2 ,3,..., m ) – признак заболевания. Если бы такое распределение удалось построить, то отпала бы необходимость в расчете вероятности болезни по формуле Байеса. Действительно, определив у больного конкретные величины признаков ai : a1 = ao1 , a2 = ao 2 и т.п., сразу (по зависимости g j(a1, a2 , a3 , … , am ) получаем плотность вероятности g j . Сравнение g j у распознаваемых болезней
j = 1,2,3,...n является достаточной
информацией для вывода о диагнозе. Вышеприведенное рассуждение представляется тривиальным, но после того, как оно высказано. На самом деле, данное рассуждение – общий подход к использованию многомерных распределений. Плотность распределения непрерывно распределенных ДП наглядна и ее вычисление однозначно. При сочетании дискретных и непрерывных ДП возникает проблема, которая возникла перед авторами с начала исследований [89, 93]: допустимо ли «на равных» рассматривать плотности вероятностей непрерывных ДП и вероятности дискретных ДП? То есть, допустимо ли эти, отличающиеся не только по сути, но в большинстве случаев даже по порядку, величины использовать в одной формуле. В данном случае проанализирована представительность многомерного распределения, включающего и вероятности дискретных ДП и плотности распределения
непрерывных
ДП.
Был
рассмотрен
академический
вариант
аппроксимации дискретного распределения непрерывным с помощью кривых плотности вероятности, подобных дельта-функции. Прорабатывались дискретизация непрерывных ДП и проблемы выбора интервалов дискретизации, а также оценки возникающих при дискретизации погрешностей и т. п. В результате было выяснено, что для многомерных распределений проблемы совмещения дискретных и непрерывных ДП вообще нет. Проиллюстрируем это на примере двумерного 41
распределения, в котором один ДП дискретный, а второй непрерывный. Если строить одномерное распределение непрерывного ДП только по величинам этого ДП у тех больных, у которых найдено определенное значение дискретного диагностического признака, то плотность этого «выборочного» распределения и будет
плотностью
двумерного
распределения.
И
нет
необходимости
в
дискретизации. Ордината многомерного распределения зависит от масштабов входящих в него непрерывных распределений. Может быть, эти масштабы нужно связывать со средними квадратическими отклонениями диагностических признаков, по которым построено распределение. Один из вариантов определения вероятности болезни или комплексного многомерного ДП состоит в вычислении вероятности попадания совокупности определенных признаков заболевания aoi = ( ao1, ao 2 , ao 3 , … , aom ) в заданный гиперпараллелепипед. При этом трудности переходят на задачу задания длины граней параллелепипеда. Не исключено, что длина i -й грани может быть связана с погрешностью измерения i -го ДП [99, 104, 110]. Кроме обычных методов вычисления погрешностей определения дискретных ДП можно предложить следующее. Для дискретного признака вместо его погрешности можно использовать погрешность распределения. Например, пусть у признака (симптома) «боль» распределение при болезни
j : 0,8 – есть боль, 0,2 – нет
боли. Величины 0,8 и 0,2 имеют погрешность определения. Эта погрешность может играть роль погрешности признака (данную погрешность предлагается использовать как погрешность дискретного признака). Заметим, однако, что определенные таким образом погрешности могут оказаться разными у разных болезней. Представляется, что нужно использовать одинаковую погрешность у всех болезней. В качестве одинаковой погрешности можно взять наибольшую погрешность данного признака (среди погрешностей при всех болезнях) [99]. На практике в общем случае нет возможности построить многомерное распределение, включающее все ДП. Обычно статистики хватает для построения двух и трехмерных распределений, которые являются распределениями нового 42
многомерного ДП. В простейшем и практически наиболее значимом случае образуются двумерные признаки: из двух одномерных признаков образуется пара. Возникает вопрос: стоит ли один и тот же ДП включать в несколько пар. (При объединении диагностических признаков в пары можно предложить разные принципы объединения. C одной стороны, не стоит с одним диагностическим признаком образовывать много пар, чтобы избежать неадекватного повышения его роли. С другой стороны, чем больше пар можно образовать, тем больше связей между диагностическими признаками можно учесть. Конечно, «образовывать пары», т.е. переходить к двумерным диагностическим признакам, имеет смысл только тогда, когда эти пары можно образовать у всех диагностируемых болезней.) Если рациональна минимизация числа образуемых многомерных диагностических признаков, то в конкуренции ДП на вхождение в многомерный признак очевидно только одно: чем более взаимозависимы ДП, тем рациональнее объединять их в многомерный ДП. Остальные вопросы требуют исследования. 2.3 Диагностика методом максимального (наибольшего) правдоподобия 2.3.1 Итерационный алгоритм диагностики заболеваний В самом начале исследований формула, предложенная авторами для расчета вероятности болезни [90 – 95, 97, 98, 100], считалась оригинальной и имела название «формула обобщенных вероятностей» [90 – 95, 99]. Позднее был сделан подтвержденный математически вывод, что варианты «формулы обобщенных вероятностей» являются иной формой метода максимального (наибольшего) правдоподобия (сокращенно ММП) [96, 99, 101, 110]. Метод максимума правдоподобия (термин был впервые использован в работе Фишера, 1922) введен в теорию вероятностей как общий метод оценивания параметров генеральной совокупности с помощью максимизации правдоподобия выборки, обозначенного ниже буквой L [56 и др.]. Покажем, как были получены нетрадиционные формы ММП. Основная цель настоящего исследования – разработка методов диагностики. Диагнозом считается наиболее вероятная болезнь, а вероятность болезней рассчитывается по диагностическим признакам, определенным у пациента. Для 43
нахождения вероятностей конкретных величин ДП при каждой болезни была собрана база данных и по ней определены распределения каждого ДП при каждой болезни. Так что распределения дискретных ДП и плотности распределений непрерывных ДП при болезнях известны. Более того, база данных собиралась так, что позволила определить распределения вероятностей (для дискретных ДП) и плотности вероятностей (для непрерывно распределенных ДП) в каждый день болезни. Итак, известны распределения
{
}
qij (ai ) = qijt1 (ai ), qijt 2 (ai ), qijt 3 (ai ),..., qijτ (ai )
и диагностические признаки пациента aoi , i = 1,2 ,3,..., n , следовательно, по этим t
t
данным для каждого диагностического признака может быть определена qij ( aoi ) – вероятность или плотность вероятности ДП. Для одного и один раз определенного ДП выпишем формулу Байеса
pj =
( ), ∑ p q (a ) p j qijt aoit
j
где
∑
– краткая запись суммирования
j
t j ij
(2.3.1)
t oi
n
∑ по всем n диагностируемым болезням.
j =1
В выписанной формуле Байеса p j – вероятность болезни в правой части уравнения трактуется так же, как и в левой части. Данная трактовка отличается от широко принятой трактовки, согласно которой (Н. Бейли [29, 30]) p j в правой части является не вероятностью, а распространенностью болезни. Широко принятая трактовка
обоснована
и
используется
в
других
разделах.
Соглашаясь
с
общепринятой трактовкой, все же нельзя исключать из исследования иных трактовок. Поэтому в настоящей части публикации исследуется вид формулы Байеса, отвечающий, на наш взгляд, концентрации внимания на вероятности болезни для данного конкретного больного. Учет распространенности болезней может быть сделан дополнительными членами формулы. Однако, до учета распространенности, предлагается завершить исследования диагностики на базе 44
формулы (2.3.1). Формула (2.3.1) разрешается относительно p j . Для более наглядного анализа этой формулы запишем ее для двух болезней: j = 1 и j = 2 . Тогда вероятность первой болезни
( )
p1qit1 aoit . p1 = p1qit1 aoit + p2 qit2 aoit
( )
( )
(2.3.1а)
Учтем, что в полной группе из двух болезней p1 + p2 = 1 . Как видно, уравнение (2.3.1а) имеет только два решения:
p1 = 0 , p2 = 1 и p1 = 1 , p2 = 0 . И задача состоит в отыскании решения, верного с позиций диагностики. В качестве решения предлагается итерационный процесс. Этот же итерационный процесс был использован для практической диагностики, которая осуществлялась по уравнению (2.3.1), переписанному в виде
p kj +1
=
( ). ∑ p q (a ) p kj qijt aoit
j
k t j ij
t oi
(2.3.2)
На практике предложенный итерационный алгоритм расчета всегда сходился и качество диагностики желтух: механической, паренхиматозной и гемолитической, а также здорового состояния пациента – было высоким [94, 98, 109]. Возник вопрос: «Всегда ли сходится предложенный итерационный процесс?» Математически доказана сходимость предложенного итерационного алгоритма. Одновременно показано, что метод траекторий эквивалентен (является иной математической формой) методу максимального правдоподобия [100, 110]. Строгое доказательство сходимости итерационного процесса и его связи с ММП приведены в приложении 1. Авторы надеются, что обнаруженная связь байесовского подхода, метода траекторий и ММП позволит глубже понять суть ММП. С позиций расчета вероятностей гипотез (в данном случае – вероятностей болезней) предложенный итерационный алгоритм имеет преимущества перед известными алгоритмами расчетов вероятностей гипотез по ММП. Преимущество состоит в том, что итерационный алгоритм гарантированно сходится и позволяет 45
найти искомые вероятности при меньшем объеме вычислений [96, 100, 110]. Как ясно из обзора литературы, имеется много публикаций, посвященных расчету вероятностей болезней по известным ДП с помощью формулы Байеса. Во всех найденных публикациях при расчете вероятности болезни используется только одна величина каждого ДП, т.е. для симптома или анализа или инструментального обследования используется только одно его значение. Вместе с тем, в течение болезни и лечения ДП изменяются и определяются не один раз, так что симптом или анализ принимают ряд значений, как бы движутся по характерной для каждой болезни траектории. В отличие от известных работ, авторам болезнь представлялась не как совокупность определенных один раз ДП, а как совокупность траекторий ДП. Такое представление изображено на рис. 2.1.1. При этом возникла задача: отразить в формуле Байеса не одну, а все измеренные в течение болезни величины ДП.
12
Значения ДП
10 8 6 ДП1 ДП2 ДП3
4 2 дни, t 0 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
Рис. 2.1.1 Совокупность траекторий ДП Например, пусть в течение болезни один из анализов – билирубин определялся 5 раз: в день поступления в больницу, а также на 3, 5, 8 и 15-й дни болезни.
Для
распределениям
каждой
определенной
билирубина
в
величины
каждый
день
билирубина болезни,
по
при
известным каждой
из
диагностируемых болезней ( j ) находится вероятность появления билирубина 46
данной величины. Задачей является использование всех найденных величин билирубина (при расчете вероятностей по формуле Байеса). В качестве метода ввода в формулу Байеса всех измерений каждого ДП было предложено обобщение. Обобщение самой величины ДП имеет смысл только тогда, когда данный ДП в течение болезни не меняется. Форма такого обобщения – усреднение. Вероятностные характеристики изменяющихся ДП можно обобщать как минимум двумя путями. Во-первых, можно обобщать вероятности появления (при
( )
болезни j ) диагностических признаков данной величины qij aoi . Во-вторых, можно обобщать вероятности болезней, рассчитанные по каждому конкретному определению (измерению) диагностического признака, – по формуле (2.3.1). Последний тип обобщения и рассмотрен в настоящем (2.3) разделе. В
процессе
последовательностью
работы
проверено
обобщений
несколько
вероятностей
методов,
болезней,
отличающихся
определенных
по
значениям ДП, полученных в результате обследования. Под обобщением понимается усреднение вероятностей болезней, рассчитанных по какому-либо параметру. Например, обобщение по дням, – это усреднение вероятностей, найденных по каждому из значений ДП, определенных в разные дни, – во все дни, в которые данный ДП определялся. Аналогично, обобщение по диагностическим признакам – это усреднение вероятностей болезней, вычисленных по значениям различных ДП, определенных в один день. Перечислим указанные методы в зависимости от последовательности обобщений: 1) обобщение сначала по диагностическим признакам, затем по дням; 2) предварительное обобщение не проводится, каждое обследование считается определением величины нового симптома; затем проводится усреднение всех найденных вероятностей; 3) обобщение сначала по дням, затем по диагностическим признакам. Рассмотрим все эти методы и формы обобщения подробнее.
47
2.3.2 Обобщение поперек траекторий В данном варианте методики вычисление значений вероятностей болезней осуществлялось сначала во внутреннем цикле по ДП, а затем во внешнем – по дням. При этом обобщение по ДП происходит по числу представленных ДП в данный день, а после этого по дням - по числу представленных дней. Вычисления производятся по всем m ДП, определенным в данный день, и по всем
τ дням, в
которые существует хоть одно значение анализа или симптома обследования пациента или имеется данное инструментального обследования.
p kj +1
( ) ( )
p kj qijt aoit 1 1 , = ∑ ∑ τ t mt i ∑ p kj qijt aoit j
(2.3.3)
где
i – номер ДП среди m рассматриваемых ДП; j – номер болезни (в рассматриваемой полной группе из n болезней); t – момент времени (день), в который рассматриваются ДП болезней и пациента;
qijt (aoit ) – вероятность дискретного ДП или плотность вероятности непрерывно распределенного ДП в день t , причем имеется в виду ДП, полученный обследованием пациента, а вероятность может трактоваться как вероятность принадлежности ДП определенной категории или величины к болезни
j;
∑ – суммирование по ДП; поскольку под знаком суммы стоят величины, i
относящиеся к конкретному дню, то суммирование проводится по всем ДП, определенным в этот день (но только в этот день и в рассматриваемом внутреннем цикле суммирование идет по данным одного дня t ). Принятое обозначение представляется понятным, хотя при желании можно подчеркнуть, что используются только ДП, определенные в день t , введением индекса t у индекса i : « it », а
также конкретизировать суммирование
подразумевая перенумерацию ДП в каждый день.
48
it = mt
∑ ,
it =1
p kj – вероятность болезни j , полученная в k -м итерационном цикле; p kj +1 – вероятность болезни j , полученная в k + 1 -м итерационном цикле;
mt – суммарное число ДП, определенных в день t ;
∑ – суммирование по моментам времени (дням), в которые имеются ДП; t
τ – (суммарное) число дней, в которые определялись ДП (в которые был определен хотя бы один ДП). Изложенная методика получила название «диагностика поперек траекторий». 2.3.3 Обобщение по отдельным ДП В
данной
методике
все
значения
ДП
обследования
пациентов
рассматривались по отдельности. Из этого следует специфика определения вероятности болезни – нет возможности что-либо вычислять первым: вероятность болезни по одному дню или по одному ДП. В процессе вычисления все данные обрабатываются вместе, независимо от ДП и дня, которым они принадлежат. Обобщение происходит по числу существующих значений. В отличие от других методик, здесь порядок вычислений не важен:
p kj +1
p kj qijt (aoit ) 1 = . ∑∑ τm t i ∑ p kj qijt (aoit )
(2.3.4)
j
Данная методика получила название «диагностика по отдельным симптомам». 2.3.4 Обобщение вдоль траекторий В этой методике реализована следующая последовательность вычислений: значения вероятностей обобщаются «по дням» – по числу дней, в которые определялись ДП пациента. Обобщение «по дням» выполняется отдельно для каждого ДП, а затем проводится обобщение по всем ДП.
p kj +1
p kj qijt (aoit ) 1 1 = ∑ ∑ . m i τi t ∑ p kj qijt (aoit )
(2.3.5)
j
Обобщение проводится «по дням», в которые были определены ДП. 49
Поскольку каждый ДП определялся в разное количество дней, более строгой является запись числа дней
τ с индексом i : τ i . Это указывает на разное число
дней, в которые определялись разные ДП, например камень «находился» двумя обследованиями (рентгеновским и ультразвуковым) в два разных дня, а увеличение печени определялось на каждом обходе – всего 10 раз. Так как последовательность вычислений включает обобщение по дням для каждого симптома, данная методика получила название «диагностика вдоль траекторий». 2.3.5 Диагностирование с использованием «чистого» критерия максимального правдоподобия Под использованием «чистого» критерия максимального правдоподобия подразумевается использование критерия в его классическом варианте, изложенном в учебниках. Критерий имел условное название – CMT 1 и вычислялся по отдельным ДП:
CMT1 = ∏ ∑ p j qijt (aoit ) ,
(2.3.6)
iτ j
где
∏ – произведение (по всем i -м ДП и всем τ дням) полных вероятностей iτ
(сумм по всем n болезням вышеописанных величин). Возможно вычисление критерия максимального правдоподобия также для диагностик – «поперек траекторий» и «вдоль траекторий». Авторами проработаны и другие варианты критерия максимального правдоподобия [99 и др.]. При
любой
форме
записи
критерия
максимального
правдоподобия
вероятность болезни можно найти методами нелинейного программирования. Т.е. этими методами находится сочетание вероятностей болезней, при которых критерий максимален. Среди упомянутых методов эффективны методы: Пауэлла, НелдераМида, Гаусса-Зейделя, аппроксимаций и др. В качестве еще одного метода рационально использовать метод прямого перебора. Прямой перебор в простейшем случае состоит в том, что в уравнение, функцию, обсуждаемый критерий подставляются с небольшим шагом все сочетания варьируемых параметров. В данном случае – сочетания компонент 50
вектора
Pj : p j =1, p j = 2 , p j = 3 , … , p j = n . Начиная с некоторого числа болезней, этот метод по скорости решения задачи уступает большинству методов оптимизации. Но по надежности отыскания оптимума он, пожалуй, лучший. Прямой перебор наиболее информативен для выяснения типа гиперповерхности функции цели – вида критерия наибольшего правдоподобия как функции. По сравнению с другими методами прямой перебор позволяет наиболее наглядно продемонстрировать теоретическое доказательство того, что задача имеет одно решение: критерий наибольшего правдоподобия как функция имеет один максимум. Для реализации прямого перебора нужен алгоритм генерации сочетаний варьируемых
параметров.
На
перебираемые,
варьируемые
(независимые)
переменные, которыми являются вероятности болезней, имеются естественные ограничения: вероятности болезней неотрицательны и их сумма равна единице. Отсюда следуют варианты алгоритмов перебора, выбора сочетаний вероятностей. Вероятность одной из болезней, например n -й, можно определить как разность j = n −1
p j =n = 1 − ∑ p j , j =1
(2.3.7)
где p j – вероятность j -й болезни, n – число болезней, p j = n – вероятность n -й болезни. Условия p j = n ≥ 0 или
j = n −1
∑ p j ≤ 1 позволяют ограничить массив сочетаний
j =1
перебираемых вероятностей. Существуют и другие варианты алгоритма набора (генерации) сочетаний вероятностей болезней. В полученной области сочетаний вероятностей определяются величины критерия наибольшего правдоподобия и находится оптимальное сочетание вероятностей, т.е. сочетание, при котором критерий наибольшего правдоподобия максимален. Такое сочетание обозначим
Pmax = { p j =1, p j = 2 , p j = 3 , … , p j = n } . 51
(2.3.8)
Прямой перебор можно усовершенствовать: сначала его стоит проводить с крупным шагом по p j , а затем в районе Pmax повторить с уменьшенным шагом и т.д. до нужной точности. Ограничение района Pmax проводится так, чтобы была гарантия нахождения максимума в этом районе. Сочетание максимального
величин
вероятностей
правдоподобия
болезней,
достигает
при
наибольшего
котором
критерий
значения,
считается
вероятностями болезней. На наш взгляд, основание считать найденные по этому условию вероятности наиболее правдоподобными – в следующем: при этом сочетании вероятностей болезней – наибольшая вероятность наблюдать имеющиеся у больного ДП вместе (наибольшая вероятность наблюдать имеющийся набор ДП). В случае прямого перебора
вероятностей
двух болезней допускается
существование (формальное) двухмерного пространства наборов вероятностей, измерениями которого являются вероятности болезней
p j =1 и p j = 2 . Это
пространство сочетаний вероятностей можно представить двухмерной плоскостью с теми же измерениями. Проводится перебор всех сочетаний вероятностей с целью нахождения их оптимального сочетания (набора). Критерием оценки «качества» набора (правильности, близости к реальному) служит критерий максимального правдоподобия. Его наибольшее значение
для конкретного набора из всех
сочетаний (наборов) и будет свидетельствовать о наиболее правдоподобном выборе вероятностей. Вышеописанные действия, необходимые для получения достоверных сочетаний вероятностей, мы называли «поиск максимального СМТ», или, более полно, поиск максимального значения критерия максимального
правдоподобия
методом перебора вероятностей на плоскости наборов вероятностей. Естественно, перебор всех возможных наборов вероятностей неосуществим. Реально перебираются вероятности с определенным шагом (нами использованы последовательные шаги – 2%, 1%, 0,5%). Поиск
максимального
значения
критерия
оптимизации пока не реализован.
52
с
использованием
методов
2.4 Учет взаимозависимости диагностических признаков и динамики заболеваний в байесовском подходе к диагностике 2.4.1 Использование формулы Байеса В данной работе исследуется байесовский подход к диагностике заболеваний, вероятность болезни каждого пациента рассчитывается по классической формуле Байеса
pj =
π j ∏ qij(aoi ) i
∑ π j ∏ qij(aoi ) j
j
(2.4.1)
i
Левая часть равенства – вероятность доля больных болезнью
.
j -й болезни пациента. В числителе: π j
–
среди больных диагностируемыми болезнями; qij(aoi ) –
плотность распределения (или вероятность)
i -го
j -й
ДП величиной aoi при
болезни. (Имеется в виду плотность распределения вероятности непрерывно распределенного ДП или вероятность ДП, принимающего только дискретные значения, так сказать, дискретного ДП). То есть, если при обследовании пациента величина
i -го
распределения
ДП равна aoi , то по распределению находится плотность непрерывного
соответствующая величине aoi .
ДП
(или
вероятность
дискретного
qij ,
ДП)
∏ – произведение всех i -х признаков от 1 до m . i
В знаменателе сумма таких произведений для всех диагностируемых болезней
j
(от
j = 1 до j = n ). Если плотность (вероятность) признака при первой болезни больше плотности (вероятности) признака при второй болезни ( qi1 > qi 2 ), то очевидно, что этот признак более характерен для первой болезни. Формула (2.4.1) рассчитывает вероятности
болезней,
исходя
из
соотношения
плотностей
(вероятностей)
распределения всех признаков в совокупности. При диагностике заболеваний по формуле Байеса в качестве априорной вероятности используется π j – относительная частота (доля) больных болезнью
j
среди больных диагностируемыми болезнями. В начале исследований возникал 53
вопрос: «Нужно ли учитывать распространенность болезни при диагностике конкретного больного?» Высказывались соображения типа: «Для диагностируемого пациента важны его ДП, а не то, как часто больные подозреваемой болезнью доставляются в данную больницу». Развеять сомнения помог анализ предельных случаев. Представим, что больной живет на севере типа Земли Франца-Иосифа, и что диагноз ему ставит другой полярник, имеющий все приборы для определения диагностических признаков и компьютерную программу диагностики. Пусть оба участника мысленного эксперимента вообще северные жители, никогда не бывавшие на юге и даже не встречавшиеся с людьми и товарами из южных стран, пусть даже последний корабль с материка приходил год назад. В этих условиях у больного оказались ДП, более свидетельствующие о диагнозе «Денге лихорадка», чем о пневмонии. «Денге лихорадка» распространена только в тропиках и субтропиках, переносчик комар определенного вида, инкубационный период 3 – 3,5 дня. Представляется очевидным, что для получения правильного диагноза в расчете нужно использовать относительную частоту тропической болезни, приняв эту частоту небольшой. Приведенный пример говорит о необходимости учитывать « π j ». 2.4.2 Учет динамики заболеваний при байесовском подходе Простой смысл формулы Байеса (2.4.1): вероятность при болезни
j
наблюдать у больного ДП i = 1,2 ,3,..., m вместе, отнесенная к сумме таких вероятностей у всех диагностируемых болезней (у полной группы болезней) [103]. Формула (2.4.1) выписана для независимых ДП. Пусть в формулу входят два взаимозависимых признака, тогда вместо вероятности второго ДП нужно указать условную вероятность второго ДП относительно первого. (Основываясь на условных вероятностях или на степени взаимозависимостей, начальные и предельные значения которых укажет врач, можно проработать методику диагностики, которая совместит математические методы со знаниями врача и будет «обучаться» на базе данных с известными диагнозами.) Если два ДП абсолютно 54
зависимы, условная вероятность равна единице, и нужно указывать только вероятность первого ДП. Отсюда сразу следует, что не изменяющиеся в какой-либо период ДП, например, камни в желчном протоке нужно (в этот период) вводить в формулу Байеса один раз, независимо от того, сколько раз его определяли (наблюдали) и в какие дни это было. Для двух изменяющихся ДП в грубом приближении второй признак можно «округлить» или до «сильно зависимого», или «независимого» от первого. Степень зависимости второго ДП от первого можно определить методами математической статистики по базе данных. Сильно зависимые ДП рационально усреднять в один признак. В главе 4 будет приведено исследование взаимозависимости последовательно определенных (в разные дни болезни) величин одного и того же диагностического признака. Данное исследование количественно подтверждает очевидное: ДП, повторно определенный в ближайшие дни, сильно зависит от определенного в первый день. В последующие дни эта зависимость быстро ослабевает. В настоящей работе для признака, измеренного (определенного) многократно, и для механической и паренхиматозной желтух использовано следующее допущение: считаются сильно взаимозависимыми значения анализов и симптомов первых двух дней. Эти значения усредняются и представляются как 1-й ДП, анализы и симптомы за следующие 3 дня усредняются во 2-й ДП, за следующие 5 дней усредняются в 3-й признак. Образованные вышеуказанным усреднением 1, 2, 3-й (и так далее) ДП в формуле (2.4.1) отражаются как независимые признаки. Таким
образом,
учитывается
динамика
заболевания.
Не
повторно
определенные, а разные ДП считаются, как и в других работах, независимыми, хотя это неверно. Вышеизложенную методику будем называть 2-м приближением, чтобы отличать от 1-го приближения (см. предыдущий раздел), согласно которому все повторно определенные ДП (за исключением неизменных) считаются отдельными, независимыми признаками. В этом перечислении за нулевое приближение взята общепринятая методика, согласно которой все ДП считаются независимыми, а 55
повторные определения (динамика) признаков игнорируются. Основа предложенной методики учета динамики в том, что повторно определенные величины одного и того же ДП рассматриваются как разные ДП и учитывается их (этих разных ДП) взаимозависимость [97, 99, 103]. В настоящей работе учет взаимозависимости приближенный, но переход к точному учету – дело техники. Важно, что найдена принципиальная основа учета динамики. 2.4.3 О совмещении методов диагностики Некоторые из перечисленных выше и в обзоре методов диагностики совместимы. Например, нейронные сети в качестве исходной информации могут использовать не сами ДП, а их вероятности и плотности вероятностей. Не менее перспективным представляется вместо ДП использовать вероятности болезней, рассчитанные по каждому ДП. (Прежде всего, стоит изучить использование байесовской
вероятности,
так
как
формула
Байеса
позволяет
объективно
использовать в одной формуле и вероятности и плотности вероятностей.) Аналогично кластерные методы могут базироваться на вероятностных оценках [97]. 2.5 Определение исследования (анализа), наиболее необходимого для диагностики Задача оптимальной последовательности обследования пациента была поставлена и решалась авторами в 1995 году [25, 26], а в 2000 году получен и опубликован [101] приводимый ниже алгоритм нахождения ДП, который необходимо определить в первую очередь для уточнения диагноза. Решение состоит в
нахождении
конкретного
типа
следующего
ДП
(анализа,
симптома,
инструментального обследования) на основе имеющейся базы данных (сделанных анализов и уже определенных симптомов). Иными словами, основная цель - найти какой именно следующий анализ нужно сделать или какой симптом нужно определить. Для решения задачи предложена [25, 26] функция цели (жизнеспособность)
Z – количество и качество оставшейся (для пациента) продолжительности жизни. Постулируется, что максимум этого параметра – Z max для каждого пациента достигается при правильном определении его болезни j = j( truth ) и дальнейшем 56
лечении по существующим методам лечения. Здесь j = j( truth ) – номер болезни или сочетания болезней или набора болезней, в зависимости от задачи. Любые другие неверно определенные значения j ′ ≠ j( truth ) приведут к другому курсу лечения и к не большему, т.е. к меньшему или такому же значению. Решение состоит в поиске оптимального (наиболее необходимого) ДП, назовем его « X », т.е. ДП (анализа), при котором функция цели Z максимальна. Таким образом, целью оптимизации является Z max , а варьируемым параметром номер ДП. Эквивалентной функцией цели является ∆Z , а эквивалентной целью оптимизации max ∆Z , где ∆Z - увеличение Z вследствие проведения следующего анализа. Полезно вычислять обе функции цели Z и ∆Z . ДП (анализ) X максимизирует не вероятность истинной болезни Pj = j( truth ) , а функцию Z . При этом оптимален x , не только увеличивающий вероятность
j( truth ) – истинной болезни, но и выявляющий наличие или отсутствие наиболее опасных из нераспознанных болезней, следовательно, болезней, лечение которых не проводится. Как отмечалось в [25, 26], для оптимизации могут быть использованы и иные, чем Z , функции цели. Например, для дифференциации между двумя болезнями функция цели равна ∆P – разности вероятностей этих болезней. Эта же функция позволяет найти X , в наибольшей мере решающий вопрос о выборе между двумя диагнозами. Для определения Z и других функций цели используется методика расчета вероятностей Pj возможных болезней. Расчет вероятностей болезней может быть выполнен, как показано в предыдущем разделе, по Байесу или иным методом и здесь используется как известная стандартная операция. Перейдем к определению
max Z и X . Пусть проводится диагностика j = 1,2,3,..., n болезней и известны вероятности этих болезней Pj . Болезнью j = 1 будем считать норму, отсутствие болезней.
57
∑ p j = 1,
(2.5.1)
j
здесь
n
∑ =∑ . j
j =1
Указанное выше начальное распределение болезней получено по результатам диагностики на базе
m определенных ранее анализов, инструментальных
обследований и симптомов. Номера этих ДП обозначим буквой i 1 ≤ i ≤ m . В принципе, p j , j = 1,2 ,3,...,n могут быть взяты и из других источников, например, по мнению врачей. Пусть также осталось y ДП, еще не использованных для диагностики:
am +1 , am + 2 ,..., am + k ,..., am + y .
(2.5.2)
Номера еще не использованных ДП здесь и далее обозначены буквой k. Для каждого из этих ДП 1 ≤ k ≤ y (также как и для каждого из m ДП) известны условные функции распределения вероятностей для дискретных симптомов и анализов и плотности распределения вероятностей для непрерывно распределенных симптомов и анализов. Т.е. известны, например, из статистических данных
q j ( ai ) и q j ( a k ) ,
(2.5.3)
где i = 1,2,3,...,m; k = m + 1, m + 2, m + 3,..., y . min
Пусть также известен интервал изменения ∀ak , т.е. ak
max
и ak
.
Предположим, что сделан дополнительный k-й анализ и получена величина
ak = ako . (Это только предположение, анализ еще не сделан.) После того как (гипотетически) сделан k-й анализ и получена величина ako , вычислим (уже на основе m + 1 анализов!) новые вероятности болезней.
{ai (i = 1,2,3,..., m ) + ako }
→
p new j (ako )( j = 1,2 ,3,..., n ) .
(2.5.4)
Еще раз отметим, что процедура (2.5.4) выполняется при конкретном значении new
предполагаемой величины aok , например, при aok =5. Найденные величины p j 58
не зависят от начальных или определенных на предыдущей итерации вероятностей болезней. Теперь по формуле полной вероятности найдем вероятность того, что в результате гипотетического анализа «k» будет получена величина aok (например,
aok =5). Qk ( aok ) = ∑ p j ( aok )q j ( ak ) .
(2.5.5)
j
Для непрерывных симптомов и анализов также используем формулу (2.5.5), подставляя справа плотности вероятности q j ( ak ) и получая (слева) плотность вероятности k-го ДП для величины этого ДП, равной aok . Теперь повторим вычисления по формулам (2.5.4) и (2.5.5) для всех (дискретных или непрерывных) значений aok . В результате получим функции
Qk ( ak ) и p new j ( ak )
(2.5.6)
для всех ak ∈ [ak min , ak max ]. Подчеркнем, что для каждого значения ak = aok имеется распределение new new new new p new j ( a ko ) , т.е. p j =1 ( a ko ), p j = 2 ( a ko ), p j = 3 ( a ko ),..., p j = n ( a ko ) . Аналогично по
формуле (2.5.5) и методике расчета вероятностей болезней получим распределения new
или плотности вероятности и распределения p j
в виде (2.5.6) для всех y
симптомов ( 1 ≤ k ≤ y ). Далее перейдем к вычислению функции цели Z . Возможны три принципа вычисления Z . Для их иллюстрации представим, что имеется три болезни, вероятности которых равны p1 , p2 , p3 , причем p2 > p1 и p2 > p3 . Согласно принятому
выше,
введем
диагноз
D
как
наиболее
вероятную
болезнь
D = j{max( p j j = 1,2,3,...,n )}. В данном примере D это болезнь № 2. Теперь
представим, что имеется три группы больных. Первая группа с относительным количеством больных p1 , вторая с относительным количеством больных p2 , третья с относительным количеством больных p3 . Первый принцип вычисления Z состоит 59
в следующем. Полагаем, что все три группы больных лечатся согласно диагнозу D . Т.е. правильно лечится группа p2 и неправильно группы p1 и p3 . Величина Z для всех групп разная (группы считаются состоящими из одинаковых пациентов).
Z для всех больных при результате анализа ao вычисляется как
Z ( ao ) = ∑ p j ( ao )Z D , j ,
(2.5.7)
j
где, за исключением аномальных случаев, Z D , j = 2 > Z D , j =1 Z D , j = 2 > Z D , j = 3 . Это принцип наиболее близок к практике: больного лечат по диагнозу понимаемому как наиболее вероятная болезнь (хотя, впрочем, не исключается и комбинированное лечение, но это отдельная тема). Второй принцип отражает известные методики теории вероятностей. А именно группы составляют из наугад взятых больных. Относительное количество больных в группах p1 , p2 , p3 . Первую группу лечат от болезни 1, вторую – от болезни 2, третью – от болезни 3. Третий принцип целиком теоретический. Его можно представить так. Пусть, например, случайно в первую группу попали именно больные болезнью 1, во вторую – болезнью 2, тогда третью группу составят больные болезнью 3. Напомним, что все больные, из которых формируются группы, имеют абсолютно одинаковые анализы. Поэтому, сознательно сформировать группы, в каждой из которых больные одной болезнью, невозможно. Третий принцип лечения состоит в том, что больные каждой группы лечатся от той болезни, которой они больны, т.е. проводится лечение по 3м диагнозам. Обсуждаемый принцип лечения может быть использован как теоретический эталон, как база для сравнения эффективности лечения, диагностики и т.п. Выпишем формулы расчета Z при лечении по первому принципу. Будем использовать матрицу-столбец B с элементами Z j , D , которые представляют собой величины Z для пациента (данного возраста, состояния здоровья и других особенностей) больного болезнью j( j = 1,2 ,3,...,n ) при лечении в соответствии с диагнозом D . До проведения k-го анализа диагноз D определялся по наиболее
60
{
}
вероятной болезни p j max = max p j , j = 1,2 ,3,...,n , с учетом этого, до проведения kго анализа
Z = ∑ p new j Z j ,D .
(2.5.8)
j
new
В формуле (2.5.8) использованы вероятности p j new
истинным считается распределение p j
, а не p j потому, что
, и именно так распределенных больных до
анализа k лечили неверно – по диагнозу D . Обратим внимание, что в формуле (2.5.8) Z вычислена именно по старому диагнозу D . То есть исходим из того, что до проведения k-го анализа и распределение p j и лечение, в общем случае, неверны. После проведения анализа k диагнозом D которой вероятность максимальна.
{
new
будем считать болезнь, у
}
max p new j ( aok ), j = 1,2 ,3,...,n . Величина Z
new
для дискретного симптома или анализа aok найдется как
Z knew new
Здесь: Z k
(2.5.9)
cok max
= ∑ Qk ( aok )∑ p new j ( aok )Z j , D new .
(2.5.10)
j
cok min
– значение Z после проведения k-го анализа (после определения k-го
ДП);
Z j ,D new – элементы матрицы B , точнее, столбец B , номер которого соответствует наиболее вероятной болезни – диагнозу D
new
. В формуле (2.5.10)
подразумевается, что aok пробегает все свои дискретные значения от минимального
aok min до максимального aok max . Для непрерывных ДП
Z knew
=
aok max
new ∫ Qk ( aok )∑ p j ( aok )Z j ,D new daok .
aok min
j
61
(2.5.10а)
После вычисления
Z knew по вышеприведенным формулам1 вычислим
эффективность проведения анализа k как разность:
∆Z ( k ) = Z knew − Z = f ( k ) .
(2.5.11)
Далее аналогичные вычисления выполняются для всех k анализов, симптомов, данных инструментальных обследований. И, наконец, искомые симптом или анализ или инструментальное обследование x определяется как номер ДП, при котором
∆Z k максимальна. x = k {max[∆Z k k = 1,2,3,..., y ]}.
(2.5.12)
(Напомним, что номер x получен при лечении по первому принципу2) Анализ x является рекомендуемым. После его выполнения он переходит в число известных анализов i ,1 ≤ i ≤ m
new
, где m
new
= m + 1.
Вместе с тем, кроме рекомендуемого анализа стоит рассмотреть и остальные анализы k. Как минимум, стоит о них сообщить врачу – выдать результаты расчета – список анализов k в порядке уменьшения ∆Z k с указанием величины ∆Z k . Напомним, что согласно [25, 26], травматичность анализа входит в величину Z .
1
В формуле (2.5.10а)
p j , j = 1,2 ,3 ,...,n
удобно также представить как вектор
максимальной, являющейся диагнозом. Новый вектор назовем
new Zk где
G E
=
B
d
Gо
G PДo ( aok ) . С учетом этих обозначений формула (2.5.10а) запишется в виде G
∫ Qk ( aok )B × PД ( aok ) ⋅ E daok ,
(2.5.10б)
a ok min
- единичный вектор размерностью
new Zk
Здесь
a ok max
G P( aok ) . Обнулим в этом векторе все координаты, кроме
a ok max
=
n . Аналогично перепишется формула (2.5.10). Идеальное лечение по 3-му принципу запишется в виде
∫ Qk ( aok )B
a ok min
d
G G × P( aok ) ⋅ E daok .
- диагональная матрица, полученная из матрицы
B
(2.5.10в)
обнулением недиагональных элементов, т.е. элементов, у которых
i ≠ j.
2
Отметим, что алгоритм определения эффекта идеального лечения (по третьему принципу) сложнее, чем алгоритм эффекта от лечения по наиболее вероятному диагнозу. Это видно на примере. Пусть 100 пациентов больны тремя болезнями с распределением: Номер болезни j=1 j=2 j=3 Число больных 10 50 40 (По третьему принципу каждый больной лечится от той болезни, которой он болен. По первому принципу все лечатся по диагнозу, в данном случае диагноз D определяется по наиболее вероятной, 2-й, болезни.) После проведения следующего анализа распределение приобрело вид: Номер болезни j=1 j=2 j=3 Число больных 20 15 65 Как видно по приведенным таблицам, 10 больных болезнью j=1 ранее лечились неверно. Для определения эффекта диагностики нужно указать (нужно знать) как ранее лечились эти пациенты. В данном примере они могли лечиться от болезни j=2 или j=3. Рационально считать, что
они лечились по варианту с наибольшим Z . Т.е. расчет идет по варианту (принципу) наименьшего эффекта, наименьшего δZ . Перейдем к болезни j=2. До искомого уточняющего анализа лечение 35 пациентов от этой болезни было ошибочным. От какой болезни эти пациенты лечатся после уточняющего анализа? На этот вопрос, в общем случае, нет единственного ответа. Чтобы ответ был единственным, нужно опять привлечь дополнительные предположения, например, принцип наименьшего эффекта уточняющего анализа.
62
Однако, возможны и иные аргументы по выбору не оптимального, а близкого к нему анализа или по выбору не одного, а группы анализов [25, 26]. В работах [25, 26] поставлены и рассмотрены задачи о выявлении неверного анализа (о проверке анализа) и о повторении анализа. В рамках изложенного выше варианта методики задача о выявлении неверного анализа решается так. Из уже выполненных анализов по очереди исключаются анализы или их группы, и для них выполняется описанная выше процедура поиска наиболее необходимого анализа. В частном случае, при конкретных подозрениях о возможной ошибочности анализа, последний удаляется из выполненных анализов. По формуле полной вероятности находится его ожидаемая величина.
acoii = pl
a i max
= ∫ ai q( ai )dai ,
(2.5.13)
a i min
где
q( ai ) = ∑ p j q j ( ai ) .
(2.5.14)
j
pl
new
При данном aoi находится p j
по Байесу или другому методу.
aoii = pl + aoi i = 1,2,3,..., m , m − 1, i ≠ pl → p new j . new
После этого переобозначаем p j = p j
(2.5.15)
и циклически повторяем вычисления pl
по формулам (2.5.13) – (2.5.15) до установления aoi и p j . pl
Найденные aoi и p j 3 наглядно иллюстрируют причины и необходимость перепроверки
анализа
i = pl . Саму же перепроверку осуществляют при
рекомендации, основанной на изменении критерия Z . Например, если после исключения подозрительного анализа величина Z (полученная по описанной выше методике) изменилась существенно, стоит перепроверить анализ. Вопрос о повторении анализа решается аналогично выявлению анализа, который наиболее нужно сделать. Отличие состоит только в следующем. Вероятность повторного анализа i вычисляется с учетом предыдущих анализов i . 3
Точнее, сравнение этих величин с проверяемыми величинами анализов и с получавшимися вероятностями болезней.
63
Для одних обследований вероятности повторных анализов не отличаются от первичных, для других – отличаются. Повторим здесь пример, приведенный в предыдущих публикациях [2.5.1, 2.5.2]. Если в организме есть глисты (или простейшие, или патогенная флора), то при повторных анализах вероятность их обнаружения повышается. Повышается надежность (т.е. вероятность) обнаружения и не обнаружения патологических изменений в биопсии и т.п. Таким
образом,
при
выяснении,
какой
следующий
анализ
сделать,
рассматриваются: еще не сделанные анализы и уже сделанные. Для последних выясняется необходимость их повторения как для контроля (для исключения случайных ошибок), так и для повышения надежности. Возникает естественный вопрос о продолжении или остановке процесса определения следующего анализа. Если число анализов не исчерпано, то разумно сформулировать критерии прекращения процесса поиска анализа x . (Кстати, если число анализов исчерпано, а упомянутые критерии не выполнены, то это заставляет задуматься о полноте набора используемых анализов или болезней). Для ветеринарии в некоторых случаях критерии могут быть разработаны, исходя из стоимости анализов и прибыли от излечения. Критерии, предлагаемые ниже, не связаны с ценами. В качестве необходимых условий остановки поиска следующего анализа предложим соотношения
∑ j
p new − pj j
≤ εp,
pj ∆Z ≤ ε ∆Z .
(2.5.16), (2.5.16а).
Неравенство (2.5.16) отражает стабилизацию процесса уточнения диагноза, (2.5.16а) показывает, что эффективность дополнительных анализов стала низкой. Поскольку Z имеет размерность времени, можно подумать о рациональных значениях ∆Z . Эти значения не стоит выбирать меньше нескольких дней. Другим ограничением минимального значения ∆Z и других критериев является точность вычислений Z , p j и других величин. Достаточные условия окончания расчетов могут быть получены сравнением со здоровым человеком: 64
Z new − Z11 ≤ εz . Z11
(2.5.16б)
Здесь Z11 – величина Z для здорового человека, т.к. первый индекс 1 матрицы B относится к отсутствию болезней, а второй индекс 1 – к лечению в случае нормального здоровья. Другое достаточное условие - высокая точность диагностики
( 1 − max p j ) < ε p .
(2.5.16в).
Ряд критериев может быть получен сравнением с оптимальным лечением по предложенным выше 2-му и, главное, 3-му принципам лечения. Более жестким и точным является требование выполнить условия (2.5.16) (2.5.16в) в нескольких, например, трех последовательных расчетах x , причем анализ x , найденный в части этих расчетов, например в двух расчетах, должен быть реализован. Данная стратегия выбора следующего анализа уменьшает не только число проводимых (выполняемых) анализов, но и сокращает время обследования, время постановки диагноза, что иногда принципиально важно. Приведенный выше алгоритм сводит к минимуму субъективный фактор как при назначении следующего анализа, так и при диагностике. После небольшой модификации данная методика может быть использована и в других областях медицины, а также в управлении, экономике и др. Например, может быть решена задача оптимального распределения дотаций на лечение. Дотации
могут
быть
распределены
по
болезням
так,
чтобы
общая
жизнеспособность – количество и качество жизни населения выросли наибольшим образом. При этом для заразных болезней нужно учесть не только влияние лечения на больного, но и следствия заражения окружающих. Один
из
вариантов
решения
состоит
в
следующем.
Варьируемыми
параметрами выбрать суммы, отпускаемые на лечение одного больного каждой болезнью. Функцией цели – max ∆Z ′ , где ∆Z ′ увеличение вследствие лечения количества и качества жизни больного и людей, находящихся в контакте с ним. При решении необходимо учесть ограничение на общую сумму финансирования. 65
Методами нелинейного программирования (параметрической оптимизации) эту задачу можно решить. 2.6 Оценка результатов диагностики 2.6.1 Уровень надежности и неопределенный диагноз Результатом
байесовской
диагностики
каждого
пациента
являются
вероятности каждой болезни (формула 2.4.1). Сумма вероятностей равна единице. По рассчитанным вероятностям ставится диагноз. Если вероятность 1-й болезни ( p1 ) не ниже вероятности 2-й болезни ( p2 ), то диагнозом может считаться 1-я болезнь. (Формально более точное определение дано ниже и включает случай равенства вероятностей, но на практике равенства вероятностей в реальных расчетах не бывает.)
pj - вероятность j-й болезни pj, %
- 1-я болезнь
- 2-я болезнь
80
94%
85%
40
90%
60 51%
20 0
6%
Диаграмма А
49%
Диаграмма В
15%
Уровень надежности
100
Диаграмма С
Рис. 2.6.1. Примеры результатов диагностики трех пациентов Рассмотрим гипотетический случай (пример В на рис. 2.6.1): p1 = 51% ,
p2 = 49% . Здесь вероятности болезней практически не различимы и делать категорический вывод, по нашему мнению, нельзя. В другом случае (пример А):
p1 = 94% , p2 = 6% , можно более уверенно дать ответ. Если вероятность одной из болезней не только не ниже вероятностей других болезней, но и превышает установленный заранее «уровень надежности диагноза», 66
то выбор делается в пользу этой болезни. Установим уровень надежности, равный 90%. Для примера А мы получаем диагноз – болезнь 1, для примеров В и С – диагноз неопределенный, то есть программа отказывается сделать выбор в пользу 1-й болезни и требует больше данных. Такой подход к оценке вероятностей позволяет перевести часть неправильно поставленных диагнозов в область неопределенных ответов. Одновременно часть правильных диагнозов также становятся неопределенными (как в примере С). Представляется, что важнее сделать меньше ошибок в диагнозе, чем большему числу пациентов поставить верный диагноз. 2.6.2 Критерий эффективности диагностики Методы, алгоритмы и программы математической диагностики, в частности, диагностики заболеваний тестируются на базах данных, например, на группе (G ) больных с точно установленными заболеваниями.
G = {1,2 ,3,...,k,... ,g }. В известных авторам работах в качестве критерия эффективности диагностики используется процент верных диагнозов. Под верным диагнозом понимается математически (компьютерно) поставленный диагноз, совпадающий с диагнозом, поставленным данному больному медиками. Вместе с тем, по тем же самым результатам математической диагностики можно
более
объективно
оценить
эффективность
используемого
метода
диагностики. Пусть в результате расчета найдены вероятности болезней k -го больного из группы G : Pkj = 1,2 ,3,..., n , где
j
– номер болезни, n – число
диагностируемых болезней. Считаем, что каждый больной болен только одной болезнью и что применяемый метод диагностики рассчитывает вероятности всех болезней, которые имеются у больных данной группы G. Например, в группе G имеются больные двумя болезнями ( n = 2 ) j = 1 и
j = 2 . Тогда для k -го больного вычисляются pk1 (т.е. вероятность первой болезни pkj =1 ) и pk 2 (т.е. вероятность второй болезни pkj = 2 ); в иных обозначениях,
67
вычисляется вектор вероятностей болезней p k = ( pk1 , pk 2 )∑ pkj = 1. (Как и ранее, j
суммирование j =n
по
параметру
обозначается
одним
нижним
индексом:
k =n
∑ = ∑ , ∑ = ∑ .)
j =1
j
k =1
k
Номер болезни, которой каждый пациент действительно болен, обозначим
jtr( k ) . Вероятность (расчетная) этой болезни для k -го больного соответственно имеет обозначение
p jtr ( k ) . Критерием эффективности предлагается выбрать
величину
CE =
1 ∑ pkjtr , g k
(2.6.1)
где g – число больных в группе G . Приведем
условный
пример
оценки
эффективности
двух
методов
диагностики. Эти методы обозначим как M 1 и M 2 , а применение этих методов к больным группы (базы) G как M ( G ) . То есть M ( G ) – это расчет вектора вероятностей болезней для каждого из пациентов группы G . Пусть G состоит из двух больных k = 1 и k = 2 , которые на самом деле больны болезнью j = 1 , т.е.
jtr = 1 . G = {1,2 | jtr = 1} . Пусть также M 1( G ) , т.е. применение первого метода диагностики для группы больных G, привело к следующим результатам: для больного k =1: pkj = p11 = 0,49; pkj = p12 = 0,51; для больного k =2: pkj = p21 = 0,99; pkj = p22 = 0,01. Очевидно, что расчетным диагнозом считаем болезнь, вероятность которой не меньше, чем у других болезней. Если таких болезней - диагнозов не одна, то среди них диагноз определяется случайным образом. В приведенном выше расчете метод M 1 диагностировал у больного 1 болезнь
j =2, поскольку расчетная вероятность 2-ой болезни больше, чем 1-ой: p12 =
0,51 >
p11 = 0,49. Этот диагноз неверен, т.к. в действительности больной страдает болезнью 1:
jtr ( 1 ) = 1. У больного 2 вероятность 1-й болезни выше, чем
68
вероятность 2-й: p21 = 0,99 > p22 = 0,01, т.е. расчетом диагностируется 1-я болезнь. Это верно, т.к. принято jtr( 2 ) = 1. При обычном подходе эффективность диагностики 50%: у одного больного правильный диагноз, у второго - неправильный. Критерий CE по формуле (2.6.1)
1 CE( М1 ) = ( 0,49 + 0,99 ) = 0,74 , или 74%. 2 Примем теперь, что по методу M 2 ( G ) : для больного k =1: pkj = p11 = 0,01; pkj = p12 = 0,99; для больного k =2: pkj = p21 = 0,99; pkj = p22 = 0,01. Метод M 2 , так же как метод M 1 , неверно диагностировал больного 1 и верно больного 2. При обычном подходе эффективность диагностики 50% - такая же, как у
M 1 . Критерий CE по формуле (2.6.1) 1 CE( М 2 ) = ( 0,01 + 0,99 ) = 0,5 , или 50%. 2
Для удобства рассматриваемые вероятности болезней выражены в процентах и сведены в таблицу. Вероятность болезней, % больной k =1 k j (болезнь) 1 2 0 медицинский диагноз (jtr) 100* ( jtr ) 51 49 ( jtr ) M 1( G )
больной k =2 1 2 100* ( jtr ) 0 1 99* ( jtr )
1 0,74
Таблица 2.1 Обычная оценка диагностики 1 0,50
99
99* ( jtr )
1
0,50
0,50
M 2( G )
1 ( jtr )
CE
* - отмечены вероятности болезни, считающейся диагнозом ( p > 50%); обозначение ( jtr ) - напоминает, что больной на самом деле болен этой болезнью. Сравнивая эффективность методов M 1 и
M 2 , видим, что CE (M 2 )
существенно меньше, чем CE (M 1 ) . Разберемся почему. Оба метода неверно ставят диагноз больному 1. Первый метод вероятность правильной болезни указывает 49%. Это неверно, но до правильного диагноза «не хватает» чуть более 1%. M 2 вероятность правильной болезни определил как 1%, что очень далеко от
69
действительности. Т.е. M 2 хуже, чем M 1 . CE учитывает разницу в диагностике:
CE (M 1 ) > CE (M 2 ) . Обычный подход указанной разницы «не чувствует». Для полноты анализа можно конкретизировать CE . Так, кроме общего CE можно
вычислить
CE
для
каждой
болезни
отдельно.
Поясним
это.
В
рассмотренном примере группа G состоит из больных одной болезнью. Но группа может состоять и из больных разными болезнями G ⊃ G j , где
j = 1,2,3,..., n ;
G j – подгруппа из больных одной болезнью. G j = {1,2,3,..., k ,..., g j }, ∑ G j = G , j
∑ g j = g . Для каждой подгруппы можно вычислить CE j , который будет j
характеризовать
эффективность
метода
при
диагностике
одной
болезни.
Собственно, в приведенном примере рассматривался CE диагностики одной болезни
j =1.
Аналогично можно выделить подгруппу, имеющую определенный набор симптомов, и вычислить CE для этой подгруппы. Из последней подгруппы можно выделить ее часть, относящуюся к одной болезни, и вычислить CE для этой части. 2.6.3 Влияние отдельного ДП на диагноз Интересно проанализировать, как отдельные ДП или их группы влияют на диагноз. Говоря нестрого, диагноз – это наиболее вероятная болезнь, и ставится диагноз
сравнением
вероятностей
рассматриваемых
болезней.
Расчетные
вероятности болезней зависят от всех ДП, и весьма интересно выяснить, как на расчетную
вероятность
каждой
болезни
повлияло
наличие
каждого
диагностического признака, какой вклад в повышение или уменьшение вероятности болезни внес анализируемый ДП. Оценку влияния ДП на вероятность можно провести множеством способов. Приведем один из способов оценки, согласно которому кроме вероятности болезни
p j вычисляется pij− . pij− – вероятность болезни, рассчитанная при отсутствии i -го i−
ДП, влияние которого анализируется. Комбинации p j и p j могут быть базой для многих оценок влияния ДП. Например, отношение 70
Eijm =
pj
(2.6.2)
p ij−
характеризует роль i -го ДП среди m других признаков в величине p j – величине вероятности j -й болезни. Можно рассчитать вероятность j -й болезни, используя только тот i -й ДП, влияние которого анализируется. (Т.е. использован только один ДП!) Найденная i
таким расчетом вероятность, которую обозначим p j , характеризует роль i -го ДП (в вычисленной вероятности болезни) отдельно, вне влияния других ДП. i
Соотнесем p j со средней вероятностью остальных болезней, определенной по тому же (по анализируемому) ДП:
Eij =
pij
1 n −1 i ∑ pj n − 1 k =1
для k ≠ j.
(2.6.3)
Для двух болезней оценка (2.6.3) роли отдельного ДП вырождается в отношение
p1i π1q1( aoit ) t t Ei1 = i = при p1( aoi ) ≥ p2 ( aoi ) , t p2 π 2 q2 ( aoi )
(2.6.4а)
p2i π 2 q2 ( aoit ) t t Ei 2 = i = при p1( aoi ) < p2 ( aoi ) . t p1 π1q1( aoi )
(2.6.4б)
Еще более простой оценкой является отношение вероятностей или плотностей вероятностей ДП при двух рассматриваемых болезнях:
p1i q1( aoit ) t t Ei1 = i = при q1( aoi ) ≥ q2 ( aoi ) , t p2 q2 ( aoi )
(2.6.5а)
p2i q2 ( aoit ) t t при q1( aoi ) < q2 ( aoi ) . Ei 2 = i = t p1 q1( aoi )
(2.6.5б)
Последняя оценка реализована в диагностической компьютерной программе, разработанной авторами. (Хотя оценка (2.6.2) более представительна.) Примеры оценки по соотношениям (2.6.5a,b) приведены в разделе 4.2 и в приложении 2, в рубрике «степень влияния анализа». Для каждой болезни указываются только те 71
величины Eij , которые больше единицы. Это довольно удобно для анализа причин проведенной
диагностики,
поскольку,
так
сказать,
аргументы
в
пользу
конкурирующих болезней удалены из информации о данной болезни и размещены в информации о болезнях – конкурентах. 2.7 Модельные болезни и исследование на них теоретических вопросов Создать, придумать искусственные, модельные болезни авторы предлагают [115, 120], как минимум, с тремя целями. Первая – выяснить влияние на диагностику различных факторов, так сказать, в чистом виде и в различных вариантах.
Имеется
в
виду,
что
реально
наблюдаемые
факторы:
набор
(соотношение) в базе данных больных различными болезнями, собранные для реальных больных и болезней анализы и другие диагностические признаки и т.п. – содержат естественные шум и конкретность, что затрудняет и ограничивает анализ. Вторая цель – получить тестовые примеры для проверки эффективности различных методов диагностики. Модельные тестовые примеры в отличие от реальных данных не имеют ограничений на объём данных, т.е. можно смоделировать любое число больных, и не содержат ошибок диагностики и ошибок сбора данных. Третья цель – выяснить ряд теоретических вопросов, поскольку характер факторов, ДП и число и вид модельных болезней при моделировании последних можно выбрать так, чтобы прояснить возникающие при диагностике вопросы. Например, на модельных болезнях можно выяснить принципы объединения непрерывных и дискретных ДП в многомерный ДП и эффективность диагностики с помощью многомерных ДП. При этом необходимо обратить внимание на то, как смоделировать независимые и зависимые диагностические признаки, чтобы исследовать проблемы учета взаимозависимости признаков при диагностике. Среди вопросов, которые можно прояснить на моделях, – вопрос о том, начиная с какого количества данных (объема базы данных) объединение диагностических
признаков
использованием
одномерных
в
многомерные
диагностических
имеет
преимущество
признаков
как
перед
независимых.
Планируется выяснить, какие именно диагностические признаки рациональнее объединять в многомерный ДП и т.д. 72
Учитывая это и другие перечисленные выше цели, были предложены модели болезней. Одна из самых простых моделей – однопризнаковая, т.е. такая, при которой
состояние
пациентов
при
всех
болезнях
характеризуется
одним
диагностическим признаком. Будем рассматривать однопризнаковые болезни. Диагностические признаки считаем функционально связанными со временем, отсчитываемым от начала заболевания. Модель болезни задаем зависимостью математического ожидания диагностического
признака
от
времени.
Под
независимым
понимаем
диагностический признак, значение которого (при заданных математическом ожидании и распределении) находится как случайная величина. В качестве модели нулевого уровня сложности можно предложить модель одной болезни с независимым диагностическим признаком, математическое ожидание которого постоянно или изменяется линейно. Такая модель интересна только для контроля правильности реализации. Модель следующего (первого) уровня сложности – это модель с двумя болезнями. Значение (единственного) диагностического признака при каждой болезни
постоянно
и
индивидуально
для
данной
болезни,
т.е.
значения
диагностического признака при болезнях – разные. Протекание таких болезней (зависимость математического ожидания величины диагностического признака от времени) изображено на рисунке 2.7.1 линиями. По оси абсцисс – оси времени – могут быть отложены дни от начала заболевания. Болезнь 1 можно для удобства
1 величина признака
называть
«большое
диагностического
значение
признака»,
или
«большая температура», а болезнь 2 – 2
«маленькое значение диагностического признака», или «маленькая температура». Для
t (дни)
Рис. 2.7.1
страдающего
конкретного болезнью
диагностического
пациента, 1,
признака
величину можно
находить по известному (изображенному на рисунке линией 1) математическому 73
ожиданию диагностического признака и какому-либо, например, нормальному распределению. Таким образом, значение диагностического признака определяется в
первый
день
диагностического
заболевания. признака,
Согласно
в
принятой
модели
дни
заболевания
остальные
постоянного значение
диагностического признака у этого пациента такое же, как в первый день. Величина диагностического признака для конкретного пациента в рассматриваемом варианте модельной болезни изображена на рис. 2.7.1 пунктиром. Определение значения диагностического признака для пациента, страдающего второй
болезнью,
отличается
только
использованием
другой
величины
математического ожидания диагностического признака. (За исключением случаев специального исследования разных распределений для болезней.) В рассмотренных болезнях – болезнях «постоянного диагностического признака» - диагностические признаки являются зависимыми. Это следует из предсказуемости
значений
диагностических
признаков:
зная
величину
диагностического признака в один из дней, можно предсказать величину диагностического признака в любой день. Модели постоянных диагностических признаков предложены, в основном, для выяснения эффективности усреднения диагностических признаков по сравнению с использованием их как независимых. Следующий по сложности случай, - когда при одной из болезней диагностический признак линейно изменяется, а при другой – постоянен. Такой случай, точнее, изменение математического ожидания диагностического признака в функции времени (дней с начала заболевания), изображен на рис. 2.7. 2. Первую величина признака
рис. 2.7.2 1
из
болезней
«изменяющийся
изображенных можно
на
называть
диагностический
признак» (пациент болен изменяющимся диагностическим признаком), вторую – 2
Рис. 2.7.2
постоянный диагностический признак. Величины
t (дни)
диагностического 74
переменного признака
для
конкретного
пациента
находятся
так.
В
первый
день
болезни
значение
диагностического признака получается случайным образом при выбранных распределении и математическом ожидании диагностического признака в первый день. Это математическое ожидание изображено на рисунке как ордината в первый день. Значения диагностического признака в остальные дни получим как ординаты линии, проходящей через ординату первого дня и параллельной изображенной на рисунке 2.7.2 линии математических ожиданий величины диагностического признака. Полученное указанным образом изменение величины диагностического признака для конкретного пациента изображено на рис. 2.7.2 пунктиром. Пересечение (линий математического ожидания) диагностических признаков сделано
специально
диагностических
для
исследований
признаков.
Ожидается,
допустимости что
у
усреднения
больного
величин
изменяющимся
диагностическим признаком (болезнь 1) мы совершим диагностическую ошибку, если будем брать пары диагностических признаков, равноудаленных от места пересечения линий диагностических признаков (пунктирной линии и линии математического ожидания болезни 2), усреднять значения диагностических признаков в этих парах и использовать усредненные значения при диагностике. Ошибка
ожидается
потому,
что
усредненные
значения
переменного
диагностического признака будут в точности равны диагностическому признаку при второй болезни – болезни «постоянный диагностический признак». Заметим, что величины диагностических признаков у пациента в два любых дня – достаточная информация для диагностики заболевания: если величины диагностических признаков разные, – болезнь переменный ДП, если величины одинаковые, – болезнь постоянный ДП. До того, как у пациента определены две величины диагностического признака, диагностические признаки являются независимыми. То есть по значению диагностического признака в один из дней нельзя найти значение диагностического признака в другой день, поскольку неясно, какой болезнью пациент болен. Вместе с тем, при каждой болезни диагностические признаки зависимы: если известна болезнь (известна линия математического ожидания диагностического признака), то по одному значению диагностического признака можно предсказать его значения в 75
любой день. Планируется провести исследования диагностики на однопризнаковых моделях, а затем перейти к двухпризнаковым моделям. На последних, в числе прочего, планируется исследовать случай, когда диагностические признаки по отдельности свидетельствуют о разных болезнях.
76
Глава 3 База данных, вероятности и плотности вероятностей диагностических признаков 3.1 Характеристика статистических данных 3.1.1 Относительная частота механической и паренхиматозной желтух Были
приблизительно
оценены
доли
больных
механической
и
паренхиматозной желтухами в общем количестве больных этими желтухами. Имеется
в
виду
общее
количество
поступивших
в
больницу
больных
паренхиматозной и механической желтухами. Оценка проведена по данным терапевтического отделения краевого гепатологического центра (больница №5). Принято, что доля больных: паренхиматозной желтухой π1 = 0 ,7 ; механической желтухой π 2 = 0 ,3 . 3.1.2 Диагностические признаки Методом случайной выборки были взяты 613 историй болезней обычных больных с точно установленными диагнозами (механическая или паренхиматозная желтуха) и выписаны диагностические признаки с указанием дней их определения. Напомним,
что
под
диагностическими
признаками
понимаются
симптомы
заболевания, клинические анализы, данные инструментальных обследований пациента; как и ранее, в тексте употребляется сокращение ДП – «диагностический признак». Всего использовалось девятнадцать диагностических признаков, в которые были включены пол и возраст пациента: 1) пол пациента; 2) возраст пациента; 3) боль; 4) кожный зуд; 5) расширение холедоха; 6) расширение внутрипеченочных ходов; 7) увеличение печени; 8) увеличение селезенки; 9) зеленый цвет печени; 77
10) маркеры вирусных гепатитов; 11) обтурация желчных путей (наличие опухоли, желчных камней, стриктур и т.д.); 12) наличие эффекта от предыдущего лечения; 13) билирубин непрямой (неконъюгированный); 14) билирубин прямой (конъюгированный); 15) ферменты АСАТ (аспартатаминотрансфераза); 16) ферменты АЛАТ (аланинаминотрансфераза); 17) щелочная фосфатаза; 18) сулемовая проба; 19) альбумин. Данные выписывались в динамике, то есть симптомы, клинические анализы и данные обследований брались не только в день поступления пациента в больницу, но и в другие дни: с 1-го дня (день поступления пациента в больницу) по 50-й день (максимальный период лечения больных). Заметим, что база данных – реальная, ДП каждого пациента определены не в каждый день болезни. То есть это результаты обычных обследований, далеких от идеальности. Отсутствие анализа для любого признака в один из дней говорит лишь о том, что анализ в этот день не был проведен. Например, некоторые анализы не сделаны, так как были сделаны недавно, а другие анализы не сделаны из-за отсутствия реактивов и т.п. Разработанные нами алгоритм и методика диагностики функционируют и в том случае, когда ДП определены не в каждый день, и когда определены не все ДП. Все истории болезней были подняты из архива больницы №5 (больница РТП г. Барнаула; данные выписывались под руководством одного из авторов профессора Г.Г. Устинова). Ниже приведена история болезни одного из пациентов. Это обычный больной с типичными диагностическими признаками, на основании которых рассчитывается диагноз (рассчитываются вероятности болезней и ставится диагноз). № истории болезни: 25 ФИО: П.А.Ю. Возраст: 20
78
Дата поступления: 12.01.01 День выписки: 1.02.01 Начало болезни: 2 Начало лечения: 0 Комментарий: наркомания, на 20-й УЗИ проводилось в следующие дни: Маркеры в 8-й день: +B Признак/день 1 4 Боль + Кожный зуд Расширение холедоха Увеличение печени + Увеличение селезенки Маркеры Билирубин непрямой 26.00 Билирубин прямой 48.00 Ферменты АСАТ 2.00 Ферменты АЛАТ 5.50
– состояние удовлетворительное 5 5
8
14
15
20
+
28.00 16.00 1.00 2.20
22.00 18.00 1.10 2.30
18.00 6.00 0.30 0.70
Дадим краткий комментарий приведенным данным. Больной
П.
поступил
в
терапевтическое
отделение
краевого
гепатологического центра (больница №5) 12 января 2001 года. Желтуха появилась за 2 дня до поступления. В день поступления больной отмечал боли в правом подреберье (знак «+» – ДП положительный). Во время обследования врач определил увеличение печени. При лабораторном исследовании (данные анализов поступили на 4-й день) отмечено повышение содержания в крови билирубина за счет прямой фракции, значительное увеличение активности ферментов АЛAT и ACAT. На пятый день произведено ультразвуковое исследование. Установлено, что холедох не расширен, печень и селезенка не увеличены. Проведение УЗИ в динамике показало сокращение печени до нормы. Это не противоречит результатам проведенных ранее исследований, а указывает на положительную динамику течения заболевания под воздействием лечения. У больного обнаружен HBS-антиген-маркер вирусного гепатита В. Из 19 используемых при компьютерной диагностике ДП в представленных данных содержатся 11 диагностических признаков. Следует отметить, что в истории болезни имеются и другие диагностические признаки, такие, например, как внутривенное употребление наркотиков, некоторые данные УЗИ, показатели анализов крови. С накоплением статистики планируется ввести в диагностику все имеющиеся 79
данные, что уточнит конечный результат - диагноз. Выписанные данные 613 больных ниже используются для статистических характеристик ДП. Для диагностики используются только 564 истории болезни. Дело в том, у остальных 49 больных в истории болезни приведено недостаточно ДП для постановки диагноза. У этих больных диагноз был поставлен не только по ДП, но и по другим данным, например, по результатам операции или вскрытия. Поэтому такие больные из базы для контроля диагностики исключены, но оставлены в базе данных для построения гистограмм. 3.2 Дискретные и непрерывные диагностические признаки, построение гистограмм 3.2.1 Дискретные и непрерывные диагностические признаки Признаки разделяются на два класса: дискретные и непрерывные. Дискретные признаки (боль, кожный зуд, увеличение печени, потеря веса, пол и
т.д.)
принимают
одно
из
четко
определенных
значений.
В
рамках
диагностируемых состояний – одно из двух значений: наличие патогенного признака или его отсутствие, норма или не норма. Например, наличие или отсутствие боли, печень нормальная или увеличенная, наблюдалась или нет потеря веса. Состоянию «нет» (отсутствие) ставилось в соответствие число 0, состоянию «да» (наличие) – число 1. (Для признака «пол»: 0 – мужской пол, 1 – женский пол.) Медицинские данные иногда позволяют разделять дискретные признаки на 3 и более категории. Например, боль: сильная, слабая, отсутствует. Цвет печени: розовый, коричневый, фиолетовый, зеленый. Размеры печени: уменьшена, не увеличена, увеличена на 1 см, увеличена на 2 см и т.п. Однако анализ многих историй болезней пациентов показал, что даже при двух взаимоисключающих категориях возможны различные оценки одного и тоже состояния разными врачами. Например, врач-интерн записывает, что печень не увеличена, а заведующий отделением – напротив – печень увеличена. Так как увеличение возможных состояний дискретных признаков может привести к увеличению ошибок (в силу субъективности обследования лечащим врачом), пока принято, что дискретный признак может иметь только два значения. При этом (в ущерб детальности) повышается надежность исходных данных. 80
Непрерывный признак (ферменты АЛАТ, ферменты АСАТ, билирубин прямой, билирубин непрямой, щелочная фосфатаза, сулемовая проба, альбумин, возраст) характеризуется вещественным числом в определенном интервале: от минимального до максимального значений признака. Анализ величин непрерывных признаков врачом связан с медицинскими интервалами – нормами для каждого признака (кроме возраста). Каждое значение признака любого пациента, чаще всего, характеризуется так: норма, выше нормы, ниже нормы. Иногда используются дополнительные категории: много выше нормы, много ниже нормы и т.п. относительная частота
1
паренхиматозная желтуха 0,76
0,8
механическая желтуха
0,6 0,4 0,24 0,2 0
+
–
0,51
0,49
–
+
"–" = печень не увеличена "+" = печень Рис. 3.2.1 Распределения ДП «увеличение печени»
Входящие в формулу Байеса вероятностные характеристики признаков рассчитываются после построения соответствующих гистограмм признаков для каждой болезни. Для дискретных признаков каждый интервал гистограммы – одно из возможных состояний признака. Первый интервал дискретного признака – отсутствие патологического признака, второй интервал – его наличие. После построения гистограммы вычисляется вероятность попадания нового данного в каждый интервал. Таким образом, для каждого конкретного больного находятся вероятности ДП (положительного или отрицательного состояния) для каждой болезни. Именно эти вероятности используются в расчетах по формуле Байеса (2.4.1). 3.2.2 Особенности построения гистограмм непрерывных диагностических признаков
81
Математически формула Байеса позволяет использовать и вероятности и плотности вероятностей одновременно. Для использования вероятностей можно дискретизировать
непрерывные
признаки.
То
есть,
разделить
признак
на
ограниченное число интервалов (например, по медицинскому принципу: норма, ниже нормы, выше нормы) и
поставить в соответствие каждому интервалу
вычисляемую вероятность (а не плотность). информации,
поэтому
распределенных
лучше
признаков,
а
Дискретизация связана с потерей
использовать их
не
плотности
вероятности
вероятностей.
непрерывно
Вероятностные
характеристики признаков зависят от выбранных длин интервалов гистограмм, поэтому ниже изложены методики определения указанных интервалов. Для построения гистограммы с равными интервалами находятся минимально и максимально возможные значения признака. Полученная разность – размах гистограммы делится на определенное количество равных интервалов. На основании статистической базы данных рассчитывается количество пациентов, попадающих в каждый интервал (интервал значений каждого признака). Существуют
различные
рекомендации
по
определению
количества
интервалов. Число интервалов является функцией объема выборки, по которой строится гистограмма. Другим условием, ограничивающим количество интервалов, является требование к минимальной высоте столбца гистограммы на каждом интервале (к минимальному числу попаданий в интервал). В настоящей работе количество интервалов ограничено следующими условиями: 1. Количество интервалов должно быть максимально возможным, тем самым достигается наибольшая точность, приближенность к истинному распределению; 2. Высота интервала, в который попало значение признака, для которого вычисляется плотность, должна быть не меньше определенной заданной величины (при этом достигается приемлемая надежность распределений); 3. Высота каждого интервала должна быть не меньше определенной заданной величины (минимальная высота гистограммы); 4. Унимодальность
гистограммы
распределению с одним экстремумом; 82
–
приближение
гистограммы
к
5. Количество интервалов непрерывного признака должно быть не меньше трех. Сначала количество интервалов берется максимально возможным. Если при таких интервалах указанные условия не выполняются, то интервалы укрупняются, их количество уменьшается на 1, гистограмма рассчитывается заново. Это повторяется до соблюдения условий. Требование унимодальности объясняется тем, что анализ распределений признаков не проводится и даже не предполагается. Приводимая методика диагностики изначально разрабатывалась как универсальная, применимая для диагностики любых болезней с любыми наборами признаков. Аналитический разбор всех признаков не представляется возможным, поэтому распределения признаков принимают наиболее простую форму с одной модой. Таким образом, исключается ошибка построения неистинного мультимодального распределения, особенно в условиях малой выборки. Недостатком такого подхода является то, что при принудительном унимодальном распределении гистограмма становится более грубой, менее точно повторяющей функцию плотности распределения. Минимально возможное количество интервалов гистограммы – два интервала. При этом варианте автоматически достигается условие унимодальности. Но одновременно теряется прогностическая ценность распределения. n
n
90
100
100
80 30 1
2
x
x
3
1
2
Рис. 3.2.2, 3.2.3 Примеры разбиения на интервалы гистограмм непрерывных ДП На рис. 3.2.2 гистограмма состоит из 3-х интервалов, однако условие унимодальности не сохраняется. Поэтому интервалы укрупняются, их количество уменьшается до двух (рис. 3.2.3). Если для крайних значений признака (интервалы 1 и 3-й для рис. 3.2.2, интервалы 1 и 2-й для рис. 3.2.3) вероятности изменяются не 83
значительно, то для средних значений вероятность изменяется от 3/20 до 1/2 и становится неотличимой от других значений. Чтобы оградить метод от подобных ошибок, когда количество интервалов уменьшается до 2, разработан следующий алгоритм. Количество интервалов принудительно увеличивается до 3, при этом интервалы гистограммы приводятся в соответствие с медицинскими интервалами признака. Обычно, это интервалы: норма (средние нормальные значения признака для человека), ниже нормы, выше нормы (рис. 3.2.4). n
120 60
20
x
нн н
вн
Рис. 3.2.4 Пример построения гистограммы с медицинскими интервалами Медицинские интервалы не являются равными, но при таком разбиении признак имеет большую прогностическую ценность для врача. Предположительно и в представляемой методике диагностики качество деления на медицинские (экспертные) нормы будет лучшим, чем для двухинтервальной гистограммы. Очевидно, что чем больше интервалов в гистограмме, тем больше она повторяет функцию плотности распределения. Однако, условие унимодальности, выполняемое безусловно, может намного сократить число интервалов и ухудшить точность вычисления плотностей. На рис. 3.2.5 условие унимодальности не выполняется полностью. ni n
1
2
3
4
5
6
7 84
8
9
10
11
12
13
x
Рис. 3.2.5 Пример построения гистограммы непрерывного ДП Причиной не унимодальности распределения является, прежде всего, нерепрезентативность выборки на пограничных значениях признака (интервалы 11, 12, 13), а не истинная бимодальность. В этом случае, укрупнение интервалов приведет только к ухудшению точности вычисления плотностей для интервалов 2– 10, хотя для интервалов 1, 11, 12, 13 укрупнение интервалов может дать совершенно иные результаты, в отличие от имеющейся гистограммы. На основании этих данных сделано следующее предположение. Если значение признака попало в интервал, свыше высоты которого выполняется условие унимодальности (интервалы 2–10), а ниже нет, то вычисляемая плотность вероятности соответствует истинной. Считается,
что
унимодальность
относительно
данного
значения
признака
выполняется. В противном случае (значение попало в интервал 1, 11, 12, 13) интервалы необходимо укрупнять. После того, как гистограмма построена, можно приближенно вычислить плотность вероятностей для каждого конкретного значения признака. Это отношение высоты относительных частот к длине соответствующих интервалов. Причем в пределах одного интервала эта величина неизменна (рис. 3.2.6). ni n
x1 1
x2
x3
x 2
3
Рис. 3.2.6 Пример построения гистограммы непрерывного ДП Гистограмма очень грубо отражает ход графика функции плотности распределения, поэтому рассчитанные плотности для значений х1, х2, х3 из интервалы 1 будут равными. Хотя в действительности, как мы видим из рисунка, они могут отличаются в разы. Поэтому построение общей для всех значений признака гистограммы не удовлетворяет необходимой точности вычисления 85
плотностей. Это же соображение не позволяет дискретизировать признаки. В пределах одной категории дискретизированной гистограммы истинные вероятности в середине и на концах интервала могут сильно отличаться. Из рисунка 3.2.7 видно, что плотность вычисляется достаточно достоверно для значений признака, лежащих в центрах интервалов. Исходя из этого, разработан алгоритм, когда для каждого значения признака, для которого необходимо вычислить плотность, строится собственная отличная гистограмма. При этом, значение попадает в центр одного из интервалов. Гистограмма строится как бы вокруг значения признака (рис. 3.2.7). ni n
1
x1
x2 2
x3
x1
x2
x3 2
3
x
4
ni n
1
3
4
x
Рис. 3.2.7а, 3.2.7б Примеры построения гистограммы непрерывного ДП На рис. 3.2.7а гистограмма построена вокруг значения x1, на рис. 3.2.7б вокруг значения x3. Таким образом, плотность вероятностей для значений признака, попадающих в центр интервала, вычисляется более точно. Недостатком такого подхода является увеличение времени расчета диагноза. Предложенные в настоящем разделе алгоритмы обладают очень важным свойством: сформированные по алгоритмам гистограммы не имеют «пустых» 86
интервалов, т.е. интервалов, в которые не попал ни один больной из базы данных. (Наличие пустых интервалов губит качество диагностики.) Гистограмма без пустых интервалов получается увеличением длины интервалов на гистограммы,
где
распространяется гистограммы),
данных
мало.
на области
где
интервалы,
Но
данное
увеличение
богатой статистики примерно,
участках (на краях)
(в
интервалов
не
основном, в центре
соответствуют
задаче
отражения
истинного распределения. 3.3 Построение искусственных распределений Часто для построения распределений недостаточно статистических данных. Эта проблема, в ряде случаев, решается введением данных из врачебного опыта (раздел 2.1.3). Определенный
у
пациента
диагностический
признак
используется
в
диагностике только тогда, когда для этого признака имеются достоверные гистограммы при каждой из диагностируемых болезней. Гистограмма же достоверна, если для ее построения (для вычисления плотности вероятностей) имеется не менее определенного количества данных, то есть числа больных каждой болезнью, у которых был определен именно этот признак (например, сделаны анализы «билирубин прямой»). Иначе говоря, объем выборки должен быть не меньше заданной величины. В противном случае согласно алгоритму признак в диагностике не участвует, так как вычисленная по малой выборке плотность не является достоверной. Такая ситуация может иметь место и для некоторых ДП, представляющих большую ценность для диагностики. Игнорирование таких признаков ухудшает диагностику, а в отдельных случаях приводит к неверным результатам. В рамках статистической базы это относится к признакам: зеленый цвет печени, маркеры, обтурация желчных путей, отсутствие эффекта лечения от паренхиматозной желтухи. Рассмотрим гистограммы признака «зеленый цвет печени».
87
n
n
3 –
0
21
x
+
–
31
x
+
а б Рис. 3.3.1 Гистограммы дискретного ДП «зеленый цвет печени»: а) паренхиматозная желтуха; б) механическая желтуха. На каждом столбце гистограммы написано число больных На рис. 3.3.1а гистограмма признака «зеленый цвет печени»
для
паренхиматозной желтухи, на рис. 3.3.1б – для механической желтухи. По гистограмме видно, что положительное значение признака «зеленый цвет печени» не встречается у больных паренхиматозной желтухой. Напротив, при механической желтухе ДП «зеленый цвет печени» наблюдается часто. Нулевое количество больных механической желтухой с ДП «зеленый цвет печени» – с позиций теории вероятностей мало похоже на реальность и, скорее, говорит о малой выборке. Диагностика по формуле Байеса с использованием этого распределения приведет к нулевому числителю и соответственно нулевой вероятности одной из болезней, что также мало реально. Вопрос нулевых вероятностей поднимался с самого начала исследований. Было принято решение: не допускать нулевых данных в распределении (не допускать нулевых столбцов диаграмм). Реализация этого принципа для непрерывно распределенных ДП изложена в предыдущем разделе. Для дискретных ДП вместо нулевого значения указывается какое-либо очень малое число больных. Ввиду
перечисленных
обстоятельств,
были
применены
выработанные
принципы: вместо нулевого значения указать малое число больных и использовать медицинские знания для дополнения статистики. Согласно многолетним врачебным наблюдениям одного из авторов – профессора Г.Г. Устинова, примерно, у одного из ста больных паренхиматозной желтухой бывает зеленый цвет печени. Это больные с холестатическим вариантом течения паренхиматозной желтухи. На основании этого врачебного опыта сформировано более реальное распределение, изображенное 88
гистограммой рисунка 3.3.2, которая (гистограмма) отличается от гистограммы, изображенной на рис. 3.3.1а. n
100
1
–
x
+
Рис. 3.3.2 Гистограмма ДП «зеленый цвет печени» для паренхиматозной желтухи, построенная с учетом медицинских рекомендаций Для
настоящей
методики
применение
построенных с учетом мнения
искусственных
распределений,
специалиста, позволило достичь лучшей
диагностики, чем применение эмпирических гистограмм, полученных на основе малой выборки. Так и должно было случиться: имеющихся данных для паренхиматозной желтухи было недостаточно, следовательно, не было оснований использовать важный диагностический признак. Искусственное распределение позволило этот признак использовать, что и повысило качество диагностики. Заметим, что важность признака для дифференциальной диагностики – это его уникальность – близость к нулю вероятности одного из значений ДП [89]. Коррекция распределений проводилась только для тех признаков, которые являются крайне информативными в диагностике и часто оказываются решающими для диагноза. Другие, не столь диагностически ценные признаки, без нулевых вероятностей, с малой выборкой для построения гистограмм, предпочтительнее игнорировать. Достоверность искусственных распределений так же небезупречна, как и гистограмм
с
малой
выборкой.
Однако
использование
искусственных
распределений позволяет свести к минимуму грубые ошибки. В приведенном примере вероятность зеленого цвета печени у больных паренхиматозной желтухой действительно не нулевая, в отличие от вероятностей эмпирического распределения, и, соответственно, сохраняется возможность постановки диагноза «паренхиматозная желтуха» у больного с зеленым цветом печени. 89
Не составляет труда построить искусственные распределения для дискретных признаков (на основании экспертных оценок). Но и для непрерывных признаков возможно
построение
искусственных
гистограмм,
например,
в
пределах
медицинских интервалов: норма, ниже нормы, выше нормы. 3.4 Построение многомерных распределений Целесообразность использования многомерных распределений изложена в разделе 2.2. В условиях реальной статистической базы удавалось построить многомерные признаки, включающие 2, 3, изредка 4 и 5 признаков. Построение многомерного распределения рассмотрим на примере построения двумерного ДП «АЛАТ-АСАТ» . 1. Независимо друг от друга строятся гистограммы анализов АЛАТ и АСАТ по приведенным выше правилам построения одномерных распределений. 2. а) Определяется тот интервал гистограммы для АЛАТ, к которому относится значение АЛАТ пациента N. б) Так же находится интервал для АСАТ. 3. Далее определяются все пациенты, значения признаков которых попадают в найденные интервалы. 4. Проверяется условие: число таких пациентов (высота интервала) должно быть не меньше определенной заданной величины (по крайней мере, не быть нулевым): а) если условие не выполняется, тогда количество интервалов гистограмм для АЛАТ и АСАТ уменьшается, гистограммы строятся заново и происходит возврат к пункту 2; б)
если
условие
выполняется,
тогда
рассчитывается
вероятность
(плотность вероятности) двумерного признака. Для иллюстрации приведем одномерные гистограммы признаков АЛАТ и АСАТ пациента N.
90
70 60 50 40 30 20 10 0
1
2
3
4
5
6
7
8
Интервалы
9
Рис. 3.4.1 Гистограмма ДП «ферменты АСАТ» для паренхиматозной желтухи Размер выборки (количество больных паренхиматозной желтухой, у которых есть анализ АСАТ) – 248. Признак пациента N попал во 2-й интервал. Высота интервала (число пациентов, у которых признаки попадают в этот же интервал) – 28. Длина интервала 0.52. Плотность вероятности 0.22. 80 70 60 50 40 30 20 10 0
1
2
3
4
5
6
7
8
9
10
11
Интервалы
Рис. 3.4.2 Гистограмма ДП «ферменты АЛАТ» для паренхиматозной желтухи Выборка 257. Признак пациента попал во 2-й интервал. Высота интервала 4. Длина интервала 0.62. Плотность вероятности 0.025. 60 50 40 30 20 10 0
1
2
3
4
5
6
91
7
8
9
10
Интервалы
Рис. 3.4.3 Гистограмма ДП «ферменты АСАТ» для механической желтухи Выборка 160. Признак пациента попал в 4-й интервал. Высота интервала 21. Длина интервала 0.32. Плотность вероятности 0.41.
100 80 60 40 20 0
1
2
3
4
5
6
Интервалы
Рис. 3.4.4 Гистограмма ДП «ферменты АЛАТ» для механической желтухи Выборка 159. Признак пациента попал во 2-й интервал. Высота интервала 87. Длина интервала 1.22. Плотность вероятности 0.45. Ниже приведены гистограммы двумерного ДП «АЛАТ-АСАТ».
60 50 40 30 20 10 0 Интервалы по АСАТ
Р7
Р6
Р5
Р4
Р3
Р2
Р1 1
2
3
4
5
7 6 Интервалы по АЛАТ
Рис. 3.4.5 Гистограмма двумерного ДП «АСАТ-АЛАТ» для паренхиматозной желтухи Размер выборки (количество больных паренхиматозной желтухой, у которых есть анализы и АЛАТ и АСАТ) – 248. Признаки пациента N попали во 2-й интервал по АСАТ и во 2-й интервал по АЛАТ. Высота интервала 3. Длина интервала 0.78 92
по АСАТ и 1.0 по АЛАТ. Плотность вероятности 0.015.
40 35 30 25 20 15 10 5
Р2 Р1
Р5 Р4 Р3
Интервалы по АСАТ
Р8 Р7 Р6
Р10 Р9
0
1
2
3
4
5
Интервалы по АЛАТ
6
Рис. 3.4.6 Гистограмма двумерного ДП «АСАТ-АЛАТ» для механической желтухи Выборка 159. Признаки пациента N попали в 4-й интервал по АСАТ и во 2-й интервал по АЛАТ. Высота интервала 9. Длина интервала 0.32 по АСАТ и 1.22 по АЛАТ. Плотность вероятности 0.144. Гистограммы рассчитываются отдельно для всех признаков (включая многомерные) каждого пациента при каждой из болезней. Для построения двумерной гистограммы для паренхиматозной желтухи использовалось 7 интервалов для АСАТ и 7 интервалов для АЛАТ. Только при таком делении размаха признаков данный пациент попадает в интервал с минимальной высотой (не менее определенной величины, согласно правилу 4). Только
при
таком
разбиении
мы
считаем
двумерное
распределение
представительным и отражающим реальность. Для одномерных гистограмм признаков АСАТ и АЛАТ количество интервалов – 9 и 11 соответственно. Таким образом, гистограммы признаков АЛАТ и АСАТ, не объединенных в двумерный признак, могут быть отличны от одномерных сечений гистограммы тех же признаков, объединенных в двумерный признак. Как правило, количество интервалов в гистограммах многомерного признака меньше, чем количество интервалов гистограмм одномерных признаков. Отметим, что для построения 93
«надежного» n-мерного распределения требуется большее количество данных, в n-1 порядков
превышающее
количество
данных
при
построении
«надежного»
одномерного распределения. Рассчитанные вероятности (плотности вероятностей) многомерных признаков получаются менее точными, чем вероятности одномерных. Погрешности, возникающие при расчетах, снижают эффект от использования многомерных распределений. При расчете вероятностей заболеваний используются данные обычных обследований больных, т.е. не полные комплексы признаков и анализов, определенных не в каждый день болезни. Часто возникает ситуация, когда можно построить отдельные гистограммы двух признаков, но статистическая база данных не позволяет построить двумерную гистограмму этих же признаков. Это ограничивает возможность использования многомерных распределений. На данный момент база, собранная из 613 пациентов, позволяет строить многомерные распределения из 2-3 признаков, в редких случаях, из 4-5 признаков. Неполная, ограниченная база данных приводит к тому, что для построения одномерных гистограмм каждого из двух признаков имеется значительно больше данных, чем для построения двумерной гистограммы тех же признаков. То есть снижается точность вычисления вероятностей двумерного ДП. 3.5 Особенности работы со статистической базой данных В собранной базе данных для каждого ДП (анализа) указан день, в который ДП определен (день, когда взят анализ). Дни, в которые определены ДП, должны отсчитываться от дня начала заболевания. К сожалению, этот день по истории болезни,
в основном, не удается установить, и за день начала заболевания
принимается день поступления в больницу. Каждый признак может быть определен (анализ может быть сделан) один или несколько раз, а может быть не сделан вообще в течение всей болезни. Отсутствие признака (анализа) в один из дней говорит лишь о том, что он в этот день не определялся. Предложенная методика работоспособна и при отсутствии ДП в некоторые дни и, практически, при любой имеющейся в наличии информации. Но, предполагается, что каждый дополнительный признак, любая новая информация уточняют конечный результат – диагноз. 94
Несмотря на солидный объем собранных данных, остро стоит проблема нехватки
или
отсутствия
статистики
для
диагностики,
для
построения
распределений. Учет динамики с помощью формулы Байеса требует построения распределения i -го признака для
j -й болезни в каждый из дней заболевания. Но,
практически, из-за малого числа анализов приходилось объединять признаки за несколько (2 – 5) дней. При этом определяемое данное может усредняться, а может принимать ближайшее значение к указанному дню. Здесь очень полезно использовать «распространяемость» признаков. Дело в том, что часть ДП в некоторый период не меняется и, определив ДП, можно использовать его не только в день определения, но и в некоторые другие дни. Так, маркеры, появившись, не меняют свое значение до смерти. Обтурацию желчных путей, расширение холедоха и расширение внутрипеченочных ходов можно распространить на ближайшие пару дней до и после дня определения, а чаще – до операции. Зеленый цвет печени наблюдается как минимум 2 – 3 дня до и после определения. Также можно распространить и многие другие дискретные признаки. Но признаки «боль», «зуд», «увеличение печени» могут меняться ежедневно, поэтому они не распространяются. Предположить состояние признаков «боль», «зуд» можно и по отсутствию данных. Обычно лечащий врач, записывая историю болезни, регистрирует жалобы больного. Если больной не жалуется на боль или зуд, врач эти данные не записывает. Очевидно, что отсутствие данных – это синоним отсутствия боли и зуда. В диагностирующей программе можно учесть подобные особенности медицинских данных и увеличить размер выборки. «Хорошим», годным для диагностики, считалось распределение, для которого имелось не менее определенного количества данных статистики. В ином случае существует два варианта. 1) Не использовать при диагностике это распределение и сам признак. 2) Использовать искусственное распределение, построенное не по данным статистики, а в результате опроса эксперта – врача. На основании мнения специалиста, можно создать не очень точные, но весьма полезные распределения признаков (см. раздел 3.3 «Искусственные распределения»). 95
Другой вопрос, который возникает в связи с нехваткой данных: что делать с признаком, значение которого попало в такую «малонаселенную» область статистики, где, согласно гистограмме, вероятность или плотность вероятности равна нулю. Использование нулей в формуле Байеса может привести к абсолютно неверной диагностике. Вероятность болезни, для которой имеет место такое распределение, была бы также равна нулю. Даже, несмотря на то, что другие признаки могли говорить «ЗА» эту болезнь. Изложенное показывает, что плотность вероятности любого признака не должна быть нулевой. Это должно быть какое-то малое число. Про конкретный выбор малого числа можно сказать, что он (выбор) субъективен,
слабо
влияет
на
результат,
может
быть
осуществлен
экспериментально. В настоящей работе, чтобы избежать проблем с интервалами гистограммы, в которых количество больных нулевое, используются алгоритмы раздела 3.2.2. Без этих алгоритмов для выбора обсуждаемых малых чисел рекомендуется следующее. Во-первых, должны быть проанализированы распределения признака при разных болезнях. Для одной болезни может отмечаться отсутствие приближенных к значению признака данных, тогда как для другой таких данных может быть достаточно. В этом случае значение признака более характерно для второй болезни, чем для первой. Это отражает реальное состояние в природе. Тогда плотность вероятности первой болезни устанавливается в зависимости от соседнего ненулевого значения плотности. Если данных статистики недостаточно для обеих болезней, то делается вывод, что значение признака не характерно ни для одной из болезней, такого значения признака
«в природе не бывает», и признак в
диагностике не участвует. Предусмотрен еще один подход к обработке дискретных признаков. Это переход от рассмотрения признака во множестве дней к одному признаку, для которого динамика не учитывается. Например, переход от признака «боль в разные дни» к признаку «была ли боль». То есть рассматриваются те пациенты, у которых за время болезни хотя бы единожды регистрировалась боль, и вычисляется доля таких пациентов среди всех пациентов. Данный подход уменьшает погрешности распределения, оно становится менее зависимым от лабораторных ошибок, ошибок 96
осмотра пациента (но, конечно, динамика теряется). 3.6 Исследование взаимозависимости диагностических признаков 3.6.1 Независимые и зависимые диагностические признаки в формуле Байеса При диагностических расчетах по формуле Байеса распространено грубое приближение: ДП болезни считаются независимыми, хотя в общем случае в едином организме независимость признаков исключена. Независимые ДП это, видимо, слабо зависимые признаки. Не исключена зависимость каждого из этих признаков от какого-либо ДП или зависимость третьего признака от совокупности указанных двух. Два признака можно считать независимыми, если их линейная корреляция (оцениваемая коэффициентом Пирсона) близка к нулю или подтверждается гипотеза
χ 2 (хи-квадрат) о независимости признаков. Оценить взаимозависимость всего набора признаков не представляется возможным из-за ограниченности статистической базы. В рамках имеющихся данных
по
механической
и
паренхиматозной
желтухам
допустим
учет
взаимозависимостей трех, редко четырех признаков. Причем для различных видов желтухи (диагностируемых состояний) будут различны степени зависимости одних и тех же диагностических признаков. Далее рассчитывается взаимозависимость различных признаков в первый день болезни без учета динамики болезней. (То есть рассматриваются признаки «АЛАТ в 1-й день», «АСАТ в 1-й день», «боль в 1-й день», … Остальные дни не рассматриваются). Были проанализированы все пары признаков для обеих болезней с помощью метода
χ 2 (хи-квадрат) и определения корреляции. Полученные
результаты сведены в таблицы взаимозависимостей признаков.
97
Таблица 3.1 Результаты анализа методом
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
1 # + + + – + ? + + ? + + + + ? + + + +
2 + # + + + + ? + ? ? + + + + ? + ? + +
3 + + # – + + ? + + ? + + + + ? + ? – +
4 + + – # + – ? + ? ? – – + + ? + ? – ?
5 – + + + # + ? + + ? + + + + ? + + + +
6 + + + – + # ? + ? ? + + + + ? + ? + ?
χ 2 независимости пар ДП при паренхиматозной
7 ? ? ? ? ? ? # ? ? ? ? ? ? ? ? ? ? ? ?
8 + + + + + + ? # + ? + + + + ? + ? + –
желтухе 9 10 11 12 13 14 15 16 17 18 19 + ? + + + + ? + + + + ? ? + + + + ? + ? + + + ? + + + + ? + ? – + ? ? – – + + ? + ? – ? + ? + + + + ? + + + + ? ? + + + + ? + ? + ? ? ? ? ? ? ? ? ? ? ? ? + ? + + + + ? + ? + – # ? – – + – ? ? ? + ? ? # ? ? ? ? ? ? ? ? ? – ? # – – + ? – + + + – ? – # + + ? – + + + + ? – + # – ? + – + + – ? + + – # ? + + + + ? ? ? ? ? ? # ? ? ? ? ? ? – – + + ? # + + ? ? ? + + – + ? + # + ? + ? + + + + ? + + # + ? ? + + + + ? ? ? + # Таблица 3.2
2
Результаты анализа методом χ независимости пар ДП при механической желтухе 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 1 # + + + + + + ? – ? + + + + + + + + ? 2 + # + + – + + ? ? ? + – + + – – ? + ? 3 + + # – + + + ? – ? + + + + + + + + ? 4 + + – # + + + ? – ? + – + + + + + + ? 5 + – + + # + – – + ? – – + + + + + – ? 6 + + + + + # + ? ? ? + + + – + + + + ? 7 + + + + – + # ? ? ? + + – + ? + + + ? 8 ? ? ? ? – ? ? # ? ? ? ? ? ? ? ? ? ? ? 9 – ? – – + ? ? ? # ? + + + + ? ? ? + ? 10 ? ? ? ? ? ? ? ? ? # ? ? ? ? ? ? ? ? ? 11 + + + + – + + ? + ? # – – + + + + + ? 12 + – + – – + + ? + ? – # – – + + + + ? 13 + + + + + + – ? + ? – – # – + + + + ? 14 + + + + + – + ? + ? + – – # + + + + ? 15 + – + + + + ? ? ? ? + + + + # + ? + ? 16 + – + + + + + ? ? ? + + + + + # + – ? 17 + ? + + + + + ? ? ? + + + + ? + # + ? 18 + + + + – + + ? + ? + + + + + – + # ? 98
Номера строк и столбцов соответствуют нумерации ДП в разделе 3.1. «+» означает, что два признака независимы, «–» означает, что признаки зависимы, знак «?» говорит о том, что характер зависимости определить не удалось. Корреляция двух признаков позволяет количественно определить степень зависимости. Таблица. 3.3 Корреляции ДП при паренхиматозной желтухе
Таблица. 3.4 Корреляции ДП при механической желтухе
Вычисление корреляции возможно уже при наличии трех значений ДП, но надежность выводов, основанных на малой выборке, недостаточна. Статистически значимые, надежные корреляции ( p <0,05) отмечены жирным шрифтом. Все ДП 99
распределены по нормальному закону. Для примера анализа полученных данных отметим, что при паренхиматозной желтухе наиболее коррелируют следующие пары ДП: 11 – 12 (билирубин непрямой и прямой, r =0,64), 13 – 14 (ферменты АЛАТ и АСАТ, r =0,55), 13 – 17 (ферменты АЛАТ и альбумин, r =0,86), 17 – 18 (альбумин и возраст, r =0,79) и др. 3.6.2 Экспертная оценка зависимости признаков Хи-квадрат и корреляция являются статистическими методами оценки взаимозависимостей и представляют собой феноменологическую меру. Для установления причинно-следственной связи между переменными необходимо использовать другие методы. Экспертная оценка взаимозависимости признаков с учетом причинной связи между ними и патофизиологии была сделана одним из авторов - д. м. н., профессором Г.Г. Устиновым. Из
сравнения
полученных
тремя
методами
(хи-квадрат,
корреляция,
экспертная оценка) таблиц взаимозависимостей признаков видно, что мнение эксперта
часто
не
подтверждает
статистические
результаты.
вышеописанных проблем определения взаимозависимостей
Исходя
из
признаков, более
достоверными считаются выводы эксперта. Однако применение лишь экспертных оценок, без учета реально собранной базы данных, может приводить к неадекватным, противоречивым результатам. Поэтому достоверными считаются такие зависимости признаков, которые получены из всех источников и не противоречат друг другу. 3.6.3 Наборы (ядра) независимых признаков Метод
χ2
(хи-квадрат)
и
экспертные
заключения
не
позволяют
количественно оценить зависимости признаков. Возможна лишь дифференциация пары признаков либо как независимых, либо как зависимых. Далее, в качестве первого приближения и ввиду недостаточной надежности определения степени взаимозависимости диагностических признаков разделим признаки на абсолютно независимые и абсолютно зависимые. В реальности же, зависимости не настолько категоричны, это показывает корреляция признаков. 100
По таблицам взаимозависимостей признаков можно для каждой болезни выделить наборы признаков,
в которых все признаки будут между собой
независимыми. Так, по таблице 3.1 можно найти максимум 7 взаимонезависимых признаков (независимых при паренхиматозной желтухе). Например, независим в совокупности набор из признаков: 2, 5, 6, 8, 14, 16, 18. Это ДП: кожный зуд, увеличение печени, увеличение селезенки, маркеры,
ферменты АЛАТ, сулемовая проба, возраст. В
данном наборе все ДП между собой взаимонезависимы. Из таблицы 3.2 находится набор
признаков,
также
состоящий
из
7
взаимонезависимых
признаков
(независимых при механической желтухе). Например, независимы ДП: 1, 4, 7, 11, 14, 17, 18. Это диагностические признаки: боль, расширение внутренних печеночных ходов, зеленый цвет печени, билирубин непрямой, ферменты АЛАТ, альбумин, возраст. Определим каждый такой набор признаков как «ядро» взаимонезависимых признаков. Очевидно, что в формулу Байеса для независимых признаков должны входить только ядра. Все остальные признаки, не входящие в состав ядра (и соответственно в формулу Байеса), считаются абсолютно зависимыми признаками от ядра. При этом, как уже указывалось, реально таблицы не определяют абсолютно все ядра признаков, а сами признаки внутри ядра не являются абсолютно взаимонезависимыми. Таким образом, возможно существование ядер признаков, которые не могут быть получены из таблиц, но, зависимость которых более близка к определению «абсолютно независимые». Такие ядра не всегда могут быть получены с помощью статистических методов. Из таблиц взаимозависимостей выделяется множество ядер независимых признаков. Причем для каждой болезни существует собственное множество ядер. По имеющейся статистике выделены ядра – величиной от двух (пара независимых) до
семи
(максимальное
количество
взаимонезависимых)
признаков.
(При
количестве ДП в ядре больше двух существует много вариантов ядер, имеющих одинаковое число ДП, но разные наборы признаков.) У данного подхода имеется существенный недостаток. После определения наилучшего ядра, предполагается, что оно будет использоваться при диагностике 101
каждого
пациента.
То
есть
требуется,
чтобы
набор
признаков
больного
соответствовал признакам ядра. На практике не всегда возможно проведение всех требуемых клинических анализов, биохимических тестов и т.д. Поэтому реальные данные истории болезни часто не удовлетворяют этому требованию. База тестирования, с которой проводились эксперименты для выявления наилучших ядер, тоже имеет не полные наборы данных. В расчете вероятности болезни конкретного больного из базы тестирования участвуют только те признаки, которые были в наличии у этого больного. Набор реальных признаков пациента редко совпадает с ядром. Использование
неполного
ядра
реальных
данных
больного
нередко
становилось причиной ошибок диагностики, в то же время учет других признаков больного, не включенных в ядро, позволял, напротив, получить верный диагноз. Таким образом, в качестве набора признаков, по которым производится диагностика, следует использовать ядра, выделенные не из всех ДП, а из ДП конкретного больного. Соответственно и база тестирования должна состоять из больных с таким же набором ДП.
102
Глава 4 Учет динамики заболеваний при диагностике 4.1 Методика учета динамики и взаимозависимость диагностических признаков Согласно изложенной в разделах 2.4.1, 2.4.2 методике в отличие от известных работ для расчетов вероятностей болезней больного по формуле Байеса используются не только диагностические признаки в день поступления пациента больницу, но и в другие дни. Если признак (симптом или анализ) у больного определяется многократно, то для диагностики используются все его значения. Таким образом, учитывается, что распределения признаков при заболевании и признаки пациента меняются в течение болезни, зависят от времени – от числа дней, прошедших с начала заболевания. 70
мкмоль /л
60 50 40 30 20 10 дни
0 1 2
3 4 5
6 7 8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Рис. 4.1.1 График диагностического признака (анализа) «билирубин непрямой» пациента N в динамике На рис. 4.1.1 видно, как изменяется билирубин одного из пациентов со временем. Анализы определялись 7 раз: в 1, 2, 5, 6, 12, 19 и 23-й дни. В остальные дни
анализы
неизвестны.
(Принципиальное
отличие
авторской
методики
диагностики состоит в том, что не требуется направлять больного на «недостающий для работы программы» анализ. Программа работоспособна и при отсутствии части ДП, диагноз ставится по той информации, которая имеется в наличии.) Согласно предложенной методике полагается, что билирубин в 1-й день – это один диагностический признак, билирубин во 2-й день – это другой диагностический 103
признак, билирубин в 5-й день – также новый признак и т.д. Все симптомы и анализы выписывались в динамике за 50 дней, следовательно, каждый симптом или анализ теоретически может дать до 50 различных диагностических признаков. Учет динамики позволяет использовать вместо 19 исходных признаков – гораздо больше – до 950 диагностических признаков (50 дней на 19 симптомов). Такой скачок в увеличении данных, по которым рассчитывается диагноз, конечно, теоретический, предельный; реальное увеличение числа используемых ДП меньше, у нас при диагностике желтух число исходных данных повысилось раз в пять, что (как показано в следующих главах) привело к ощутимому преимуществу в диагностике. Из предложенной методики учета динамики заболеваний практически реализованы первое и второе приближения. (В такой терминологии известные методики, не учитывающие динамику, считаем нулевым приближением.) Первое приближение рассматривает каждое последующее (в другой день) определение одного и того же ДП как определение нового независимого ДП. То есть один и тот же ДП, определенный в два разных дня, понимается как два абсолютно разных и независимых признака. Вместе с тем, очевидно, что определенные в соседние дни величины одного и того же признака должны (за исключением особых случаев) сильно коррелировать между собой. (В приведенном примере должны коррелировать ДП в 1 и во 2-й дни, в 5 и в 6-й дни, в 21 и в 22-й дни и т.д.). Естественно, что два анализа, два определения в соседние (близкие) дни одного и того же признака взаимозависимы. Но чем больше проходит дней между двумя анализами, тем меньшая связь между ними наблюдается. Это обусловлено возрастающим влиянием на ДП разных факторов (лечения, развития болезни и др.) в интервале между анализами. Высказанные соображения иллюстрируются данными двух следующих рисунков.
104
1.00 0.80 0.60 0.40 0.20 дни 0.00 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Рис. 4.1.2 График корреляции признаков «АЛАТ в n-й день» от «АЛАТ в 1-й день» при паренхиматозной желтухе
Корреляция д. признака АЛАТ "от первого дня"
1.00 0.80 0.60 0.40 0.20
дни
0.00 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18
Рис. 4.1.3 График корреляции признаков «АЛАТ в n -й день» от «АЛАТ в 1-й день» при механической желтухе На графике 4.1.2 показано, как меняется корреляция признаков (анализов) «ферменты АЛАТ» во все дни от признака «АЛАТ в 1-й день» при паренхиматозной желтухе. ДП «АЛАТ во 2-й день» сильно зависим от анализа «АЛАТ в 1-й день», коэффициент корреляции “ r ” равен 0,78. Зависимость АЛАТ в 3-й день от АЛАТ в 1-й день уже не столь явная: r =0,56. Начиная с 4-го дня зависимость – слабая, 105
r <0,4. При механической желтухе зависимости признаков несколько иные – график 4.1.3. Корреляция признаков «АЛАТ во 2-й» и «АЛАТ в 1-й день» при механической желтухе менее выражена, чем при паренхиматозной, r =0,48. Зависимость «АЛАТ в 1-й день» и «АЛАТ в 3-й день» практически отсутствует,
r =0,2. Но на 5-й день корреляция вновь сильна: признаки АЛАТ в 1-й день и АЛАТ в 5-й день сильно зависимы, r =0,83. Однако, в среднем, и при механической желтухе с увеличением интервала корреляция ослабевает. При диагностике, включая расчеты вероятностей болезней по формуле Байеса, следует учитывать взаимозависимость всех
признаков, в том числе и
взаимозависимость одноименных (одних и тех же) симптомов или клинических анализов, определенных в соседние дни. Учет взаимозависимости ДП позволяет при диагностике правильно использовать данные о их динамике (данные многократных определений ДП). Более того, учет взаимозависимости ДП является ключом решения проблемы использования многократно определяемых (или повторно определяемых),
а
также
дублирующих
диагностических
признаков.
Под
дублирующими ДП понимаются сильно зависимые признаки, в том числе такие, которые
являются,
скорее,
контрольными.
Модель
предельного
случая
дублирующих ДП – измерение температуры иным термометром. Покажем важность проблемы использования многократно определяемых признаков на примере. Пусть какой-либо диагностический признак изменяется медленно: его изменение заметно лишь по прошествии дней. Если такой признак измерять (в какой-либо день) каждую минуту, то следующее измерение будет зависеть от предыдущего и даже повторять, дублировать его. Такие повторные измерения не добавят существенно новой информации. В то же время, в силу особенностей формулы Байеса и при принятом использовании диагностических признаков как независимых, многократно (повторно) определенные диагностические признаки повлияют на диагностику. Диагностика даже может из правильной стать неверной. (Если ДП «влияет в сторону неверного диагноза», но это влияние компенсируется другими ДП, то многократное повторное определение данного признака приведет к изменению диагноза на неверный.) Эта проблема более подробно рассмотрена в следующем параграфе. 106
4.2 Диагностика при многократном определении признака Нередко симптомы, результаты анализов и инструментальных методов исследования больного противоречивы: среди них существуют признаки, которые оспаривают диагноз. Рассмотрим набор симптомов, клинических анализов и данных инструментальных обследований пациентки N. Признак/день 1 4 Боль + Кожный зуд Расширение холедоха Увеличение печени Увеличение селезенки Зеленый цвет печени Билирубин непрямой 38.00 30.00 Билирубин прямой 94.00 50.00 Ферменты АСАТ 1.10 0.80 Ферменты АЛАТ 2.10 2.80 Сулемовая проба 2.00 1.90 Возраст 74.00 Пол Ж Здесь «+» – ДП положительный, «–» – ДП отрицательный.
7
14.00 27.00 0.70 2.20 1.80
Пациентка болела механической желтухой и от нее была вылечена. Программа диагностики на основании вышеприведенных реальных данных пациентки (только тех, что имеются в наличии) поставила компьютерный диагноз «механическая желтуха». Вероятность механической желтухи, рассчитанная по формуле Байеса, по диагностическим признакам первого дня обследования составила 0,95; по ДП первого и четвертого дней – 0,96, по ДП всех дней (первого, четвертого и седьмого) – 0,94. (В данном случае включение в исходные данные динамики ДП не привело к повышению точности диагностики. Это не противоречит выводу о повышении правильности диагностики с учетом динамики. Вывод подтвержден в среднем, а у конкретного больного не проявился, скорее всего, из-за сравнительно более подробного обследования в первый день). Чтобы яснее понять «аргументы» методики и программы при постановке диагноза проводятся оценки влияния каждого ДП на постановку диагноза, так сказать, «аргументы в пользу болезни». Оценки влияния отдельных ДП на вероятность каждой болезни проводились по методике, изложенной в разделе 2.6.3; 107
осуществлялась оценка (диагностика) только по одному ДП без участия остальных признаков. Рассчитанные «оценки влияния» ДП показали, что диагноз «механическая желтуха» поставлен в значительной мере из-за возраста больной, оценочная степень влияния – 14 раз. Большой вклад в диагностику внесла информация о ДП «ферменты АЛАТ», «ферменты АСАТ», «билирубин» и др. Перейдем к ДП, свидетельствующим против правильного диагноза (против механической желтухи). Из таких ДП «самым сильным» для данной пациентки является отсутствие признака «расширение холедоха». Положительное значение признака встречается в 15 раз чаще у больных механической желтухой, чем у больных паренхиматозной. Отрицательное – в 6 раз чаще при паренхиматозной желтухе. У приведенной больной этот ДП – отрицательный – холедох не расширен, что говорит не в пользу диагноза. Оценка степени влияния этого ДП «против диагноза» – 6 раз. Признак «расширение холедоха» определялся один раз, в 1-й день. В данном разделе исследуется влияние многократного определения ДП на диагноз. Для этого исследования полезно рассмотреть искусственное увеличение числа наблюдений ДП «расширение холедоха». Будем считать, что холедох не расширен и в последующие дни. Эти искусственные данные вполне возможны: холедох не был расширен в день поступления в больницу, и на фоне лечения отсутствие расширения могло сохраниться. Если использовать эту информацию в программе, то компьютерный диагноз на третий день болезни будет следующим: «механическая желтуха» с вероятностью 0,89. То есть, если дополнительно использовать отрицательное значение ДП «расширение холедоха» во 2 и 3-й дни, диагноз изменится на «неопределенный». Если же учитывать значение признака и в последующие дни, то на 10-й день диагноз из неопределенного станет неверным. При искусственном распространении отрицательного значения ДП «расширение холедоха» на 11, 12-й день и т.д., вероятность верного диагноза будет приближаться к нулю, неправильного – к единице. Данный пример иллюстрирует, что неизменный ДП нужно использовать один раз. Очевидно, что чем больше проведено измерений одного признака в течение 108
всей болезни, тем сильнее он (если его измерения рассматривать как совокупность разных и независимых признаков) влияет на результат диагностики. Рассмотрим повторные измерения признака, который мало меняется или даже не изменяется определенное время. Например
(точнее, в
гипотетическом
нереальном примере), тест на АЛАТ можно проводить несколько раз через каждые 5 минут. Результат будет практически неизменен, и повторное измерение признака новой информации для диагностики не даст. В этой ситуации нельзя каждое измерение воспринимать как новый признак, так как исследуемые новые измерения признака сильно (абсолютно) зависимы от предыдущих измерений. Согласно предлагаемой методике при сильной взаимозависимости ДП, в том числе при сильной зависимости повторно определенных величин одноименного ДП от первично определенной величины, необходимо учитывать эту взаимозависимость (условную вероятность или степень зависимости одного относительно другого). При недостатке данных (когда корреляцию и условную вероятность нельзя достоверно определить) стоит воспользоваться предложенным «вторым приближением», состоящим в усреднении близких по времени результатов определения ДП. Усредняются величины ДП, что представляется предпочтительным по сравнению с усреднением плотностей вероятностей ДП. (Предпочтительность усреднения величин ДП особенно наглядна в случае, когда два ДП находятся «по разные стороны» от математического ожидания: первично определенный ДП больше, а повторно определенный меньше математического ожидания.) Заметим, что в силу погрешностей измерений, первично и повторно определенные значения признака не будут абсолютно равными, и усреднение повысит достоверность величины ДП. (О применении аналогичного усреднения для построения распределений при отсутствии достаточной статистической базы говорилось выше, в разделе 3.5.) Другой путь учета динамики (использования многократных измерений ДП) состоит в построении многомерного распределения из многократно определенных признаков. При этом в диагностике вместо комплекса одномерных повторных признаков используется один многомерный признак. Так как значения повторных признаков близки, то в получившейся многомерной таблице все пациенты будут распределены вблизи диагонали. 109
Для каждой болезни и для каждого признака можно определить характерные интервалы дней, в течение которых анализы неизменны. Например, признак «маркеры» для обеих болезней неизменен длительное время с момента его появления. Повторные измерения признака в острый период болезни абсолютно зависимы между собой, не дают новой диагностической информации, поэтому «маркеры» усредняются в один признак из всех 10 рассматриваемых дней. К аналогичным «признакам» можно отнести возраст и пол. Для других признаков более сложно определить характерные интервалы
«постоянства» значений
признаков. По крайней мере, можно усреднить признаки за наименьший характерный интервал дней из двух болезней. Возникает задача по определению характерных для каждой болезни и каждого признака интервалов дней, в течение которых величина признака не меняется, постоянна. (Повторим, что представлять многократные измерения признака как один признак рационально тогда, когда результаты многократных измерений признака сильно взаимозависимы.) Существуют признаки (дискретные), для которых определение таких интервалов не вызывает затруднений. Определить эти интервалы может медик – эксперт. Для других ДП указанные интервалы могут быть определены с использованием корреляционной матрицы каждого признака за все 10 дней. Таблица 4.1 Корреляционная матрица признака «билирубин прямой» за 10 дней.
Значения коэффициента корреляции для некоторых соседних дней не значимы, что является результатом малого количества данных, на основании 110
которых выполнен анализ. Матрица показывает слабую взаимозависимость 1 и 2-го дней. Сильно зависимы дни: 2-4-5, 3-4-5-6-7-8-9, 4-8-9, 5-7-9, 6-8-9, 7-8-9, 8-9, 9-10. Можно выделить следующие характерные интервалы дней признака: 1, 2, 3-4-5-6-7, 8-9-10. В дальнейшем, если необходимо поставить диагноз пациенту, которому сделаны анализы билирубина в 1, 3, 6, 7-й дни, то для расчетов берется значение признака 1-й день и усредненное значение за 3, 6, 7-й дни. Такой подход требует специального рассмотрения динамики всех признаков для каждой болезни. В условиях ограниченной неполной статистики следует усреднять близкие по времени (повторные) значения признака: сильно зависимые признаки усредняются, слабо зависимые считаются независимыми. Проведенные исследования и анализ зависимости
ДП
рекомендации
по
позволили
приближенно
использованию
при
сформулировать
диагностике
следующие
(механической
и
паренхиматозной желтух) многократно определяемых признаков: значения ДП (анализов) первых двух дней усредняются в 1-й диагностический признак, анализы за следующие 3 дня усредняются во 2-й признак, за следующие 5 дней усредняются в 3-й признак. Таким образом, вместо 10 независимых ДП получаем 3 признака. Предлагаемое усреднение привело к уточнению диагностики, по сравнению с диагностикой без усреднения повторных измерений признаков (глава 5). 4.3 Влияние лечения на динамику заболевания Предложенная методика диагностики тестируется на механической и паренхиматозной
желтухах,
течение
которых
кардинально
отличны.
Соответствующим образом отличается и лечение. Лечение паренхиматозной желтухи – терапевтическое, медикаментозное. За время лечения (от 10 дней до 2 месяцев) состояние больного, в основном, нормализуется, то есть большинство диагностических признаков постепенно приближаются к норме. Если полагать, что лечение паренхиматозной желтухи примерно одинаково для всех больных, то можно говорить о динамике заболевания при лечении. Больному обычно назначают медицинские процедуры уже в день поступления, поэтому учесть динамику болезни до начала лечения в настоящей работе не удалось – не было нужных данных. Хотя 111
предпринималась попытка приближенно оценить начало паренхиматозной желтухи по имеющейся информации. Затем без уточнения действительного дня начала заболевания было достигнуто почти стопроцентное совпадение компьютерного и врачебного диагнозов. После этого попытки откорректировать начало заболеваний, приближая его к реальному, были отложены. Как правило, своевременно предпринятое лечение паренхиматозной желтухи постепенно
приводит
к
улучшению
состояния
больного
и
нормализации
лабораторных показателей. Лечение механической желтухи, в большинстве случаев, хирургическое. Операцию необходимо проводить в первые 5 – 7 дней с момента поступления. В течение этого времени проводится предоперационная подготовка. Однако, как уже указывалось, большинство больных поступают в хирургическое отделение поздно на 10 – 30-й день болезни. Все это время больному проводится лечение, однако улучшение состояния и лабораторных показателей не происходит. Таким образом, динамика двух заболеваний различна, и её учет должен приводить к повышению точности диагностики. После операции признаки механической желтухи резко снижаются, что не характерно для естественной динамики болезни при медикаментозном лечении. День операции индивидуален для каждого больного, он зависит как от наличия достоверных показаний о необходимости операции, так и от состояния больного. А значит, говорить об общей естественной динамике собственно болезни после операции нельзя и в рамках решаемой задачи диагностики нет необходимости. Приведенные выше обстоятельства указывают, что проводимая в настоящей работе диагностика – это диагностика болезней на фоне лечения и до операции у больных механической желтухой. Следовательно, нельзя использовать для диагностики анализы и другие ДП пациента после операции. Эти данные не должны влиять ни на диагностику, ни на статистические распределения. Вследствие обоснованного выше игнорирования послеоперационных распределений признаков затруднена
дифференциальная
диагностика
других
больных,
которым
не
выполнялись операции, то есть больных паренхиматозной желтухой, ДП которых (после 10 дней пребывания в больнице) не с чем сравнивать. В среднем, 112
эксперименты по диагностике пациентов проводились с учетом данных 10 дней от начала лечения. После десятого дня большинству больных механической желтухой были сделаны операции. Как показали эксперименты, диагностика с учетом динамики по 10 дням оказалась лучшей диагностикой по всем дням. Очевидно, что диагноз должен быть известен как можно раньше и, конечно, до операции. После операции компьютерный диагноз не нужен. Приведенные выводы о динамике болезни с учетом лечения верны для пациентов, которые лечатся от той болезни, которой они действительно больны. Их динамика, примерно, одинакова в пределах одной группы. Но что происходит, когда больного
механической
желтухой
ошибочно
принимают
за
больного
паренхиматозной желтухой? Или больного паренхиматозной желтухой за пациента с механической желтухой. Лечение таких больных отлично от лечения группы, к которой они принадлежат, и результаты лечения также иные. Случаи неверных диагностики и соответственно лечения, к сожалению, вполне регулярны, и безрезультатное лечение одной из болезней не зря введено в исходные данные (раздел 3.1) как диагностический признак № 12 «наличие эффекта от предыдущего лечения», который свидетельствует о другом типе желтухи (в основном, отсутствие эффекта от лечения паренхиматозной желтухи указывает на механическую желтуху). Изложенные ситуации показывают проблемы диагностики больных, которым не проводилось лечение, и больных, которым проводилось лечение от другой болезни. Для решения этих проблем вместо двух диагностируемых состояний (механическая и паренхиматозная желтуха) следовало бы ввести базу данных с четырьмя группами больных: пациент болен и лечится от механической желтухи, пациент болен и лечится от паренхиматозной желтухи, пациент болен механической желтухой и лечится от паренхиматозной желтухи, пациент болен паренхиматозной желтухой и лечится от механической желтухи. После этого появилась бы возможность более тонкой диагностики: более надежно диагностировались бы больные, которым проводится неверное лечение. Однако, проблема еще обширнее. Обсуждаемых больных не все время лечат неправильно, на какой-то день после начала лечения пациентам ставят верный 113
диагноз. Следовательно, меняется лечение, и пациент уже не характеризуется одним из 4-х введенных состояний. Он, строго говоря, относится к новой группе. Также к иным, отдельным группам относятся пациенты, лечение которых начиналось не со дня
поступления
в
больницу,
а
раньше
(самолечение,
лечение
не
в
специализированной клинике) или позже этого дня. Например, группа пациентов, лечение которых началось в день поступления в больницу, отлична от группы пациентов, интенсивное лечение которых началось на 5-й день после поступления (скажем, после праздничных дней). У первой группы на 5-й день анализы уже изменились в сторону нормы, а у второй группы их отличие от нормы не уменьшилось. Соответственно, распределения признаков обеих групп на 5-й и последующие дни будут отличны, несмотря на то, что обе группы могут относиться к одному диагностическому состоянию и проходят аналогичное лечение. Заметим, что количество дней, прошедших между началом болезни и поступлением в больницу, сильно отличается для разных пациентов. На это влияет, в частности, удаленность от больницы, другие факторы. Например, житель города при первых признаках желтухи обращается в больницу и проходит лечение, когда болезнь не запущена. В то же время, сельский житель может болеть продолжительное время, и в день поступления в специализированную больницу анализы такого больного будут сильно отличаться от нормы. Очевидно, что правильнее отсчитывать динамику от дня начала заболевания, а не от дня поступления в больницу. Желательно также учесть день начала лечения и индивидуальные особенности протекания стадий болезни для каждого больного. Методика
учета
индивидуальных
начала
лечения
и
течения
болезни
прорабатывалась авторами [91]. Но пока при практической диагностике были использованы только следующие простые допущения: 1. Днем начала заболевания и начала лечения условно считается день поступления в больницу. 2. Больные с ошибочными диагнозами не выделяются в отдельные группы, т.е. распределения ДП включают некоторое количество больных с лечением, отличным от лечения большинства больных.
114
Глава 5 Результаты диагностики с применением различных методических приемов 5.1 Применение уровня надежности и коэффициента эффективности для оценки качества диагностики Расчет погрешности определения вероятности болезней [99] пока не реализован, поэтому результаты диагностики оцениваются согласно разделу 2.6: кроме процента верных диагнозов используются предложенный коэффициент эффективности диагностики ( CE ) и уровень надежности диагноза. (Наиболее вероятная болезнь считается диагнозом не всегда, а тогда, когда вероятность этой болезни еще и выше заданного уровня надежности. В качестве уровня надежности принята вероятность болезни 90%.) Использование уровня надежности диагноза позволяет «перевести» часть недостаточно надежных (неправильных и правильных) диагнозов в разряд «неопределенных». Ниже
приведен
пример
результатов
диагностики
563
больных
с
использованием уровня надежности. Таблица 5.1 Сравнение диагностики пациентов при разных уровнях надежности Принятый уровень надежности
Правильных
Неправильн.
Неопредел.
диагнозов
диагнозов
диагнозов
пац.
%
пац.
%
пац.
%
1.
50% (без неопределенных)
543
96,5
20
3,5
0
0
2.
90% (с неопределенными)
525
93
11
2
27
5
В первой графе приведена диагностика больных с принятым уровнем диагностической надежности – 50%. То есть для двух болезней фактически уровень надежности не используется и диагнозом считается та болезнь, вероятность которой выше вероятности другой болезни (а значит больше 50%). В данном случае неопределенных диагнозов нет. Во второй графе принят уровень надежности – 90%. Здесь появляются неопределенные диагнозы. При установке уровня надежности 90%, количество правильных диагнозов уменьшилось на 18 (на 3,2% от числа всех больных), количество неправильных 115
диагнозов уменьшилось на 9 (1,6%), и появились 27 неопределенных диагнозов (5%). Несмотря на то, что часть правильных диагнозов стали неопределенными, мы считаем этот подход оправданным: важнее сделать меньше ошибок в диагнозе, чем большему числу пациентов поставить верный диагноз. Возникает вопрос о выборе уровня диагностической надежности диагноза. Чем выше этот уровень, тем меньше правильных и, одновременно, неправильных диагнозов. Можно установить такой высокий уровень надежности, что все неправильные диагнозы исчезнут, перейдут в область неопределенных диагнозов. При этом количество правильных диагнозов уменьшиться настолько, что такая диагностика перестанет удовлетворять врача. Вполне возможен случай появления нового больного, которому будет поставлен неверный диагноз при любом уровне надежности. Кроме того, установка уровня надежности зависит от количества данных, используемых в диагностике: чем больше данных, тем, в принципе, большей должна быть полученная расчетом разница вероятностей правильного и неправильного диагнозов, следовательно, тем более высокий уровень надежности можно установить. Таблица 5.2 Влияние количества диагностирующих данных (признаков) на вероятности болезней Вероятность действительной болезни пациента, Пациент
с использованием данных нескольких дней, % 1-й день
1, 2-й дни
1, 2, 3-й дни
1,2,3,4-й дни
1
99,99486
99,99956
99,99987
99,99999
2
99,97545
99,96377
99,99816
99,99990
3
89,54650
99,91049
99,99890
99,99997
4
67,75748
19,76993
62,11264
36,18332
5
15,72451
6,39987
2,97724
0,05839
В таблице 5.2 показано как изменяются вероятности истинных болезней пяти пациентов. (Истинные здесь – те болезни, которыми пациент действительно болен и 116
от которых его лечат.) В первом столбце (в начале строк) - номера пациентов, в заголовках
следующих
столбцов
указано
число
дней,
в
которые
взяты
диагностические признаки, использованные при диагностике каждого пациента. Больные диагностируются на основании набора признаков взятых сначала за 1-й день, потом за 1 и 2-й дни, за 1, 2, 3-й дни, и за 1, 2, 3 ,4-й дни. У большинства пациентов вероятности истинных болезней приближаются либо к 1 (№1, №2, №3), либо к 0 (№5). Таким образом, увеличение массива данных, по которым ставится диагноз, приводит к увеличению числа правильных и неправильных диагнозов при постоянном
уровне
надежности.
Практически,
это
означает
сложность
использования постоянного уровня надежности для неодинаковых наборов данных. Сложность заключается в адекватном сравнении результатов диагностики. Таблица 5.3 Влияние уровня надежности на диагностику пациентов, вероятности болезней которых содержатся в табл. 5.2 Количество поставленных диагнозов
Уровень надежности
1-й день
1-2-й дни
1-3-й дни
диагноза
Прав.
Неправ.
Прав.
Неправ.
Прав.
Неправ.
90%
2
0
3
1
3
1
95%
2
0
3
0
3
1
97%
2
0
3
0
3
0
50%
4
1
3
2
4
1
Для данных пациентов и для диагностики за 1-й день наиболее подходящим уровнем диагностической надежности, когда программа реже всего ошибается, является 90%. Уровень надежности 95% – лучший при диагностике за 1 – 2-й дни, 97% – за 1 – 3-й дни. С увеличением количества данных, по которым ставится диагноз, уровень надежности диагноза должен повышаться. В работе далее не исследуется более подробно вопрос выбора уровня диагностической надежности. Он принимается равным 90% для диагностики всех пациентов. На наш взгляд, это, примерно, тот уровень, при котором врач может доверять компьютерному диагнозу. Введение неопределенных диагнозов возвращает нас к проблеме сравнения и оценки качества диагностики различными методами и приемами (или при разных условиях). Например: в каком из расчетов таблиц 5.1 и 5.2 качество диагностики 117
выше, где больше процент верных или меньше процент неверных диагнозов? В таблицах приведены одни и те же расчеты. Просто в таблице 5.2 взят разный уровень надежности. С целью сравнения качества диагностик в разделе 2.6 был введен «коэффициент эффективности» диагностики ( CE ). Определено понятие CE диагностики одного пациента – это расчетная вероятность действительной болезни данного пациента, т.е. той болезни, которой он действительно болен. Общий CE (всех пациентов) – это среднеарифметическое CE каждого пациента. Данный показатель
одновременно
учитывает
и
правильные,
и
неправильные,
и
неопределенные диагнозы. CE является универсальной характеристикой качества диагностики,
не
зависящей
от
уровня
надежности
и
размера
выборки
диагностируемых пациентов. CE диагностики в таблице 5.1 равен 0,9601 (для обоих расчетов он одинаков). 5.2 Серия экспериментов при различных приемах формирований распределений Для проведения экспериментов выбраны непрерывные ДП «билирубин прямой», «билирубин непрямой», «ферменты АСАТ», «ферменты АЛАТ», «щелочная фостафаза», «альбумин», «возраст». Так как только на построение распределений непрерывных признаков влияют описанные в разделах 3.2 и 3.5 правила. Величины признаков взяты для диагностики один раз – в ближайший день от начала болезни. Результаты экспериментов приведены в таблице 5.4. В этой таблице использованы следующие понятия. 1. Высота интервала – число больных, у которых значение признака попадает в данный интервал. Высота интервала, точнее, минимальная высота интервала задается для формирования гистограммы; последняя формируется так, что число больных в интервале, в который попал ДП диагностируемого больного, не менее заданной минимальной высоты интервала. 2. Высота
каждого
интервала
формируется
по
логическим
условиям
«да»/«нет». Если «да», то высота каждого интервала (не только того, в который попало значение признака) будет не меньше, чем в п. 1. В ином случае возможно построение гистограммы, в которой имеются интервалы с любой высотой, даже с 118
нулевой. 3. Унимодальность гистограммы. Гистограмма может быть не унимодальной (значение «нет»), полностью унимодальной для всех интервалов (значение «да»), унимодальной только для интервалов с высотой большей, чем вычисляемая высота (значение «да, относительно»). 4. Центр интервала. При значении «да» гистограмма формируется так, что значение анализа является центром интервала. При «нет» гистограмма формируется без центрирования интервала вокруг значения ДП.
CE – коэффициент эффективности. Это основной показатель, по которому оценивается рациональность выбора того или иного метода построения гистограмм. Как видно по таблице, высота интервала (1-я переменная) должна быть не больше 1. Только при такой величине достигается максимальной количество правильных диагнозов – 471 и коэффициент эффективности – 0,914 (1-й эксперимент из экспериментов 1 – 4). Далее при высоте интервала 1 определяется, необходимо ли условие, когда высота каждого интервала должна быть не меньше найденной минимальной 1 (переменная №2). Это выясняется из сравнения 1 и 6-го экспериментов. Результаты очень похожи, но неприменение этого условия все же предпочтительнее ( CE 1-го эксперимента = 0,9141, CE 6-го эксперимента = 0,9120). Видимо, соблюдение условия
ненулевого
значения
каждого
интервала
чуть-чуть
ухудшает
представительность «главного» интервала, того интервала, в который попал ДП диагностируемого больного. В экспериментах 1, 7, 8 определяется необходимость условия унимодальности (3-я переменная). В 1-м расчете унимодальность не выполняется, в 7-м расчете унимодальность – полная, в 8-м – относительная. Лучшим вариантом ( CE = 0,9146) оказался 8-й эксперимент: т.е. предпочтителен предложенный прием такого разбиения на интервалы, что соблюдается унимодальность интервалов с высотой большей, чем высота интервала, в который попал ДП диагностируемого больного. В 9-м расчете показано, что признак, для которого рассчитывается распределение, должен располагаться в центре интервала ( CE = 0,9194). В 10 и 11-м расчетах еще раз проверяется условие унимодальности. 119
Некоторые
варианты
построения
распределений
демонстрируются
в
приложении 2, где приведены примеры определения вероятностей и плотностей вероятностей ДП одного из пациентов. Таким образом, экспериментальным путем подобраны следующие условия построения гистограмм: 1. Высота интервала = 1. 2. Высота каждого интервала гистограммы, кроме интервала, указанного в предыдущем пункте, может быть любой. 3. Должна соблюдаться унимодальность гистограммы для всех интервалов, высота интервала в которых больше, чем в интервале, указанном в пункте 1. 4. Интервал следует формировать так, что признак, плотность распределения которого рассчитывается, должен попадать в центр интервала. Таблица 5.4 Численные эксперименты по формированию распределений Поставленных диагнозов № Правила формирования распределений Правиль Непра- Неопред CE экс. -ных вильных еленных 1. Высота интервала – 1 2. Высота каждого интервала – нет 1. 471 14 79 0.9141 3. Унимодальность гистограммы – нет 4. Симптом – центр интервала – нет 1. Высота интервала – 2 2. Высота каждого интервала – нет 2 467 14 83 0.9077 3. Унимодальность гистограммы – нет 4. Симптом – центр интервала – нет 1. Высота интервала – 4 2. Высота каждого интервала – нет 3 468 13 83 0.9088 3. Унимодальность гистограммы – нет 4. Симптом – центр интервала – нет 1. Высота интервала – 8 2. Высота каждого интервала – нет 4 463 17 84 0.9045 3. Унимодальность гистограммы – нет 4. Симптом – центр интервала – нет 1. Высота интервала – 16 2. Высота каждого интервала – нет 5 446 12 106 0.8947 3. Унимодальность гистограммы – нет 4. Симптом – центр интервала – нет 1. Высота интервала – 1 2. Высота каждого интервала – да 6 471 15 78 0.9120 3. Унимодальность гистограммы - нет 4. Симптом – центр интервала – нет 120
Продолжение таблицы 5.4 № экс.
Правила формирования распределений
1. Высота интервала – 1 2. Высота каждого интервала – нет 7 3. Унимодальность гистограммы – да, полная 4. Симптом – центр интервала – нет 1. Высота интервала – 1 2. Высота каждого интервала – нет 8 3. Унимодальность гистограммы – да, относит. 4. Симптом – центр интервала – нет 1. Высота интервала – 1 2. Высота каждого интервала – нет 9 3. Унимодальность гистограммы – да, относит. 4. Симптом – центр интервала – да 1. Высота интервала – 1 2. Высота каждого интервала – нет 10 3. Унимодальность гистограммы – да, полная 4. Симптом – центр интервала – да 1. Высота интервала – 1 2. Высота каждого интервала – нет 11 3. Унимодальность гистограммы – нет 4. Симптом – центр интервала – да
Поставленных диагнозов Правиль Непра- Неопред -ных вильных еленных
CE
469
16
79
0.9108
476
16
72
0.9146
485
14
65
0.9194
477
15
72
0,9184
475
15
74
0,9164
5.3 Серия экспериментов при различных приемах формирования базы данных Для проведения экспериментов использовались все ДП. Для диагностики признаки взяты один раз – в ближайший день от начала болезни. Гистограммы ДП сформированы по правилам, определенным в предыдущем параграфе. Результаты экспериментов приведены в таблице 5.5. Поясним содержащиеся в таблице краткие названия. «Укрупнения дней» – это количество дней, за которое усредняются признаки с целью получения более репрезентативной выборки при построении гистограмм. Для примера приведены ДП одного из пациентов
121
Таблица 5.5 Признаки кожный зуд АЛАТ
Данные пациента N Дни, когда у пациента были определены диагностические признаки 1 2 4 5 8 11 15 20 30 + + + – – – 2.0 1.8 2.0 1.4 1.0 0.6 0.4 0.2 0.2
Пусть необходимо выбрать данные по АЛАТ за 6-й день для гистограммы. Если нужно укрупнить 5 дней, тогда берутся анализы около заданного дня – 4, 5, 6, 7, 8-й дни (всего 5 дней, но только в трех из пяти дней имеются данные), далее берется среднее. Результат – (2,0+1,4+1,0)/3 = 1,47. Если нужно укрупнить 3 дня, тогда берутся анализы за 5, 6, 7-й дни (всего 3 дня, и только в 6-й день имеется анализ). Результат – (1,4)/1 = 1,4. Вырожденный случай – когда нужно укрупнить 1 день, тогда берутся анализы только за 6-й день. Так как анализ не проводился, то данные этого пациента именно в 6-й день в гистограмму не войдут. То есть, чем больше дней укрупняются для выборки, тем больше данных получаем для гистограммы. Но одновременно с этим сильнее сглаживаются истинные значения признаков. Необходимо определить предел укрупнения дней, когда диагностика начнет ухудшаться. «Распространение признаков» – учитывается «постоянность» некоторых дискретных признаков в течение определенного времени. По медицинским данным следующие признаки желтухи не меняются за характерные периоды времени (табл. 5.6). Таблица 5.6 Интервалы дней, за время которых признаки не успевают измениться Дней Наименование признака
до определения
после определения
Расширение холедоха
3
до операции
Расширение внутренних печеночных ходов
3
до операции
Зеленый цвет печени
от поступления
до операции
Маркеры
от поступления
до выписки
Инородное тело
от поступления
до операции
122
Таким образом, зная анализ «маркеры в 8-й день», можно считать известными маркеры в любой из дней от начала до конца болезни (и далее). Это позволяет собрать более представительную выборку по маркерам в любой день. «Искусственные распределения» – построение искусственных распределений на основании опыта врача. Искусственные распределения используются при отсутствии данных для вычисления надежного истинного распределения (см. раздел 3.3). Численные эксперименты по определению
целесообразности «укрупнения
дней» и «распространения признаков» приведены в таблице 5.7. Согласно результатам этих методических экспериментов необходимо укрупнять данные максимум за 5 дней. Коэффициент эффективности такой диагностики CE = 0,9468 (3-й эксперимент). Другие эксперименты (1, 2, 4, 5) показывают по оценке CE худшие результаты. Опираясь
на
эту
информацию,
был
проведен
6-й
эксперимент,
демонстрирующий влияние эффекта распространяемости признаков. Количество правильных диагнозов увеличилось на 5 (по сравнению с 3-м экспериментом). Неправильных уменьшилось на 1, CE = 0,9512. Следующий шаг – применение медицинских интервалов (7-й расчет). Фактически используются статистические распределения, полученные не из статистики (ввиду ее ограниченности), а из опыта эксперта (но не знаний эксперта). Получены следующие результаты. Правильных – 524. CE = 0,9626. По результатам расчетов выработаны следующие правила построения распределений: 1. Укрупнение дней – оптимально 5 дней. 2. Использование распространения признаков. 3. Использование искусственных распределений. По этим правилам получена наилучшая диагностика 564 пациентов: правильных диагнозов поставлено 524, неправильных – 8, неопределенных – 32,
CE = 0,9626.
123
Таблица 5.7 Численные эксперименты по формированию базы данных Количество поставленных диагнозов № Правила формирования распределений эксп. Правиль- Непра- Неопреных вильных деленных 1. 1. Укрупнение дней – 1 2. Распространения симптомов – нет 494 12 58 3. Искусственные распределения – нет 2. 1. Укрупнение дней – 3 2. Распространения симптомов – нет 501 11 52 3. Искусственные распределения – нет 3. 1. Укрупнение дней – 5 2. Распространения симптомов – нет 513 10 41 3. Искусственные распределения – нет 4. 1. Укрупнение дней – 7 2. Распространения симптомов – нет 512 11 41 3. Искусственные распределения – нет 5. 1. Укрупнение дней – 9 2. Распространения симптомов – нет 513 12 39 3. Искусственные распределения – нет 6. 1. Укрупнение дней – 5 2. Распространения симптомов – да 518 9 37 3. Искусственные распределения – нет 7. 1. Укрупнение дней – 5 2. Распространения симптомов – да 524 8 32 3. Искусственные распределения – да Диагностика проведена на базе 564 тестовых больных.
124
CE
0,9330 0,9403 0,9468 0,9467 0,9445 0,9512 0,9626
5.4 Серия экспериментов с использованием многомерных распределений В таблице 5.8 приведены результаты диагностики всех пациентов на основе двух признаков АЛАТ и АСАТ. Признаки выбраны не случайно. Это одни из наиболее взаимозависимых признаков. Их зависимость подтверждена различными статистическими методами и врачом. Таблица 5.8 Результаты численных экспериментов по объединению признаков АЛАТ и АСАТ в двумерный признак Связи между признаками каждой болезни 1. Механическая желтуха – два одномерных признака, паренхиматозная желтуха – два одномерных признака
для
2. Механическая – двумерный, паренхиматозная – двумерный 3. Механическая –два одномерных, паренхиматозная – двумерный 4. Механическая – двумерный, паренхиматозная – два одномерных
Количество поставленных диагнозов CE всего правильн. неправил. неопредел 402
311
21
70
0,86
402
191
13
198
0,80
402
214
16
72
0,81
402
290
20
92
0,84
В таблице приведены результаты 4-х диагностических тестов. Два признака могут быть взаимозависимы по-разному для каждой болезни. Для паренхиматозной желтухи признаки могут быть сильно зависимы, здесь объединение признаков в двумерный признак может дать определенный эффект, а для механической желтухи зависимость может оказаться слабой, незначимой. В последнем случае двумерный признак может не привести к улучшению диагностики, вследствие ограниченности статистики: погрешности, возникающие при построении двумерного распределения, могут оказаться сильнее преимущества при учете взаимозависимости. Поэтому предусмотрено построение многомерных признаков, в которых соответствующая взаимозависимость автоматически учитывается для каждого диагностического состояния в отдельности. Таким образом, рассматриваются 4 варианта связей между признаками для обеих болезней. Результаты экспериментов, на наш взгляд, неоднозначны. С одной стороны, если судить по CE и по правильным диагнозам, эффект от объединения АЛАТ и 125
АСАТ – отрицательный. Так, при использовании признаков как одномерных и независимых (см. графу 1), количество правильно поставленных диагнозов – 311 ( CE = 0,86), а при объединении признаков в один двумерный признак при обеих болезнях (см. графу 2) количество правильных диагнозов – 191 ( CE = 0,80). Выше сказано о факторах, которые могли привести к такому выводу. С другой стороны, количество неправильных диагнозов явно уменьшилось: 1-я графа – 21 диагноз, 2-я графа – 13 диагнозов. По нашему мнению, уменьшение количества неправильно поставленных диагнозов важнее, чем увеличение правильных диагнозов. Именно поэтому мы считаем результаты экспериментов неоднозначными. Диагностика на других вариантах связей (3 и 4-я графа) заняла промежуточное положение. Таблица 5.9 Результаты численных экспериментов по объединению признаков «билирубин прямой и непрямой» в двумерный признак Связи между признаками для каждой Количество поставленных диагнозов CE болезни всего правильн неправил. неопред. 1. Механическая – два одномерных, 393 20 4 369 0,65 паренхиматозная – два одномерных 2. Механическая – двумерный, 393 40 2 351 0,66 паренхиматозная – двумерный 3. Механическая – два одномерных, 393 84 9 300 0,67 паренхиматозная – двумерный 4. Механическая – двумерный, 393 41 4 348 0,64 паренхиматозная – два одномерных Два признака – билирубин прямой и непрямой – также являются сильно взаимозависимыми (по статистическим и медицинским данным). В этом случае объединение признаков в двумерный признак для паренхиматозной желтухи (графа 3) дает небольшое диагностическое преимущество, если судить по CE и количеству правильных диагнозов. Количество неправильных диагнозов, как видно по таблице, уменьшается, когда используется объединение билирубинов при каждой из болезней (графа 2). Возникает мысль, что нельзя сделать однозначного вывода о том, что всегда нужно объединять признаки или всегда нужно не объединять признаки. Для одного набора
признаков
(пары)
построение
многомерного
распределения
не
оправдывается, для другого набора – объединение полезно, если сравнивать по числу правильных, неправильных диагнозов или CE . Далее, решение об 126
объединении признаков в многомерный признак основывается на сравнении коэффициентов эффективности. Предложенную методику можно детализировать. В частности, можно рассмотреть 2 признака, у которых при высоких значениях каждого признака объединение в пару рационально (повышает CE ), а при низких значениях – нет (снижает CE ) и т. п. Врачи рассматривают значения признаков «билирубин прямой» и «билирубин непрямой» в пределах трех категорий: значения в норме, высокие (выше нормы), очень высокие (много выше нормы). Для двумерного признака «билирубин прямой» – «билирубин непрямой» образовывается девять комбинаций таких категорий. Ниже приведена таблица результатов диагностики с учетом того, что признаки разбиты на категории – медицинские интервалы. Таблица 5.10 Результаты численных экспериментов по объединению признаков «билирубин прямой и непрямой» в двумерный признак.
паренхиматозная желтуха – двумерный
127
Неопред еленных
2. Механическая желтуха – двумерный,
3 Н ВН МВН Н ВН МВН Н ВН МВН Н ВН МВН Н ВН МВН Н ВН МВН
Неправи льных
паренхиматозная желтуха – два одномерных признака
2 Н Н Н ВН ВН ВН МВН МВН МВН Н Н Н ВН ВН ВН МВН МВН МВН
Правиль ных
1 1. Механическая желтуха – два одномерных признака,
Категории Категории Поставленных диагнозов для для билирубина билирубина непрямого прямого Всего
Связи между признаками для каждой болезни
CE
4 16 6 7 15 36 158 0 4 153 16 5 7 15 36 158 0 4 152
5 5 1 2 0 0 62 0 0 19 5 1 2 0 0 45 0 0 33
6 0 0 1 0 0 11 0 0 2 0 0 1 0 0 8 0 0 3
7 11 5 4 15 36 85 0 4 132 11 4 4 15 36 105 0 4 116
8 0,617 0,645 0,655 0,501 0,576 0,713 0 0,350 0,662 0,605 0,745 0,615 0,524 0,591 0,708 0 0,398 0,684
Продолжение таблицы 5.10 1 2 3 4 5 6 7 8 Н Н 16 5 0 11 0,647 Н ВН 5 1 0 4 0,693 3. Механическая Н МВН 7 3 2 3 0,679 желтуха – два ВН Н 15 0 0 15 0,482 одномерных, ВН ВН 36 0 0 36 0,531 ВН МВН 158 8 3 147 0,683 паренхиматозная МВН Н 0 0 0 0 0 желтуха – двумерный МВН ВН 4 0 2 2 0,278 МВН МВН 153 36 3 114 0,662 Н Н 16 5 0 11 0,582 Н ВН 5 1 0 4 0,751 4. Механическая Н МВН 7 2 1 4 0,581 желтуха – двумерный, ВН Н 15 0 0 15 0,538 ВН ВН 36 2 0 34 0,621 паренхиматозная ВН МВН 158 87 16 55 0,734 желтуха – два МВН Н 0 0 0 0 0 одномерных МВН ВН 4 0 0 4 0,546 МВН МВН 152 36 2 114 0,669 Н – норма (для значений признака, не превышающих норму); ВН – выше нормы (для значений, превышающих норму); МВН – много выше нормы (для значений, намного превышающих норму) Основным критерием для выбора способа объединения ДП являлся коэффициент эффективности. То есть выбирался тот способ объединения, при котором CE является наибольшим. Таблица 5.11 Выбор объединения ДП в зависимости от категории признаков Категории ДП для механической и для паренхиматозной желтухи Категории для Категории для билирубина билирубина непрямого прямого Н Н Н ВН Н МВН ВН Н ВН ВН ВН МВН МВН Н МВН ВН МВН МВН
CE
Выбор в пользу объединения двух ДП в двумерный признак
0,647 0,751 0,679 0,581 0,621 0,734 0 0,546 0,684
Механич. – 1-мерные, паренхим. – 2-мерный Механич. – 2-мерный, паренхим. – 1-мерные Механич. – 1-мерные, паренхим. – 2-мерный Механич. – 2-мерный, паренхим. – 1-мерные Механич. – 2-мерный, паренхим. – 1-мерные Механич. – 2-мерный, паренхим. – 1-мерные Механич. – 2-мерный, паренхим. – 1-мерные Механич. – 2-мерный, паренхим. – 2-мерный 128
В таблице для каждой категории ДП найден наилучший способ их объединения. Теперь для этих признаков вопрос объединения или не объединения решается для каждого больного индивидуально, в зависимости от величины признаков, от попадания их в ту или иную категорию. Например, у пациента ДП оказались в категориях: «норма» – для непрямого и «выше нормы» – для прямого билирубина. Тогда лучшим вариантом объединения признаков будет: двумерный признак – для механической желтухи и два одномерных признака – для паренхиматозной желтухи. Так же детально рассматривалось объединение всех пар признаков. При этом проблемой являлся (и остался) выбор признаков для объединения в один многомерный признак. Дело в том, что признак можно объединить в пару не только с одним признаком, но и с несколькими другими признаками. Выше мы объединяли наиболее зависимые признаки, чтобы в наибольшей мере избавиться от погрешностей,
возникающих
при
рассмотрении
зависимых
признаков
как
независимых. Возможны и другие подходы к выбору пар признаков для объединения. Например, можно выбрать те пары, у которых CE диагностики – наибольший (максимум CE ). Для диагностики реально использовалось 19 ДП, рассматриваемых в течение 10 дней (то есть теоретически до 190 признаков). Возникает вопрос, с каким из других признаков объединить в пару данный признак? Один из подходов к выбору пар состоял в том, что каждый признак использовался один раз, поскольку повторное использование признака не дает существенно новой диагностической информации. То есть каждый признак входил только в одну пару. Формирование пар, исходя из изложенного подхода и принципа максимума CE , рассмотрим на примере диагностики по четырем признакам.
129
Таблица 5.12 Коэффициент эффективности диагностики для всех пар, составленных из 4-х ДП Признак N
Признак M
1 1 1 2 2 3
2 3 4 3 4 4
CE при рассмотрении признаков как одномерных (независимых) 0.7 0.8 0.6 0.6 0.7 0.8
объединенных в двумерный 0.8 0.7 0.9 0.7 0.9 0.9
Эффект от объединения 0.1 -0.1 0.3 0.1 0.2 0.1
Обозначения: N и M – номера признаков. По этим данным можно рекомендовать объединения признаков: 1 – 2, 1 – 4, 2 – 3, 2 – 4, 3 – 4. Объединение признаков 1 – 3 нецелесообразно, так как эффект от объединения – отрицателен. Продолжим выбор пар признаков для диагностики, ограничиваясь вариантом, когда каждый признак участвует в диагностике только один раз. По данным таблицы 5.12, для диагностики перспективны следующие 3 варианта наборов признаков и их пар: 1) 1 – 2, 3 – 4;
2) 1 – 4, 2 – 3;
3) 2 – 4, 1 – 3.
Далее необходимо выбрать один из вариантов объединения. Например, по следующему алгоритму. Пары признаков (табл. 5.12) сортируются по эффекту от объединения. Результаты, полученные после сортировки, приведены в таблице 5.13. Таблица 5.13 Коэффициент эффективности диагностики для всех пар из четырех признаков, после сортировки Признак N
Признак M
1 2 1 2 3
4 4 2 3 4
CE при рассмотрении признаков как одномерных (независимых) 0.6 0.7 0.7 0.6 0.8
объединенных в двумерный 0.9 0.9 0.8 0.7 0.9
Эффект от объединения 0.3 0.2 0.1 0.1 0.1
На основании этих данных (приведенных в таблице 4 результатов сортировки) в пару объединяем признаки, показавшие максимальный эффект от объединения. Это пара 1 – 4 . Далее находим другие пары (вниз по таблице 5.13), признаки 130
которых не включены в уже составленные пары. Таким образом, составляем «лучший» набор признаков: 1 – 4, 2 – 3. (Этот набор одинаков для всех пациентов, у которых имеются эти признаки. Для тех пациентов, у которых отсутствует хотя бы один из рассмотренных 4-х признаков, набор будет иной.) Именно так, как это описано в рассмотренном примере, выбирались двумерные признаки для диагностики механической и паренхиматозной желтух. Для каждого больного, опираясь на его собственный набор анализов, симптомов и данных инструментальных обследований, создавались двумерные признаки. Другие признаки пациента, не вошедшие в состав двумерных, входили в формулу Байеса как одномерные, независимые признаки. Причем, как уже замечено, объединение признаков может основываться на сравнении CE общего для признаков, или на детализированном сравнении CE , в зависимости от величин анализов пациента и попадания анализов в ту или иную категорию. Оба варианта были проверены в экспериментальных
расчетах.
При
этом
получены
следующие
результаты
диагностики. Таблица 5.14 Результаты численных экспериментов по объединению всех признаков в двумерные признаки Объединения пар признаков, в зависимости от общего или детального рассмотрения эффекта объединения. 1. Диагностика до применения двумерных признаков 2. Использование общего CE 3. Использование детального CE
Процент поставленных диагнозов Правильных 93,8
Неправильн. 2,1
Неопредел. 4,1
92,4 94,9
2,3 1.2
5,3 3,9
Диагностика выполнена 564 больным. Введение двумерных распределений без тонкого рассмотрения признаков привело к ухудшению результатов диагностики. После объединения части признаков в двумерные количество правильных диагнозов выросло с 93,8% до 94,9%, то есть на 1,1%. На наш взгляд, уточнение диагностики
не
столь
существенно, чтобы
стоило
вводить
учет
парных
зависимостей в повседневную диагностику. Выше
уже
обсуждались
причины
скромного
эффекта
использования
многомерных распределений и высказывалось предположение, что эффект 131
проявится после увеличения базы данных. 5.5 Серия экспериментов с учетом динамики заболеваний В
этом
разделе
изложены
результаты
методических
численных
экспериментов. Для построения гистограмм и формирования базы данных используются рекомендации, определенные в предыдущих параграфах, т.е. признаки из базы данных обрабатываются согласно выработанным рекомендациям. У диагностируемого пациента используются все ДП, которые не обрабатываются умышленно, чтобы методически разделить эффекты разных стадий учета динамики. В настоящем разделе исследованы приемы учета динамики, названные в разделе 2.4 первым приближением, согласно которому для диагностики используются все ДП, включая все повторно определенные ДП, и повторно (многократно) определенные ДП
(за
исключением
неизменных)
считаются
отдельными,
независимыми
признаками. (То есть никакого усреднения многократно определенных ДП у диагностируемого пациента не производится, это делается во втором приближении). Таблица 5.15 Численные эксперименты по учету динамики заболеваний Процент поставленных диагнозов. Дни, в порядке их Всего CE использования диагноПравильных Неправильн. Неопределен. для диагностики зов 1 409 82.9 2.7 14.4 0.916 2 504 87.7 2.4 9.9 0.941 3 550 89.1 2.6 8.4 0.945 4 556 90.8 1.9 7.2 0.954 5 563 92.2 1.9 5.9 0.956 6 563 92.2 2.1 5.7 0.958 7 563 92.9 2.3 4.8 0.960 8 563 93.6 2.1 4.3 0.963 9 563 93.8 1.9 4.3 0.965 10 563 93.8 2.1 4.1 0.964 11 563 93.4 2.1 4.4 0.964 12 563 93.6 2.1 4.3 0.965 13 563 93.4 2.1 4.4 0.963 14 563 93.6 2.3 4.1 0.962 15 563 93.8 2.3 3.9 0.963 20 564 93.4 2.1 4.4 0.962 30 564 93.4 2.1 4.4 0.961 50 564 93.4 2.1 4.4 0.961 132
В первой графе приведены результаты диагностики 409 больных, у которых имеются диагностические признаки в 1-й день (день поступления в больницу), во 2й графе – результаты диагностики 504 больных, у которых имеются признаки в 1 или 2-й день (в том числе больных, у которых есть ДП в оба дня). В 10-й графе – итоги диагностики 563 больных, у которых имеются анализы в любой (хотя бы один) из первых 10 дней, и т.д. По таблице 5.15 видно, что, добавляя новую информацию, поступающую во 2й день, 3-й день и т.д., мы получаем уточнение диагноза для всех пациентов и диагностируем других больных, у которых начинают появляться анализы. Точность диагностики увеличивается с каждым днем (судя по правильным диагнозам и CE). Сравнивая диагностику по 1-му дню и 9-му дню, можно сказать, что процент правильных диагнозов увеличился на 11%, неправильных уменьшился на 0,8%. CE увеличился на 0.049. Эффективность диагностики улучшается вплоть до 9-го дня, после которого незначительно снижается. Снижение результатов диагностики объясняется нехарактерным, не естественным для больных механической желтухой течением болезни после 9 – 10 дня, когда у многих пациентов сделаны операции. Нельзя сравнивать данные больных механической желтухой после 10 дня, так как у одного больного анализы значительно отличаются от нормы (у него еще не было операции), а у другого – уже ближе к норме (уже была операция). В дальнейших исследовательских расчетах информация, поступающая после 10 дня лечения больного, в диагностике не участвует (правильнее было бы, ограничится не 10-ым днем, а днем операции). Сравнение результатов диагностики, приведенных в таблице 5.15, не вполне корректно. Ни у одного из пациентов нет ДП, определенных в каждый день течения болезни. Только для таких больных мы можем адекватно проследить влияние динамики болезней на диагностику – на то, как дополнительные анализы в каждый новый день улучшают или ухудшают результаты. Чтобы проследить, как влияет на результаты учет каждого нового диагностического дня, проведены эксперименты, по которым построены следующие таблица 5.16 и график на рис. 5.5.1.
133
Таблица 5.16 Численные эксперименты по учету динамики заболеваний Количество дней, используемых для диагностики 1 2 3 4 5
Процент поставленных диагнозов. Всего диагноCE правильных неправильн. неопределен. зов 564 564 564 564 564
84.5 91.8 93.1 93.8 93.1
2.3 2.1 1.6 2.0 2.0
13.1 6.0 5.3 4.2 4.9
0.926 0.952 0.96 0.96 0.96
По этой таблице построен следующий график. 1.00 0.95 0.90
0.931 0.895
CE
0.901 0.866
0.85
0.934
0.957
0.942
0.901
0.900
доля правильных диагнозов
0.80 0.766
0.75 0.25 0.20
0.207
0.15
0.120
0.10
0.072
0.089
0.066
доля неверных диагнозов
0.05 0
доля неопределенных диагнозов
0.026
1
0.014
0.026
0.033
3
4
2
0.011
18
5
Рис. 5.5.1 График изменения результатов диагностики в зависимости от количества дней, используемых при диагностике Первым диагностическим днем считается день, когда у пациента впервые появились анализы (он не всегда совпадает с днем поступления пациента в больницу). Во втором эксперименте (2-я графа и 2-ой день на графике) были взяты данные пациентов, имеющих анализы в любые два дня, даже, если между ними есть еще дни, в которые анализы не были определены. В третьем эксперименте (3-я 134
графа) диагностировались пациенты, имеющие анализы в любые три дня и т.д. Расчет на 5-й день – лучший, в этом расчете для диагностики используется больше всего дней (и соответственно диагностических признаков). Неправильных диагнозов по пяти диагностическим дням поставлено меньше всего, а коэффициент эффективности
–
самый
высокий.
Результаты,
приведенные
на
рис. 5.1,
подтверждают вывод о том, что для улучшения диагностики следует учитывать динамику заболеваний. В 1-й день лишь у 409 больных определены некоторые анализы и симптомы, получены
результаты
инструментальных
обследований.
Добавляя
новую
информацию, поступающую во 2-й день, 3-й день и т.д. мы получаем уточнение диагноза для всех пациентов и диагностируем других больных, у которых начинаются появляться анализы. Учет
динамики
заболеваний
–
прием,
впервые
используемый
в
диагностических программах. Полагая, что признак в 1-й день и признак во 2-й день –
два
совершенно
поступающую
к
врачу
разных
признака,
информацию
о
стало
возможным
динамике
болезни.
использовать Несмотря
на
приближенность использованной в настоящем разделе методики учета динамики (использовано первое приближение, не учтено, что признаки в соседние дни сильно взаимозависимы) точность диагностики намного увеличивается. 5.6 Результаты байесовской диагностики с учетом динамики заболеваний Все
основные
результаты
диагностики
с
использованием
различных
методических приемов сведены в сравнительную таблицу 5.17. В таблице представлены численные эксперименты предыдущих разделов и результаты диагностики с учетом динамики одномерных ДП по выработанным рекомендациям, в соответствии с которыми сильнозависимые многократно определенные значения ДП усредняются (в главе 4, в разделе 4.1, такой подход условно назван вторым приближением).
135
Таблица 5.17 Результаты основных численных экспериментов Результаты диагностики
Процент поставленных диагнозов Правил. Неправ. Неопред.
1. По исходной базе данных без учета динамики заболеваний 2. По «адаптированной» базе данных, учитывается динамика болезней 3. С применением двумерных распределений, учитывается динамика 4. С усреднением многократно измеренных признаков, учитывается динамика
86
2
12
93,5
2
4,5
95
1
4
97
1
2
Как видно из таблицы, усреднение признаков, определенных в близкие дни (в близкие интервалы времени) (графа 4), дает больший эффект, чем учет двумерных зависимостей (графа 3). Данные таблицы также демонстрируют преимущество диагностики с использованием динамики болезней. В 4-й графе таблицы отражен высокий уровень диагностики – 97% правильных диагнозов, 1% неправильных диагнозов, 2% – неопределенных диагнозов. Эти результаты позволяют говорить о том, что созданная методика диагностики реализует поставленные в настоящем исследовании цели.
136
Глава 6 Сравнение результатов дифференциальных диагностик методами Байеса, дискриминантного анализа, классификационных деревьев и нейронных сетей Кроме вышеизложенной диагностики на базе формулы Байеса по тем же самым исходным данным выполнялась диагностика еще тремя методами классификации и прогноза: дискриминантный анализ, классификационные деревья, нейронные сети. Диагностика первыми двумя методами была
проведена по программе
«Statistica», а методом нейронных сетей с помощью программы «NeuroPro» (NeuroPro 0.25,
автор
Царегородцев Е.А.,
Красноярский
центр
нейросетевых
исследований). В отличие от авторской программы диагностики, указанные программы требуют для расчетов полные наборы признаков для каждого больного. При
неполных
наборах
методы
дискриминантного
анализа
и
деревьев
классификации обязывают заменить пропуски средними значениями для каждого ДП. При диагностике методами дискриминантного анализа, классификационных деревьев и нейронных сетей были использованы оригинальные методические наработки, которые обеспечили эффективность диагностики по методу Байеса: учет динамики заболеваний путем использования диагностических признаков и их распределений в разные дни болезни, объединение распределений в близкие дни болезней, включение в ДП пола и возраста пациентов и др. Таким образом, приводится не чистое сравнение авторской методики диагностики с другими методами. Чистое сравнение невозможно, т.к. эти три метода не работают с прямой базой данных, полученной по реальному обследованию больных. Они функционируют и показывают достойные результаты только с нашими оригинальными наработками. Результаты сравнения перечисленных выше трех методов и нашей методики приведены в таблице 6.1. Для получения результатов использовались две процедуры оценки точности диагностики: «кросс-проверка» на тестовой выборке и проверка на полной выборке. Полная проверка производилась на всех больных, включенных в 137
статистику. Для «кросс-проверки» из базы данных были извлечены случайным образом 20% тестовых больных. Обучение проходило на оставшихся 80%. Эта проверка более значима, ее результаты более близки к реальным. Таблица 6.1 Результаты диагностики на полной выборке и «кросс-проверке» Процент поставленных диагнозов Метод диагностики и процедура тестирования правильных неправильных неопределенных 1а. Дискриминантный анализ 92 8 0 2а. Деревья классификации 93 7 0 3а. Формула Байеса 96 1 3 4а. Нейронные сети 97 3 0 1б. Дискриминантный анализ 94,5 5,5 0 2б. Деревья классификации 95 5 0 3б. Формула Байеса 97 1 2 4б. Нейронные сети 100 0 0 Пункт «а» – кросс-проверка на тестовой выборке, «б» – проверка на полной выборке. На полной выборке лучшие – нейронные сети (п. 4б – 100%). Этот результат несколько отдален от практики, так как диагностируемый пациент не исключен из базы данных (статистика фактически знает, чем болен каждый диагностируемый больной). Как только появляются новые, не входящие в базу обучения, больные (п. 4а) диагностика не столь безошибочна – 97%. Дискриминантный анализ и деревья классификации диагностируют с близкой точностью (п. 1а, 2а) 92% – 93%, (п. 1б, 2б) 94,5-95% и проигрывают по качеству диагностики другим тестируемым методам. Метод Байеса занимает промежуточное положение по проценту правильно поставленных диагнозов (96%), если же сравнивать по неправильно поставленным диагнозам, то метод Байеса – лучший (1% против 3% у нейронных сетей). «Байес» (см. п. 3а) у 3% пациентов «отказался» ставить диагноз (3% неопределенных диагнозов), и количество неправильных диагнозов составило 1%. Высокая оценка метода Байеса представляется нам верной: лучше в ряде случаев отказаться от постановки диагноза, чем поставить неверный диагноз. Именно в этом смысле метод Байеса оказался несколько лучше нейронных сетей. В сведенных в таблицу 6.1 расчетах по всем методам использовалась динамика заболеваний. Без учета динамики диагностика ухудшается, что иллюстрируется таблицей 6.2, в которой 138
приведены расчеты только по ДП одного дня болезни – дня поступления пациента в больницу. Таблица 6.2 Для диагностики данные взяты один раз – в день поступления пациента в больницу Метод диагностики и процедура оценки точности 1а. Дискриминантный анализ 2а. Деревья классификации 3а. Формула Байеса 4а. Нейронные сети 1б. Дискриминантный анализ 2б. Деревья классификации 3б. Формула Байеса 4б. Нейронные сети
Процент поставленных диагнозов Правильных неправильных неопределенных 91 9 0 90,5 9,5 0 85,5 2 12,5 90 5,5 4,5 92 8 0 91,5 8,5 0 88 2 10 100 0 0
Хотя по полной выборке нейронные сети – безошибочны, по кросс-проверке диагностика почти всех методик на уровне 90%. (Против 97% при учете динамики.) Лучший – дискриминантный анализ (91% правильных). Метод Байеса отстает (85% правильных), но по неправильным диагнозам он опять лучший (2% против 9% у дискриминантного анализа и 5,5% у нейронных сетей). Учет динамики по разному повышает точность диагностики каждым методом. У дискриминантного анализа и деревьев классификации (при кросспроверке) рост числа правильных диагнозов не выше 2,5%. А у метода Байеса и нейронных сетей этот рост соответственно 10,5% и 7%. Так, без динамики метод Байеса и нейронные сети по числу правильных диагнозов хуже дискриминантного анализа и деревьев классификации, а при учете динамики метод Байеса и нейронные сети – значительно лучше остальных методов. Положительное влияние учета динамики на диагностику сравнимо с различием между эффективностью разных методов. По проценту правильных диагнозов методы при «кросс-проверке» отличаются не более чем на 5,5 %, а средний рост правильных диагнозов из-за учета динамики – 5,25 %.
139
Заключение После того как были отлажены приемы работы с данными все тестируемые и предложенные методы показали хорошее или отличное качество диагностики. Это не слишком ожидаемый результат тем более, что даже лучшие из использованных методов не содержат гарантии постановки правильного диагноза. В чем же причина успеха методов? Представляется, что успешность математической диагностики основана на том, что в диагностических признаках содержится избыточная информация. Многократные указания на верный диагноз перекрывают не только расплывчивость другой части информации, но и ошибки диагностики. Не исключено,
что
успешность
врачебной
диагностики
имеет
аналогичную
составляющую – избыточность исходной информации. Основной результат настоящего исследования – новые предложения и выводы, среди которых отметим следующие. Поставлена
задача
создания
методов
диагностики,
сочетающих
математический (статистический) и медицинский подходы. В качестве таких методов
предложено
дополнение
статистики,
основанное
на
понимании
клинического течения заболевания, патологических изменений при нем и других медицинских знаниях, и задание условных вероятностей одних диагностических признаков (ДП) относительно других [104]4. Показано,
что
переход
к
многомерным
распределениям
является
естественным путем учета взаимозависимости ДП [95, 96, 99, 101, 110], предполагается, что повышение качества диагностики за счет использования многомерных ДП начинается тогда, когда количество статистических данных превысит определенный порог [112, 114]. Для
решения
теоретических
вопросов
диагностики
математическими
методами и тестирования разрабатываемых методов предложены имитационные модели болезней с возможностью моделировать динамику и взаимозависимость ДП, выбирать их число и др. [115, 120].
4
Здесь и далее в тексте заключения даны ссылки на авторские публикации, в которых сделаны приведенные выводы.
140
Введенный критерий эффективности диагностики вероятностными методами единообразно оценивает качество диагностики одного больного и группы больных и объективно отражает эффективность диагностики [111]. Поставлена и математически решена задача оптимальной последовательности обследования пациента, иными словами, нахождения диагностического признака, наиболее необходимого для дальнейшего уточнения диагноза и др. [102, 135]. Предложенная диагностика методом наибольшего правдоподобия [90 – 93, 95, 97, 99, 100, 101, 110] приводит к хорошим результатам [94, 98]. Разработанный алгоритм позволяет найти вероятность быстрее и надежнее, чем классические методы [101, 110]. Высказано
предположение,
что
диагностика
методом
искусственных
нейронных сетей может быть усилена использованием вероятностных методов [142, 143]. Создана
методика
диагностики
с
учетом
многократно
определенных
диагностических признаков, в частности, методика диагностики с учетом динамики заболеваний [103 и др.]. Методика реализована в виде универсальной компьютерной программы,
которая
используется
для
диагностики
механической
и
паренхиматозной желтух; точность диагностики 97% правильных, 1% неправильных и 2% неопределенных диагнозов.
141
Литература 1.
Представление и использование знаний / под ред. Х. Уэно, М. Исудзука. –
М.: Мир, 1989. – 220 с. 2.
Элти Дж. Экспертные системы: концепции и примеры / Дж. Элти,
М. Кумба. – М.: Финансы и статистика, 1987. – 191 с. 3.
Таунсенд К. Проектирование и программная реализация экспертных систем
на ЭВМ / К. Таунсенд, Д. Фохт. – М.: Финансы и статистика, 1990. 4.
Уотермен Д. Руководство по экспертным системам: пер. с англ. /
Д. Уотермен. – М.: Мир, 1989. – 388 с.: ил. 5.
An expert system for the diagnosis of epilepsy: results of a clinical trial /
S. V. Thomas, J. R. Kurup, А. Kuruvilla etc. // Natl Med J India. – 2001. – Sep-Oct;14(5). – P. 274-276. 6.
Экспертная система прогнозирования течения рака предстательной железы
как результат базы данных канцер-регистра [Электронный ресурс] / О. В. Леонов, Д. И. Демин, Г. П. Букин и др. – Электронные данные. – Режим доступа: http://www.oncourolog.ru/conference/2/4/10.html 7.
Экспертные системы [Электронный ресурс]. – Электронные данные. – Режим
доступа: http://www.mari-el.ru/mmlab/home/AI/7_8/ 8.
Экспертная система [Электронный ресурс]. – Электронные данные. – Режим
доступа: http://rdc.dp.ua. 9.
Диагностика коматозных состояний [Электронный ресурс]. – Электронные
данные. – Режим доступа: http://www.adminru.com/support/download_r.htm 10. Экспертная система Vertigo [Электронный ресурс]. – Электронные данные. – Режим доступа: http://ivanovtver.chat.ru/pageapp.htm 11. Expert systems. Computers as sages by Howard Rheingold [Электронный ресурс].
–
Электронные
данные.
–
Режим
доступа:
http://www.atariarchives.org/index.php 12. Экспертные системы медицинской диагностики. Достоинства и опыт реализации, обоснование экономической эффективности [Электронный ресурс]. – Электронные данные. – Режим доступа: http://diagnos.ru. 142
13. Boris. V. Maryanchik. Proceedings of the 1-st International Workshop of Central and Easten Europe on Multy-Agent System CEEMAS’99 / The Multy-agent System "Arrow" for the Development of Personal Sequential Diagnostics Systems in Medicine and Engineering. – 1999. – St.Peterburg, Russia. – Р. 337-339. 14. Экспертная диагностическая система Вест-синдром [Электронный ресурс]. – Электронные данные. – Режим доступа: http://www.pedklin.ru/history/history.htm 15. Нефротренажер «Гематурия» на основе компьютерной экспертной системы в оболочке Arrow для диагностики нефропатий, протекающих с синдромом гематурии у детей [Электронный ресурс]. – Электронные данные. – Режим доступа: http://www.pedklin.ru/history/history.htm 16. Место
информационных
технологий
в
практике
здравоохранения
[Электронный ресурс]. – Электронные данные. – Режим доступа: http://www.medtech.com.ua/articles 17. Проверим алгеброй болезнь… Новейшие компьютерные технологии на службе диагностики [Электронный ресурс]. – Электронные данные. – Режим доступа: http://www.medvestnik.ru/index.html 18. Программа «Прогноз развития мозгового инсульта» [Электронный ресурс]. – Электронные данные. – Режим доступа: http://www.port.odessa.ua/ medic/misc/files /insult.zip 19. Follicular Neoplasms of the Thyroid: Decision Tree Approach Using Morphologic and Morphometric Parameters / V. Deshpande, K. Kapila, S.K. Siva and K. Verma // Acta Cytol. – 1997. – V. 41. – P. 369 – 376. 20. Пупышева Т.Л. Использование ассоциативных правил для решения задач цитологической диагностики фолликулярных новообразований щитовидной железы [Электронный ресурс] / Т.Л. Пупышева, А.В. Демин. – Электронные данные. – Режим доступа: http://www.micromed.ru/content/st.htm 21. Использование продукционных правил для дифференциальной диагностики болезни Шегрена / О.И. Щербаченко и др. // Прикладные информационные аспекты медицины. – 2000. – Т.3, №2. 22. Savasere A. An Efficient Algorithm for Mining Association Rules in Large Databases / A. Savasere, E. Omiecinski, S. Navathe // In Proc. 21st Int’l Conf. Very Large 143
Data Bases / Morgan Kaufmann.- San Francisco, 1995. 23. Дифференциальная Электронные
диагностика
данные.
желтух –
[Электронный Режим
ресурс].
–
доступа:
http://www.port.odessa.ua/medic/misc/files/medorders.zip 24. Мингалеев А.А. Компьютерная система диагностики болезней внутренних органов [Электронный ресурс] / А.А. Мингалеев. – Электронные данные. – Режим доступа: http://www.infamed.com/pub/a040.html 25. Жмудяк М.Л. К вопросу об использовании функциональных моделей в диагностике и лечении / М.Л. Жмудяк // Региональные проблемы информатизации: труды Республиканской науч.-техн. конф. – Барнаул, 1995. – С.25-26. 26. Жмудяк М.Л. К использованию функциональных моделей в диагностике и лечении / М.Л. Жмудяк; АлтГТУ. – Барнаул, 1995. – 28с.- Библиогр. – Рус. –Деп. в ВИНИТИ 05.04.95, №949-В95. 27. Айвазян С.А. Основы моделирования и первичная обработка данных / С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин. – М.: Финансы и статистика, 1983. 28. Андерсон
Т.
Введение
в
многомерный
статистический
анализ
/
Т. Андерсон. – М.: Физматгиз, 1963. – 500с. 29. Бейли Н. Статистические методы в биологии /пер. с англ.; под ред. В. В. Налимова. – М.: Иностр. лит, 1962. 30. Бейли Н. Математика в биологии и медицине / Н. Бейли. – М.: Мир, 1970. – Гл. 11. 31. Биологическая и медицинская кибернетика: справочник / Минцер О. П.; отв. ред. Журавлев Ю.И. – Киев: Наукова думка, 1986. - 375 с. 32. Беллман Р. Математические методы в медицине / Р. Беллман. – М.: Мир, 1987. - 200 с. 33. Благуш П.П. Факторный анализ с обобщениями / П.П. Благуш. – М.: Финансы и статистика, 1989.– 246 с. 34. Боровиков В.П. Statistica. Статистический анализ и обработка данных в среде Windows / В.П. Боровиков, И.П. Боровиков. – М.: Информационно- издательский дом «Филин», 1997. – 608 с. 35. Медицинская информационная система / Н.М. Амосов, Н.Г. Зайцев, 144
А.А. Мельников и др. – Киев: Наукова думка, 1971. 36. Вальд А. Статистические решающие функции / А. Вальд //Позиционные игры / под ред. Н.Н.Воробьева и Н.Н. Врублевской. – М.: Наука, 1967. – С. 300-522. 37. Ван дер Варден. Математическая статистика: пер. с нем. / Ван дер Варден. – М., 1960. 38. Волынский физиологических
Ю.Д.
О
месте
исследованиях
многомерной
/
Ю.Д.
статистики
Волынский,
А.И.
в
клинико-
Курочкина //
Кардиология. – 1980. – Т.20, №5. – С. 88-91. 39. Генкин А.А. Интеллектуальные медицинские системы, алгоритмически формирующие знания //Стратегическое использование информационных систем: материалы междунар. семинара / под ред. Р. Д. Галиерса, Б.Я. Советова. – СПб., 1992. – С. 64-66. 40. Генкин А.А. Парные коэффициенты корреляции клинико-лабораторных признаков: артефакты и трудности интерпретации / А.А. Генкин //Клиническая лабораторная диагностика – 1993. – №6. – С.71-73. 41. Горбань А.Н. Обучение нейронных сетей / А.Н. Горбань. –- М.: СП ПараГраф, 1991. – 300с. 42. Гублер Е.В. Информатика в медицине / Е.В. Гублер. – М.: Финансы и статистика, 1991. 43. Гублер
Е.В.
Вычислительные
методы
распознавания
патологических
процессов / Е.В. Гублер. – Л., 1970. 44. Гублер Е.В. Применение непараметрических критериев статистики в медикобиологических исследованиях / Е.В. Гублер, А.А. Генкин. –Л., 1973. 45. Дюран Б. Кластерный анализ: пер. с англ. / Б. Дюран. – М.: Статистика, 1977. – 128с. 46. Математические
модели
и
оптические
реализации
многослойных
и
полиномиальных нейронных сетей / Н.Н. Евтихиев и др. – М., 1994. – 32 с. – (Препринт/МИФИ, 004-94). 47. Иберле К. Факторный анализ / К.Иберле. - М.: Статистика, 1980. – 398 с. 48. Кендалл М. Многомерный статистический анализ и временные ряды / М. Кендалл, А. Стьюарт; пер. Э.Л. Пресмана, В.И. Ротаря. – М.: Наука, 1976. – 736 с. 145
49. Кульбак С. Теория информации и статистика /С. Кульбак; пер. с англ. под ред. А.Н. Колмогорова. – М.: Наука, 1967. 50. Лоули Д.Н. Факторный анализ как статистический метод / Д.Н. Лоули, А.Э. Максвелл; пер. Ю.Н. Благовещенского. – М.: Мир, 1967. – 144с. 51. Ластед Л. Введение в проблему принятия решений в медицине / Л. Ластед. – М.: Мир, 1971. 52. Методы нейроинформатики. – Красноярск: Изд-во КГТУ, 1998.– 205с. 53. Переверзев-Орлов В.С. Советчик специалиста. Опыт разработки партнерской системы / В.С. Переверзев-Орлов. – М.: Наука, 1990.– 133с. 54. Пустыльник Е.И. Статистические методы анализа и обработки наблюдений / Е.И. Пустыльник. – М.: Наука, 1968. – 288 с. 55. Прикладная статистика. Классификация и снижение размерности: справ. изд./С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин.– М.: Финансы и статистика, 1989. – 606 с. 56. Прикладной многомерный статистический анализ: сб. статей / науч. ред. С.А. Айвазян, А.И. Орлов. – М.: Наука, 1978. – 392с. 57. Проблемы вычислительной диагностики: сб. науч. трудов / под ред. Е.В. Гублера; АН СССР. – Л., 1969. 58. Распознавание
образов
и
медицинская
диагностика
/
под
ред.
Ю.И. Неймарка. – М, 1972. 59. Основы математической статистики и ее применение / под ред. М. Урсяну. – М.: Статистика, 1970. – 224 с. 60. Окунь Я. Факторный анализ / Я. Окунь. – М.: Статистика, 1974.– 200 с. 61. Статистические методы исследования в медицине и здравоохранении / под ред. А.Е. Полякова.– Л.: Медицина, 1971. – 200 с. 62. Углов моделирования
Б.А.
Основы в
статистического
медико-биологических
анализа
и
математического
исследованиях /
Б.А. Углов,
Г.П. Котельников, М.В. Углова. – Самара: СамГМУ, 1994. – 71 с. 63. Урбах В.Ю. Статистический анализ в биологических и медицинских исследованиях / В.Ю.Урбах – М., 1975. 64. Уссерман Ф. Нейрокомпьютерная техника / Ф. Уссерман. – М.: Мир, 1992.– 146
334 с. 65. Харман Г.Г. Современный факторный анализ / Г.Г. Харман; пер. с англ. В.Я. Лумельского. – М.: Статистика, 1972.– 486 с. 66. Хехт-Нильсен Р. Нейрокомпьютинг: история, состояние, перспективы / Р. Хехт-Нильсен // Открытые системы. – 1998. – №04-05. 67. Факторный, Дискриминантный и Кластерный анализы: сборник / пер. А.М. Хотинского, С.Б. Королева; под ред. И.С. Енюкова. – М.: Статистика, 1972.– 486 с. 68. Abu-Hanna, P. J. F. Lucas, Prognostic Models in Medicine AI and Statistical Approaches, Methods of Information in Medicine © Schattauer GmbH (2001). 69. Gurney K. An Introduction to Neural Networks [Электронный ресурс]. – Электронные
данные.
–
Режим
доступа:
http://www.shef.ac.uk/psychology/gurney/notes/contents.html 70. Identifying Patient Subgroups with Simple Bayes / John M. Aronis, Gregory F. Cooper, Mehmet Kayaalp, Bruce G. Buchanan’, 1999. – 658 p. 71. Hanson K.M. A computational approach to Bayesian inference / К.М. Hanson and G.S. Cunningham // Computing Science and Statistics. VA 22039-7460, 1996. – pp. 202– 211. 72. Paul J. Mostert. A Bayesian Method to Analyse Cancer Survival Times Using the Weibull Model [Электронный ресурс] / Paul J. Mostert, Аndriette Bekker, Jacobus J.J.Roux– Электронные данные. – Режим доступа: http://www.stat.cmu.edu/ISBA/ 108f.pdf 73. Greg Ridgeway, David Madigan, Thomas Richardson, John O'Kane, Interpretable Boosted Naïve Bayes Classification, 1998. 74. Steven N. Goodman. Toward Evidence-Based Medical Statistics. 2: The Bayes Factor // Annals of Internal Medicine. – 1999. – Vol. 130, 15 June. 75. Knill - Jones R. P. Use of sequential bayesian model in diagnosis of jaundice by computer // Brit Med J. – 1973. – Vol. 1. – P. 530. 76. Honours Year Project Report. Bayesian Learning with Incomplete Information in Large Medical Databases: An Application of the EM Algorithm / By Quek Hui Nar, School of Computing National University of Singapore, 1998/99. 147
77. Электронный учебник по статистике. М., StatSoft, 2001 [Электронный ресурс]. – Электронные данные. – Режим доступа: www.statsoft.ru/home/textbook/ default.htm 78. Славин М.Б. Методы системного анализа в медицинских исследованиях / М.Б. Славин. – М.: – Медицина, 1989.– 304 с., ил. 79. Щетинин
В.Г.
Многослойная
самоорганизация
нейронных
сетей
оптимальной сложности / В.Г. Щетинин //Автоматика и вычислительная техника. – 1998. – №4.– С. 30-37. 80. Щетинин В.Г. Принятие решений на нейронных сетях оптимальной сложности / В.Г. Щетинин, А.В. Костюнин // Автоматизация и современные технологии. – 1998. – №4. - С. 38-43. 81. Щетинин В.Г. Синтез решающих правил на нейронных сетях для управления производством / В.Г. Щетинин, О.В. Столярова, А.В. Костюнин // Приборы и системы управления. – 1999. – №1. – С. 72-77. 82. Щетинин В.Г. Применение искусственных нейронных сетей в клинической лабораторной диагностике / В.Г. Щетинин, А.А. Соломаха // Клиническая лабораторная диагностика. – 1998.– №10. – С. 21-23. 83. Щетинин В.Г. Дифференциальная диагностика при помощи искусственных нейронных сетей / В.Г. Щетинин, В.Т. Комаров //Клиническая лабораторная диагностика. – 1998. – №11. – С.34-37. 84. Извлечение знаний с использованием нейронных сетей [Электронный ресурс]. – Электронные данные. – Режим доступа: http://www.chat.ru/~neurolab 85. Что особенного в ДА-системе [Электронный ресурс]. – Электронные данные. – Режим доступа: http://www.contex.ru/index.html 86. Liao J.G. A type of restricted maximum likelihood estimator of variance components in generalized linear mixed models / J.G. Liao, Stuart R. Lipsitz // Biometrika. – 2002. – № 2.– pp. 401-409. 87. Gregory S. Cunningham. Bayesian estimation of regularization parameters for deformable surface models / Gregory S. Cunningham, Andre Lehovich, Kenneth M. Hanson. – Los Alamos National Laboratory, University of Arizona, Dept. of Applied Mathematics, 1999. 148
88. Maximum Likelihood Estimation of Mixture Densities for Binned and Truncated Multivariate Data / Igor V. Cadez, Padhraic Smyth, Geoff J. McLachlan, Christine E. McLaren. – Kluwer Academic Publishers, Hingham, MA, USA, 2002. – pp. 7-34. 89. Жмудяк
М.Л.
Количественное
определение
понятия
«характерный»
(уникальный) симптом (анализ) / М.Л. Жмудяк; АлтГТУ. – Барнаул, 1996. – 4с. – Библиогр. – Рус. – Деп. – в ВИНИТИ 11.11.96, № 3270-В96. 90. Жмудяк М.Л. Определение вероятности болезни по методу траекторий. (Весовые коэффициенты и байесовский подход) / М.Л. Жмудяк; АлтГТУ. – Барнаул, 1997.– 18с. – Библиогр. – Рус. – Деп. в ВИНИТИ 27.03.97, № 997-В97. 91. Жмудяк М.Л. Алгоритм временной (сдвиг по фазе) адаптации траекторий / М.Л. Жмудяк; АлтГТУ. – Барнаул, 1997. – 10с. – Библиогр. – Рус. – Деп. в ВИНИТИ 24.04.97, № 1398-В97. 92. Жмудяк М.Л. Вероятность принадлежности симптома к данной болезни. Весовые коэффициенты / М.Л. Жмудяк; АлтГТУ. – Барнаул, 1997. – 14с. – Библиогр. – Рус. – Деп. в ВИНИТИ 09.09.97, № 2812-В97. 93. Жмудяк
М.Л.
Диагностика
с
использованием
формулы
Байеса
/
М.Л. Жмудяк; АлтГТУ. – Барнаул, 1997. – 9с. – Библиогр. – Рус. – Деп. в ВИНИТИ 25.12.97, № 3786-В97. 94. Проверка диагностики с помощью обобщенной формулы Байеса / О.А. Гуйо, А.В. Стребуков, Г.Г. Устинов, М.Л. Жмудяк, Л.М. Жмудяк; Алт. гос. техн. ун-т. – Барнаул, 1998. – 10 с. – Библиогр. – Рус. – Деп. в ВИНИТИ 04.02.98, № 294 - В98. 95. Жмудяк М.Л. Учет дублирующих симптомов и обобщенная формула Байеса / М.Л. Жмудяк; Алт. гос. техн. ун-т им. И.И. Ползунова. – Барнаул, 1998. –19с. – Библиогр. – Рус. – Деп. в ВИНИТИ 25.02.98, № 551-В98. 96. Лев Г.Ш. Критерий наибольшего правдоподобия как основа формул расчета вероятности болезни / Г.Ш. Лев, М.Л. Жмудяк, Л.М. Жмудяк; Алт. гос. техн. ун-т им. И.И. Ползунова. – Барнаул, 1998. – 7с. –- Библиогр. – Рус. – Деп. в ВИНИТИ 25.02.98, №552-В98. 97. Жмудяк М.Л. Диагностика по методу траекторий, вероятностный подход / М.Л. Жмудяк; Алт. гос. техн. ун-т им. И.И. Ползунова. – Барнаул, 1998. –40с. – Библиогр. – Рус. – Деп. в ВИНИТИ 19.03.98, №794-В98. 149
98. Результаты компьютерной диагностики заболеваний по методу траекторий / М.Л. Жмудяк, О.А. Гуйо, А.В. Стребуков, Г.Г. Устинов, Л.М. Жмудяк// Материалы 1-й краевой конф. по математике, посвященной 25-летию АГУ. – Барнаул, 1998. – С. 32-33. 99. Жмудяк М.Л. О расчете вероятностей болезней и точности расчета / М.Л. Жмудяк; Алт. гос. техн. ун-т им. И.И. Ползунова. – Барнаул, 1998. – 23с. – Библиогр. – Рус. – Деп. в ВИНИТИ 02.07.98, №2059-В98. 100.Жмудяк
М.Л.
Нетрадиционное
использование
формулы
Байеса
для
диагностики болезней / М.Л. Жмудяк // 3-й сибирский конгресс по прикладной и индустриальной математике, посвященный памяти С.Л.Соболева: тезисы докладов. Ч.IV.-Новосибирск: Изд-во Института математики СО РАН, 1998. – С.95. 101.Жмудяк
М.Л.
Применение
принципа
максимума
правдоподобия
в
диагностике / М.Л. Жмудяк, Г.Ш. Лев, Л.М. Жмудяк // Материалы 2-й практ. конф. по математике / АГУ. – Барнаул, 1999. – С. 69-70. 102.Жмудяк М.Л. Какой из анализов необходимо сделать в первую очередь / М.Л. Жмудяк, А.В. Гайнер, Л.М. Жмудяк; Алт. гос. техн. ун-т им. И.И. Ползунова. – Барнаул, 2000. – 15с. – Библиогр. – Рус. – Деп. в ВИНИТИ 24.03.00, №781-В00. 103.Жмудяк М.Л. Новые подходы к диагностике / М.Л. Жмудяк, А.В. Гайнер, Л.М. Жмудяк; Алт. гос. техн. ун-т им. И.И. Ползунова. – Барнаул, 2000. – 17с. – Библиогр. – Рус. – Деп. в ВИНИТИ 24.03.00, №782-В00. 104.Жмудяк М.Л. Диагностика на основе аппроксимационных формул / М.Л. Жмудяк; Алт. гос. техн. ун-т им. И.И. Ползунова. – Барнаул, 2001. – 9с. – Библиогр.: 10 назв. – Рус. – Деп. в ВИНИТИ 28.08.01, №1904-В2001. 105.Адаптация метода Байеса к медицинской диагностике / А.Н. Повалихин, А.В. Стребуков, Г.Г. Устинов, А.В. Гайнер, Л.М. Жмудяк // Международная конференция
молодых
ученых
по
математическому
моделированию
и
информационным технологиям: программа и тезисы докладов, 17 ноября 2002 г. – Новосибирск, 2002. – С. 77. 106.Определение взаимозависимости симптомов и результаты диагностики двух видов желтух / А.Н. Повалихин, М.Л. Жмудяк, А.В. Стребуков, Г.Г. Устинов, 150
А.В. Гайнер, Л.М. Жмудяк, Г.Ш. Лев//Математическое образование на Алтае: труды науч.-метод. конф. (МОНА-2001). – Барнаул: Изд-во АлтГТУ, 2001. – С. 7981. 107.Результаты диагностики механической и паренхиматозной желтух / А.Н. Повалихин, М.Л. Жмудяк, А.В. Стребуков, Г.Г. Устинов, А.В. Гайнер, Л.М. Жмудяк, Г.Ш. Лев // Математическое образование на Алтае: труды науч.метод. конф. (МОНА-2001). – Барнаул: Изд-во АлтГТУ, 2001. – С. 81-83. 108.Адаптация метода Байеса к медицинской диагностике / А.Н. Повалихин, М.Л. Жмудяк, А.В. Стребуков, Г.Г. Устинов, А.В. Гайнер, Л.М. Жмудяк // Математическое образование на Алтае: труды науч.-метод. конф. (МОНА-2002). – Барнаул: Изд-во БГПУ, 2002.– С. 31-32. 109.Компьютерная диагностика механической и паренхиматозной желтух / А.В. Стребуков, М.Л. Жмудяк, Г.Г. Устинов, Л.М. Жмудяк, Г.Ш Лев // Природные и интеллектуальные ресурсы Сибири (СИБРЕСУРС-7-2001): 7-я междунар. науч.практ. конф., Барнаул, сентябрь, 2001. – Томск, 2001. – Ч.2. – С. 258-260. 110.Жмудяк М.Л. Применение принципа максимума правдоподобия в медицине / М.Л. Жмудяк, Г.Ш. Лев, Л.М. Жмудяк // Сибирский журнал индустриальной математики. – Новосибирск: Изд-во института математики, 2002. – Том V, №1(9). – С. 74-78. 111.Жмудяк М.Л. Критерий эффективности диагностики / М.Л. Жмудяк // Ползуновский альманах. – Барнаул: Изд-во АлтГТУ, 2002. – №1-2. – С. 55-56. 112.Использование двумерных распределений для медицинской диагностики по методу Байеса / А.Н. Повалихин, А.В. Стребуков, М.Л. Жмудяк, Л.М. Жмудяк, Г.Г. Устинов // Вероятностные идеи в науке и философии: Материалы региональной конференции (с участием иностранных ученых), 23-25 сентября 2003г. – Новосибирск, 2003. – С. 188. 113.Программа
диагностики
и
прогноза
(и
её
использование
для
дифференциальной диагностики механической и паренхиматозной желтух) / А.Н. Повалихин, А.В. Стребуков, М.Л. Жмудяк, А.Л. Жмудяк // Материалы пятой городской научно-практической конференции молодых ученых, 20-21 ноября 2003г. – Барнаул, 2003. – С. 169-170. 151
114.Использование двумерных распределений для диагностики по методу Байеса / А.Н. Повалихин, А.В. Стребуков, М.Л. Жмудяк, А.Л. Жмудяк // Материалы пятой городской научно-практической конференции молодых ученых, 20-21 ноября 2003г. – Барнаул, 2003. – С. 339-340. 115.Жмудяк М.Л. Модельные болезни / М.Л. Жмудяк, А.Л. Жмудяк; АлтГТУ. – Барнаул, 2005. – 15с.: 2 рис. – Библиогр.: 9 назв. – Рус. – Деп. в ВИНИТИ 28.02.2005, № 278-В2005. 116.Iliopsoas hematoma in a young patient with type I Gaucher disease / M.L. Jmoudiak, M. Itzchaki, I. Hadas-Halpern, M. Hrebicek, K. Hodanova, D. Elstein, A. Zimran // Isr Med Assoc J. 2003 Sep;5(9):673-4. PMID:14509164 117.Жмудяк М.Л. Совмещение медицинского и математического подходов к диагностике заболеваний / М.Л. Жмудяк, А.Л. Жмудяк // Межвузовский сборник научных статей молодых ученых, аспирантов, студентов, посвященный 30-летнему юбилею физ.-тех. фак-та АлтГУ. – Барнаул: Изд-во АлтГу, 2004. – Вып.4. – С. 5457. 118.Жмудяк М.Л. Применение вероятностных методов в диагностике / М.Л. Жмудяк, А.Н. Повалихин, Г.Ш. Лев // Дискретный анализ и исследование операций:
материалы
конференции
(Новосибирск,
28.06-02.07.2004).
–
Новосибирск: Изд-во ин-та математики, 2004.– С. 203. 119.Сравнение эффективности дифференциальной диагностики заболеваний статистическими методами / А.Н. Повалихин, Д.П. Зацепин, Г.Г. Устинов, А.В. Стребуков, М.Л. Жмудяк, А.Л. Жмудяк // Студенты, аспиранты и молодые ученые – малому наукоемкому бизнесу (Ползуновский гранты): материалы IX-го Всероссийского слета студентов, аспирантов и молодых ученых – лауреатов конкурса Министерства образования и науки РФ и Государственного фонда содействия развития малых форм предприятий в научно-технической сфере «Ползуновские гранты» / под. общ.ред. А.А.Максименко.– Барнаул: Изд-во АГТУ, 2004. – С. 100-105. 120.Жмудяк М.Л. Модельные болезни / М.Л. Жмудяк, А.Л. Жмудяк // Студенты, аспиранты и молодые ученые – малому наукоемкому бизнесу (Ползуновские гранты): материалы IX-го Всероссийского слета студентов, аспирантов и молодых 152
ученых – лауреатов конкурса Министерства образования и науки РФ и Государственного фонда содействия развития малых форм предприятий в научнотехнической сфере «Ползуновские гранты» / под. общ. ред. А.А.Максименко.– Барнаул: Изд-во АГТУ, 2004. – С. 100-105. 121.Elizabeth B. Claus. Risk Prediction Models in Breast Cancer / Elizabeth B. Claus – Yale University School of Medicine.– San Antonio, 2003. 122.Воробьёв С.А. Структурный анализ результатов медико-биологического эксперимента при неизвестных параметрах моделей [Электронный ресурс] / С.А. Воробьев.
–
Электронные
данные.
–
Режим
доступа:
http://home.uic.tula.ru/~vorobei/Avto_ref.htm 123.Моттль В.В. Оптимальная сегментация экспериментальных кривых / В.В. Моттль, И.Б. Мучник, В.Г. Яковлев // Автоматика и телемеханика. – 1983. – № 8. – С. 83-94. 124.Воробьев С.А. Алгоритмы выделения и классификации фрагментов повторяющейся формы на экспериментальных кривых / С.А. Воробьев // Автоматика и телемеханика. – 1985. – № 8. – С. 89- 93. 125.Воробьев
С.А.
Алгоритмы
обработки
экспериментальных
кривых
с
фрагментами повторяющейся формы нестабильной длины / С.А. Воробьев // Статистические проблемы управления. - Вильнюс: Институт математики и кибернетики АН Литвы, 1990.– Вып.89. – С. 144-149. 126.Воробьев С.А. Методы структурного анализа экспериментальных кривых с участками повторяющейся формы / С.А. Воробьев // Автоматизация и современные технологии. – 1997. – №7. – С. 22- 25. 127.Воробьев С.А. Методы структурного анализа экспериментальных кривых с участками повторяющейся формы при неизвестных параметрах модели / С.А. Воробьев//Автоматизация и современные технологии. – 1997. – №9. – С. 26-29. 128.Воробьев С.А. Структурный анализ экспериментальных кривых при параллельном оценивании неизвестных параметров модели / С.А. Воробьев // Автоматизация и современные технологии. – 1997. – №11. – С. 13-16. 129.Воробьев С.А. Методы обработки структурных кривых с повторяющимися признаками
формы
при
обработке 153
результатов
медико-биологического
эксперимента / С.А. Воробьев, А.А. Яшин // Вестник новых медицинских технологий. – 1998. – Т.V, № 3-4. – С. 17- 19. 130.Статистический метод анализа поздних желудочковых потенциалов у больных
с
инфарктом
Т.Ф. Щербакова,
Н.А.
миокарда. Андреичев,
[Электронный Н.А.
ресурс]
Цибулькин,
/
И.П.
С.С.
Седов,
Арлеевский.
–
Электронные данные. – Режим доступа: http://www.infamed.com/pub/a044.html 131.Слепнев С.Ю. Система объективной оценки тяжести состояния больных хирургической инфекцией [Электронный ресурс] / С.Ю. Слепнев, А.А. Звягин.– Электронные данные. – Режим доступа: http://www.med.ru/medcent/Anest/IV-rz.htm 132.Robert W. Young. A Confirmatory Factor Analysis of the National Pain Data Bank – Version 2 [Электронный ресурс] / Robert W. Young, Michael E. Clark, Ronald J. Gironda.
–
Электронные
данные.
–
Режим
доступа:
http://www.vachronicpain.org/Downloads/Young 133.Программа [Электронный
«Дифференциальная ресурс].
–
диагностика
Электронные
данные.
желтух» –
(jaundice.arj)
Режим
доступа:
www.rusmedserv.com/software/index.php 134.Устинов Г.Г. Желчнокаменная болезнь. Патогенез, диагностика, лечение/ Г.Г. Устинов, Я.Н. Шойхет. – Барнаул, 1997. – 432с. 135.Jmoudiak M.L. Definition of test (analysis) most indispensable for diagnostics / M.L. Jmoudiak, A.V. Ghiner, L.M. Jmoudiak // ABSTRACTS. International Summer Seminar “Stochastic Dynamical Systems” (SDS 2003). – Institute of Mathematics of the National Academy of Sciences of Ukraine. – 2003. – P.27. – ISBN 966-02-2573-3. 136.Бондарь З.А Желтухи / З.А. Бондарь. – М., 1965. – 352 с. 137.Дунаевский О.А. Дифференциальная диагностика заболеваний печени / О.А. Дунаевский. – М., 1985. – 64с. 138.Дедерер Ю.М. Патогенез, диагностика и лечение механической желтухи / Ю.М. Дедерер, Н.П. Крылова, Я.Н. Шойхет. – Красноярск, 1990. – 112 с. 139.Выявление вируса гепатита G (HGV) при хронических заболеваниях печени / А.С.
Логинов,
Д.К.
Львов,
Т.И.
Шарафанова
и
др.//
Российский
гастроэнтерологический журнал. – № 1. – 1999. – С. 23-31. 140.Устинов Г.Г. Оценка степени операционного pиска у больных механической 154
желтухой / Г.Г. Устинов // Вопросы клинической и теоретической медицины. Т.1. – Баpнаул, 1994. – С. 147-149. 141.Иванов Ю.В. Механическая желтуха: диагностический алгоритм и лечение [Электронный ресурс] / Ю.В. Иванов, С.М. Чудных – Электронные данные. – Режим доступа: http://www.osp.ru/doctore/2002/07-08/076.htm 142.Жмудяк М.Л. Нейронные сети и вероятностные методы / М.Л. Жмудяк, А.Л. Жмудяк // IV Всесибирский конгресс женщин-математиков (в день рождения С. В. Ковалевской): материалы конференции, 15-19 января 2006г. / под. ред. Г. М. Рудаковой.– Красноярск: РИО СибГТУ, 2006. – С. 57-58. 143.Жмудяк М.Л. Нейронные сети и вероятностные методы / М.Л. Жмудяк, А.Л. Жмудяк // Математическое образование на Алтае: труды науч.-метод. конф. (МОНА-2005). – Барнаул: Изд-во АлтГТУ, 2005. – С. 38-39. 144. Коэффициент [Электронный
эффективности
ресурс]
/
как
показатель
А.Н. Повалихин,
качества
А.В. Стребуков,
диагностики А.Л. Жмудяк –
Электронные данные. – Режим доступа: www.molod.mephi.ru/2002/data/572.htm
155
Приложение 1 Сходимость итерационного алгоритма и его связь с методом максимального правдоподобия [96, 101, 110] Рассматривается m ДП для диагностики одного из n заболеваний. Будем считать, что результатом определения i -го ДП является случайная величина (сл. вел.) xi , а через xio обозначим ее наблюдаемое значение. Т.е. xio – результат анализа i у конкретного пациента, которому ставится диагноз. (Или xio – результат инструментального обследования или определения симптома.) Пусть также событие
H j означает, что пациент имеет j -е заболевание. Исходным для описываемого метода являются распределения
qij ( xi )
q (x ) величин ДП i при болезни j , точнее ij i – распределения для дискретных величин ДП и плотности распределения для непрерывно распределенных ДП. Исходные величины для постановки диагноза (для расчета распределения вероятностей болезней) конкретному пациенту запишем в виде матрицы aij ,
i = 1,..., m; j = 1,..., n . Рассмотрим возможные способы образования этой матрицы. а) Если qij ( xi ) – условная плотность распределения сл. вел. xi при условии H j , то
aij = qij ( xio ) . б) Для i -го наблюдения (для i -го ДП, определенного у пациента) задается число
∆i
>0 и
aij = Ρ( xio − ∆ i
< xi < xio + ∆ i
| H j ) / 2∆ i .
Заметим, что в этом случае aij – есть плотность распределения свертки сл. вел. xi и сл. вел. с распределением R( − ∆ i , ∆ i ) в точке xio . Величина aij просто определяется при известной функции qij ( xi ) , иначе ее следует определить из статистических данных. в) Область изменения сл. вел. xi разбита на k ( i ) непересекающихся интервалов
∆ il ,(l = 1,..., k ( i )) . 156
Определяем
aij = Ρ( xi ∈ ∆ ilo | H j ) , для xi” ∈ ∆ il o . Относительно величины aij справедливо все сказанное в п. б). (При практической диагностике заболеваний печени использовался вариант б). Величина ∆ i бралась в долях стандартного отклонения.) При диагностике важно осуществлять различный подход к учету зависимых и независимых ДП. Разделение ДП на зависимые и независимые может решаться обычными
статистическими
методами,
например,
с
помощью
критерия
2
независимости признаков, с использованием распределения χ . При этом группы, состоящие из зависимых признаков, можно рассматривать как один сложный признак (анализ). В этом случае, вместо рассмотренных выше интервалов, следует рассматривать их декартовы произведения, т.е. прямоугольники или прямоугольные параллелепипеды.
Вероятности
попадания
в
эти
множества
определяются
статистически. Практически, статистические данные довольно ограничены. Поэтому с необходимой точностью удается выявить только группы, состоящие из небольшого числа (двух – трех) зависимых признаков. Эти группы и рассматриваются как один сложный признак. (Каждая такая группа – один сложный признак.) Введем следующие обозначения: n
P = ( p1 ,..., pn ); ∑ p j = 1; j =1
n
f i ( P ) = ∑ aij p j ; j =1
Вектор P
p j ≥ 0 , j = 1,..., n; m
L( P ) = ∑ ln f i ( P ) . i =1
рассматривается как неизвестный параметр, его координаты
интерпретируем как вероятности соответствующих заболеваний; f i ( P ) – полная вероятность появления i -го ДП (анализа, симптома). Оценкой
максимума
правдоподобия
удовлетворяющий соотношению: 157
для
P
будет
вектор
P* ,
L( P * ) = max L( P ) .
(1)
P
*
Для определения вектора P применяется следующий алгоритм, связанный с методом последовательных приближений.
P ( o ) = ( 1 / n ,...,1 / n ); P ( k ) = ( p1( k ) ,..., pn( k ) ); aij Bij ( P ) = ; fi ( P ) 1 m B• j ( P ) = ∑ Bij ( P ); m i =1 ( k +1 ) pj = B• j ( P k ) p(j k ) .
(2)
Докажем далее два утверждения, относящиеся к итерационному процессу (2). Утверждение 1. Если существует (k ) * lim P = P ,
(3)
k →∞ *
вектор P удовлетворяет соотношению (1). Доказательство. Пусть
P * = ( p1* ,..., p*j ,..., p*n ). *
*
Обозначим через A( P ) множество индексов j таких, что p j > 0 . Если
j ∈ A( P * ) , то, согласно (2), 1 = B• j ( P * ) .
(4)
*
Покажем далее, что, если j ∈ A( P ) , то
1 ≤ B• j ( P * ) . Предположим противное, т.е.
B• j ( P * ) > 1 . Тогда из (3) следует, что найдется k такое, что при k > K
B• j ( P ( k ) ) > 1 . Для этих k будет выполнено
158
(5)
p(j k +1 ) > p(j k ) , что противоречит соотношению ( k +1 ) = p*j = 0. lim p j
k →∞
Поскольку,
∂L( P ) = mB• j ( P ), ∂p j то,
из
общей
теории
выпуклого
программирования
(6) получаем,
что
соотношение (4) и (5) означают оптимальность вектора P * в смысле задачи (1). Далее установим связь итеративного процесса с градиентным методом. Обозначим:
ek = P ( k +1 ) − P ( k ) ; fk =
(
)
1 grad L( P ( k ) ) = B•1( P ( k ) ),..., B• m ( P ( k ) ) ; m
(7)
последнее следует из равенства (6). Утверждение 2. Скалярное произведение
ek ⋅ f k ≥ 0. Доказательство. Пользуясь очевидным соотношением n
k (k ) ∑ Bij ( P ) p j = 1,
j =1
нетрудно установить: n
p(j k +1 ) − p(j k ) = ∑ ( B• j ( P ( k ) ) − B• k ( P ( k ) )) p j pl . l =1
(8)
Поэтому из соотношений (7) и (8) следует n
n
ek ⋅ f k = ∑ ( ∑ ( B• j ( P ( k ) ) − B• k ( P ( k ) ))2 p j pl ) ≥ 0 , l =1 j = l +1
что и требовалось доказать. Из утверждения 2 следует, что итерационный процесс (2) происходит в направлении возрастания функции L.
159
Когда
найден
P * , то диагностируется болезнь
вектор
H j , если
p*j ≥ p*l ,(l = 1,..., n ). Вышеизложенный алгоритм (2) позволяет найти вероятности болезней методом
последовательных
приближений.
Без
алгоритма
(2)
вектор
P,
удовлетворяющий уравнению (1), пришлось бы находить методами нелинейного программирования
(методами
параметрической
оптимизации)
или
прямым
перебором. Перечисленные методы, включая эффективные методы, типа методов Пауэлла и Нелдера-Мида, уступают алгоритму (2) по скорости и надежности отыскания вектора P * . Под надежностью понимается сходимость к глобальному (к истинному) максимуму (1) во всех вариантах (при всех исходных и начальных данных) решения. Практически, вероятности болезней рассчитывались по алгоритму (2) и полным перебором всех координат вектора P . Результаты расчетов совпали абсолютно при существенно разном времени решения [94]. В подавляющем большинстве найденных решений вероятность одного из заболеваний оказывалась близкой к единице, а сумма вероятностей остальных заболеваний на порядки ниже. Сравнимые вероятности болезней расценивались как следствие недостатка информации (симптомов и анализов, инструментальных обследований), в этих случаях диагноз считался недостоверным. Предлагаемый
метод
диагностики
имеет
существенное
отличие
от
применяемых в диагностике вероятностных методов, связанных с формулой Байеса и последовательным анализом Вальда. В этих методах независимыми случайными величинами
{xi }in=1
считаются условно независимые сл. вел. (т.е. при условии
конкретной болезни H j ), а в нашем случае эти сл. вел. считаются просто независимыми. Т. е. рассматриваются симптомы независимые в совокупности (независимые между собой вообще, вне связи с какими-либо болезнями). Использование симптомов, независимых в совокупности, приводит к полезной особенности данного метода, – можно рассчитать вероятности болезней без информации об их распространенности среди населения, среди пациентов. 160
Приложение 2 Примеры построения гистограмм по различным методикам Условия построения гистограмм. 1. Минимальная высота гистограммы одномерного симптома 1. 2. Минимальная высота для каждого интервала FALSE. 3. Гистограмма: Унимодальность - относительная 4. Значение симптома - центр интервала ПАРЕНХИМАТОЗНАЯ ЖЕЛТУХА Априорная вероятность (распространенность) 1-й болезни Z1= 0.70 Симптом Значение Вероятн(плотн) 11^2 74.00 q11= 0.0046474 12^2 138.00 q12= 0.0018975 13^2 0.28 q13= 0.0570776 14^2 1.18 q14= 0.0298285 20^1 50.00 q15= 0.0038347 Числитель B1=Z1*q11*q12*q13*q14*q15 = 4.030E-0011 МЕХАНИЧЕСКАЯ ЖЕЛТУХА Априорная вероятность (распространенность) 2-й болезни Z2= 0.30 Симптом Значение Вероятн(плотн) 11^2 74.00 q21= 0.0071069 12^2 138.00 q22= 0.0029218 13^2 0.28 q23= 0.3205128 14^2 1.18 q24= 0.5698006 20^1 50.00 q25= 0.0150150 Числитель B2=Z2*q21*q22*q23*q24*q25 = 1.708E-0008 Вероятность болезни P1= B1/(B1+B2)= 0.002353705296311 Вероятность болезни P2= B2/(B1+B2)= 0.997646294703689 Ответ: МЕХАНИЧЕСКАЯ ЖЕЛТУХА(2) На самом деле: МЕХАНИЧЕСКАЯ ЖЕЛТУХА(2) Характериcтика симптомов. Аргументы в пользу болезни - ПАРЕНХИМАТОЗНАЯ ЖЕЛТУХА: Степень влияния Наименования анализов (и их значения) анализа Аргументы Степень влияния анализа 2 2 6 19 4 -
в пользу болезни - МЕХАНИЧЕСКАЯ ЖЕЛТУХА: Наименования анализов (и их значения) Билирубин непрямой в 2 день (=74.00) Билирубин прямой в 2 день (=138.00) Ферменты АСАТ в 2 день (=0.28) Ферменты АЛАТ в 2 день (=1.18) Возраст в 1 день (=50.00)
Пациент №613 – Ч. Болен: МЕХАНИЧЕСКАЯ ЖЕЛТУХА №1273 Лапор Симптом/день 1 2 Боль ( 1) Расш. холедоха ( 3) Расш.печ.ходов ( 4) Увелич. печени ( 5) + Зел. цвет печ. ( 7) Обт.желч.путей ( 9) Билир. непрямой (11) 74.00 Билир. прямой (12) 138.00 Ферменты АСАТ (13) 0.28 Ферменты АЛАТ (14) 1.18 Возраст (20) 50.00
161
8
+
БОЛЕЗНЬ N 1: ПАРЕНХИМАТОЗНАЯ ЖЕЛТУХА -------------------------------------------------------------------------------1-мерный симптом: Билир. непрямой в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Билирубин непрямой в 2 день│ 11 │ 11.4000│ 74.00 │ 6 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 151. Высота 8. Вероятность/Плотность 0.0046474. 1- мерная гистограмма: { 22 39 31 24 16 8 6 3 0 1 1 } Билирубин непрямой в 2 день │ ▒▒▒▒▒ 1. [12.00 ; 22.70] = 22 │ ▒▒▒▒▒ 2. [22.70 ; 34.10] = 39 │ ▒▒▒▒▒▓▓▓▓▓ 3. [34.10 ; 45.50] = 31 │ ▒▒▒▒▒▓▓▓▓▓ 4. [45.50 ; 56.90] = 24 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████ 5. [56.90 ; 68.30] = 16 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████ 6. [68.30 ; 79.70] = 8 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬ 7. [79.70 ; 91.10] = 6 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬ 8. [91.10 ; 102.50] = 3 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 9. [102.50 ; 113.90] = 0 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░ 10. [113.90 ; 125.30] = 1 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒ █████╬╬╬╬╬11. [125.30 ; 126.00] = 1 └───┴────┴────┴────┴────┴────┴────┴────┴────┴────┴────┴── 1 2 3 4 5 6 7 8 9 10 11 Выборка 151. Высота 8. Вероятность/Плотность 0.0046474. -------------------------------------------------------------------------------1-мерный симптом: Билир. прямой в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Билирубин прямой в 2 день│ 10 │ 20.6667│ 138.00 │ 7 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 153. Высота 6. Вероятность/Плотность 0.0018975. 1- мерная гистограмма: { 16 35 35 33 14 8 6 5 0 1 } Билирубин прямой в 2 день │ ▒▒▒▒▒▓▓▓▓▓█████ 1. [4.00 ; 24.33] = 16 │ ▒▒▒▒▒▓▓▓▓▓█████ 2. [24.33 ; 45.00] = 35 │ ▒▒▒▒▒▓▓▓▓▓█████ 3. [45.00 ; 65.67] = 35 │ ▒▒▒▒▒▓▓▓▓▓█████ 4. [65.67 ; 86.33] = 33 │ ▒▒▒▒▒▓▓▓▓▓█████ 5. [86.33 ; 107.00] = 14 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████ 6. [107.00 ; 127.67] = 8 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬ 7. [127.67 ; 148.33] = 6 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 8. [148.33 ; 169.00] = 5 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒ 9. [169.00 ; 189.67] = 0 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒ █████10. [189.67 ; 190.00] = 1 └───┴────┴────┴────┴────┴────┴────┴────┴────┴────┴── 1 2 3 4 5 6 7 8 9 10 Выборка 153. Высота 6. Вероятность/Плотность 0.0018975. -------------------------------------------------------------------------------1-мерный симптом: Ферменты АСАТ в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Ферменты АСАТ в 2 день│ 10 │ 0.3600│ 0.28 │ 1 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 146. Высота 3. Вероятность/Плотность 0.0570776. 1- мерная гистограмма: { 3 4 6 16 33 26 23 20 10 5 }
162
Ферменты АСАТ в 2 день │ ╬╬╬╬╬ 1. [0.20 ; 0.56] = 3 │ ╬╬╬╬╬ 2. [0.56 ; 0.92] = 4 │ ╬╬╬╬╬┼┼┼┼┼ 3. [0.92 ; 1.28] = 6 │ ╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒ 4. [1.28 ; 1.64] = 16 │ ╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒ 5. [1.64 ; 2.00] = 33 │ █████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒ 6. [2.00 ; 2.36] = 26 │ █████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒▓▓▓▓▓ 7. [2.36 ; 2.72] = 23 │ █████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒▓▓▓▓▓ 8. [2.72 ; 3.08] = 20 │ ▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒▓▓▓▓▓█████ 9. [3.08 ; 3.44] = 10 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒▓▓▓▓▓█████10. [3.44 ; 3.80] = 5 └───┴────┴────┴────┴────┴────┴────┴────┴────┴────┴── 1 2 3 4 5 6 7 8 9 10 Выборка 146. Высота 3. Вероятность/Плотность 0.0542237. -------------------------------------------------------------------------------1-мерный симптом: Ферменты АЛАТ в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Ферменты АЛАТ в 2 день│ 7 │ 0.9000│ 1.18 │ 2 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 149. Высота 4. Вероятность/Плотность 0.0298285. 1- мерная гистограмма: { 3 4 9 27 63 28 15 } Ферменты АЛАТ в 2 день │ ╬╬╬╬╬ 1. [0.30 ; 0.73] = 3 │ ╬╬╬╬╬ 2. [0.73 ; 1.63] = 4 │ ╬╬╬╬╬ 3. [1.63 ; 2.53] = 9 │ ╬╬╬╬╬┼┼┼┼┼ 4. [2.53 ; 3.43] = 27 │ █████╬╬╬╬╬┼┼┼┼┼ 5. [3.43 ; 4.33] = 63 │ █████╬╬╬╬╬┼┼┼┼┼░░░░░ 6. [4.33 ; 5.23] = 28 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░ 7. [5.23 ; 5.70] = 15 └───┴────┴────┴────┴────┴────┴────┴── 1 2 3 4 5 6 7 Выборка 149. Высота 4. Вероятность/Плотность 0.0298285. -------------------------------------------------------------------------------1-мерный симптом: Возраст в 1 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Возраст в 1 день│ 11 │ 5.7000│ 50.00 │ 7 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 183. Высота 4. Вероятность/Плотность 0.0038347. 1- мерная гистограмма: { 51 69 27 14 6 6 4 2 0 2 2 } Возраст в 1 день │ ▒▒▒▒▒ 1. │ ▒▒▒▒▒ 2. │ ░░░░░▒▒▒▒▒ 3. │ ░░░░░▒▒▒▒▒ 4. │ ░░░░░▒▒▒▒▒ 5. │ ░░░░░▒▒▒▒▒ 6. │ ░░░░░▒▒▒▒▒▓▓▓▓▓ 7. │ ░░░░░▒▒▒▒▒▓▓▓▓▓ 8. │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████ 9. │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████ 10. │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒ █████╬╬╬╬╬11. └───┴────┴────┴────┴────┴────┴────┴────┴────┴────┴────┴── 1 2 3 4 5 6 7 8 9 10 11 Выборка 183. Высота 4. Вероятность/Плотность 0.0038347.
163
[15.00 [18.65 [24.35 [30.05 [35.75 [41.45 [47.15 [52.85 [58.55 [64.25 [69.95
; ; ; ; ; ; ; ; ; ; ;
18.65] 24.35] 30.05] 35.75] 41.45] 47.15] 52.85] 58.55] 64.25] 69.95] 72.00]
= = = = = = = = = = =
51 69 27 14 6 6 4 2 0 2 2
БОЛЕЗНЬ N 2: МЕХАНИЧЕСКАЯ ЖЕЛТУХА -------------------------------------------------------------------------------1-мерный симптом: Билир. непрямой в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Билирубин непрямой в 2 день│ 7 │ 19.5429│ 74.00 │ 4 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 36. Высота 5. Вероятность/Плотность 0.0071069. 1- мерная гистограмма: { 11 10 6 5 2 1 1 } Билирубин непрямой в 2 день │ ░░░░░▒▒▒▒▒ 1. [3.20 ; 25.14] = 11 │ ░░░░░▒▒▒▒▒ 2. [25.14 ; 44.69] = 10 │ ░░░░░▒▒▒▒▒ 3. [44.69 ; 64.23] = 6 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████ 4. [64.23 ; 83.77] = 5 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████ 5. [83.77 ; 103.31] = 2 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬ 6. [103.31 ; 122.86] = 1 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░ 7. [122.86 ; 140.00] = 1 └───┴────┴────┴────┴────┴────┴────┴── 1 2 3 4 5 6 7 Выборка 36. Высота 5. Вероятность/Плотность 0.0071069. -------------------------------------------------------------------------------1-мерный симптом: Билир. прямой в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Билирубин прямой в 2 день│ 4 │ 74.0000│ 138.00 │ 2 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 37. Высота 8. Вероятность/Плотность 0.0029218. 1- мерная гистограмма: { 20 8 6 3 } Билирубин прямой в 2 день │ ░░░░░ 1. [4.00 ; 101.00] = 20 │ ░░░░░ 2. [101.00 ; 175.00] = 8 │ ░░░░░ 3. [175.00 ; 249.00] = 6 │ ░░░░░▒▒▒▒▒▓▓▓▓▓ 4. [249.00 ; 300.00] = 3 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████ └───┴────┴────┴────┴── 1 2 3 4 Выборка 37. Высота 8. Вероятность/Плотность 0.0029218. -------------------------------------------------------------------------------1-мерный симптом: Ферменты АСАТ в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Ферменты АСАТ в 2 день│ 11 │ 0.2400│ 0.28 │ 2 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 39. Высота 3. Вероятность/Плотность 0.3205128. 1- мерная гистограмма: { 2 3 8 8 8 6 1 0 1 1 1 } Ферменты АСАТ в 2 день │ ▓▓▓▓▓█████╬╬╬╬╬ 1. [0.10 ; 0.16] = 2 │ ▓▓▓▓▓█████╬╬╬╬╬ 2. [0.16 ; 0.40] = 3 │ ▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 3. [0.40 ; 0.64] = 8 │ ▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 4. [0.64 ; 0.88] = 8 │ ▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 5. [0.88 ; 1.12] = 8 │ ▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 6. [1.12 ; 1.36] = 6 │ ▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 7. [1.36 ; 1.60] = 1 │ ▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 8. [1.60 ; 1.84] = 0 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 9. [1.84 ; 2.08] = 1 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░ ▓▓▓▓▓█████╬╬╬╬╬10. [2.08 ; 2.32] = 1 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░ ▓▓▓▓▓█████╬╬╬╬╬11. [2.32 ; 2.50] = 1 └───┴────┴────┴────┴────┴────┴────┴────┴────┴────┴────┴──
164
1 2 3 4 5 6 7 8 9 10 11 Выборка 39. Высота 3. Вероятность/Плотность 0.3205128. -------------------------------------------------------------------------------1-мерный симптом: Ферменты АЛАТ в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Ферменты АЛАТ в 2 день│ 11 │ 0.2700│ 1.18 │ 4 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 39. Высота 6. Вероятность/Плотность 0.5698006. 1- мерная гистограмма: { 4 3 5 6 5 4 3 2 3 2 2 } Ферменты АЛАТ в 2 день │ █████ 1. [0.30 ; 0.50] = 4 │ ▓▓▓▓▓█████╬╬╬╬╬ 2. [0.50 ; 0.77] = 3 │ ▓▓▓▓▓█████╬╬╬╬╬ 3. [0.77 ; 1.04] = 5 │ ░░░░░ ▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 4. [1.04 ; 1.31] = 6 │ ░░░░░ ▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 5. [1.31 ; 1.58] = 5 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░ ▓▓▓▓▓ 6. [1.58 ; 1.85] = 4 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░ ▓▓▓▓▓ 7. [1.85 ; 2.12] = 3 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬ 8. [2.12 ; 2.39] = 2 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬ 9. [2.39 ; 2.66] = 3 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬10. [2.66 ; 2.93] = 2 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬11. [2.93 ; 3.00] = 2 └───┴────┴────┴────┴────┴────┴────┴────┴────┴────┴────┴── 1 2 3 4 5 6 7 8 9 10 11 Выборка 39. Высота 6. Вероятность/Плотность 0.5698006. -------------------------------------------------------------------------------1-мерный симптом: Возраст в 1 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Возраст в 1 день│ 11 │ 7.4000│ 50.00 │ 5 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 126. Высота 14. Вероятность/Плотность 0.0150150. 1- мерная гистограмма: { 2 3 10 9 14 24 24 32 5 2 1 } Возраст в 1 день │ ▒▒▒▒▒ 1. │ ▒▒▒▒▒ 2. │ ┼┼┼┼┼░░░░░▒▒▒▒▒ 3. │ ┼┼┼┼┼░░░░░▒▒▒▒▒ 4. │ ┼┼┼┼┼░░░░░▒▒▒▒▒ 5. │ ┼┼┼┼┼░░░░░▒▒▒▒▒ 6. │ ╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒ 7. │ ▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒ 8. │ ▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒ 9. │ ▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒▓▓▓▓▓ 10. │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬11. └───┴────┴────┴────┴────┴────┴────┴────┴────┴────┴────┴── 1 2 3 4 5 6 7 8 9 10 11 Выборка 126. Высота 14. Вероятность/Плотность 0.0150150.
165
[19.00 [24.10 [31.50 [38.90 [46.30 [53.70 [61.10 [68.50 [75.90 [83.30 [90.70
; ; ; ; ; ; ; ; ; ; ;
24.10] 31.50] 38.90] 46.30] 53.70] 61.10] 68.50] 75.90] 83.30] 90.70] 93.00]
= = = = = = = = = = =
2 3 10 9 14 24 24 32 5 2 1
Условия построения гистограмм. 1. Минимальная высота гистограммы одномерного симптома 4. 2. Минимальная высота для каждого интервала TRUE. 3. Гистограмма: Унимодальность - полная 4. Значение симптома - не центр интервала ПАРЕНХИМАТОЗНАЯ ЖЕЛТУХА Априорная вероятность (распространенность) 1-й болезни Z1= 0.70 Симптом Значение Вероятн(плотн) 11^2 74.00 q11= 0.0073196 12^2 138.00 q12= 0.0012299 13^2 0.28 q13= 0.0456621 14^2 1.18 q14= 0.0347999 20^1 50.00 q15= 0.0019174 Числитель B1=Z1*q11*q12*q13*q14*q15 = 1.920E-0011 МЕХАНИЧЕСКАЯ ЖЕЛТУХА Априорная вероятность (распространенность) 2-й болезни Z2= 0.30 Симптом Значение Вероятн(плотн) 11^2 74.00 q21= 0.0032489 12^2 138.00 q22= 0.0032871 13^2 0.28 q23= 0.7478632 14^2 1.18 q24= 0.3988604 20^1 50.00 q25= 0.0157658 Числитель B2=Z2*q21*q22*q23*q24*q25 = 1.507E-0008 Вероятность болезни P1= B1/(B1+B2)= 0.001272668995451 Вероятность болезни P2= B2/(B1+B2)= 0.998727331004549 Ответ: МЕХАНИЧЕСКАЯ ЖЕЛТУХА(2) На самом деле: МЕХАНИЧЕСКАЯ ЖЕЛТУХА(2) Характериcтика симптомов. Аргументы в пользу болезни - ПАРЕНХИМАТОЗНАЯ ЖЕЛТУХА: Степень влияния Наименования анализов (и их значения) анализа 2 - Билирубин непрямой в 2 день (=74.00) Аргументы Степень влияния анализа 3 16 11 8 -
в пользу болезни - МЕХАНИЧЕСКАЯ ЖЕЛТУХА: Наименования анализов (и их значения) Билирубин прямой в 2 день (=138.00) Ферменты АСАТ в 2 день (=0.28) Ферменты АЛАТ в 2 день (=1.18) Возраст в 1 день (=50.00)
Пациент №613 – Ч. Болен: МЕХАНИЧЕСКАЯ ЖЕЛТУХА №1273 Лапор Симптом/день 1 2 Боль ( 1) Расш. холедоха ( 3) Расш.печ.ходов ( 4) Увелич. печени ( 5) + Зел. цвет печ. ( 7) Обт.желч.путей ( 9) Билир. непрямой (11) 74.00 Билир. прямой (12) 138.00 Ферменты АСАТ (13) 0.28 Ферменты АЛАТ (14) 1.18 Возраст (20) 50.00
166
8
+
БОЛЕЗНЬ N 1: ПАРЕНХИМАТОЗНАЯ ЖЕЛТУХА -------------------------------------------------------------------------------1-мерный симптом: Билир. непрямой в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Билирубин непрямой в 2 день│ 3 │ 38.0000│ 74.00 │ 2 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 151. Высота 42. Вероятность/Плотность 0.0073196. 1- мерная гистограмма: {103 42 6 } Билирубин непрямой в 2 день │ ░░░░░ 1. [12.00 ; 50.00] = 103 │ ░░░░░ 2. [50.00 ; 88.00] = 42 │ ░░░░░▒▒▒▒▒ 3. [88.00 ; 126.00] = 6 │ ░░░░░▒▒▒▒▒ │ ░░░░░▒▒▒▒▒▓▓▓▓▓ └───┴────┴────┴── 1 2 3 Выборка 151. Высота 42. Вероятность/Плотность 0.0073196. -------------------------------------------------------------------------------1-мерный симптом: Билир. прямой в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Билирубин прямой в 2 день│ 7 │ 26.5714│ 138.00 │ 6 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 153. Высота 5. Вероятность/Плотность 0.0012299. 1- мерная гистограмма: { 25 50 42 21 6 5 4 } Билирубин прямой в 2 день │ ▒▒▒▒▒ 1. [4.00 ; 30.57] = 25 │ ▒▒▒▒▒▓▓▓▓▓ 2. [30.57 ; 57.14] = 50 │ ▒▒▒▒▒▓▓▓▓▓ 3. [57.14 ; 83.71] = 42 │ ░░░░░▒▒▒▒▒▓▓▓▓▓ 4. [83.71 ; 110.29] = 21 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████ 5. [110.29 ; 136.86] = 6 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████ 6. [136.86 ; 163.43] = 5 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░ 7. [163.43 ; 190.00] = 4 └───┴────┴────┴────┴────┴────┴────┴── 1 2 3 4 5 6 7 Выборка 153. Высота 5. Вероятность/Плотность 0.0012299. -------------------------------------------------------------------------------1-мерный симптом: Ферменты АСАТ в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Ферменты АСАТ в 2 день│ 6 │ 0.6000│ 0.28 │ 1 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 146. Высота 4. Вероятность/Плотность 0.0456621. 1- мерная гистограмма: { 4 17 41 47 27 10 } Ферменты АСАТ в 2 день │ ▓▓▓▓▓█████ 1. [0.20 ; 0.80] = 4 │ ▓▓▓▓▓█████ 2. [0.80 ; 1.40] = 17 │ ▓▓▓▓▓█████╬╬╬╬╬ 3. [1.40 ; 2.00] = 41 │ ▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬ 4. [2.00 ; 2.60] = 47 │ ▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 5. [2.60 ; 3.20] = 27 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 6. [3.20 ; 3.80] = 10 └───┴────┴────┴────┴────┴────┴── 1 2 3 4 5 6 Выборка 146. Высота 4. Вероятность/Плотность 0.0433790. -------------------------------------------------------------------------------1-мерный симптом: Ферменты АЛАТ в 2
167
┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Ферменты АЛАТ в 2 день│ 4 │ 1.3500│ 1.18 │ 1 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 149. Высота 7. Вероятность/Плотность 0.0347999. 1- мерная гистограмма: { 7 19 80 43 } Ферменты АЛАТ в 2 день │ ▓▓▓▓▓ 1. [0.30 ; 1.65] = 7 │ ▓▓▓▓▓ 2. [1.65 ; 3.00] = 19 │ ▓▓▓▓▓█████ 3. [3.00 ; 4.35] = 80 │ ▒▒▒▒▒▓▓▓▓▓█████ 4. [4.35 ; 5.70] = 43 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████ └───┴────┴────┴────┴── 1 2 3 4 Выборка 149. Высота 7. Вероятность/Плотность 0.0330599. -------------------------------------------------------------------------------1-мерный симптом: Возраст в 1 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Возраст в 1 день│ 5 │ 11.4000│ 50.00 │ 4 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 183. Высота 4. Вероятность/Плотность 0.0019174. 1- мерная гистограмма: {129 34 12 4 4 } Возраст в 1 день │ ░░░░░ 1. [15.00 ; 26.40] = 129 │ ░░░░░ 2. [26.40 ; 37.80] = 34 │ ░░░░░ 3. [37.80 ; 49.20] = 12 │ ░░░░░▒▒▒▒▒ 4. [49.20 ; 60.60] = 4 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬ 5. [60.60 ; 72.00] = 4 └───┴────┴────┴────┴────┴── 1 2 3 4 5 Выборка 183. Высота 4. Вероятность/Плотность 0.0019174. БОЛЕЗНЬ N 2: МЕХАНИЧЕСКАЯ ЖЕЛТУХА -------------------------------------------------------------------------------1-мерный симптом: Билир. непрямой в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Билирубин непрямой в 2 день│ 2 │ 68.4000│ 74.00 │ 2 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 36. Высота 8. Вероятность/Плотность 0.0032489. 1- мерная гистограмма: { 28 8 } Билирубин непрямой в 2 день │ ░░░░░ 1. [3.20 ; 71.60] = 28 │ ░░░░░ 2. [71.60 ; 140.00] = 8 │ ░░░░░ │ ░░░░░▒▒▒▒▒ │ ░░░░░▒▒▒▒▒ └───┴────┴── 1 2 Выборка 36. Высота 8. Вероятность/Плотность 0.0030864. -------------------------------------------------------------------------------1-мерный симптом: Билир. прямой в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Билирубин прямой в 2 день│ 3 │ 98.6667│ 138.00 │ 2 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 37. Высота 12. Вероятность/Плотность 0.0032871. 1- мерная гистограмма: { 20 12 5 } Билирубин прямой в 2 день
168
│ ░░░░░ 1. [4.00 ; 102.67] = 20 │ ░░░░░ 2. [102.67 ; 201.33] = 12 │ ░░░░░▒▒▒▒▒ 3. [201.33 ; 300.00] = 5 │ ░░░░░▒▒▒▒▒▓▓▓▓▓ │ ░░░░░▒▒▒▒▒▓▓▓▓▓ └───┴────┴────┴── 1 2 3 Выборка 37. Высота 12. Вероятность/Плотность 0.0032871. -------------------------------------------------------------------------------1-мерный симптом: Ферменты АСАТ в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Ферменты АСАТ в 2 день│ 2 │ 1.2000│ 0.28 │ 1 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 39. Высота 35. Вероятность/Плотность 0.7478632. 1- мерная гистограмма: { 35 4 } Ферменты АСАТ в 2 день │ ░░░░░ 1. [0.10 ; 1.30] = 35 │ ░░░░░ 2. [1.30 ; 2.50] = 4 │ ░░░░░ │ ░░░░░ │ ░░░░░▒▒▒▒▒ └───┴────┴── 1 2 Выборка 39. Высота 35. Вероятность/Плотность 0.7104701. -------------------------------------------------------------------------------1-мерный симптом: Ферменты АЛАТ в 2 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Ферменты АЛАТ в 2 день│ 6 │ 0.4500│ 1.18 │ 2 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 39. Высота 7. Вероятность/Плотность 0.3988604. 1- мерная гистограмма: { 7 7 10 5 5 5 } Ферменты АЛАТ в 2 день │ ▓▓▓▓▓ 1. [0.30 ; 0.75] = 7 │ ░░░░░▒▒▒▒▒▓▓▓▓▓ 2. [0.75 ; 1.20] = 7 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 3. [1.20 ; 1.65] = 10 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 4. [1.65 ; 2.10] = 5 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 5. [2.10 ; 2.55] = 5 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 6. [2.55 ; 3.00] = 5 └───┴────┴────┴────┴────┴────┴── 1 2 3 4 5 6 Выборка 39. Высота 7. Вероятность/Плотность 0.3988604. -------------------------------------------------------------------------------1-мерный симптом: Возраст в 1 ┌────────────────────────────────────┬──────────┬─────────┬─────────┬────────┐ │ Название симптома и номер дня │Интервалов│ Длина │ Симптом │№ интер.│ ├────────────────────────────────────┼──────────┼─────────┼─────────┼────────┤ │ Возраст в 1 день│ 7 │ 10.5714│ 50.00 │ 3 │ └────────────────────────────────────┴──────────┴─────────┴─────────┴────────┘ !!!!!! Результат. Выборка 126. Высота 21. Вероятность/Плотность 0.0157658. 1- мерная гистограмма: { 5 10 21 26 41 19 4 Возраст в 1 день │ ╬╬╬╬╬ 1. [19.00 ; 29.57] = 5 │ ╬╬╬╬╬ 2. [29.57 ; 40.14] = 10 │ █████╬╬╬╬╬ 3. [40.14 ; 50.71] = 21 │ ▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 4. [50.71 ; 61.29] = 26 │ ▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 5. [61.29 ; 71.86] = 41 │ ▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼ 6. [71.86 ; 82.43] = 19 │ ░░░░░▒▒▒▒▒▓▓▓▓▓█████╬╬╬╬╬┼┼┼┼┼░░░░░ 7. [82.43 ; 93.00] = 4 └───┴────┴────┴────┴────┴────┴────┴── 1 2 3 4 5 6 7 Выборка 126. Высота 21. Вероятность/Плотность 0.0157658.
169
}
Научное издание Марина Леонидовна Жмудяк Антон Николаевич Повалихин Андрей Васильевич Стребуков Александр Викторович Гайнер Александра Леонидовна Жмудяк Геннадий Георгиевич Устинов ДИАГНОСТИКА ЗАБОЛЕВАНИЙ МЕТОДАМИ ТЕОРИИ ВЕРОЯТНОСТЕЙ Издано в авторской редакции
Издательство Алтайского государственного технического университета им. И.И. Ползунова, 656038, г. Барнаул, пр. Ленина,46 Лицензия на издательскую деятельность ЛР №020822 от 21.09.98г.
Подписано в печать 15.03.2006 Бумага офсетная. Гарнитура Таймс Нью Роман Формат 60х84 1/8 Заказ 88 Отпечатано в типографии ООО «Полиграф - Сервис» г. Барнаул, пр. Красноармейский, 14 тел. 633-758, 633-430
170