Ìîñêîâñêèé Ãîñóäàðñòâåííûé óíèâåðñèòåò èì. Ì.Â. Ëîìîíîñîâà
Ôàêóëüòåò Âû÷èñëèòåëüíîé ìàòåìàòèêè è êèáåðíåòèêè
Ñ.È. Ãóðî...
107 downloads
262 Views
527KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Ìîñêîâñêèé Ãîñóäàðñòâåííûé óíèâåðñèòåò èì. Ì.Â. Ëîìîíîñîâà
Ôàêóëüòåò Âû÷èñëèòåëüíîé ìàòåìàòèêè è êèáåðíåòèêè
Ñ.È. Ãóðîâ
Îöåíêà íàä¼æíîñòè êëàññèôèöèðóþùèõ àëãîðèòìîâ
Ìîñêâà 2002
ÓÄÊ 519.68: 681.513.7 ÁÁÊ 22.172: 32.81 Ã 95
Ãóðîâ Ñ.È. Îöåíêà íàä¼æíîñòè êëàññèôèöèðóþùèõ àëãîðèòìîâ. Ì.: Èçäàòåëüñêèé îòäåë ô-òà ÂÌèÊ ÌÃÓ (ëèöåíçèÿ ÈÄ 05899 îò 24.09.2001), 2002 ã. 45 ñ. ÝËÅÊÒÐÎÍÍÀß ÂÅÐÑÈß: 2003 ã. 42 ñ.  ó÷åáíîì ïîñîáèè ðàññìîòðåíû ìåòîäû ìàòåìàòè÷åñêîé ñòàòèñòèêè äëÿ òî÷å÷íîé è èíòåðâàëüíîé îöåíêè ïàðàìåòðîâ áèíîìèàëüíîãî è ïîëèíîìèàëüíîãî ðàñïðåäåëåíèé. Ïðåäëîæåíû íîâûå ïîäõîäû ê ïîñòðîåíèþ îöåíîê àëãîðèòìîâ êëàññèôèêàöèè, ïðèìåíèìûõ ê ñëó÷àþ ìàëîãî ÷èñëà ïðåöåäåíòîâ. Áðîøþðà ïðåäíàçíà÷åíà äëÿ ñòóäåíòîâ, èçó÷àþùèõ ìåòîäû ïîñòðîåíèÿ ðàñïîçíàþùèõ ñèñòåì è ìîæåò áûòü ïîëåçíà ñïåöèàëèñòàì â îáëàñòè ðàñïîçíàâàíèÿ îáðàçîâ.  íàñòîÿùåé ýëåêòðîííîé âåðñèè èñïðàâëåíû çàìå÷åííûå íåòî÷íîñòè è ïðîâåäåíî ïåðåôîðìàòèðîâàíèå òåêñòà. Ðàáîòà âûïîëíåíà ïðè ïîääåðæêå ãðàíòà ÐÔÔÈ 01-01-00885-à. Ðåöåíçåíòû: Áåíèíã Â.Å. ä.ô.-ì.í., ïðîôåññîð. Ðÿçàíîâ Â.Â. àêàäåìèê ÐÀÅÍ, ä.ô.-ì.í.
Ïå÷àòàåòñÿ ïî ðåøåíèþ Ðåäàêöèîííî-èçäàòåëüñêîãî îòäåëà ôàêóëüòåòà Âû÷èñëèòåëüíîé ìàòåìàòèêè è êèáåðíåíèêè ÌÃÓ èì. Ì.Â. Ëîìîíîñîâà. ISBN 5-89407-145-3 c ° Èçäàòåëüñêèé îòäåë ôàêóëüòåòà Âû÷èñëèòåëüíîé ìàòåìàòèêè è êèáåðíåòèêè ÌÃÓ èì. Ì.Â. Ëîìîíîñîâà, 2002. c ° Ãóðîâ Ñ.È.
Ââåäåíèå Ðàñïîçíàâàíèå îáðàçîâ íå ñâîäèòñÿ ê ìåòîäàì ðàçäåëåíèÿ íàáîðîâ ïîäìíîæåñòâ â ïðèçíàêîâîì ïðîñòðàíñòâå. Âàæíî íå òîëüêî ïîëó÷èòü àëãîðèòì, ðåàëèçóþùèé (âîçìîæíî ñ íåêîòîðûìè îøèáêàìè) òðåáóåìîå ðàçäåëåíèå êëàññîâ, íî è èìåòü îöåíêó íàäåæíîñòè ðåøåíèÿ ïîñòàâëåííîé çàäà÷è, ò.å. çíàòü, êàê ÷àñòî äàííûé àëãîðèòì áóäåò îøèáàòüñÿ ïðè êëàññèôèêàöèè âíîâü ïðåäúÿâëÿåìûõ îáúåêòîâ. ßñíî, ÷òî óêàçàííàÿ îöåíêà íàïðÿìóþ îïðåäåëÿåò êà÷åñòâî ðåøåíèÿ ïîñòàâëåííîé çàäà÷è. Íà ïðàêòèêå æå äàòü òàêóþ îáîñíîâàííóþ îöåíêó àïðèîðè ÷àñòî îêàçûâàåòñÿ çàòðóäíèòåëüíûì. Íåñìîòðÿ íà óêàçàííóþ âàæíîñòü, ìåòîäû îöåíêè íàäåæíîñòè âûáðàííîãî ðåøàþùåãî ïðàâèëà ðàçâèòû çíà÷èòåëüíî ñëàáåå, ÷åì òåîðèÿ ïîñòðîåíèÿ ðàñïîçíàþùèõ àëãîðèòìîâ. Ïðîáëåìà óñóãóáëÿåòñÿ åù¼ è òåì, ÷òî ïðè ðåøåíèè ïðàêòè÷åñêèõ çàäà÷ ðàñïîçíàâàíèÿ îáðàçîâ ÷àñòî ïðèõîäèòüñÿ äîâîëüñòâîâàòüñÿ ìàëûì ÷èñëîì èìåþùèõñÿ â íàëè÷èè ïðåöåäåíòîâ.  ýòîì ñëó÷àå òèïè÷íîé ÿâëÿåòñÿ ñèòóàöèÿ, êîãäà ëèáî ïàðàìåòðû ôîðìóë îöåíêè îøèáîê ðàñïîçíàâàíèÿ íàõîäÿòñÿ âíå ãðàíèö ïðèìåíèìîñòè ìåòîäà, ëèáî ïîëó÷åííûå îöåíêè îêàçûâàþòñÿ ñèëüíî çàíèæåííûìè èëè çàâûøåííûìè è èíòóèòèâíî íåïðèåìëåìûìè, êàê, íàïðèìåð, íóëåâàÿ òî÷å÷íàÿ îöåíêà îøèáêè ïðè êîððåêòíîì àëãîðèòìå ðàñïîçíàâàíèÿ. Âûøåñêàçàííîå ñâèäåòåëüñòâóåò î íåîáõîäèìîñòè ïðåäëîæèòü íîâûå ïîäõîäû ê ïîñòðîåíèþ îöåíîê àëãîðèòìîâ ðàñïîçíàâàíèÿ, ñïîñîáíûõ îõâàòèòü âàæíûé ñëó÷àé ìàëîãî ÷èñëà ïðåöåäåíòîâ. Ýòîé ïðîáëåìå è ïîñâÿùåíà íàñòîÿùàÿ ðàáîòà.
1 Îñíîâíûå ïîíÿòèÿ è îïðåäåëåíèÿ Ïîä ïðîñòðàíñòâîì îáðàçîâ X áóäåì ïîíèìàòü ïðîèçâîëüíûé íåïóñòîé êîìïàêò1 . Ýëåìåíòû X íàçûâàþòñÿ îáðàçàìè. Ìíîæåñòâî X ïîëàãàåòñÿ ðàçáèòûì íà êîíå÷íîå ÷èñëî s > 2 ïîïàðíî íåïåðåñåêàþùèõñÿ îáëàñòåé {Xt }, t = 1, s , íàçûâàåìûõ êëàññàìè. Ñóùåñòâåííûì ÿâëÿåòñÿ òî, ÷òî èíôîðìàöèÿ î ðàçáèåíèè X íà êëàññû îãðàíè÷èâàåòñÿ çíàíèåì î ïðèíàäëåæíîñòè ê òîìó èëè èíîìó êëàññó êîíå÷íîãî ÷èñëà x1 , x2 , . . . , xm , xm+1 , . . . , xm+l ýëåìåíòîâ X . Òàêèå îáðàçû ñ èçâåñòíîé êëàññèôèêàöèåé íàçûâàþò ïðåöåäåíòàìè. Ìû ðàçáèâàåì ñïèñîê ïðåöåäåíòîâ íà äâå ïîäïîñëåäîâàòåëüíîñòè: íà÷àëüíóþ x1 , x2 , . . . , xm è çàêëþ÷èòåëüíóþ xm+1 , . . . , xm+l , è ñ÷èòàåì ïðè ýòîì, ÷òî ïîñëåäíÿÿ èñïîëüçóåòñÿ äëÿ ïîñòðîåíèÿ àëãîðèòìà êëàññèôèêàöèè, à ïåðâàÿ äëÿ îöåíêè êà÷åñòâà ïîñòðîåííîãî àëãîðèòìà. Ýòè ïîäïîñëåäîâàòåëüíîñòè îáðàçóþò îáó÷àþùóþ è ýêçàìåíàöèîííóþ âûáîðêè. Ïîëàãàåì, ÷òî âñå ýëåìåíòû âíóòðè êàæäîé âûáîðêè ðàçëè÷íû. Áóäåì îáîçíà÷àòü L = m + l. Çäåñü ñëåäóåò ñäåëàòü âàæíîå çàìå÷àíèå2 . Äàëåå ìû ñ÷èòàåì, ÷òî óêàçàííûå âûáîðêè íå èìåþò îáùèõ ýëåìåíòîâ. Ýòî òðåáîâàíèå (ïðè óñëîâèè âûïîëíåíèÿ ñôîðìóëèðîâàííîé íèæå ãèïîòåçû ïðåäñòàâèòåëüíîñòè) ãàðàíòèðóåò êîððåêòíîñòü ïðèìåíåíèÿ ðåçóëüòàòîâ êëàññèôèêàöèè íà ýêçàìåíàöèîííîé ïîñëåäîâàòåëüíîñòè ê çàäà÷å îöåíêè êà÷åñòâà îáó÷åíèÿ. Îáîçíà÷èâ ÷åðåç Y ìíîæåñòâî ñèìâîëîâ êëàññîâ {K1 , . . . , Ks } ìîæíî ñêàçàòü, ÷òî ñóùåñòâóåò ôóíêöèÿ f ∗ : X → Y , î êîòîðîé èçâåñòåí ëèøü íàáîð åå çíà÷åíèé 1 Îáû÷íî
òàêæå ñ÷èòàþò, ÷òî X åñòü ïîäìíîæåñòâî ïðÿìîãî ïðîèçâåäåíèÿ êîíå÷íîãî ÷èñëà n ìåòðè÷åñêèõ ïðîñòðàíñòâ, ñîîòâåòñòâóþùèõ ïðèçíàêàì, è íàçûâàþò åãî ïðèçíàêîâûì ïðîñòðàíñòâîì. Îäíàêî ýòî ïðåäïîëîæåíèå, ñóùåñòâåííîå ïðè ïîñòðîåíèè êëàññèôèêàòîðîâ, íå áóäåò èñïîëüçîâàòüñÿ íàìè ïðè îöåíêå íàäåæíîñòè ïîñòðîåííûõ ðåøàþùèõ ïðàâèë. 2 íà íåãî óêàçàë àâòîðó Ê.Â. Âîðîíöîâ
{f ∗ (xi )}Li=1 = f¯∗ (¯ xL ) â òî÷êàõ x¯L . Ôóíêöèÿ f ∗ íàçûâàåòñÿ èñòèííûì êëàññèôèêàòîðîì. Çàìåòèì, ÷òî y ∈ Y ÿâëÿåòñÿ íîìèíàëüíîé ïåðåìåííîé. Ðàññìàòðèâàåòñÿ çàäà÷à êëàññèôèêàöèè ñ íåïåðåñåêàþùèìèñÿ êëàññàìè â äåòåðìèíèðîâàííîé ïîñòàíîâêå. Êëàññèôèêàòîðîì èëè ðåøàþùèì ïðàâèëîì (ð.ï.) íàçûâàåòñÿ ëþáàÿ ôóíêöèÿ f : X → Y (õîòÿ íà êëàññ òàêèõ ôóíêöèé íà ïðàêòèêå íàêëàäûâàþòñÿ òå èëè èíûå îãðàíè÷åíèÿ). Êëàññèôèêàöèÿ îáðàçà x ñîñòîèò â âû÷èñëåíèè çíà÷åíèÿ f (x). Ìû íå áóäåì ðàçëè÷àòü ôóíêöèþ f è ðåàëèçóþùèé åå àëãîðèòì. Ïðè ðåøåíèè çàäà÷ ðàñïîçíàâàíèÿ îáðàçîâ òðåáóåòñÿ ïîñòðîèòü îïòèìàëüíûé â íåêîòîðîì ñìûñëå êëàññèôèêàòîð f (x), à èìåííî òàêîé, ÷òîáû ïðè ïðåäúÿâëåíèè ýëåìåíòîâ x èç X â ïðîöåññå êëàññèôèêàöèè íà ïðàêòèêå ðàâåíñòâî f (x) = f ∗ (x) (ïðàâèëüíàÿ êëàññèôèêàöèÿ), âûïîëíÿëîñü êàê ìîæíî ÷àùå. Êîëè÷åñòâåííî îöåí¼ííàÿ ñòåïåíü óâåðåííîñòè ν â ñïðàâåäëèâîñòè äàííîãî ðàâåíñòâà äëÿ ïðîèçâîëüíîãî x ∈ X íàçûâàåòñÿ íàäåæíîñòüþ êëàññèôèêàöèè. Çàäà÷à îöåíêè íàäåæíîñòè ð.ï. è ñîñòîèò â îïðåäåëåíèè ν . Íà ïðàêòèêå ÷àñòî âñòðå÷àåòñÿ ñèòóàöèÿ, êîãäà äëÿ îöåíêè íàäåæíîñòè ð.ï. â ðàñïîðÿæåíèè ðàçðàáîò÷èêà èìåþòñÿ ëèøü íàáîðû çíà÷åíèé íà ïðåöåäåíòàõ èñòèííîãî è ïîñòðîåííîãî êëàññèôèêàòîðîâ è, âîçìîæíî, íåêîòîðàÿ äîïîëíèòåëüíàÿ èíôîðìàöèÿ î ¾âàæíîñòè¿ ñàìèõ ïðåöåäåíòîâ. Âàæíîñòü ïðåöåäåíòîâ, ó÷èòûâàþùàÿ èõ çíà÷èìîñòü ñ òî÷êè çðåíèÿ ïîòåðü ïðè îøèáî÷íîé èõ êëàññèôèêàöèè è/èëè îòðàæàþùàÿ ÷àñòîòó âñòðå÷àåìîñòè àíàëîãè÷íûõ îáðàçîâ íà ïðàêòèêå îïèñûâàåòñÿ, êàê ïðàâèëî, â âèäå íåîòðèöàòåëüíûõ âåñîâ. Âåêòîð © ªL âåñîâ γi = γ(xi ) i=1 = γ¯L ïðåöåäåíòîâ x ¯L ìû áóäåì âêëþ÷àòü â ïîíÿòèå ïðåöåäåíòíîé èíôîðìàöèè âìåñòå ñ ñàìèìè ïðåöåäåíòàìè è óêàçàííûìè íàáîðàìè çíà÷åíèé êëàññèôèêàòîðà íà íèõ. ×àñòî çàêàç÷èêó íåîáõîäèìî èìåòü îáîñíîâàííóþ îöåíêó íàäåæíîñòè ïîëó÷åííîãî àëãîðèòìà êëàññèôèêàöèè â óñëîâèÿõ íàëè÷èÿ ëèøü äàííîé ïðåöåäåíòíîé èíôîðìàöèè è íåâîçìîæíîñòè íè å¼ ïîïîëíåíèÿ, íè îðãàíèçàöèè ïðîâåðêè â õîäå ïðàêòè÷åñêîãî ïðîâåäåíèÿ ïðîöåññà êëàññèôèêàöèè3 .  ýòèõ ñëó÷àÿõ îöåíèâàòü âåëè÷èíó ν ïðèõîäèòüñÿ ëèøü ïî çíà÷åíèÿì ôóíêöèé {f ∗ (xi )}, f (xi )} è âåñîâ γ(xi ) ïðåöåäåíòîâ x1 , x2 , . . . , xm , âõîäÿùèõ â ýêçàìåíàöèîííóþ ïîñëåäîâàòåëüíîñòü. ßñíî, ÷òî òàêàÿ îöåíêà áóäåò àäåêâàòíîé â òîé èëè èíîé ñòåïåíè, åñëè ñîñòàâ ýêçàìåíàöèîííîé âûáîðêè áóäåò îòðàæàòü õàðàêòåð ïîÿâëåíèÿ íîâûõ ïðåäúÿâëÿåìûõ äëÿ êëàññèôèêàöèè îáðàçîâ ïðè ïðàêòè÷åñêîì ïðèìåíåíèè àëãîðèòìà êëàññèôèêàöèè. Çäåñü èìååòñÿ â âèäó, ÷òî îáðàçû èç îäíèõ ïîäîáëàñòåé X ìîãóò âñòðå÷àòüñÿ ÷àùå, ÷åì èç äðóãèõ, è ñîñòàâ íàáîðà ïðåöåäåíòîâ äîëæåí îòðàæàòü ýòîò ôàêò. Óêàçàííîå ïðåäïîëîæåíèå î ñâîéñòâàõ îáó÷àþùåé è ýêçàìåíàöèîííîé ïîñëåäîâàòåëüíîñòåé íàçîâåì ãèïîòåçîé ïðåäñòàâèòåëüíîñòè (ÃÏ). Òî÷íåå, ïîä ÃÏ ìû áóäåì ïîíèìàòü ïðåäïîëîæåíèå î òîì, ÷òî ïðåöåäåíòíàÿ èíôîðìàöèÿ îòðàæàåò ñâîéñòâà ïðîñòðàíñòâà îáðàçîâ, ñâÿçàííûå ñ îïðåäåë¼ííûì ðàñïðåäåëåíèåì ïîÿâëÿþùèõñÿ îáðàçîâ ïî ðàçëè÷íûì ïîäîáëàñòÿì X â ïðîöåññå êëàññèôèêàöèè íà ïðàêòèêå. Ãèïîòåçà ïðåäñòàâèòåëüíîñòè, ïðèíÿòàÿ â òîé èëè èíîé ôîðìå â ðàìêàõ êîíêðåòíîé çàäà÷è, âìåñòå ñ ãèïîòåçîé êîìïàêòíîñòè (ÃÊ)4 ÿâëÿåòñÿ îïðåäåëÿþùèì ôàêòîðîì ïðè 3 Íàïðèìåð,
êîãäà ïîëó÷åíèå íîâîãî ïðåöåäåíòà ñâÿçàíî ñ ïðîâåäåíèåì äîðîãîñòîÿùåãî èññëåäîâàíèÿ èëè íåâîçìîæíî ïðèíöèïèàëüíî (ðàñïîçíàâàíèå è ïðîãíîçèðîâàíèå ýêîíîìè÷åñêèõ, ñîöèàëüíûõ ïðîöåññîâ, â ìåäèöèíå, ïîëèòèêå, âîåííîì äåëå è ò.ä.). 4 ¾Îáðàçàì ñîîòâåòñòâóþò êîìïàêòíûå ìíîæåñòâà â ïðîñòðàíñòâå âûáðàííûõ ñâîéñòâ¿ [1]. Ïî ìíåíèþ
îöåíêå íàäåæíîñòè ïîñòðîåííîãî ðåøàþùåãî ïðàâèëà, íà êîòîðîì îñíîâûâàþòñÿ âñå äàëüíåéøèå âûâîäû. Äëÿ ïðàêòè÷åñêîãî èñïîëüçîâàíèÿ äàííàÿ âåñüìà îáùàÿ ôîðìóëèðîâêà ãèïîòåçû ïðåäñòàâèòåëüíîñòè ôîðìàëèçóåòñÿ â òî÷íîé ìàòåìàòè÷åñêîé ôîðìå. Òàêàÿ ôîðìàëèçàöèÿ (îäíîâðåìåííî ñ ïðèâåäåííûì âûøå èíòóèòèâíûì êðèòåðèåì îïòèìàëüíîñòè êëàññèôèêàòîðà) ïðîâîäèòñÿ â âåðîÿòíîñòíûõ òåðìèíàõ5 . Äëÿ ýòîãî ïðåäïîëàãàþò, ÷òî X îáëàäàåò âåðîÿòíîñòíîé ìåðîé µ(·), ò.å. äëÿ ëþáîãî ïîäìíîæåñòâà X èç íåêîòîðîé σ -àëãåáðû ïîäìíîæåñòâ ïðîñòðàíñòâà îáðàçîâ ñóùåñòâóåò èíòåãðàë Z µ(dx) = P (Õ) > 0, P (X ) = 1. X
P (X) íàçûâàåòñÿ, êàê èçâåñòíî, âåðîÿòíîñòüþ èëè ðàñïðåäåëåíèåì âåðîÿòíîñòåé íà X . Âåðîÿòíîñòü ñîáûòèÿ A áóäåì îáîçíà÷àòü P(A) èëè P{A}. Äëÿ óïðîùåíèÿ âûêëàäîê ïðåäïîëàãàþò è ñóùåñòâîâàíèå ïëîòíîñòè âåðîÿòíîñòè p (x) íà X : p (x) = µ(dx)/dx. Äàëåå ïðèíèìàþò, ÷òî è îáó÷àþùàÿ âûáîðêà, è îáðàçû ñ íåèçâåñòíîé ïðèíàäëåæíîñòüþ ê ïîäìíîæåñòâàì Xt , t = 1, s , êîòîðûå áóäóò â äàëüíåéøåì ïðåäúÿâëÿòüñÿ äëÿ êëàññèôèêàöèè, ïîëó÷åíû èç ïðîñòðàíñòâà îáðàçîâ â ðåçóëüòàòå ïîäîáíûõ ïðîöåäóð âûáîðà, ÷òî îáåñïå÷èâàåò èõ àíàëîãè÷íûå ñòàòèñòè÷åñêèå ñâîéñòâà. Òàêèì îáðàçîì, ïðè îòñóòñòâèè èíôîðìàöèè î âåñàõ ïðåöåäåíòîâ (èëè, ÷òî òî æå, ïðè ðàâåíñòâå âñåõ âåñîâ) ãèïîòåçà ïðåäñòàâèòåëüíîñòè ïðèíèìàåòñÿ â ñëåäóþùåé ôîðìå.
Ãèïîòåçà 1. Íà ïðîñòðàíñòâå îáðàçîâ X çàäàíî (ìîæåò áûòü íåèçâåñòíîå)
ðàñïðåäåëåíèå âåðîÿòíîñòåé P (X), X ⊆ X , è ëþáîé ðàññìàòðèâàåìûé íàáîð îáðàçîâ x1 , x2 , . . . , xl ÿâëÿåòñÿ, åñëè ÿâíî íå óêàçàíî èíà÷å, ðåàëèçàöèåé íåçàâèñèìîé âûáîðêè l ñëó÷àéíûõ âåëè÷èí èç ãåíåðàëüíîé ñîâîêóïíîñòè ñ ðàñïðåäåëåíèåì P (X).
ßñíî, ÷òî Ãèïîòåçà 1 ÿâëÿåòñÿ óñëîâèåì ðåïðåçåíòàòèâíîñòè âûáîðêè â ìàòåìàòè÷åñêîé ñòàòèñòèêå. Åñëè P(x) èçâåñòíî, òî îöåíêà íàäåæíîñòè ïîñòðîåííîãî ð.ï. íå ïðåäñòàâëÿåò òðóäà (ñì. íèæå ôîðìóëû (2) è (3) ). Äàëåå ìû ñ÷èòàåì ôóíêöèþ P(x) íåèçâåñòíîé. Ñòåïåíü óäîâëåòâîðåííîñòè (òî÷íåå, íåóäîâëåòâîðåííîñòè) èññëåäîâàòåëÿ ïîëó÷åííûì êëàññèôèêàòîðîì f (x) âûðàæàåòñÿ çíà÷åíèåì ôóíêöèîíàëà ñðåäíåãî ðèñêà R (f ) : Z X X R (f ) , Q (f ∗ (x), f (x) ) p (x) dx, (1) X
f ∗ (x)∈Y f (x)∈Y
ãäå Q : Y × Y → R>0 (R>0 ìíîæåñòâî íåîòðèöàòåëüíûõ äåéñòâèòåëüíûõ ÷èñåë, , îçíà÷àåò ¾ðàâíî ïî îïðåäåëåíèþ¿). Çäåñü Q (Ki , Kj ) = cij > 0 íåêîòîðàÿ âûáðàííàÿ ôóíêöèÿ ïîòåðü èëè øòðàôà çà îòíåñåíèå îáðàçà èç êëàññà Ki â êëàññ Kj . ×àñòî ìîæíî ïîëàãàòü, ÷òî
cii = 0; cij = 1; i 6= j; i, j = 1, s . Òîãäà R (f ) åñòü âåðîÿòíîñòü îøèáî÷íîé êëàññèôèêàöèè ïðè ïðèìåíåíèè ð.ï. f . àâòîðà, äàííàÿ ôîðìóëèðîâêà ãèïîòåçû êîìïàêòíîñòè íóæäàåòñÿ â ñóùåñòâåííîé êîððåêòèðîâêå, îäíàêî ýòîò âîïðîñ íå îòíîñèòñÿ ê òåìå äàííîãî èññëåäîâàíèÿ. Áîëåå ðàçâåðíóòóþ ôîðìóëèðîâêó ÃÊ ñì. â [26]. 5 Áûëî áû êðàéíå èíòåðåñíî ïðåäëîæèòü íåâåðîÿòíîñòíóþ ôîðìóëèðîâêó ãèïîòåçû ïðåäñòàâèòåëüíîñòè. Ýòî ïîçâîëèëî áû ïîäîéòè ê ðàññìàòðèâàåìîé ïðîáëåìå ñ ñîâåðøåííî íîâîé ñòîðîíû. Íåëüçÿ ëè èñïîëüçîâàòü äëÿ ýòîãî íå÷åòêèå ìíîæåñòâà èëè òåîðèþ âîçìîæíîñòåé [42]?
ßñíî, ÷òî ïðÿìîå èñïîëüçîâàíèå çàâèñèìîñòè (1) äëÿ âû÷èñëåíèÿ ñðåäíåãî ðèñêà íåâîçìîæíî â ñèëó íåèçâåñòíîñòè f ∗ (x) äàæå ïðè èçâåñòíîì ðàñïðåäåëåíèè p (x). ×òîáû îáîéòè äàííóþ òðóäíîñòü, ïðè ïîñòðîåíèè êëàññèôèêàòîðà ïî ïðåöåäåíòàì x ¯m èñïîëüçóþò e ôóíêöèîíàë ýìïèðè÷åñêîãî ðèñêà Rm (f ): m
e Rm (f ) ,
1 X Q ( f ∗ (xi ), f (xi ) ) . m i=1
(2)
Îäíàêî òàêàÿ çàìåíà ôóíêöèîíàëîâ òóò æå ïîðîæäàåò âîïðîñ î ñâÿçè ìèíèìàëüíûõ çíà÷åíèé ýìïèðè÷åñêîãî è ñðåäíåãî ðèñêîâ. Îòâåò íà ýòîò âîïðîñ äàåò òåîðèÿ VC ðàâíîìåðíîé ñõîäèìîñòè ÷àñòîò ê âåðîÿòíîñòÿì â óñëîâèÿõ êîíå÷íîñòè âûáîðîê, ïðåäëîæåííàÿ Â.Í. Âàïíèêîì è À.ß. ×åðâîíåíêèñîì [12], [13]. Ê ñîæàëåíèþ îêàçûâàåòñÿ, e (fmin ), ãäå ÷òî â ðàìêàõ VC ãàðàíòèðîâàòü ìàëîñòü R (fmin ) ïðè ìàëîì Rm ª © e fmin = arg min Rm (f ) f
ìîæíî ëèøü ïðè äîñòàòî÷íî áîëüøèõ îáú¼ìàõ m îáó÷àþùåé âûáîðêè x ¯m . Ïðîáëåìà îöåíêè íàäåæíîñòè ð.ï. áûëà áû ñíÿòà, åñëè áû óäàëîñü îïðåäåëèòü èëè õîòÿ áû îöåíèòü âåðîÿòíîñòè pij Z (3) pij , P (Xij ) = p (x) dx, i, j = 1, s , Xij
© ª © ªs, s ãäå Xij , x | x ∈ X , f ∗ (x) = Ki , f (x) = Kj . Ïîäîáëàñòè Xij i,j=1 ýòî s2 îáëàñòåé ðàçáèåíèÿ ïðîñòðàíñòâà îáðàçîâ X , ñîîòâåòñòâóþùèõ ñèòóàöèÿì, êîãäà x ïðèíàäëåæèò êëàññó Ki , à ðåøàþùåå ïðàâèëî îòíîñèò åãî ê êëàññó Kj . Ïðè i 6= j pij ñóòü âåðîÿòíîñòè îøèáîê êëàññèôèêàöèè ñîîòâåòñòâóþùåãî ðîäà. Òåïåðü ìîæíî ÿâíî âû÷èñëèòü ñðåäíèé ðèñê R (f ) =
s X s X
cij pij .
(4)
i=1 j=1
 ïðåäïîëîæåíèÿõ cii = cr , cij = cw , (i 6= j) ìîæíî ïîëàãàòü X ðàçáèòûì íà äâå ïîäîáëàñòè ïðàâèëüíûõ Xr è íåïðàâèëüíûõ Xw êëàññèôèêàöèé è îáîçíà÷èòü ν = P (Xr ). Òîãäà
R (f ) = cr ν + cw (1 − ν) , à ïðè cr = 0, cw = 1 èìååì R (f ) = 1 − ν . © ªs, s Èòàê, íàäåæíîñòü êëàññèôèêàöèè ð.ï. îïðåäåëÿåòñÿ íàáîðîì âåðîÿòíîñòåé pij i,j=1 èëè âåëè÷èíîé ν (âåðîÿòíîñòü ïðàâèëüíîé êëàññèôèêàöèè). Çàäà÷à êëàññèôèêàöèè Z = Z (X , s, L, m, x¯L , γ¯L , f¯∗ (¯ xL ) ) ñîñòîèò â âûáîðå ð.ï. f , ìèíèìèçèðóþùåãî òîò èëè èíîé ôóíêöèîíàë RZ (·) (îáû÷íî ýòî ñðåäíèé ðèñê) è îöåíêè ïîëó÷åííîé âåëè÷èíû RZ (f ). Óêàçàííûå ïîäçàäà÷è áóäåì îáîçíà÷àòü Z1 è Z2. Êîãäà ïîçâîëÿåò èìåþùàÿñÿ èíôîðìàöèÿ (óäàåòñÿ âîññòàíîâèòü ïëîòíîñòè ñîîòâåòñòâóþùèõ ðàñïðåäåëåíèé), ýòè ïîäçàäà÷è ðåøàþòñÿ ïàðàëëåëüíî è ñîãëàñîâàíî. Íà ïðàêòèêå æå, â ñèëó âûøåóïîìÿíóòûõ ïðè÷èí, îáå ïîäçàäà÷è ðåøàþò, êàê ïðàâèëî, ïðèáëèæåííî è ðàçäåëüíî (õîòÿ, âîçìîæíî, è èñïîëüçóþò ðåçóëüòàòû Z2 äëÿ êîððåêòèðîâêè èëè âûáîðà ðåøàþùèõ ïðàâèë Z1). Çàìåòèì, ÷òî ïðåäëîæèòü äëÿ ðåøåíèÿ Z1 ðåøàþùåå ïðàâèëî, îñíîâàííîå íà òåõ èëè èíûõ èäåÿõ, âîîáùå ãîâîðÿ, íåñëîæíî. Ðàçëè÷íûå ïîäõîäû ê ïîñòðîåíèþ êëàññèôèêàòîðîâ
ðàññìàòðèâàþòñÿ, íàïðèìåð, â [1], [47], [50], [40], [51] è â äðóãèõ ìîíîãðàôèÿõ è ó÷åáíûõ ïîñîáèÿõ. Òàêæå ñóùåñòâóåò [19], [44] óíèâåðñàëüíûé ìåòîä ïîñòðîåíèÿ êîððåêòíûõ (òî÷íûõ íà ïðåöåäåíòàõ) àëãîðèòìîâ êëàññèôèêàöèè.  íàñòîÿùåé ðàáîòå ðàññìàòðèâàþòñÿ ìåòîäû ðåøåíèÿ ïîäçàäà÷è Z2 çàäà÷è Z ïðè âûáðàííîì êëàññèôèêàòîðå f (ò.å. ïîäçàäà÷à Z1 ñ÷èòàåòñÿ óæå ðåø¼ííîé).  êîíöå äàííîãî ðàçäåëà óòî÷íèì, ÷òî ïîäðàçóìåâàåòñÿ ïîä ¾ìàëîé âûáîðêîé¿. Ðàçíûå àâòîðû ïî ðàçíîìó îïðåäåëÿþò ýòî ïîíÿòèå. Âûáîðêó ñ÷èòàþò ìàëîé, åñëè å¼ îáú¼ì íå ïðåâîñõîäèò 200 [24], èëè 50 [57], èëè 30 [15], [45], èëè ¾íåñêîëüêèõ äåñÿòêîâ¿ [54], èëè 1020 [28], èëè 1015 [45], èëè ¾ìåíüøå ðàñ÷åòíîãî ÷èñëà, îïðåäåëåííîãî ïðè ïîìîùè ñïåöèàëüíîé íîìîãðàììû äîñòàòî÷íî áîëüøèõ ÷èñåë¿ [33]. ×àñòî âîîáùå íå îïðåäåëÿþò ýòî ïîíÿòèå. Íàøà òî÷êà çðåíèÿ îñíîâàíà íà ñîîáðàæåíèÿõ, èçëîæåííûõ â [14]. Çäåñü ñïðàâåäëèâî çàìå÷åíî, ÷òî ïðè ðàáîòå ñ âûáîðêàìè íåáîëüøèõ îáú¼ìîâ ïðèõîäèòñÿ îòêàçûâàòüñÿ îò êëàññè÷åñêèõ ñïîñîáîâ ñòàòèñòè÷åñêîé îáðàáîòêè, îñíîâàííûõ íà ãðóïïèðîâêå íàáëþäåíèé (ãèñòîãðàììû, êðèòåðèè òèïà χ2 è ò.ä.) è ïåðåõîäèòü ê ìåòîäàì îñíîâàííûõ íà èñïîëüçîâàíèè êàæäîé îòäåëüíîé ðåàëèçàöèè (ñòàòèñòè÷åñêàÿ ôóíêöèÿ ðàñïðåäåëåíèÿ, ïîðÿäêîâûå êðèòåðèè òèïà êðèòåðèÿ Óèëêîêñîíà è äð.). Èòàê, âûáîðêó ñ÷èòàåì ìàëîé, åñëè ïðè å¼ îáðàáîòêå ìåòîäàìè, îñíîâàííûìè íà ãðóïïèðîâêå íàáëþäåíèé è àïïðîêñèìàöèîííûìè ìåòîäàìè, íåëüçÿ äîñòè÷ü çàäàííûõ òî÷íîñòè è äîñòîâåðíîñòè6 . Òàêèì îáðàçîì ïîíÿòèå ìàëîé âûáîðêè ÿâëÿåòñÿ óñëîâíûì è çàâèñÿùèì îò ïîñòàâëåííîé çàäà÷è.
2 Àíàëèòè÷åñêèå ìåòîäû ïîëó÷åíèÿ íàäåæíîñòè àëãîðèòìîâ êëàññèôèêàöèè
îöåíîê
 äàííîì ðàçäåëå ðàññìàòðèâàþòñÿ ìåòîäû îïðåäåëåíèÿ âåðîÿòíîñòåé îøèáêè ðàñïîçíàâàíèÿ, îñíîâàííûå íà èñïîëüçîâàíèè òîëüêî ïðåöåäåíòíîé èíôîðìàöèè ïðè îäíîì âûáðàííîì ð.ï., ò.å. êîãäà êëàññèôèêàòîð çàäàí è ôèêñèðîâàí.  îñíîâó ðàçëè÷íûõ ìåòîäîâ îïðåäåëåíèÿ íàäåæíîñòè êëàññèôèêàöèè êëàäóòñÿ òå èëè èíûå ïðåäïîëîæåíèÿ. Îäíàêî Ãèïîòåçà 1 ÿâëÿåòñÿ îáùèì äëÿ âñåõ èç íèõ: àâòîðó íå èçâåñòíû ïîäõîäû ê ðåøåíèþ ðàññìàòðèâàåìîé çàäà÷è, áàçèðóþùèåñÿ íà èíûõ ïðåäïîëîæåíèÿõ.  òîì ñëó÷àå, êîãäà èçâåñòåí òèï, ê êîòîðîìó ïðèíàäëåæèò íåèçâåñòíîå ðàñïðåäåëåíèå p (x), ïðèìåíÿþò ðàçëè÷íûå ìåòîäû ïàðàìåòðè÷åñêîãî îöåíèâàíèÿ, îïèñàííûå, íàïðèìåð, â [2], [12], [51]. Çàìåòèì, ÷òî äàæå â ýòîì ñëó÷àå íàëè÷èÿ äîñòàòî÷íî áîëüøîé èíôîðìàöèè î ñâîéñòâàõ ïðîñòðàíñòâà îáðàçîâ, íàäåæíûå îöåíêè ïîëó÷àþòñÿ ëèøü ïðè çíà÷èòåëüíûõ îáú¼ìàõ îáó÷àþùåé âûáîðêè. Ïîñêîëüêó îáû÷íî íåèçâåñòåí äàæå òèï ðàñïðåäåëåíèÿ p (x), äëÿ âîññòàíîâëåíèÿ ïîñëåäíåãî ïî ïðåöåäåíòíîé èíôîðìàöèè ìîãóò áûòü ïðèìåíåíû íåïàðàìåòðè÷åñêèå ìåòîäû (ñì, íàïðèìåð, [13]). Ïðè ýòîì, êàê ïðàâèëî, èñïîëüçóåòñÿ íåïàðàìåòðè÷åñêîå îöåíèâàíèå [38], îñíîâàííîå íà ïîäõîäå, âîñõîäÿùåìó ê ðàáîòàì Ðîçåíáëàòòà [69] è Ïàðçåíà [66]. Îñíîâíàÿ èäåÿ ñâÿçàíà çäåñü ñ ¾ðàçìàçûâàíèåì¿ èíôîðìàöèè, ïîëó÷åííîé îò êàæäîãî ïðåöåäåíòà ñ ïîìîùüþ ñïåöèàëüíûõ ôóíêöèé, íàçûâàåìûõ ÿäðàìè.  ìíîãîìåðíîì ñëó÷àå âûáèðàþò ÿäðà êîëîêîëîîáðàçíîãî âèäà. Èñêîìîå ðàñïðåäåëåíèå èùåòñÿ â âèäå ñóïåðïîçèöèè ÿäåðíûõ ôóíêöèé, ïðèâÿçàííûõ ê ïðåöåäåíòàì. Íå îòðèöàÿ âîçìîæíîñòè òàêîãî ïîäõîäà, îòìåòèì, ÷òî îí òðåáóåò çàäàíèÿ êîýôôèöèåíòà ðàçìûòîñòè, ÿâëÿþùåãîñÿ ïàðàìåòðîì ÿäåðíûõ ôóíêöèé. Âîïðîñ î âûáîðå òàêîãî ïàðàìåòðà îòêðûò. 6 Ñð.
îïðåäåëåíèå ìàëîé âûáîðêè â [54] ãäå çà îñíîâó âçÿò ¾ôàêò îòñóòñòâèÿ óñòîé÷èâîñòè èíôîðìàòèâíûõ ñâîéñòâ è ñòàòèñòè÷åñêèõ õàðàêòåðèñòèê¿.
Ïðè ìàëûõ îáú¼ìàõ îáó÷àþùåé âûáîðêè ïðåäëàãàåòñÿ ìåòîä ãåíåðàöèè íîâûõ m ïðåöåäåíòîâ â íåêîòîðîé îêðåñòíîñòè êàæäîãî ïðåöåäåíòà ñîîòâåòñòâèè ñ âèäîì ÿäðà (ò.í. ¾ìåòîä äèíàìè÷åñêèõ ñãóùåíèé¿). Îäíàêî îêàçûâàåòñÿ, ÷òî ïðè ôèêñèðîâàííîì îáú¼ìå l âûáîðêè è ðîñòå ÷èñëà m ïîëó÷åííîå ðàñïðåäåëåíèå, âîîáùå ãîâîðÿ, íå ñòðåìèòñÿ ê èñòèííîìó. Ïåðñïåêòèâíûì ïðåäñòàâëÿåòñÿ ïîäõîä [14], îñíîâàííûé íà îáúåäèíåíèè àïðèîðíîé è ýìïèðè÷åñêîé èíôîðìàöèè îá èñêîìîì ðàñïðåäåëåíèè. Âàæíûì ÿâëÿåòñÿ òî, ÷òî çàäà÷à (ïàðàìåòðè÷åñêîãî èëè íåïàðàìåòðè÷åñêîãî) âîññòàíîâëåíèÿ p (x) ÿâëÿåòñÿ, âîîáùå ãîâîðÿ, áîëåå ñëîæíîé [12], ÷åì çàäà÷à êëàññèôèêàöèè7 . Âîññòàíîâëåíèå ðàñïðåäåëåíèÿ âåðîÿòíîñòåé ïî ýìïèðè÷åñêèì äàííûì ÿâëÿåòñÿ ãåíåðàëüíîé ïðîáëåìîé ìàòåìàòè÷åñêîé ñòàòèñòèêè. Èñêîìàÿ ïëîòíîñòü âåðîÿòíîñòåé p (x) ïîëíîñòüþ îïðåäåëÿåò âñå âåðîÿòíîñòíûå ñâîéñòâà ïðîñòðàíñòâà X , à íå òîëüêî èñïîëüçóåìûå â çàäà÷å Z â ñâÿçè ñ êîíêðåòíûì ôèêñèðîâàííûì åãî ðàçáèåíèåì. Òàêèì îáðàçîì, âîññòàíîâëåíèå íåèçâåñòíîé ôóíêöèè ðàñïðåäåëåíèÿ â çàäà÷àõ ðàñïîçíàâàíèÿ îáðàçîâ, êàê ïðàâèëî, íå ÿâëÿåòñÿ ðàöèîíàëüíûì øàãîì. Èñêëþ÷åíèÿ ìîãóò ñîñòàâëÿòü ëèøü ñèëüíî âûðîæäåííûå ñëó÷àè8 .  ñèëó ýòîãî óêàçàííûå ïîäõîäû ìîãóò îêàçàòüñÿ ýôôåêòèâíûìè ëèøü ïðè íàëè÷èè áîëüøîãî îáú¼ìà ïðåöåäåíòíîé èíôîðìàöèè. Îòìåòèì, ÷òî â îáîèõ îïèñàííûõ âûøå ïîäõîäàõ ðàññìîòðåííûå ìåòîäû ïðèìåíÿþò, êàê ïðàâèëî, äëÿ íàõîæäåíèÿ ÿâíîãî âèäà óñëîâíûõ ðàñïðåäåëåíèé © ªsp ( x | Kt ) îáðàçîâ x èç êëàññîâ Kt , t = 1, s . Çàòåì, ñ÷èòàÿ íàáîð âåðîÿòíîñòåé p (Kt ) t=1 ïîÿâëåíèÿ îáðàçîâ © ªs äàííîãî êëàññà èçâåñòíûì, ïî ôîðìóëå Áàéåñà âû÷èñëÿþò âåðîÿòíîñòè p ( Kt | x ) t=1 ïðèíàäëåæíîñòè îáðàçà x êëàññó Kt . Ïî äàííîìó íàáîðó ðàñïðåäåëåíèé âû÷èñëÿþò îòíîøåíèÿ ëîãàðèôìîâ ñðåäíèõ ðèñêîâ ïðè äàííîì ð.ï., íà îñíîâå ÷åãî ïðèíèìàåòñÿ ðåøåíèå î êëàññèôèêàöèè äàííîãî îáðàçà.  íåêîòîðûõ ÷àñòíûõ ñëó÷àÿõ äàííûé ìåòîä ìîæåò áûòü äîâåäåí äî ïîëó÷åíèÿ îïòèìàëüíîãî êëàññèôèêàòîðà â ÿâíîì âèäå9 . Îäíàêî è â ýòîì ñëó÷àå âåðîÿòíîñòè îøèáîê êëàññèôèêàöèè ïðåäñòàâëÿþòñÿ â âèäå èíòåãðàëîâ îò óñëîâíûõ âåðîÿòíîñòåé ïî îïðåäåë¼ííûì ïîäîáëàñòÿì ïðîñòðàíñòâà ïðèçíàêîâ, ïðè÷åì ãðàíèöû ýòèõ îáëàñòåé îêàçûâàþòñÿ çàäàííûìè íåÿâíî è èìåþò, © êàê ªs, s ïðàâèëî, ñëîæíóþ ôîðìó. ßñíî, ÷òî òàêèå ôîðìóëû äëÿ îïðåäåëåíèÿ âåëè÷èí pij i,j=1 íåïðèãîäíû äëÿ ïðàêòè÷åñêîãî èñïîëüçîâàíèÿ. Íàèáîëåå ðàçðàáîòàííûå ðåçóëüòàòû â îáëàñòè íàäåæíîñòè àëãîðèòìîâ êëàññèôèêàöèè ïîëó÷åíû â ðàìêàõ óæå óïîìèíàâøåéñÿ òåîðèè VC Âàïíèêà-×åðâîíåíêèñà.  òåîðèè VC íàéäåíû íåîáõîäèìûå è äîñòàòî÷íûå óñëîâèÿ ðàâíîìåðíîé ñõîäèìîñòè ÷àñòîò νl (A) ïîÿâëåíèÿ ñîáûòèé A â l ýêñïåðèìåíòàõ ïî ñõåìå Áåðíóëëè íà çàäàííîì ïîäìíîæåñòâå F ∗ σ -àëãåáðû ñîáûòèé ê èõ âåðîÿòíîñòÿì P {A}, ò.å. êðèòåðèé âûïîëíåíèÿ ñîîòíîøåíèÿ n o ¯ ¯ P sup ¯ P (A) − νl (A) ¯ > ε −−−→ 0, 0 < ε < 1 . A∈F ∗
l→∞
Äëÿ ïðèìåíåíèÿ òåîðèè VC íå òðåáóåòñÿ âîññòàíàâëèâàòü ïëîòíîñòè ðàñïðåäåëåíèÿ 7 Ïðè
ýòîì îáå çàäà÷è ÿâëÿþòñÿ íåêîððåêòíî ïîñòàâëåííûìè ïî Àäàìàðó, ò.ê. äîïóñêàþò, î÷åâèäíî, íååäèíñòâåííîñòü ðåøåíèÿ. 8 Íàïðèìåð, êîãäà p (x) = Qn p (x) â n-ìåðíîì ïðèçíàêîâîì ïðîñòðàíñòâå. Ñþäà æå, âïðî÷åì, i=1 i îòíîñèòñÿ è ñëó÷àé ïàðàìåòðè÷åñêîãî îöåíèâàíèÿ. 9  êëàññè÷åñêîì ñëó÷àå íîðìàëüíûõ (ìíîãîìåðíûõ) óñëîâíûõ ðàñïðåäåëåíèé îáðàçîâ èç êàæäîãî êëàññà îïòèìàëüíûé ðàçäåëèòåëü äâóõ êëàññîâ åñòü êâàäðèêà, êîòîðàÿ ïðè äîïîëíèòåëüíîì ðàâåíñòâå êîâàðèöèîííûõ ìàòðèö ðàñïðåäåëåíèé ñòàíîâèòñÿ ëèíåéíîé ôîðìîé, íàçûâàþùåéñÿ (ëèíåéíîé) äèñêðèìèíàíòíîé ôóíêöèåé Ôèøåðà. Íà ïðàêòèêå æå ÷àñòî ôóíêöèþ Ôèøåðà íàõîäÿò è èñïîëüçóþò íå ïðîâåðÿÿ íè íîðìàëüíîñòè ðàñïðåäåëåíèé, íè ðàâåíñòâà êîâàðèöèîííûõ ìàòðèö, ïîëó÷àÿ ïðè ýòîì âïîëíå ïðèåìëåìûå ðåçóëüòàòû.
âåðîÿòíîñòåé, ÷òî ÿâëÿåòñÿ áåçóñëîâíûì å¼ äîñòîèíñòâîì. Èñïîëüçóÿ òó èëè èíóþ òåîðèþ äëÿ ðåøåíèÿ ÷àñòíîé çàäà÷è ìû âûíóæäåíû ïðèíèìàòü, ñîîòâåòñòâóþùèì îáðàçîì àäàïòèðóÿ, ïðåäïîëîæåíèÿ, íà êîòîðûõ ýòà òåîðèÿ áàçèðóåòñÿ. Äëÿ íàøåé çàäà÷è îöåíêè íàäåæíîñòè ð.ï. ýòè ïðåäïîëîæåíèÿ òåîðèè VC ñóòü: VC-1. Ãèïîòåçà 1. VC-2. Êëàññèôèêàòîð f (x) âûáèðàåòñÿ èç ôèêñèðîâàííîãî çàðàíåå ñåìåéñòâà ð.ï. F . Ñåìåéñòâî F , çàäà¼ò ïîäìíîæåñòâî F ∗ (îáû÷íî ÿâëÿåòñÿ ïàðàìåòðè÷åñêèì è çàïèñûâàåòñÿ â âèäå F (τ ), ãäå τ âåêòîð ïàðàìåòðîâ). Äëÿ ïîëó÷åíèÿ îöåíîê â òåîðèè VC òðåáóåòñÿ òàêæå âû÷èñëÿòü ìåðó ðàçíîîáðàçèÿ ïðàâèë, ñîñòàâëÿþùèõ êëàññ F åãî ¼ìêîñòü.  ñëó÷àå êîíå÷íîñòè ñåìåéñòâà F ðîëü ¼ìêîñòè èãðàåò åãî ìîùíîñòü. Ïðåäñòàâëÿåòñÿ ÿñíûì, ÷òî åñëè èñïîëüçîâàíèå ÃÏ â ôîðìå ¾Ãèïîòåçà 1¿ íå ìîæåò âûçâàòü ñåðü¼çíûõ âîçðàæåíèé, òî ïðèíÿòèå óñëîâèÿ VC-2 ïðè ðåøåíèè çàäà÷è ðàñïîçíàâàíèÿ Z äàëåêî íå âñåãäà ÿâëÿåòñÿ îïðàâäàííûì. Ýòî óñëîâèå èìååò ìåñòî, íàïðèìåð, â ñëó÷àå êîíå÷íîãî ïðèçíàêîâîãî ïðîñòðàíñòâà, ãäå ñåìåéñòâî ð.ï. F âñåãäà ÿâíî îïðåäåëåíî è êîíå÷íî. Îäíàêî è â ýòèõ ñëó÷àÿõ, êîãäà êëàññ F çàôèêñèðîâàí ïåðåä ðåøåíèåì çàäà÷è, ÷àñòî íå óäà¼òñÿ âû÷èñëèòü åãî ¼ìêîñòü, ïîñêîëüêó íàõîæäåíèå å¼ ¾ñâîäèòñÿ ê ãðîìîçäêèì êîìáèíàòîðíûì âû÷èñëåíèÿì, êîòîðûå íå âñåãäà ìîæíî ïðîâåñòè¿ [32]. Èìååòñÿ òàêæå áîëüøîå ÷èñëî ìåòîäîâ êëàññèôèêàöèè ñ êîíòèíóàëüíûìè ïðèçíàêàìè (íàïðèìåð, ìåòîä ïîòåíöèàëüíûõ ôóíêöèé â ìàøèííîé ðåàëèçàöèè [1] èëè àëãåáðàè÷åñêèé ïîäõîä ê ïîñòðîåíèþ êîððåêòíûõ ðàñïîçíàþùèõ àëãîðèòìîâ [20], [19]), êîãäà êëàññèôèêàòîð êîíñòðóèðóåòñÿ íåïîñðåäñòâåííî â ïðîöåññå ðåøåíèÿ çàäà÷è è ñåìåéñòâî F çàðàíåå íå ôèêñèðóåòñÿ. Áîëåå òîãî, âñåãäà ìîæíî ñíà÷àëà îïðåäåëèòü îïòèìàëüíûé â ñìûñëå ìèíèìóìà (2) êëàññèôèêàòîð fmin , à çàòåì çàíîâî ôîðìàëüíî ðåøèòü çàäà÷ó Z , ïîëàãàÿ F = {fmin } è |F | = 1. Ýòî ñòàâèò ïîä âîïðîñ ïðèìåíèìîñòü íàèáîëåå èíòåðåñíûõ ðåçóëüòàòîâ òåîðèè VC ê íàøåé çàäà÷å. Êðîìå òîãî, îöåíêè ïîëó÷åííûå àâòîðàìè òåîðèè [12], [13] â ïîäàâëÿþùåì ÷èñëå ñëó÷àåâ, ê ñîæàëåíèþ, îêàçûâàþòñÿ íåïðèãîäíûìè äëÿ ïðÿìîãî èñïîëüçîâàíèÿ íà ïðàêòèêå: çíà÷åíèÿ íàäåæíîñòè ð.ï. ïðè èìåþùèõñÿ îáú¼ìàõ l âûáîðîê ïîëó÷àþòñÿ êðàéíå íèçêèìè è äëÿ ïîëó÷åíèÿ îöåíîê òðåáóåìîé òî÷íîñòè è äîñòîâåðíîñòè íåîáõîäèìû âåëè÷èíû l â äåñÿòêè è ñîòíè ðàç ïðåâûøàþùèå äëèíó âûáîðîê, ñ êîòîðûìè îáû÷íî ïðèõîäèòñÿ èìåòü äåëî. Ìåæäó òåì, îïûò óñïåøíîãî ðåøåíèÿ ñàìûõ ðàçíûõ çàäà÷ ðàñïîçíàâàíèÿ ñâèäåòåëüñòâóåò î òîì, ÷òî ýòè îöåíêè òðåáóåìûõ äëèí l ñèëüíî çàâûøåíû (à äëÿ êîýôôèöèåíòà äîâåðèÿ η , ñîîòâåòñòâåííî, çàíèæåíû). Îäíîé èç ïðè÷èí ýòîãî ÿâëÿåòñÿ íåÿâíîå ïðåäïîëîæåíèå, ÷òî ïðåäúÿâëÿåìîå äëÿ îöåíêè ð.ï. âûáðàíî ñëó÷àéíî èç ìíîæåñòâà F . Êàê ñëåäñòâèå, äëÿ îöåíêè âåðîÿòíîñòè îòêëîíåíèÿ ÷àñòîòû νl (A) ñîáûòèÿ A îò åãî âåðîÿòíîñòè P (A) èñïîëüçóþòñÿ îöåíêà Õ¼ôäèíãà [63] 2l
P { | P (A) − νl (A) | > ε } < 2e−2ε
èëè íåñêîëüêî áîëåå ãðóáàÿ îöåíêà Áåðíøòåéíà, êîòîðûå íå ìîãóò áûòü ðàäèêàëüíî óñèëåíû. Îáîáùàÿ ñêàçàííîå íåîáõîäèìî ïðèçíàòü, ÷òî äàæå ïðè ïðèíÿòèè óñëîâèÿ (VC-2) âîïðîñ îáîñíîâàíèÿ êà÷åñòâà àëãîðèòìà ðàñïîçíàâàíèÿ äëÿ íåáîëüøèõ çíà÷åíèé l îñòà¼òñÿ, îòêðûòûì, à èìåííî ýòîò ñëó÷àé è ïðåäñòàâëÿþò íàèáîëüøèé ïðèêëàäíîé èíòåðåñ.  ïîñëåäíåå âðåìÿ ([40], [32], [4], [5]10 ) ðàçâèâàåòñÿ áàéåñîâñêèé ïîäõîä ê îöåíêå êà÷åñòâà ð.ï. (ñì. íèæå ï. 4).  åãî îñíîâå ëåæèò ïðåäïîëîæåíèå, ÷òî èñêîìûé ïàðàìåòð 10 Äâå
ïîñëåäíèå ðàáîòû íàèáîëåå áëèçêè ê íàøåé. Çàìåòèì, ÷òî âíà÷àëå ôîðìóëû äëÿ òî÷å÷íîé îöåíêè âåðîÿòíîñòè îøèáêè ïîëó÷åíû çäåñü áåç ïðèâëå÷åíèÿ óñëîâèÿ VC-1.
(íàïðèìåð, ν ) ðàñïðåäåëåí â ñîîòâåòñòâèè ñ íåêîòîðîì àïðèîðíîì ðàñïðåäåëåíèåì, êîòîðîå õàðàêòåðèçóåò ñòåïåíü íàøåãî çíàíèÿ î åãî çíà÷åíèè. Ïî äàííîìó ðàñïðåäåëåíèþ, èñïîëüçóÿ ôîðìóëó Áàéåñà, îïðåäåëÿåòñÿ àïîñòåðèîðíîå ðàñïðåäåëåíèå êàê ôóíêöèÿ îò íàáëþäàåìûõ âåëè÷èí. Ïðè ýòîì ïðîèñõîäèò óñðåäíåíèå ïàðàìåòðà ïî âñåâîçìîæíûì ðàñïðåäåëåíèÿì â ñîîòâåòñòâèè ñ âûáðàííîé ôóíêöèåé ïîòåðü11 , îáû÷íî âûáèðàåìîé êâàäðàòè÷íîé.  ñèëó ýòîãî èíòåðâàëüíûå îöåíêè ïàðàìåòðîâ çäåñü ïîëó÷àþòñÿ ëó÷øå, ÷åì ïðè ïðèìåíåíèè òåîðèè VC, ãäå îöåíêè ðàññ÷èòàíû èñõîäÿ èç ïðåäïîëîæåíèÿ î íàèõóäøåì ñëó÷àå. ×òîáû îáîéòè òðóäíîñòè, ñâÿçàííûå ñ óñëîâèåì VC-2, ðàññìàòðèâàåòñÿ çàäà÷à Z ñ ëîãè÷åñêèìè ð.ï., äëÿ êîòîðûõ ìîùíîñòü F êîíå÷íà.  ðàáîòàõ [31], [35], [36], ïðåäïðèíÿòû ïîïûòêè óëó÷øåíèÿ îöåíîê òåîðèè VC, èñïîëüçóÿ ïîëó÷åííîå çíà÷åíèå ýìïèðè÷åñêîãî ðèñêà êàê íîâîå ñîáûòèå, à òàêæå íåêîòîðûå ïðàâäîïîäîáíûå àïðèîðíûå ãèïîòåçû. Çàìåòèì, ÷òî çäåñü òàêæå ðàññìàòðèâàþòñÿ ëîãè÷åñêèå ð.ï. Íàøå èññëåäîâàíèå â öåëîì ëåæèò â ðóñëå áàéåñîâñêîãî ïîäõîäà. Âïåðâûå ïîëó÷åííûå ðåçóëüòàòû îïóáëèêîâàíû â [16], [18] è [17].
3 Ïîñòàíîâêà çàäà÷è Ïóñòü â ðåçóëüòàòå ðåøåíèÿ ïîäçàäà÷è Z1 çàäà÷è ðàñïîçíàâàíèÿ
Z = Z (X , s, L, m, x¯L , γ¯L , f¯∗ (¯ xL ) ) ïîñòðîåíî ð.ï. f (x). Ïðåäïîëîæèì ïîêà, ÷òî γ1 = γ2 = · · · = γm è ïðèìåì ãèïîòåçó ïðåäñòàâèòåëüíîñòè â ôîðìå ¾Ãèïîòåçà 1¿. Ñëó÷àé íåðàâíûõ âåñîâ ýëåìåíòîâ ýêçàìåíàöèîííîé ïîñëåäîâàòåëüíîñòè áóäåò ðàññìîòðåí â ï. 5.2.4. Äàëåå ìû ñ÷èòàåì, ÷òî ïðîñòðàíñòâî îáðàçîâ X ðàçáèòî íà v > 2 ïîäîáëàñòåé {Xk }vk=1 è îáîçíà÷àåì ÷åðåç mk êîëè÷åñòâî ïðåöåäåíòîâ, ïîïàâøèõ â îáëàñòü Pv Xk , k = 1, v; k=1 mk = m.  çàäà÷àõ êëàññèôèêàöèè âñòðå÷àþòñÿ òîëüêî ñëåäóþùèå ñëó÷àè çíà÷åíèé v (íàïîìíèì, ÷òî s > 2). 1. v = 2. Çäåñü X1 è X2 ñóòü îáëàñòè ïðàâèëüíûõ è íåïðàâèëüíûõ êëàññèôèêàöèé. © ªs, s 2. v = s2 . Çäåñü {Xk }vk=1 ñóòü ïåðåîáîçíà÷åííûå îáëàñòè Xij i,j=1 ïðîñòðàíñòâà © ª îáðàçîâ, ò.å. Xij = x | x ∈ X , f ∗ (x) = Ki , f (x) = Kj = {X1 , X2 , . . . Xv } (ñì. ï. 1). 3. v = s2 + 1. Çäåñü ê îïðåäåë¼ííûì âûøå îáëàñòÿì äîáàâëÿåòñÿ îáëàñòü ñîîòâåòñòâóþùàÿ ñëó÷àþ îòêàçà îò êëàññèôèêàöèè. Îáîçíà÷èì pk = P (Xk ) > 0, k = 1, v . Ìû áóäåì îïðåäåëÿòü îöåíêè çíà÷åíèé äàííûõ âåðîÿòíîñòåé. ßñíî, ÷òî ñïðàâåäëèâî óñëîâèå íîðìèðîâêè v X
pk = 1
(5)
k=1
è ïðè äàííîì v ìû èìååì (v − 1)-ìåðíóþ çàäà÷ó. Ïîñêîëüêó ñëó÷àéíàÿ âåëè÷èíà x ðàñïðåäåëåíà â ñîîòâåòñòâèè ñ P (·), òî pk åñòü âåðîÿòíîñòü âûïîëíåíèÿ ñîîòíîøåíèÿ x ∈ Xk . Òîãäà âåðîÿòíîñòü p (m1 , m2 , . . . , mv ) òîãî, ÷òî ïðè íåçàâèñèìîé ñëó÷àéíîé âûáîðêå m ýëåìåíòîâ èç X 11 Íå
ïóòàòü ñ ôóíêöèåé Q (Ki , Kj ) â (1) !
â ñîîòâåòñòâèèPñ ðàñïðåäåëåíèåì P (·) ñîîòíîøåíèå x ∈ Xk áóäåò âûïîëíÿòüñÿ mk v ðàç, k = 1, v , i=k mk = m èìååò (v − 1)-ìåðíîå ïîëèíîìèàëüíîå (ìóëüòèíîìèàëüíîå) ðàñïðåäåëåíèå âåðîÿòíîñòè M ( m; p1 , p2 , . . . , pv ), ïëîòíîñòü êîòîðîãî äàåòñÿ ôîðìóëîé
p (m1 , . . . , mv ) =
m! v pm1 pm2 . . . pm v ; m1 ! m2 ! . . . mv ! 1 2 pk ∈ (0, 1), k = 1, v.
(6)
Îòìåòèì, ÷òî ïåðâûå ìîìåíòû ïîëèíîìèàëüíîãî ðàñïðåäåëåíèÿ ñóòü
µk = mpk , k = 1, v à ìàòðèöà êîâàðèàöèé v−1, v−1 C = (µij )i,j=1 ; µii = mpi (1 − pi ) (äèñïåðñèè);
µij = − mpi pj , i 6= j . Ïðè v = 2 , p1 = p èìååì áèíîìèàëüíîå ðàñïðåäåëåíèå Bi (m, p) âåðîÿòíîñòè µ ¶ m m1 p (m1 ) = p (1 − p)m−m1 ; p ∈ (0, 1) m1 äëÿ êîòîðîé
(7)
(8)
µ = mp, σ 2 = mp(1 − p) .
Äëÿ îöåíêè èñòèííîãî çíà÷åíèÿ ïàðàìåòðà θ ñ îáëàñòüþ èçìåíåíèÿ Θ ⊆ Rq èñïîëüçóþò òî÷å÷íûå è èíòåðâàëüíûå îöåíêè. Îöåíêà θˆ ïàðàìåòðà θ åñòü ñòàòèñòèêà, ò.å. ôóíêöèÿ íàáëþä¼ííûõ ñëó÷àéíûõ âåëè÷èí. Òî÷å÷íàÿ îöåíêà åñòü êîíêðåòíîå çíà÷åíèå îöåíêè, êîòîðàÿ è ïðèíèìàåòñÿ â êà÷åñòâå ïðèáëèæåíèÿ íåèçâåñòíîãî çíà÷åíèÿ θ∗ . Èíòåðâàë (ïðîèçâîëüíîå èçìåðèìîå ìíîæåñòâî, íå çàâèñÿùåå îò θ∗ ) J ⊆ Θ íàçûâàþò äîâåðèòåëüíûì ñ äîñòîâåðíîñòüþ (êîýôôèöèåíòîì äîâåðèÿ) η, 0 < η < 1, åñëè
P { θ∗ ∈ J } > η .
(9)
Âàæíî ïîä÷åðêíóòü, ÷òî åñëè îöåíèâàåìûé ïàðàìåòð θ∗ íåèçâåñòåí, íî ôèêñèðîâàí, òî âåðîÿòíîñòü ñâÿçûâàåòñÿ íå ñ íèì, à ñ èíòåðâàëîì J . Òîãäà η â (9) íå åñòü âåðîÿòíîñòü âûïîëíåíèÿ ñîîòíîøåíèÿ θ∗ ∈ J (êîòîðàÿ äëÿ äàííîãî J ðàâíà ëèáî 0, ëèáî 1), à ÿâëÿåòñÿ âåðîÿòíîñòüþ òîãî, ÷òî ñëó÷àéíûé èíòåðâàë J ¾íàêðîåò¿ ôèêñèðîâàííîå çíà÷åíèå θ∗ . © ªv  íàøåì ñëó÷àå â êà÷åñòâå θ áóäóò âûñòóïàòü âåðîÿòíîñòè pi i=1 , êîòîðûå èíîãäà áóäåì çàïèñûâàòü â âèäå v -è÷íîãî âåêòîðà p¯, à èíòåðâàëû J áóäóò ÿâëÿòüñÿ ïîäîáëàñòÿìè ìíîæåñòâà (0, 1)v = Θ.  îäíîìåðíîì ñëó÷àå èíòåðâàë J çàäàþò îáû÷íî â âèäå (θ− , θ+ ) èëè (θˆ − ε, θˆ + ε), ãäå 0 6 θ− < θ+ 6 1; θ− , θ+ çàâèñÿùèå îò θ∗ ñòàòèñòèêè, 0 < ε, íàçûâàÿ â ïîñëåäíåì ñëó÷àå ε òî÷íîñòüþ, à η íàäåæíîñòüþ îöåíêè. ×àñòî âìåñòî η ïîëüçóþòñÿ âåëè÷èíîé α = 1 − η. Íàøà çàäà÷à (ñòàòèñòè÷åñêîãî îöåíèâàíèÿ) ñîñòîèò â òîì, ÷òîáû ïîñòðîèòü òî÷å÷íûå è èíòåðâàëüíûå îöåíêè íåèçâåñòíûõ, P íî ôèêñèðîâàííûõ âåëè÷èí p1 , p2 , . . . , pv ïî v ñëó÷àéíûì çíà÷åíèÿì m1 , m2 , . . . , mv , k=1 mk = m. Ïîñòðîåííûå ôóíêöèè îöåíêè äîëæíû áûòü ïðèìåíèìû äëÿ ñëó÷àÿ ìàëîãî ÷èñëà m ïðåöåäåíòîâ. Âåðîÿòíîñòè p1 , p2 , . . . , pv ÿâëÿþòñÿ ïàðàìåòðàìè íåêîòîðîãî íåèçâåñòíîãî ðàñïðåäåëåíèÿ P ( x | X1 , X2 , . . . , Xv ). Çàìåòèì, íàêîíåö, ÷òî, ïîñêîëüêó èñêîìûå âåðîÿòíîñòè ïðèíàäëåæàò ïîäìíîæåñòâàì (0, 1) êîíå÷íîìåðíîãî åâêëèäîâà ïðîñòðàíñòâà, ðàññìàòðèâàåìûå íèæå ìåòîäû îòíîñÿòñÿ ê ïàðàìåòðè÷åñêèì ìåòîäàì ìàòåìàòè÷åñêîé ñòàòèñòèêè.
4 Äâà ïîäõîäà ê ïîñòðîåíèþ îöåíîê Îáùàÿ çàäà÷à ïîñòðîåíèå îöåíîê çíà÷åíèé íåèçâåñòíûõ âåëè÷èí ñîñòîèò â ñëåäóþùåì. Íåîáõîäèìî îòâåòèòü íà âîïðîñ: Êàêîå èç ñîáûòèé {Bi }i∈I ñîñòàâëÿþùèõ ïîëíóþ ãðóïïó B íåñîâìåñòíûõ ñîáûòèé12 èìååò ìåñòî â äåéñòâèòåëüíîñòè?. Îáëàñòü èçìåíåíèÿ èíäåêñà I åñòü íåêîòîðîå íåïóñòîå êîíå÷íîå èëè êîíòèíóàëüíîå èçìåðèìîå ìíîæåñòâî. Ê ñîæàëåíèþ, ñàìè ñîáûòèÿ èç B íå íàáëþäàåìû. À íàáëþäàåìî íåêîòîðîå (âîçìîæíî ñëîæíîå) ñîáûòèå A, êàê-òî ñâÿçàííîå ñ ñîáûòèÿìè {Bi }i∈I . Òðåáóåòñÿ ïðåäëîæèòü ñïîñîá, ïîçâîëÿþùèé ïî íàáëþä¼ííîìó ñîáûòèþ A îòâåòèòü íà ïîñòàâëåííûé âûøå âîïðîñ. Çäåñü åù¼ ðàç âàæíî ïîä÷åðêíóòü, ÷òî èñêîìîå ñîáûòèå õîòü è íåèçâåñòíî, íî ôèêñèðîâàíî.  ìàòåìàòè÷åñêîé ñòàòèñòèêå èìååòñÿ äâà ïîäõîäà ê ïîëó÷åíèþ îöåíîê õàðàêòåðèñòèê ðàñïðåäåëåíèé ïî ñëó÷àéíûì íàáëþäåíèÿì: ÷àñòîòíûé è áàéåñîâñêèé. Áàéåñîâñêèé ïîäõîä îñíîâàí íà èñïîëüçîâàíèè ôîðìóëû, êîòîðàÿ íîñèò èìÿ å¼ àâòîðà T. Áàéåñà13 è êîòîðàÿ â ïðîñòåéøåì ñëó÷àå êîíå÷íîãî I èìååò âèä
P { Bi } · P { A | Bi } P { Bi | A } = P . P { Bi } · P { A | Bi }
(10)
i∈I
 ñëó÷àå êîíòèíóàëüíîãî I â (10) ïðèñóòñòâóþò ñîîòâåòñòâóþùèå èíòåãðàëû (ñì. (11) è (18) ). Ëåãêî âèäåòü, ÷òî ôîðìóëà (10) ÿâëÿåòñÿ ñëåäñòâèåì òåîðåìû óìíîæåíèÿ âåðîÿòíîñòåé. Âåðîÿòíîñòè â (10) íîñÿò íàçâàíèÿ: P { Bi } àïðèîðíûõ (óñëîâíûõ), P { Bi | A } , i ∈ I àïîñòåðèîðíûõ, à çíà÷åíèÿ P { A | Bi } (ñ òî÷íîñòüþ äî ìóëüòèïëèêàòèâíîé êîíñòàíòû) ïðàâäîïîäîáèé. Ôîðìóëà Áàéåñà ïîçâîëÿåò, òàêèì îáðàçîì, íàõîäèòü àïîñòåðèîðíûå âåðîÿòíîñòè, êàê ñîîòâåòñòâóþùèå àïðèîðíûå, óìíîæåííûå íà ïðàâäîïîäîáèÿ. Ïîñëåäíèå îáû÷íî ìîãóò áûòü óñòàíîâëåíû èñõîäÿ èç òîé èëè èíîé ïðèíÿòîé ìîäåëè ïîÿâëåíèÿ ñîáûòèé. Àïðèîðíûå âåðîÿòíîñòè ìû ñ÷èòàåì ìåðîé íàøåãî íåçíàíèÿ, òàêèì îáðàçîì ìû ïðèäåðæèâàåìñÿ ò.í. ñóáúåêòèâíîãî ïîäõîäà â ñòàòèñòè÷åñêèõ çàäà÷àõ îöåíèâàíèÿ (ñì. [24]). Ñîãëàñíî áàéåñîâñêîìó ïîäõîäó, ïî ôîðìóëàì òèïà (10) èëè (11) îïðåäåëÿþòñÿ àïîñòåðèîðíûå âåðîÿòíîñòè ñîáûòèé {Bi }i∈I . Òåïåðü ïî ïîëó÷åííûì àïîñòåðèîðíûì âåðîÿòíîñòÿì íåîáõîäèìî îïðåäåëèòü, êàêîå ñîáûòèå èç ñèñòåìû B èìååò ìåñòî â äåéñòâèòåëüíîñòè.  ïðîñòåéøåì ñëó÷àå çà íåãî ìîæåò áûòü ïðèíÿòî ñîáûòèå Bi ñ ìàêñèìàëüíîé àïîñòåðèîðíîé âåðîÿòíîñòüþ. Òàêàÿ ôóíêöèÿ îöåíêè íàçûâàåòñÿ îöåíêîé ïî ìàêñèìóìó àïîñòåðèîðíîé âåðîÿòíîñòè.  îáùåì ñëó÷àå ïîëó÷åííûå àïîñòåðèîðíûå âåðîÿòíîñòè ðàññìàòðèâàþòñÿ êàê ðàñïðåäåëåíèå íà ìíîæåñòâå I = Θ, çàäàþùèå íà í¼ì íåêîòîðûå âåñà. Äàëåå ñ êàæäûì Bi , âûáðàííûì â êà÷åñòâå èñòèííîãî çíà÷åíèÿ, ñâÿçûâàåòñÿ âåëè÷èíà, îïðåäåëÿþùàÿ ðèñê, ñâÿçàííûé ñ äàííûì âûáîðîì èëè ñîîòâåòñòâóþùèå ïîòåðè. Âûáîð ñîáûòèÿ, ñ÷èòàþùåãîñÿ ðåàëèçóþùèìñÿ â äåéñòâèòåëüíîñòè, ïðîèçâîäèòñÿ èñõîäÿ èç ìèíèìóìà ïîòåðü. Òàêèì îáðàçîì áàéåñîâñêîå ðåøåíèå åñòü ðåøåíèå ìèíèìèçèðóþùåå ñðåäíåå çíà÷åíèå ðèñêà. Ìîãóò áûòü ïðåäëîæåíû ðàçëè÷íûå âèäû óêàçàííîé ôóíêöèè ïîòåðü.  ÷àñòíîñòè, îöåíêà ïî ìàêñèìóìó àïîñòåðèîðíîé âåðîÿòíîñòè åñòü îöåíêà ñ ò.í. ïðîñòîé ôóíêöèåé ïîòåðü, êîòîðàÿ ïðèïèñûâàåò íóëåâûå ïîòåðè òî÷êå, êîòîðàÿ àïîñòåðèîðè íàèáîëåå âåðîÿòíà è åäèíè÷íûå ïîòåðè îñòàëüíûì òî÷êàì I = Θ.  ïîäàâëÿþùåì æå áîëüøèíñòâå ñëó÷àåâ ïðè ïðèìåíåíèè áàéåñîâñêîãî ïîäõîäà èñïîëüçóþò êâàäðàòè÷íóþ ôóíêöèþ ïîòåðü, ó êîòîðîé ïîòåðè ïðîïîðöèîíàëüíû êâàäðàòó ðàññòîÿíèÿ ìåæäó äàâàåìîé îöåíêîé 12 ò.å.
S
Bi = I, I äîñòîâåðíîå ñîáûòèå, Bi 13 Thomas Bayes, ïðàâèëüíî âñ¼ æå ¾Áåéåñ¿. i∈I
T
Bj = ∅ ïðè i 6= j, i, j ∈ I .
è èñòèííûì çíà÷åíèåì ïàðàìåòðà. Ïðåèìóùåñòâî êâàäðàòè÷íîé ôóíêöèè ïîòåðü ñîñòîèò â òîì, ÷òî îíà ïîäàâëÿåò áîëüøèå îøèáêè. Ïîýòîìó â òåõ çàäà÷àõ, ãäå áîëüøèå îøèáêè â îöåíèâàíèè ïàðàìåòðà êðàéíå íåæåëàòåëüíû (ê íèì îòíîñèòñÿ è íàøà çàäà÷à îöåíêè êà÷åñòâà àëãîðèòìà êëàññèôèêàöèè ïðè ìàëîì ÷èñëå ïðåöåäåíòîâ), ñëåäóåò èñïîëüçîâàòü êâàäðàòè÷íóþ ôóíêöèþ ïîòåðü. Ëåãêî ïîêàçàòü [40], [53], ÷òî ïðè êâàäðàòè÷íîé ôóíêöèè ïîòåðü îïòèìàëüíàÿ áàéåñîâñêàÿ îöåíêà áóäåò ñîâïàäàòü ñ ìàòåìàòè÷åñêèì îæèäàíèåì ïîëó÷åííîãî ðàñïðåäåëåíèÿ àïîñòåðèîðíûõ âåðîÿòíîñòåé. Óêàçàííûå ïîëîæåíèÿ, ïðèìåíÿåìûå äëÿ ïîëó÷åíèÿ îöåíîê è ñîñòàâëÿþò ïðèíöèï Áàéåñà (ÏÁ) 14 . Ïðèíöèï Áàéåñà ÿâëÿåòñÿ îäíèì èç âàæíåéøèõ ìîìåíòîâ â ìàòåìàòè÷åñêîé ñòàòèñòèêå. Îáñóæäåíèå âîïðîñîâ, ñâÿçàííûõ ñ ÏÁ ìîæíî íàéòè, íàïðèìåð, â [24], [25], [29] è äð. Ìû âèäèì, ÷òî áàéåñîâñêèé ïîäõîä îñíîâàí íà ìàêñèìèçàöèè ñîâìåñòíûõ ðàñïðåäåëåíèé ñîáûòèé A è {Bi }i∈I , è äëÿ åãî ïðèìåíåíèÿ íåîáõîäèìî çíàòü ðàñïðåäåëåíèå àïðèîðíûõ âåðîÿòíîñòåé. Îäíàêî î÷åíü ÷àñòî àïðèîðíûå âåðîÿòíîñòè íåèçâåñòíû, è èõ ïðèõîäèòñÿ îïðåäåëÿòü, èñõîäÿ èç äîïîëíèòåëüíîé èíôîðìàöèè, ñïåöèôè÷íîé äëÿ äàííîé çàäà÷è.  ñëó÷àå æå, êîãäà òàêàÿ èíôîðìàöèÿ îòñóòñòâóåò, âûíóæäåííî ñ÷èòàþò, ÷òî ñîáûòèÿ èç ãðóïïû B ðàâíîâåðîÿòíû. Ýòî äîïóùåíèå èçâåñòíî ïîä íàçâàíèåì ïðèíöèïà íåîïðåäåë¼ííîñòè Ëàïëàñà 15 . Õîòÿ äàííûé ïðèíöèï ÿâëÿåòñÿ îäíèì èç íàèáîëåå ñïîðíûõ ìîìåíòîâ â ñòàòèñòè÷åñêîé òåîðèè, íà ïðàêòèêå â ðàìêàõ áàéåñîâñêèé ïîäõîäà îí ïðèìåíÿåòñÿ î÷åíü ÷àñòî. Çàìåòèì, ÷òî â ñîâðåìåííûõ ôîðìóëèðîâêàõ ýòîãî ïðèíöèïà äîïóñêàåòñÿ è íå ðàâíîâåðîÿòíûé õàðàêòåð àïðèîðíîãî ðàñïðåäåëåíèÿ [24]. Ã. Äæåôôðèñ [64] ðàçâèë óêàçàííûé ïîäõîä. Îí ïðåäëîæèë íåèíôîðìàòèâíîå àïðèîðíîå ðàñïðåäåëåíèå p äëÿ íåèçâåñòíîãî ïàðàìåòðà θ, ñ ïëîòíîñòüþ, ïðîïîðöèîíàëüíîé |I(θ)|, ãäå |I(θ)| åñòü îïðåäåëèòåëü ò.í. èíôîðìàöèîííîé ìàòðèöû (ñì. [29], [61]). Åñòåñòâåííî, è ïðèíöèï íåîïðåäåë¼ííîñòè Ëàïëàñà, è ñàì ïðèíöèï Áàéåñà ìîãóò áûòü îñïîðåíû.  òî æå âðåìÿ ÿñíî: åñëè äàííûå ïðèíöèïû îòâåðãàþòñÿ, îíè äîëæíû áûòü çàìåíåíû ÷åì-ëèáî äðóãèì.  ÷àñòîòíîì ïîäõîäå ïðåäëàãàåòñÿ ñ÷èòàòü, ÷òî â äåéñòâèòåëüíîñòè èìååò ìåñòî ñîáûòèå, èìåþùåå ìàêñèìàëüíîå ïðàâäîïîäîáèå. Äàííîå äîïóùåíèå íàçûâàåòñÿ ïðèíöèïîì ìàêñèìàëüíîãî ïðàâäîïîäîáèÿ (ÌÏ). Òàêèì îáðàçîì, ïðèíöèï ÌÏ îñíîâàí íà ìàêñèìèçàöèè íå àïîñòåðèîðíîé, à ëèøü óñëîâíîé âåðîÿòíîñòè íàáëþäàåìîãî ñîáûòèÿ A ïðè óñëîâèÿõ ðåàëèçàöèè Bi , i ∈ I . ßñíî, ÷òî è ïðîòèâ ïðèíöèïà ÌÏ ìîãóò áûòü âûñêàçàíû âîçðàæåíèÿ. Ñ äðóãîé ñòîðîíû, â ñëó÷àå ïðèíÿòèÿ ïðèíöèïà íåîïðåäåë¼ííîñòè Ëàïëàñà è îöåíêè ïî ìàêñèìóìó àïîñòåðèîðíîé âåðîÿòíîñòè (ïðè ñòðîãîé ïîëîæèòåëüíîñòè àïîñòåðèîðíûõ âåðîÿòíîñòåé, ÷åãî âñåãäà ìîæíî äîáèòüñÿ), ðåçóëüòàòû îáîèõ ïîäõîäîâ, î÷åâèäíî, ñîâïàäóò è ìåòîäû íà îñíîâå ÌÏ ìîãóò ñ÷èòàòüñÿ ÷àñòíûìè ñëó÷àÿìè áàéåñîâñêîãî ïîäõîäà16 . ×àñòîòíûé ïîäõîä íå îãðàíè÷èâàåòñÿ, åñòåñòâåííî, òîëüêî ïðèíöèïîì ÌÏ è ìåòîäàìè, íà í¼ì îñíîâàííûìè. Ïðîñòî ýòîò ïîäõîä, â îòëè÷èè îò áàéåñîâñêîãî, ïðîñòî íå ñâÿçàí íè ñ êàêèìè àïðèîðíûìè ïðåäïîëîæåíèÿìè î òîì èëè èíîì ðàñïðåäåëåíèè êàêèõ-ëèáî âåëè÷èí. Ïîíÿòíî, ÷òî ýòî åñòü è ñèëüíàÿ, è ñëàáàÿ åãî ñòîðîíà.  öåëîì, ïðåîáëàäàíèå ïîëîæèòåëüíûõ èëè îòðèöàòåëüíûõ ñòîðîí ëþáîãî ïîäõîäà, êàê ÷àñòîòíîãî, òàê è áàéåñîâñêîãî, çàâèñèò îò êîíêðåòíîãî èõ ïðèìåíåíèÿ ê êîíêðåòíîé çàäà÷å. 14 Ýòî
îïðåäåëåíèå îòëè÷àåòñÿ îò ïðèâåäåííîãî â èçâåñòíîé ìîíîãðàôèè [24]. òàêæå ïîñòóëàòà Áàéåñà èëè ïðèíöèïà ðàâíîâåðîÿòíîñòè. 16 ñì. [24], ñòð. 283.
15 à
5 Òî÷å÷íûå îöåíêè 5.1 ×àñòîòíûé ïîäõîä  ðàìêàõ ÷àñòîòíîãî ïîäõîäà èñïîëüçóþòñÿ ñëåäóþùèå ìåòîäû ïîëó÷åíèÿ òî÷å÷íûõ îöåíîê íåèçâåñòíûõ ïàðàìåòðîâ [46]:
• ìåòîä ìàêñèìàëüíîãî ïðàâäîïîäîáèÿ; • ìåòîä ìîìåíòîâ; • ìåòðè÷åñêèå ìåòîäû.
5.1.1 Ìíîãîìåðíûé ñëó÷àé 5.1.1.1 Ìåòîä ìàêñèìàëüíîãî ïðàâäîïîäîáèÿ ïðÿìî îñíîâàí íà ïðèíöèïå ÌÏ.
Ïî ýòîìó ìåòîäó ìàêñèìèçèðóåòñÿ ôóíêöèè ïðàâäîïîäîáèÿ L àðãóìåíòîâ p1 , p2 , . . . , pv . Ôóíêöèè ïðàâäîïîäîáèÿ äëÿ íàøåãî ñëó÷àÿ îïðåäåëÿåòñÿ ñëåäóþùèì îáðàçîì. Ðåçóëüòàò îïðåäåëåíèÿ êîëè÷åñòâà ïðåöåäåíòîâ â îáëàñòÿõ {Xk }vk=1 ïðåäñòàâèì â âèäå m (0, 1)-òàáëèöû T = {tk,i }v, k,i=1 , ãäå ( 1, åñëè i-é ïðåöåäåíò ïðèíàäëåæèò îáëàñòè Xk , tk,i = 0, èíà÷å. ßñíî, ÷òî
v X
tk,i = 1,
m X
tk,i = mk ,
i=1
k=1
v X
mk = m .
k=1
Òîãäà ôóíêöèÿ ïðàâäîïîäîáèÿ åñòü t
+...+t
t
+...+t2,m
i,m L ( T ; p1 , p2 , . . . , pv ) = const · p11,1 p22,1 mv 1 m2 . . . ptvv,1 +...+tv,m = const · pm 1 p2 . . . pv .
...
Ìû âèäèì, ÷òî ôóíêöèÿ ïðàâäîïîäîáèÿ çàâèñèò òîëüêî îò âåëè÷èí m1 , m2 , . . . , mv è p1 , p2 , . . . , pv è íå çàâèñèò îò T . Òåïåðü, ïîñêîëüêó ìàêñèìóìû L è log L ñîâïàäàþò, íàøà çàäà÷à ñîñòîèò â ìàêñèìèçàöèè ôóíêöèè
log L (p1 , p2 , . . . , pv ) = const +
v X
mk log pk
k=1
ïðè óñëîâèè íîðìèðîâêè (5). Äàííàÿ çàäà÷à íà óñëîâíûé ýêñòðåìóì ëåãêî ðåøàåòñÿ ìåòîäîì ìíîæèòåëåé Ëàãðàíæà. Ñîñòàâëÿÿ ôóíêöèþ Ëàãðàíæà à ! v X L (p1 , p2 , . . . , pv , λ) = log L (p1 , p2 , . . . , pv ) + λ · 1 − pk k=1
è ïðèðàâíèâàÿ ∂ log L/∂pi è ∂ log L/∂λ íóëþ, ïîëó÷àåì ÑËÀÓ ïîðÿäêà v + 1 m k − λ = 0 , k = 1, v , pk
v X k=1
pk = 1 ,
ðåøåíèÿ êîòîðîé ñóòü λ = m, pk = mk /m , k = 1, v. Òàêèì îáðàçîì, ÌÏ-îöåíêàìè pˆk âåðîÿòíîñòåé pk áóäóò îòíîñèòåëüíûå ÷àñòîòû mk /m ÷èñëà ïðåöåäåíòîâ mk â îáëàñòÿõ Xk , k = 1, v .
5.1.1.2 Ìåòîä ìîìåíòîâ. Íåòðóäíî âèäåòü, ÷òî ìåòîä ìîìåíòîâ, îñíîâàííûé
íà ïðèðàâíèâàíèè âûáîðî÷íûõ ìîìåíòîâ òåîðåòè÷åñêèì, äà¼ò òàêèå æå îöåíêè, ïîñêîëüêó ìîìåíòû ïåðâîãî ïîðÿäêà µk ïîëèíîìèàëüíîãî ðàñïðåäåëåíèÿ ðàâíû mpk , à ñîîòâåòñòâóþùèå âûáîðî÷íûå mk , k = 1, v .
5.1.1.3 Ìåòðè÷åñêèå ìåòîäû. Äàííûå ìåòîäû îñíîâàíû íà ðàññìîòðåíèè ðàçëè÷íûõ ìåð ðàñõîæäåíèÿ ìåæäó íàáëþä¼ííûìè âåëè÷èíàìè m1 , m2 , . . . , mv è èõ ìàòåìàòè÷åñêèìè îæèäàíèÿìè mp1 , mp2 , . . . , mpv . Îöåíêà (ˆ p1 , pˆ2 , . . . , pˆv ) îïðåäåëÿåòñÿ êàê çíà÷åíèÿ âåðîÿòíîñòåé, ìèíèìèçèðóþùèå ýòó ìåðó. Äëÿ îöåíèâàíèÿ èñïîëüçóþòñÿ òàêèå ìåðû, êàê ¾χ2 ¿, ¾ìîäèôèöèðîâàííûé χ2 ¿, ¾ðàññòîÿíèå Õåëëèíãåðà¿, ¾äèâåðãåíöèÿ Êóëüáàõà-Ëåéáëåðà¿, ¾ìåðà ðàñõîæäåíèÿ Õîëäåéíà¿ è äð. [46], [43]. Èçó÷åíèå èõ ïîêàçûâàåò, ÷òî ê íàøåé çàäà÷å îêàçûâàåòñÿ ïðèìåíèì (ïî êðàéíåé ìåðå â ñâî¼ì èñõîäíîì âèäå) ëèøü ìåòîä ¾ìîäèôèöèðîâàííûé χ2 ¿, êîòîðûé äà¼ò âñ¼ òó æå ôóíêöèþ îöåíêè â âèäå îòíîñèòåëüíûõ ÷àñòîò. Èç ñêàçàííîãî âûøå ÿñíî, ÷òî â îñíîâå ìåòîäà ìàêñèìàëüíîãî ïðàâäîïîäîáèÿ íå ëåæèò íèêàêèõ ñòðîãî îáîñíîâàííûõ ñîîáðàæåíèé, à øèðîêîå èñïîëüçîâàíèå ÌÏ-îöåíîê è âåðà â èõ õîðîøèå êà÷åñòâà îñíîâàíû, îò÷àñòè, íà àñèìïòîòè÷åñêîé îïòèìàëüíîñòè, êàê ïðàâèëî, èõ ñâîéñòâ. Ðå÷ü èäåò îá èçâåñòíûõ ñâîéñòâàõ íåñìåùåííîñòè, ñîñòîÿòåëüíîñòè è ýôôåêòèâíîñòè ÌÏ-îöåíîê. Äåéñòâèòåëüíî, òàêæå ëåãêî ïîêàçûâàåòñÿ, ÷òî ìàòåìàòè÷åñêîå îæèäàíèå M{b p¯} âåêòîðà îöåíîê {pk }vi=k åñòü (ñ ó÷åòîì (7) è îáîçíà÷åíèé m ¯ = (m1 , m2 . . . mv )T è p¯∗ v -è÷íûé âåêòîð èñòèííûõ çíà÷åíèé âåðîÿòíîñòåé)
M{bp¯} = M{m/m} ¯ =
1 m p¯∗ M{m} ¯ = = p¯∗ , m m
è, òàêèì îáðàçîì, ïîëó÷åííàÿ îöåíêà ÿâëÿåòñÿ íåñìåù¼ííîé. ż äèñïåðñèÿ D{b p¯} ðàâíà
D{bp¯} = D{m/m} ¯ =
1 m p¯∗ (1 − p¯∗ ) p¯∗ (1 − p¯∗ ) D { m} ¯ = = . m2 m2 m
Çäåñü 1 v -è÷íûé âåêòîð (1, 1, . . . , 1)T è èìååòñÿ ââèäó àäàìàðîâî (ïîêîìïîíåíòíîå) ïðîèçâåäåíèå âåêòîðîâ. Åñòåñòâåííî, çäåñü è äàëåå òîëüêî v − 1 êîìïîíåíò âåêòîðîâ áóäóò íåçàâèñèìû. Èçâåñòíî, ÷òî ýòî îöåíêà ñ ìèíèìàëüíîé çíà÷åíèåì äèñïåðñèè â íåðàâåíñòâå Êðàìeðà Ðàî (ñì., íàïðèìåð, [25]). Òàêèì îáðàçîì ïîëó÷åííàÿ îöåíêà èìååò ìèíèìàëüíóþ äèñïåðñèþ â êëàññå íåñìåù¼ííûõ17 . Ïîñêîëüêó D{b p¯} cõîäèòñÿ ïî âåðîÿòíîñòè ê 0 ïðè âîçðàñòàíèè m, òî îöåíêà ÿâëÿåòñÿ ñîñòîÿòåëüíîé. Ìîæíî ïîêàçàòü [25], ÷òî íåñìåù¼ííàÿ îöåíêà äëÿ p∗k (1 − p∗k ), k = 1, v , åñòü
mk ´ mk (m − mk ) m mk ³ 1− = . m−1 m m m (m − 1) 17 ò.å.
ýôôåêòèâíîé â îáùåïðèíÿòîì ñìûñëå.
ïîýòîìó íåñìåù¼ííîé ôóíêöèåé îöåíêè D{b p¯} äëÿ äèñïåðñèè D{b p¯} áóäåò v -è÷íûé âåêòîð ñ êîìïîíåíòàìè mk (m − mk ) , k = 1, v . m2 (m − 1) Äëÿ íàøèõ öåëåé îòíîñèòåëüíûå ÷àñòîòû ìîãóò áûòü ïðèíÿòû â êà÷åñòâå òî÷å÷íûõ îöåíîê èñêîìûõ âåðîÿòíîñòåé ëèøü â ñëó÷àÿõ áîëüøèõ m. Ýòî ñâÿçàíî ñ òåì, ÷òî â óñëîâèÿõ ìàëîé âûáîðêè íå âûïîëíÿåòñÿ îñíîâíîå óñëîâèå ïðåäåëüíûõ òåîðåì òåîðèè âåðîÿòíîñòåé ñóùåñòâîâàíèå áîëüøîãî ÷èñëà ñëó÷àéíûõ ñîáûòèé. ¾Àñèìïòîòè÷åñêè õîðîøèå îöåíêè ìîãóò îêàçàòüñÿ ìàëî ïîëåçíûìè äëÿ ïðèëîæåíèé, ïîñêîëüêó ÷èñëî íàáëþäåíèé âñåãäà îãðàíè÷åíî¿ [24], ¾ïîýòîìó ïðè îöåíèâàíèè ïî êîíå÷íîìó ìàëîìó ÷èñëó íàáîðó äàííûõ àñèìïòîòè÷åñêèå õàðàêòåðèñòèêè ìîãóò ââåñòè â çàáëóæäåíèå¿ [54]. Ñ äðóãîé ñòîðîíû, òî÷åíûå îöåíêè â âèäå îòíîñèòåëüíûõ ÷àñòîò â çàäà÷àõ ðàñïîçíàâàíèÿ îáðàçîâ ÷àñòî ñòàíîâÿòñÿ íåïðèåìëåìûìè ñ òî÷êè çðåíèÿ îïûòà è èíòóèöèè. Íàïðèìåð, êîððåêòíîå ðåøàþùåå ïðàâèëî ìû âûíóæäåíû îöåíèâàòü êàê 100% áåçîøèáî÷íîå, ÷òî äàæå ïðè áîëüøèõ îáú¼ìàõ ïðåöåäåíòíîé èíôîðìàöèè ïðîòèâîðå÷èò çäðàâîìó ñìûñëó. Îòìåòèì, ÷òî â ïîñëåäíåì ñëó÷àå ïîëó÷åííàÿ îöåíêà äîëæíà áûòü îòâåðãíóòà è ïî ôîðìàëüíûì ñîîáðàæåíèÿì: çíà÷åíèå pk = 0 íå ïðèíàäëåæèò îáëàñòè èçìåíåíèÿ ïàðàìåòðà Θ = (0, 1)v . Õîòÿ â áîëüøèíñòâå ñòàòèñòè÷åñêèõ ìîäåëåé îêàçûâàåòñÿ ïðèåìëåìûì ðàññìàòðèâàòü âìåñòî îáëàñòè Θ åå çàìûêàíèå Θ, íî â íàøåì ñëó÷àå âêëþ÷àòü â ðàññìîòðåíèå íåâîçìîæíûå èëè äîñòîâåðíûå ñîáûòèÿ âèäà x ∈ Xk íåò íèêàêèõ îñíîâàíèé. Î÷åâèäíî òàêæå, ÷òî îöåíêè ïî ìàëîìó ÷èñëó ïðåöåäåíòîâ ïî ñâîåé ñóòè íå ìîãóò îáëàäàòü áîëüøîé òî÷íîñòüþ. Äàííîå îáñòîÿòåëüñòâî, íàïðèìåð, îòðàæåíî â [21], ãäå óêàçàíî, ÷òî ïðîöåíòíàÿ îòíîñèòåëüíàÿ ÷àñòîòà nr 100% ïðè 25 6 n 6 200 äîëæíà çàïèñûâàòüñÿ áåç çíàêîâ ïîñëå çàïÿòîé (à íà÷èíàÿ ñ n = 2000 ñ äâóìÿ çíàêàìè ïîñëå çàïÿòîé).  äàëüíåéøåì ìû áóäåì ïðèäåðæèâàòüñÿ äàííîãî ïðàâèëà (èç íåãî, â ÷àñòíîñòè, ñëåäóåò, ÷òî ïðè n < 25 âûáîðêà ñ÷èòàåòñÿ ìàëîé18 ).
5.1.2 Îäíîìåðíûé ñëó÷àé Òî÷å÷íûå îöåíêè äëÿ îäíîìåðíîãî ñëó÷àÿ ýëåìåíòàðíî ïîëó÷àþòñÿ èç ïîëó÷åííûõ âûøå äëÿ ìíîãîìåðíîãî: pˆw = mw /m, pˆr = ν = mr /m.
5.2 Áàéåñîâñêèé ïîäõîä Áàéåñîâñêèå òî÷å÷íûå îöåíêè b p¯W ïîëó÷àþòñÿ êàê ðåøåíèÿ çàäà÷è ìèíèìèçàöèè ôóíêöèîíàëà ñðåäíåãî ðèñêà çàïèñûâàåìîé êàê Z W ( p¯, q¯)f ( p¯ | m1 , m2 , . . . mv ) d¯ p = R(¯ q) , Sv−1 (¯ p)
b p¯W = arg
min
q¯ ∈Sv−1 (¯ x)
R(¯ q) .
Çäåñü è äàëåå Sv−1 (¯ x) = {(x1 , x2 , . . . , xv ) : xk > 0, k = 1, v; ñèìïëåêñ â ïðîñòðàíñòâå Rv ; 18 è
òîãäà òîëüêî îäíà öèôðà ÿâëÿåòñÿ çíà÷àùåé?
Pv k=1
xk = 1} (v − 1)-ìåðíûé
p¯, q¯, b p¯W âåêòîðû èç Sv−1 (¯ x), ïðè÷åì ïîñëåäíèé âåêòîð îöåíîê âåðîÿòíîñòåé ïðè äàííîé ôóíêöèè ïîòåðü W ; W ( p¯, q¯) : Sv−1 (¯ x) × Sv−1 (¯ x) → R>0 ôóíêöèÿ ïîòåðü äëÿ âûáðàííûõ çíà÷åíèé q¯, êîãäà p¯ ñóòü èñòèííûå çíà÷åíèÿ èñêîìûõ âåðîÿòíîñòåé; f ( p¯ | m1 , m2 , . . . mv ) àïîñòåðèîðíàÿ ïëîòíîñòü âåðîÿòíîñòè âåêòîðà p¯ ïðè íàáëþä¼ííûõ çíà÷åíèÿõ m1 , m2 , . . . mv ïîïàäàíèÿ ïðåöåäåíòîâ â ñîîòâåòñòâóþùèå îáëàñòè ïðîñòðàíñòâà îáðàçîâ. Ðåøåíèå äàííîé çàäà÷è â çíà÷èòåëüíîé ìåðå îïðåäåëÿåòñÿ âèäîì ôóíêöèè ïîòåðü. ¾Ïðîñòàÿ¿ ôóíêöèÿ ïîòåðü (ñì. ï. 4) ïðèâîäèò ê ìåòîäó ìàêñèìèçàöèè àïîñòåðèîðíîé âåðîÿòíîñòè, êîòîðàÿ ïðè èñïîëüçîâàíèè ïðèíöèïà íåîïðåäåë¼ííîñòè Ëàïëàñà äà¼ò, êàê ìû âèäåëè, ïîëó÷åííóþ ðàíåå â ðàìêàõ ÷àñòîòíîãî ïîäõîäà ÌÏ-îöåíêó. Ïðàêòè÷åñêè èñïîëüçóþò ëèáî êâàäðàòè÷íóþ
W ( p¯, q¯) = c(¯ p) k p¯ − q¯ k2 , ëèáî íîðìèðîâàííóþ êâàäðàòè÷íóþ ôóíêöèþ ïîòåðü
k¯ p − q¯k2 W ( p¯, q¯) = c(¯ p) Q , v pk k=1
ãäå c(¯ p) âåñîâàÿ ôóíêöèÿ âåêòîðà âåðîÿòíîñòåé c(¯ p); îáû÷íî ïîëàãàþò c(¯ p) = 1. Îòìåòèì, ÷òî â îáùåì ñëó÷àå ïîëó÷èòü áàéåñîâñêóþ ôóíêöèþ îöåíêè äëÿ ïðîèçâîëüíîé ôóíêöèè ïîòåðü, êàê ïðàâèëî, íåëåãêî. Îäíàêî îáùåïðèíÿòî, ÷òî íàèáîëåå àäåêâàòíûå ðåçóëüòàòû ïîëó÷àþòñÿ ïðè èñïîëüçîâàíèè èìåííî êâàäðàòè÷íîé ôóíêöèè ïîòåðü (ñì., íàïðèìåð [29], [40]). Òîò æå ðåçóëüòàò ìàòåìàòè÷åñêîå îæèäàíèå àïîñòåðèîðíîé ïëîòíîñòè âåðîÿòíîñòè èñêîìîãî ïàðàìåòðà (àïîñòåðèîðíîå ñðåäíåå) ïîëó÷àåòñÿ äëÿ øèðîêîãî êëàññà àïîñòåðèîðíûõ ðàñïðåäåëåíèé è ïðè èñïîëüçîâàíèè ëþáîé äðóãîé âûïóêëîé ñèììåòðè÷íîé ôóíêöèè ïîòåðü [53]19 .
5.2.1 Îäíîìåðíûé ñëó÷àé Ðàññìîòðèì äëÿ ïðîñòîòû ñíà÷àëà ñëó÷àé v = 2, êîòîðûé ñîîòâåòñòâóåò ðàçáèåíèþ ïðîñòðàíñòâà îáðàçîâ íà äâå ïîäîáëàñòè: ïðàâèëüíûõ è íåïðàâèëüíûõ êëàññèôèêàöèé. Ïóñòü ïîëó÷åííîå ð.ï. èç èìåþùèõñÿ m ïðåöåäåíòîâ mr ðàñïîçíàåò ïðàâèëüíî, à íà îñòàëüíûõ mw = m − mr îøèáàåòñÿ. ×àñòîòà, êàê èçâåñòíî, ÿâëÿåòñÿ äîñòàòî÷íîé ñòàòèñòèêîé è óñëîâíîå ðàñïðåäåëåíèå íàáëþäåíèé ïðè ôèêñèðîâàííîé ñòàòèñòèêå, íå çàâèñèò, ñëåäîâàòåëüíî, îò ðàñïðåäåëåíèÿ íàáëþäåíèé (÷åðåäîâàíèÿ ïðàâèëüíî è íåïðàâèëüíî ðàñïîçíàííûõ ïðåöåäåíòîâ)20 . Ïîñòðîèì áàéåñîâñêèå òî÷å÷íûå ôóíêöèè îöåíêè pˆ íåèçâåñòíîé âåðîÿòíîñòè p∗ = 1 − ν îøèáî÷íîé êëàññèôèêàöèè ïðè ðàçëè÷íîì çàäàíèè ôóíêöèè ïîòåðü. 19 Åäèíñòâåííîå
ñóùåñòâåííîå âîçðàæåíèå ïðîòèâ ïðèìåíåíèÿ êâàäðàòè÷íîé ôóíêöèè ïîòåðü ñîñòîèò â òîì, ÷òî îíà ïîä÷åðêèâàåò õâîñòû ðàñïðåäåëåíèé, ïðèïèñûâàÿ ñëèøêîì áîëüøîé âåñ ðåäêèì, âîîáùå ãîâîðÿ, çíà÷åíèÿì ïàðàìåòðà. Îäíàêî äëÿ çàäà÷è îöåíêè âåðîÿòíîñòåé ýòî âîçðàæåíèå ñíèìàåòñÿ, ïîñêîëüêó îáëàñòü èçìåíåíèÿ ïàðàìåòðà â ýòîì ñëó÷àå êîíå÷íà. 20 â ÷åì ìû óáåäèëèñü ïðè ïîñòðîåíèè ôóíêöèè ïðàâäîïîäîáèÿ â ï. 5.1.
Ôîðìóëà Áàéåñà â íàøåì ñëó÷àå èìååò âèä
f ( p | mw , mr ) =
f (p)f ( mw , mr | p)
.
Z1
(11)
f (p)f ( mw , mr | p) dp 0
Çäåñü f ( mw , mr | p ) = pmw (1 − p)mr ïðàâäîïîäîáèå.  êà÷åñòâå àïðèîðíîãî ðàñïðåäåëåíèÿ f (p) ìû áóäåì èñïîëüçîâàòü áåòòà-ðàñïðåäåëåíèå (B ) Be (a, b) ñ ïàðàìåòðàìè a > 0, b > 0, ïëîòíîñòü êîòîðîãî ðàâíà
f ( p ) = f ( p | a, b ) =
Γ(a + b) a−1 p (1 − p)b−1 , p ∈ (0, 1) . Γ(a)Γ(b)
(12)
B -ðàñïðåäåëåíèå î÷åíü óäîáíî äëÿ íàøèõ öåëåé, ïîñêîëüêó â ýòîì ñëó÷àå âû÷èñëåíèÿ
àïîñòåðèîðíîãî ðàñïðåäåëåíèÿ íàèáîëåå ïðîñòî. Ñ äðóãîé ñòîðîíû, ôîðìû êðèâûõ ïëîòíîñòåé Be (a, b) ïðè ðàçëè÷íûõ a > 0, b > 0 âåñüìà ðàçíîîáðàçíû (ñì. [55]). Çàìåòèì çäåñü, ÷òî ìàòåìàòè÷åñêîå îæèäàíèå è äèñïåðñèÿ B -ðàñïðåäåëåíèÿ ðàâíû
µβ =
a , a+b
σβ2 =
ab (a +
b)2 (a
+ b + 1)
.
Ñ ó÷¼òîì ñäåëàííîãî âûáîðà ïëîòíîñòü âåðîÿòíîñòè àïîñòåðèîðíîãî ðàñïðåäåëåíèÿ áóäåò
f ( p | mw , mr ) =
Γ(a + b + m) pmw +a−1 (1 − p)mr +b−1 , Γ(mw + a)Γ(mr + b) p ∈ (0, 1) ,
(13)
ò.å. Be(mw + a, mr + b). Óêàæåì, ÷òî äëÿ âû÷èñëåíèÿ çíàìåíàòåëÿ (11) è ïîäîáíûõ âûðàæåíèé èñïîëüçóþò ôîðìóëó Ëèóâèëëÿ [23], [52]:
Z Sv−1 (¯ x)
n Y
m1 ! . . . m n ! i xm , i dx1 . . . dxn = P n i=1 ( mi + n − 1)!
(14)
i=1
ãäå m1 , m2 , . . . , mn íàòóðàëüíûå ÷èñëà. Ïðè v = 2 è ó÷åòîì p1 + p2 = 1, p1 = p ñôîðìóëèðîâàííàÿ â íà÷àëå ï. 5.2 çàäà÷à ìèíèìèçàöèè ïðèíèìàåò âèä
Z1 W ( p, q )f ( p | mw , mr ) dp = R(q) → min ,
q ∈ Sv−1 (x) .
0
Êàê óêàçûâàëîñü âûøå, ïðè êâàäðàòè÷íîé
W1 ( p, q ) = ( p − q)2 ôóíêöèè ïîòåðü áàéåñîâñêàÿ îöåíêà ñîâïàäàåò àïîñòåðèîðíîãî ðàñïðåäåëåíèÿ. Ìàòåìàòè÷åñêîå ðàñïðåäåëåíèÿ (13) åñòü mw + a . µ = m+a+b
c ìàòåìàòè÷åñêèì îæèäàíèåì îæèäàíèå µ àïîñòåðèîðíîãî
Ïîëó÷åííàÿ îöåíêà ìîæåò ðàññìàòðèâàòüñÿ êàê ìîäèôèêàöèÿ ÌÏ-îöåíêè ñ ó÷¼òîì àïðèîðíîé èíôîðìàöèè îòíîñèòåëüíî p∗ èëè êàê ìîäèôèêàöèÿ àïðèîðíîé îöåíêè a/(a+b) ñ ó÷¼òîì íàáëþä¼ííûõ âåëè÷èí mw è mr . Ïðè îòñóòñòâèè êàêîé-ëèáî èíôîðìàöèè î çíà÷åíèÿõ âåðîÿòíîñòè p (γi = 1, i = 1, m) ïî ïðèíöèïó íåîïðåäåë¼ííîñòè Ëàïëàñà ïîëàãàåì, ÷òî àïðèîðíàÿ âåðîÿòíîñòü èìååò ðàâíîìåðíîå íà (0, 1) ðàñïðåäåëåíèå. Ðàâíîìåðíîå ðàñïðåäåëåíèå ýòî B -ðàñïðåäåëåíèå ñ ïàðàìåòðàìè a = b = 1. Òîãäà ïîëó÷àåì àïîñòåðèîðíóþ ïëîòíîñòü â âèäå
f ( p | mr , mw ) =
Γ(m + 2) pmw (1 − p)mr , Γ(mw + 1)Γ(mr + 1)
(15)
ò.å. ïëîòíîñòü B -ðàñïðåäåëåíèÿ Be (mr + 1, mw + 1) ó êîòîðîãî µ = (mw + 1)/(m + 2). Òàêèì îáðàçîì ïîëó÷åíà òî÷å÷íàÿ ôóíêöèÿ îöåíêà pˆW1 = pˆW âåðîÿòíîñòè îøèáêè ðàñïîçíàâàíèÿ 1 − ν : mw + 1 pˆW = . (16) m+2 Íàéäåì òåïåðü ôóíêöèþ îöåíêè pˆW2 = pˆW ïðè íîðìèðîâàííîé ôóíêöèè ïîòåðü W2 . Èìååì [3]:
Z1 R(q) = 0
Z1 ( p − q )2
= 0
m (m + 1) = mr mw
( p − q )2 (m + 1)! mw p (1 − p)mr dp = p (1 − p) mr ! mw !
(m − 1)! m (m + 1) pmw −1 (1 − p)mr −1 dp = (mr − 1)! mr (mw − 1)! mv
Z1 ( p − q )2 0
m (m + 1) = mr mw
(m − 1)! pmw −1 (1 − p)mr −1 dp = (mr − 1)! (mw − 1)!
Z1 ( p − q)2 f ( p | mw − 1, mr − 1) dp . 0
Ìèíèìóì çíà÷åíèÿ èíòåãðàëà â ïîñëåäíåì âûðàæåíèè áóäåò äîñòèãàòüñÿ ïðè q = pˆW2 = mw /m, è, òàêèì îáðàçîì, ìû ñíîâà ïîëó÷àåì îöåíêó ìàêñèìàëüíîãî ïðàâäîïîäîáèÿ. Âîçâðàòèìñÿ ê îöåíêå (16). ßñíî, ÷òî îíà ÿâëÿåòñÿ ñìåù¼ííîé : åñëè pˆ ÌÏ-îöåíêà, òî 1 m pˆ + , pˆW = m+2 m+2 è ñ ó÷åòîì ñâîéñòâ pˆ, ïðèâåä¼ííûõ â ïðåäûäóùåì ðàçäåëå 5.1, ½ ¾ 1 m mp∗ + 1 pˆ + 6= p∗ . M{ˆ pW } = M = m+2 m+2 m+2 Òàêæå ÿñíî, ÷òî îöåíêà pˆW íåñìåùåíà àñèìïòîòè÷åñêè. Äèñïåðñèÿ D{ˆ pW } ïîëó÷åííîé îöåíêè ðàâíà ½ ¾ 1 m D{ˆ pW } = D pˆ + = m+2 m+2 µ ¶2 m p∗ (1 − p∗ ) m D{ˆ p} = , = m+2 (m + 2)2
è îöåíêà, î÷åâèäíî, ñîñòîÿòåëüíà. Ëåãêî âèäåòü, ÷òî íåñìåù¼ííàÿ îöåíêà D{ˆ pW } äèñïåðñèè ïîëó÷åííîé îöåíêè ðàâíà
D{ˆ pW } =
mw (m − mw ) . (m + 2)2 (m − 1)
Èìååì D{ˆ pW } < D{ˆ p} è äèñïåðñèÿ îöåíêè D{ˆ pW } â (m+2)2 /m2 ðàç ìåíüøå ìèíèìàëüíîé ãðàíè÷íîé ïî íåðàâåíñòâó Êðàìeðà-Ðàî. Óêàçàííîå îáñòîÿòåëüñòâî îáúÿñíÿåòñÿ òåì, ÷òî ïîëó÷åííàÿ áàéåñîâñêàÿ îöåíêà åñòü îöåíêà ñìåù¼ííàÿ è ïîíèçèòü äèñïåðñèþ îöåíêè óäàëîñü èìåííî çà ñ÷åò âûõîäà èç êëàññà íåñìåù¼ííûõ (äëÿ êîòîðûõ è âûâåäåíî íåðàâåíñòâî Êðàìeðà-Ðàî). Åñòåñòâåííî, òîò æå ðåçóëüòàò ïîëó÷èòñÿ, åñëè ñðàçó âîñïîëüçîâàòüñÿ ôîðìóëîé äëÿ íèæíåé ãðàíèöû ñìåù¼ííîé îöåíêè [49]21 . ßñíî, ÷òî âûèãðûø â äèñïåðñèè îöåíêè áóäåò îñîáåííî ñóùåñòâåííûì ïðè ìàëûõ âûáîðêàõ. Ñëåäóåò, îäíàêî, èìåòü â âèäó, ÷òî äëÿ ñìåù¼ííîé îöåíêè äèñïåðñèÿ ñëóæèò ìåðîé áëèçîñòè íå ê îöåíèâàåìîìó ïàðàìåòðó, à ê ìàòåìàòè÷åñêîìó îæèäàíèþ îöåíêè. Ïîýòîìó âàæíîå çíà÷åíèå ïðèîáðåòàåò âîïðîñ îá èñòèííîì âèäå ðàñïðåäåëåíèÿ âåðîÿòíîñòè p.
5.2.2 Îáñóæäåíèå ïîëó÷åííûõ îöåíîê. Äðóãèå òî÷å÷íûå îöåíêè Ñ îáùåé òî÷êè çðåíèÿ íåò íèêàêèõ îñíîâàíèé, êðîìå óäîáñòâà ìàòåìàòè÷åñêèõ ñâîéñòâ (à òàêæå òðàäèöèè ïðàêòèêîâ), âûäåëÿòü ðàâåíñòâî èñòèííîìó çíà÷åíèþ èìåííî ìàòåìàòè÷åñêîãî îæèäàíèÿ îöåíêè â êà÷åñòâå êðèòåðèÿ íåñìåù¼ííîñòè. Âìåñòî ìàòåìàòè÷åñêîãî îæèäàíèÿ ìîãóò òàêæå áûòü âûáðàíû ìåäèàíà ðàñïðåäåëåíèÿ èëè åãî ìîäà (ò.í. ìåäèàííàÿ íåñìåù¼ííîñòü èëè íåñìåù¼ííîñòü ïî ìîäå22 ).  íàøåì ñëó÷àå ìû ñòîëêíóëèñü ñ ñèòóàöèåé, êîãäà ñìåù¼ííàÿ îöåíêà èìååò äèñïåðñèþ ìåíüøå, ÷åì íåñìåù¼ííàÿ, à çíà÷èò è áîëüøóþ ýôôåêòèâíîñòü23 . Ìû ñ÷èòàåì ýòî äîñòàòî÷íûì îñíîâàíèåì äëÿ òîãî, ÷òîáû îòêàçàòüñÿ îò ðàññìîòðåíèÿ ëèøü êëàññà íåñìåù¼ííûõ îöåíîê. Âî-ïåðâûõ, ïîëó÷åííàÿ îöåíêà îáëàäàåò ñâîéñòâîì àñèìïòîòè÷åñêîé íåñìåù¼ííîñòè, à ñàìî ñìåùåíèå íåâåëèêî. Âî-âòîðûõ, ïðåäñòàâëÿåòñÿ ÿñíûì, ÷òî äëÿ ñëó÷àÿ ìàëûõ âûáîðîê, èìåííî ýôôåêòèâíîñòü ÿâëÿåòñÿ îñíîâíûì êðèòåðèåì êà÷åñòâà îöåíêè (cð. [14]). Íàëè÷èå ó îöåíîê ïîñëåäíåãî íåðàññìîòðåííîãî îñíîâíîãî ñâîéñòâà ñîñòîÿòåëüíîñòè èìååò öåííîñòü âñ¼ æå â îñíîâíîì ïðè òåîðåòè÷åñêèõ èññëåäîâàíèÿõ. È, íàêîíåö, â òðåòüèõ, ÌÏ-îöåíêè, êàê ïðàâèëî, ïîëó÷àþòñÿ íåóñòîé÷èâûìè [58], à èíîãäà è ¾êàòàñòðîôè÷åñêè íåóñòîé÷èâûìè¿24 ê ìàëûì îòêëîíåíèÿì îò çàêîíà ðàñïðåäåëåíèÿ. Ïîýòîìó òàêàÿ îöåíêà íåóäîáíà è ñ òî÷êè çðåíèÿ ðîáàñòíîñòè (óñòîé÷èâîñòè ïî îòíîøåíèþ ê ïîñòóëèðóåìûì ðàñïðåäåëåíèÿì). Çàìåòèì, ÷òî, íåôîðìàëüíî ðàññóæäàÿ, ïðèíÿòèå ÌÏ-îöåíêè (ïî ìîäå) áóäåò ïðèâîäèòü ê îøèáêàì, âîîáùå ãîâîðÿ, ðåäêèì, íî, âîçìîæíî, çíà÷èòåëüíûì, à áàéåñîâñêàÿ 21 Äèñïåðñèè
ñìåù¼ííûõ Dd è íåñìåù¼ííûõ D îöåíîê ïàðàìåòðà p ñâÿçàíû ôîðìóëîé Dd = (1 + b0m (p))2 D , ãäå bm (p) ñìåùåíèå.  íàøåì ñëó÷àå
1 − 2p 1 − 2p 0 2 2 pˆ = p + , bm (p) = , bm (p) = − , (1 + b0m (p)) = m+2 m+2 m+2 22 Cì.,
µ
m m+2
¶2 .
íàïðèìåð, [29], [43]. ñ ìåíüøåé äèñïåðñèåé ìû ñ÷èòàåì áîëåå ýôôåêòèâíîé. 24 Ñì. Tukey, J.W. A survey of sampling from contaminated distribution / Contributions to Prob. and Stat. Ed. I. Olkin et al. Stanford: Stanford Univ. Press, 1960, p. 446-486. 23 Îöåíêó
îöåíêà (ïî ìàòåìàòè÷åñêîìó îæèäàíèþ) ïîâëå÷åò, êàê ïðàâèëî, îøèáêè ÷àñòûå, íî íåáîëüøèå. Ïðåäñòàâëÿåòñÿ, ÷òî äàííûå îöåíêè â ñèëó óêàçàííûõ ñâîéñòâ ÿâëÿþòñÿ â ñâî¼ì ðîäå ãðàíè÷íûìè, è èñõîäÿ èç ñïåöèôèêè êîíêðåòíûõ çàäà÷ Z â êà÷åñòâå òî÷å÷íîé îöåíêè èñêîìîé âåðîÿòíîñòè p∗ ìîæíî âûáðàòü ëþáîå çíà÷åíèå ìåæäó ìîäîé è ìàòåìàòè÷åñêèì îæèäàíèåì ïîëó÷åííîãî B -ðàñïðåäåëåíèÿ. Ìîæíî ïîêàçàòü, ÷òî, íàïðèìåð, åãî ìåäèàíà x(β)1/2 âñåãäà ðàñïîëîæåíà â óêàçàííîì äèàïàçîíå è çà îöåíêó âåðîÿòíîñòè ïðèíÿòü èìåííî ìåäèàíó. Òàêàÿ îöåíêà áóäåò îáëàäàòü ñâîéñòâîì ðàâíîâåðîÿòíîé íåäîîöåíêè è ïåðåîöåíêè p∗ , ÷òî ìîæåò îêàçàòüñÿ óäîáíûì äëÿ íåêîòîðûõ ïðèëîæåíèé. Êñòàòè, îíà áóäåò ÿâëÿòüñÿ áàéåñîâñêîé ñ ôóíêöèåé øòðàôà W3 (p, q) = |p−q| [30].  [29] äëÿ ìàëûõ p∗ ïðåäëàãàåòñÿ â êà÷åñòâå àïðèîðíîãî ðàñïðåäåëåíèÿ áðàòü Be(1, b) ñ áîëüøèì b. Òîãäà áàéåñîâñêîé ôóíêöèåé îöåíêè áóäåò
pˆ =
mw + 1 . m+b+1
(17)
Äëÿ íàøåé çàäà÷è ìîæíî ïîïûòàòüñÿ èñïîëüçîâàòü ò.í. W -ìèíèìàêñíóþ îöåíêó, ïðè êîòîðîé ìàêñèìàëüíûå ïîòåðè äëÿ íåêîòîðîé âûáðàííîé ôóíêöèè ïîòåðü W ìèíèìàëüíû ïî p∗ ∈ (0, 1). Ïîíÿòèå W -ìèíèìàêñíîñòè ââîäèòñÿ íåçàâèñèìî îò çàäàíèÿ êàêîãîëèáî àïðèîðíîãî ðàñïðåäåëåíèÿ è ïîýòîìó, âîîáùå ãîâîðÿ, ìîæåò ðàññìàòðèâàòüñÿ â ðàìêàõ ÷àñòîòíîãî ïîäõîäà. Èíîãäà îêàçûâàåòñÿ âîçìîæíûì ïîäîáðàòü àïðèîðíîå ðàñïðåäåëåíèå, ïðè êîòîðîì ïîëó÷åííàÿ ìèíèìàêñíàÿ îöåíêà îêàçûâàåòñÿ òàêæå ðàâíîé è ñîîòâåòñòâóþùåé áàéåñîâñêîé. Òàêîå àïðèîðíîå ðàñïðåäåëåíèå íàçûâàþò íàèìåíåå áëàãîïðèÿòíûì. Åñëè âûáðàòü ôóíêöèþ ïîòåðü êâàäðàòè÷íîé (W = W1 ), òî ìèíèìàêñíàÿ îöåíêà ïàðàìåòðà p áèíîìèàëüíîãî ðàñïðåäåëåíèÿ áóäåò èìåòü âèä [11], [59] √ m m1 1 1 √ √ pˆ = + . 1+ m m 1+ m 2 Ïðåäñòàâëÿåòñÿ, îäíàêî, ÷òî èñïîëüçîâàíèå ïîëó÷åííîé ôóíêöèè îöåíêè â íàøåì ñëó÷àå íåäîñòàòî÷íî îïðàâäàíî ñ òî÷êè çðåíèÿ ¾ôèçèêè¿ çàäà÷è. Äåéñòâèòåëüíî, äëÿ âûøåóêàçàííîé √ îöåíêè √ íàèìåíåå áëàãîïðèÿòíûì ðàñïðåäåëåíèåì îêàçûâàåòñÿ B ðàñïðåäåëåíèå Be( m/2, m/2). Íåÿñíî, êàê ïàðàìåòðû ýòîãî ðàñïðåäåëåíèÿ ìîãóò áûòü îáîñíîâàíû â ðàìêàõ çàäà÷è Z . Åñëè æå âûáðàòü íîðìèðîâàííóþ êâàäðàòè÷íóþ ôóíêöèþ ïîòåðü (W = W2 ), òî W2 -ìèíèìàêñíûìè îöåíêàìè èñêîìûõ âåðîÿòíîñòåé áóäóò ÿâëÿòüñÿ îòíîñèòåëüíûå ÷àñòîòû. Ïðè ýòîì íàèìåíåå áëàãîïðèÿòíîì ðàñïðåäåëåíèåì îêàçûâàåòñÿ ðàâíîìåðíîå. Íåïðèåìëåìîñòü æå òî÷å÷íûõ îöåíîê â âèäå îòíîñèòåëüíûõ ÷àñòîò äëÿ ñëó÷àÿ ìàëûõ âûáîðîê îáñóæäàëàñü âûøå. Äëÿ âûÿñíåíèÿ âîïðîñà: Êàêàÿ èç âîçìîæíûõ òî÷å÷íûõ îöåíîê íàèáîëåå àäåêâàòíà ðåàëüíûì ïðàêòè÷åñêèì ñèòóàöèÿì? áûë ïðîâåäåí ÷èñëåííûé ýêñïåðèìåíò. Äëÿ ðàçíûõ çíà÷åíèé p ∈ [0, 1] ïîÿâëåíèÿ óñëîâíîãî ñîáûòèÿ A ãåíåðèðîâàëèñü âûáîðêè îáú¼ìà n = 1, 2, . . . , 20 è ôèêñèðîâàëîñü êîëè÷åñòâî r íàáëþä¼ííûõ ñîáûòèé. Çàòåì âû÷èñëÿëîñü íàèáîëåå âåðîÿòíîå (ñðåäíåå) çíà÷åíèå p äëÿ êîòîðîé ïðè äàííîì n íàáëþäàåòñÿ r ïîÿâëåíèé ñîáûòèÿ A, ò.å. îïðåäåëÿëàñü ñòîõàñòè÷åñêàÿ îöåíêà pˇ âåðîÿòíîñòè p(A) ïîÿâëåíèÿ ñîáûòèÿ A. Îíà ñðàâíèâàëàñü ñ ÌÏ pˆM L = r/n è áàéåñîâñêîé pˆB = (r+1)/(n+2) îöåíêàìè ïî ôîðìóëå pˇ = λ · pˆM L + (1 − λ) · pˆB (äëÿ ÷¼òíûõ n è r = n/2 óêàçàííûå îöåíêè ñîâïàäàþò è çíà÷åíèå λ íå îïðåäåëåíî).
 ðåçóëüòàòå îêàçàëîñü, ÷òî ïîëó÷åííûå ñòîõàñòè÷åñêèå îöåíêè, êàê ïðàâèëî, î÷åíü áëèçêè ê ñîîòâåòñòâóþùèì áàéåñîâñêèì (λ ≈ 0). Íàèáîëüøèå îòíîñèòåëüíûå îòêëîíåíèÿ çíà÷åíèé λ íàáëþäàëèñü êîãäà r áûëî ðàâíî n±1 äëÿ íå÷¼òíûõ èëè, ñîîòâåòñòâåííî, 2 n ± 1 äëÿ ÷¼òíûõ n, ãäå ðàññìàòðèâàåìûå îöåíêè ìàëî ðàçëè÷àþòñÿ è âåëè÷èíà λ 2 ïëîõî îáóñëîâëåíà.  èíòåðåñóþùåé íàñ îáëàñòè ìàëûõ n è r çíà÷åíèÿ ñòîõàñòè÷åñêîé è áàéåñîâñêîé îöåíîê ñîâïàäàëè ñ áîëüøîé òî÷íîñòüþ (äëÿ ïðèáëèçèòåëüíî 10000 íàáëþäåíèé çíà÷åíèé r ïðè äàííîì n âåëè÷èíà λ ñîñòàâëÿëà ïîðÿäêà íåñêîëüêèõ ïðîöåíòîâ). Òàêèì îáðàçîì öåëåñîîáðàçíîñòü èñïîëüçîâàíèÿ áàéåñîâñêèå îöåíîê, îñîáåííî â ñëó÷àå ìàëûõ âûáîðîê, ìîæíî ñ÷èòàòü ïîäòâåðæäåííûì ñòîõàñòè÷åñêèì ìîäåëèðîâàíèåì25 .
5.2.3 Ìíîãîìåðíûé ñëó÷àé Ïóñòü òåïåðü v > 2.  ìíîãîìåðíîì ñëó÷àå ôîðìóëà Áàéåñà èìååò âèä
f ( p¯ | m1 , m1 . . . mv ) =
Z
f (¯ p) f ( m1 , m1 . . . mv | p¯ )
(18)
.
f (¯ p) f ( m1 , m1 . . . mv | p¯ ) d¯ p Sv−1 (¯ p)
Çäåñü
f ( m1 , m2 , . . . , mv | p¯ ) =
v Y
k pm k
k=1
ÿâëÿåòñÿ ôóíêöèåé ïðàâäîïîäîáèÿ è, åñòåñòâåííî, âûïîëíÿåòñÿ óñëîâèå íîðìèðîâêè (5). Êàê îòìå÷àëîñü â ï. 3, èñêîìûå âåðîÿòíîñòè p¯ = {pk }vk=1 ïîä÷èíÿþòñÿ ïîëèíîìèàëüíîìó ðàñïðåäåëåíèþ (6).  êà÷åñòâå àïðèîðíîãî ðàñïðåäåëåíèÿ f (¯ p) ìû áóäåì èñïîëüçîâàòü (v − 1)-ìåðíîå ðàñïðåäåëåíèå Äèðèõëå Di (d1 , d2 , . . . , dv−1 ; dv ) ñ ïàðàìåòðàìè d1 , d2 , . . . , dv , èìåþùåå ïëîòíîñòü v Γ(d1 + d2 + . . . + dv ) Y dk −1 pk f ( p¯ | d1 , d2 , . . . , dv ) = (19) Γ(d1 )Γ(d2 ) . . . Γ(dv ) k=1
â ëþáîé òî÷êå ñèìïëåêñà Sv−1 (¯ x) è ðàâíóþ íóëþ â äðóãèõ òî÷êàõ Rv . Çäåñü âñå d1 , d2 , . . . , dv âåùåñòâåííûå ïîëîæèòåëüíûå ÷èñëà. Ïðè v = 2 Di(d1 ; d2 ) ñâîäèòñÿ ê Be(a, b). Ñ ïîìîùüþ ôîðìóëû Ëèóâèëëÿ ëåãêî óñòàíîâèòü, ÷òî ñðåäíåå, äèñïåðñèÿ è êîâàðèàöèÿ (v − 1)-ìåðíîãî ðàñïðåäåëåíèÿ Äèðèõëå âûðàæàþòñÿ ôîðìóëàìè
µDi (xk ) =
dk , d
2 σDi (xk ) =
dk (d − dk ) , d2 (d + 1)
ãäå k = 1, v ,
i 6= j,
σDi (xi , xj ) = i, j = 1, v ,
di dj 2 d (d +
d =
v X
1)
, (20)
dk .
k=1
Èç (18) è (19) ñëåäóåò, ÷òî ïëîòíîñòü âåðîÿòíîñòè àïîñòåðèîðíîãî ðàñïðåäåëåíèÿ åñòü v Y Γ(d1 + . . . + dv + m) f ( p¯ | d1 , . . . , dv ) = pdk +mk −1 , Γ(d1 + m1 ) . . . Γ(dv + mv ) k=1 k 25 Ïðîãðàììà
(21)
ñòîõàñòè÷åñêîãî ìîäåëèðîâàíèÿ íàïèñàíà À. Ëàïøèíûì â ñðåäå Delphi 5.0 äëÿ ÏÊ. Äëÿ ãåíåðàöèè ñëó÷àéíîé âåëè÷èíû r èìåþùåé áèíîìèàëüíîå ðàñïðåäåëåíèå èñïîëüçîâàëñÿ ìåòîä ¾áðàêîâêè¿.  ïðîãðàììå ìîäåëèðîâàëîñü 10000 ýêñïåðèìåíòîâ ñîîòâåòñòâóþùèõ êàæäîìó p ïðè äàííîì n. Âðåìÿ ñ÷åòà ïðè ýòîì íå ïðåâîñõîäèëî òðåõ ìèíóò (ïðîöåññîð Pentium-III).
ò.å. áóäåò ÿâëÿòüñÿ ïëîòíîñòüþ (v − 1)-ìåðíîãî ðàñïðåäåëåíèÿ Äèðèõëå
Di (m1 + d1 , . . . , mv−1 + dv−1 ; mv + dv ) . Äëÿ êâàäðàòè÷íîé ôóíêöèè ïîòåðü
W ( p¯, q¯ ) = k p¯ − q¯ k2 áàéåñîâñêèìè îöåíêàìè pˆi âåðîÿòíîñòåé p∗i áóäóò ÿâëÿòüñÿ êîìïîíåíòû âåêòîðà µk àïîñòåðèîðíîãî ñðåäíåãî µ ¯ = (µ1 , . . . µv )T , ðàâíûå
pˆk = µk =
mk + dk P , m + vj=1 dj
k = 1, v .
(22)
Çàìåòèì, ÷òî ïðè dk = mk , k = 1, v , áàéåñîâñêèå îöåíêè áóäóò ñîâïàäàòü ñ ÌÏ-îöåíêàìè.  óñëîâèÿõ îòñóòñòâèÿ èíôîðìàöèè î âåñàõ ïðåöåäåíòîâ ïðèíèìàåì â êà÷åñòâå ðàñïðåäåëåíèÿ p¯ ðàâíîìåðíîå. Ðàâíîìåðíîå ðàñïðåäåëåíèå åñòü ðàñïðåäåëåíèå Äèðèõëå Di (1, . . . , 1; 1). Ïîëó÷àåì îòñþäà, ÷òî àïîñòåðèîðíàÿ ïëîòíîñòü âåðîÿòíîñòåé èìååò âèä v Y Γ(m + v) k f ( p¯ | m1 , m2 . . . mv ) = = pm Γ(m1 + 1) . . . Γ(mv + 1) k=1 k
=
(m + v − 1)! m1 m2 v p p . . . pm v , m1 ! . . . m v ! 1 2
ãäå p¯ ∈ Sv−1 (¯ x), ò.å. ÿâëÿåòñÿ ïëîòíîñòüþ (v − 1)-ìåðíîãî ðàñïðåäåëåíèÿ Äèðèõëå
Di (m1 + 1, . . . , mv−1 + 1; mv + 1) , à áàéåñîâñêèìè îöåíêàìè pˆk âåðîÿòíîñòåé p∗k áóäóò ÿâëÿòüñÿ âåëè÷èíû
pˆk = µk =
mk + 1 , m+v
k = 1, v .
(23)
Çàìåòèì, ÷òî åñëè ôîðìàëüíî ïîëîæèòü m = 0 (îòñóòñòâèå ïðåöåäåíòîâ) ïîëó÷àåì
pˆ1 = pˆ2 = . . . = pˆv = 1/v ïðèíöèï íåîïðåäåëåííîñòè Ëàïëàñà, èñïîëüçîâàííûé íàìè ïðè âûâîäå (23). Ëåãêî ïîêàçàòü, ÷òî ïðèìåíåíèå íîðìèðîâàííîé ìíîãîìåðíàÿ ôóíêöèÿ ïîòåðü
W ( p¯, q¯) =
k¯ p − q¯k2 v Q pk k=1
ïðèâîäèò ê îöåíêàì pˆk = mk /m, k = 1, v , ñîâïàäàþùèì â ýòîì ñëó÷àå ÌÏ-îöåíêàìè. Àíàëîãè÷íî îäíîìåðíîìó ñëó÷àþ, èñïîëüçóÿ ñâîéñòâî âîñïðîèçâîäèìîñòè26 ïî m ïîëèíîìèàëüíîãî ðàñïðåäåëåíèÿ M ( m; · ) è ñâîéñòâà ðàñïðåäåëåíèÿ Äèðèõëå ïîëó÷èì, ÷òî êîìïîíåíòû âåêòîðà äèñïåðñèé îöåíîê (23) ñóòü
D{ˆ pk } = 26 Ïàðàìåòðè÷åñêàÿ
p∗k (1 − p∗k ) m , (m + v)2
ñ ïàðàìåòðîì θ ôóíêöèÿ ðàñïðåäåëåíèÿ P (u, θ) ñëó÷àéíîé âåëè÷èíû u íàçûâàåòñÿ âîñïðîèçâîäÿùåé ïî θ, åñëè äëÿ íåçàâèñèìûõ ñëó÷àéíûõ âåëè÷èí u1 è u2 , êîòîðûå èìåþò ôóíêöèè ðàñïðåäåëåíèÿ P (u1 , θ1 ) è P (u2 , θ2 ) ñîîòâåòñòâåííî, âåëè÷èíà u1 + u2 ðàñïðåäåëåíà ïî P (u1 + u2 , θ1 + θ2 ) (ñì. [49]). Åñëè â (18) f (¯ p) è f ( m1 , m1 . . . mv | p¯ ) ïðèíàäëåæàò ê îäíîìó òèïó âîñïðîèçâîäÿùèõ ïëîòíîñòåé, òî è ïëîòíîñòü f ( p¯ | m1 , m1 . . . mv ) áóäåò îòíîñèòñÿ ê òîìó æå òèïó ðàñïðåäåëåíèé.
à èõ íåñìåù¼ííûå îöåíêè
D{ˆ pk } =
mk (m − mk ) , k = 1, v . (m − 1)(m + v)2
5.2.4 Ñëó÷àé íåðàâíûõ âåñîâ ïðåöåäåíòîâ Ïåðåéäåì òåïåðü ê ðàññìîòðåíèþ ñëó÷àÿ, êîãäà ïðåöåäåíòíàÿ èíôîðìàöèÿ âêëþ÷àåò © ªm â ñåáÿ âåêòîð âåñîâ ýêçàìåíàöèîííûõ ýëåìåíòîâ γi = γ(xi ) i=m = γ¯m , ãäå íå âñå êîìïîíåíòû ðàâíû. Çíà÷åíèå γi ïîêàçûâàåò âàæíîñòü èëè ÷àñòîòó âñòðå÷àåìîñòè ïðåöåäåíòà xi . ×àñòî çàêàç÷èê, ãîòîâÿ èñõîäíûå äàííûå äëÿ ðåøåíèÿ çàäà÷è ðàñïîçíàâàíèÿ è æåëàÿ äàòü êàê ìîæíî áîëåå ïîëíîå è êîìïàêòíîå îïèñàíèå ïðîñòðàíñòâà îáðàçîâ, íàìåðåííî èëè âûíóæäåííî27 ïðåäîñòàâëÿåò ðàçðàáîò÷èêó ñïèñîê ïðåöåäåíòîâ áîëåå-ìåíåå ðàâíîìåðíî ðàñïðåäåë¼ííûõ ïî ïðîñòðàíñòâó îáðàçîâ, óêàçûâàÿ áîëüøóþ èëè ìåíüøóþ òèïè÷íîñòü äàííîãî ïðåöåäåíòà ñ ïîìîùüþ ïðèïèñûâàíèÿ åìó ñîîòâåòñòâóþùåãî âåñà. Ýòîò ïðè¼ì ìîæåò ñóùåñòâåííî ïîíèçèòü îáú¼ì ïðåäîñòàâëÿåìîé ïðåöåäåíòíîé èíôîðìàöèè áåç ïîòåðè å¼ ðåïðåçåíòàòèâíîñòè. Çàìåòèì, ÷òî âàæíîñòü èëè òèïè÷íîñòü γi > 1 äàííîãî ïðåöåäåíòà xi ìîæíî òðàêòîâàòü êàê çàäàíèå ¾äîïîëíèòåëüíûõ ïðåöåäåíòîâ¿ âáëèçè xi ñ àíàëîãè÷íûìè ïðèçíàêàìè, è òàê, ÷òî äîïîëíèòåëüíûå ïðåöåäåíòû âñåãäà êëàññèôèöèðóþòñÿ òàêæå, êàê è xi . Óêàçàííûå ¾äîïîëíèòåëüíûå ïðåöåäåíòû¿ íàçîâåì êâàçèïðåöåäåíòàìè. Äëÿ òî÷íîãî ñîîòâåòñòâèÿ ñ èíôîðìàöèåé, çàëîæåííîé â âåñàõ, èõ ÷èñëî íå îáÿçàíî áûòü öåëûì. Äåéñòâèòåëüíî, â ýòîì ñëó÷àå òà èëè èíàÿ êëàññèôèêàöèÿ xi ïðèâåäåò ê ñîîòâåòñòâóþùåìó óâåëè÷åíèþ îöåíêè âåðîÿòíîñòè pi , ÷òî ïîâûñèò å¼ âêëàä â âåëè÷èíó ñðåäíåãî ðèñêà (4) è îòðàçèò, òàêèì îáðàçîì, çíà÷èìîñòü äàííîãî ïðåöåäåíòà. Çàìåòèì, ÷òî âîçìîæíîñòü òàêîãî ïðåäñòàâëåíèÿ èíôîðìàöèè î âåñàõ âûòåêàåò èç ãèïîòåçû êîìïàêòíîñòè. ßñíî, îäíàêî, ÷òî â ðàññìàòðèâàåìîì ñëó÷àå ïðè îñòàþùåéñÿ âåðíîé ãèïîòåçå ïðåäñòàâèòåëüíîñòè, å¼ ôîðìà â âèäå ¾Ãèïîòåçà 1¿ óæå ñòàíîâèòñÿ íåäîñòàòî÷íîé. Ïîýòîìó äëÿ îáîñíîâàíèÿ îïðåäåëåíèÿ íàäåæíîñòè âûáðàííîãî ð.ï. äàííóþ ãèïîòåçó íóæíî äîïîëíèòü ïðåäïîëîæåíèÿìè îòíîñèòåëüíî èìåþùåãîñÿ âèäà ïðåöåäåíòíîé èíôîðìàöèè. Íàøå îñíîâíîå ïðåäïîëîæåíèå ñîñòîèò â òîì, ÷òî âåñà îáðàçîâ γi ÷åðåç êîëè÷åñòâà êâàçèïðåöåäåíòîâ îïèñûâàþò âåðîÿòíîñòè ïîÿâëåíèÿ îáðàçîâ â îêðåñòíîñòÿõ xi ñ òåì æå çíà÷åíèåì èñòèííîãî êëàññèôèêàòîðà f ∗ (xi ). Òî÷íåå, ìû ñ÷èòàåì, ÷òî âåñà γi îáðàçîâ xi ëèíåéíî è àääèòèâíî ñâÿçàíû ñ âåðîÿòíîñòÿìè ïîÿâëåíèÿ â ïðîöåññå êëàññèôèêàöèè íà ïðàêòèêå íîâûõ îáðàçîâ â îêðåñòíîñòÿõ xi ñ òåì æå çíà÷åíèåì èñòèííîãî êëàññèôèêàòîðà f ∗ (xi ), i = 1, 2, . . . , m. Êîíêðåòíî, ìû äîïîëíÿåì Ãèïîòåçó 1 íèæåñëåäóþùåé Ãèïîòåçîé 2.
Ãèïîòåçà 2. Ïðè íåðàâíûõ âåñàõ γi , 6= const, i = 1, m, íàáîð ïðåöåäåíòîâ {xi }m i=1
íå ÿâëÿåòñÿ ðåàëèçàöèåé íåçàâèñèìîé âûáîðêè m ñëó÷àéíûõ âåëè÷èí èç ãåíåðàëüíîé ñîâîêóïíîñòè ñ ðàñïðåäåëåíèåì P (X) íà X , îäíàêî âåñà ïðåöåäåíòîâ {γ1 , γ2 , . . . , γm } îòðàæàþò àïðèîðíóþ èíôîðìàöèþ î ðàñïðåäåëåíèè P (X). Ïîñêîëüêó ìû òðàêòóåì âåñà êàê èíôîðìàöèþ î êîëè÷åñòâå êâàçèïðåöåäåíòîâ â îêðåñòíîñòè xi , åñòåñòâåííî ñ÷èòàòü, ÷òî γi , > 1, i = 1, m, (äëÿ ÷åãî, ïðè íåîáõîäèìîñòè, ïîäåëèì âñå âåñà íà min γi ). Êîëè÷åñòâî äîïîëíèòåëüíûõ êâàçèïðåöåäåíòîâ áóäåò îïèñûâàòüñÿ âåëè÷èíàìè γi − 1, ò.ê. â îêðåñòíîñòè xi óæå åñòü îäèí ïðåöåäåíò ñàì xi . Îáîçíà÷èì γi0 = γi − 1, i = 1, m. 27 íàïðèìåð,
èç-çà îòñóòñòâèÿ ñîîòâåòñòâóþùèõ äàííûõ.
Åñòåñòâåííî ñ÷èòàòü, ÷òî àïðèîðíûé âåñ µ0k îáëàñòè Xk àääèòèâåí è ïðîïîðöèîíàëåí âåñàì ïîïàâøèõ â íåãî êâàçèïðåöåäåíòîâ, ò.å. X µ0k = γi0 , k = 1, v . i: xi ∈Xk
Ââåä¼ì îáîçíà÷åíèå
X
(24)
γ i , = µk .
i: xi ∈Xk
Ïîíÿòíî, ÷òî
X
µ0k = µk − mk > 0, k = 1, v, ïîñêîëüêó mk =
1.
i: xi ∈Xk
 êà÷åñòâå àïðèîðíîãî ðàñïðåäåëåíèÿ âåðîÿòíîñòåé íà {Xk }vk=1 ïðèìåì ðàñïðåäåëåíèå Äèðèõëå Di (µ01 + 1, µ02 + 1, . . . , µ0v−1 + 1; µ0v + 1) . Ïðåäñòàâëÿåòñÿ, ÷òî òàêàÿ òðàêòîâêà âåñîâ ïðåöåäåíòîâ äîñòàòî÷íî àäåêâàòíî îòðàæàåò ðàññìàòðèâàåìóþ ñèòóàöèþ. Îáîçíà÷èì v X µk . (25) M = k=1
Èñïîëüçóÿ ôîðìóëó Áàéåñà (18) è âûøåïðèâåä¼ííûå çàâèñèìîñòè ïîëó÷èì àïîñòåðèîðíîå ðàñïðåäåëåíèå âåêòîðà âåðîÿòíîñòåé p¯ = {p1 , p2 , . . . , pv }, pk ∈ (0, 1), k = 1, v :
Γ(m + v + f ( p¯ | m1 , m2 . . . mv ) = Q v k=1
Γ(M + v) = Q v Γ(µk + 1)
v Y
v P
µ0k ) Y v k=1
Γ(mk + µ0k + 1)
pkµk =
k=1
m +µ0k
pk k
=
k=1
(M + v − 1)! µ1 µ2 p p . . . pvµv , µ1 ! µ2 ! . . . µ v ! 1 2
k=1
êîòîðîå ÿâëÿåòñÿ ïëîòíîñòüþ (v − 1)-ìåðíîãî ðàñïðåäåëåíèÿ Äèðèõëå
Di (µ1 + 1, µ2 + 1, . . . , µv−1 + 1; µv + 1) . Áàéåñîâñêîé îöåíêîé èñêîìûõ âåðîÿòíîñòåé ïðè êâàäðàòè÷íîé ôóíêöèè ïîòåðü áóäåò âåêòîð àïîñòåðèîðíîãî ñðåäíåãî ñ êîìïîíåíòàìè
pˆk =
µk + 1 , M +v
k = 1, v ,
(26)
ãäå µk è M âû÷èñëÿþòñÿ ïî (24) è (25) ñîîòâåòñòâåííî. Ýòè çíà÷åíèÿ è ïðåäëàãàåòñÿ èñïîëüçîâàòü â êà÷åñòâå òî÷å÷íûõ îöåíîê âåðîÿòíîñòåé ñîáûòèé x ∈ Xk â îáùåì ñëó÷àå çàäà÷è Z 28 . ßñíî òàêæå, ÷òî â ðàìêàõ ÷àñòîòíîãî ïîäõîäà ôîðìóëà (26) ïðèìåò âèä
pˆk = 28 Ëåãêî
µk , M
k = 1, v .
ïðîâåðèòü, ÷òî ïðè γi = const, i = 1, m, ôîðìóëà (26) ïðåâðàùàåòñÿ â (23).
(27)
6 Èíòåðâàëüíûå îöåíêè Îáû÷íî â ìàòåìàòè÷åñêîé ñòàòèñòèêå ïîëüçóþòñÿ èíòåðâàëüíûìè îöåíêàìè, èìåþùèìè äîñòîâåðíîñòü η = 0.9; 0.95; 0.98; 0.99 è ò.ä. Ïðåäñòàâëÿåòñÿ, ÷òî äëÿ çàäà÷ îöåíêè íàä¼æíîñòè ðàñïîçíàþùèõ àëãîðèòìîâ â áîëüøîì ÷èñëå ñëó÷àåâ íàä¼æíîñòü η = 0.95 èëè äàæå η = 0.9 áóäåò äîñòàòî÷íîé.
6.1 ×àñòîòíûé ïîäõîä  ðàìêàõ ÷àñòîòíîãî ïîäõîäà äëÿ ïîëó÷åíèÿ èíòåðâàëüíûõ îöåíîê ïàðàìåòðîâ ðàñïðåäåëåíèé èñïîëüçóþòñÿ ñëåäóþùèå ìåòîäû:
• ìåòîä êðàò÷àéøèõ äîâåðèòåëüíûõ èíòåðâàëîâ; • ìåòîä íàèáîëåå ñåëåêòèâíûõ èíòåðâàëîâ; • ìåòîä ôèäóöèàëüíûõ èíòåðâàëîâ; • ìåòîä Áîëüøåâà. Ïåðâûé ìåòîä áàçèðóåòñÿ íà ýëåìåíòàðíûõ ñâîéñòâàõ ôóíêöèé ðàñïðåäåëåíèé. Âòîðîé è òðåòèé ìåòîäû ïðåäëîæåíû, ñîîòâåòñòâåííî, Äæ. Íåéìàíîì è Ð. Ôèøåðîì. Êàê áóäåò âèäíî èç äàëüíåéøåãî, äëÿ íàøåé çàäà÷è ïðåäñòàâëÿþò èíòåðåñ ïåðâûå äâà ìåòîäà. Ðàññìîòðèì èõ ïðèìåíåíèå ñíà÷àëà â îäíîìåðíîì, à çàòåì â ìíîãîìåðíîì ñëó÷àå. Çàìå÷àíèÿ îòíîñèòåëüíî îñòàëüíûõ ìåòîäîâ ñì. â êîíöå íèæåñëåäóþùåãî ðàçäåëà.
6.1.1 Îäíîìåðíûé ñëó÷àé Ïðè v = 2 íàøà çàäà÷à ñîñòîèò â òîì, ÷òîáû ïîñòðîèòü äîâåðèòåëüíûé èíòåðâàë äëÿ âåðîÿòíîñòè îøèáî÷íîãî ðàñïîçíàâàíèÿ p∗w = p∗ ñ íàäåæíîñòüþ η , åñëè ñðåäè m ïðåöåäåíòîâ èìååòñÿ mw íåïðàâèëüíî ðàñïîçíàííûõ ïîñòðîåííûì ð.ï. Äîâåðèòåëüíûé èíòåðâàë îöåíèâàíèÿ çàïèñûâàåò â âèäå J = (p− , p+ ).
6.1.1.1 Êðàò÷àéøèå
äîâåðèòåëüíûå
èíòåðâàëû. Ðàññìîòðèì
ïîñòðîåíèå êðàò÷àéøèõ äîâåðèòåëüíûõ èíòåðâàëîâ. Äîñòàòî÷íàÿ ñòàòèñòèêà mw èìååò áèíîìèàëüíîå ðàñïðåäåëåíèå Bi (m, p) ñ ôóíêöèåé ðàñïðåäåëåíèÿ
Pp {mw 6 t} = P{mw 6 t | m, p} = P (t) =
t µ ¶ X m k=0
k
pk (1 − p)m−k
(28)
è ôóíêöèåé âûæèâàíèÿ (ñì. [55]) m µ ¶ X m k Pp {mw > t} = 1 − P (t − 1) = p (1 − p)m−k . k k=t
(29)
 ýòèõ ôîðìóëàõ p ∈ (0, 1) è t = 0, 1, . . . , m. Ñîãëàñíî îïðåäåëåíèÿì ï. 3 äëÿ J = (p− , p+ ) äîëæíî âûïîëíÿòüñÿ óñëîâèå
P { p∗ 6∈ J } = Pp+ { mw 6 t1 } + Pp− { mw > t2 } 6 1 − η = α ,
(30)
ãäå t1 è t2 , t1 6 t2 öåëûå çíà÷åíèÿ t â (28) è (29) ïðè ïîäñòàíîâêå â óêàçàííûå çàâèñèìîñòè p+ è p− ñîîòâåòñòâåííî.
Âûðàæåíèå (30) îçíà÷àåò, ÷òî ñ äîñòîâåðíîñòüþ íå ìåíüøå, ÷åì η âûïîëíÿþòñÿ äâîéíûå íåðàâåíñòâà t1 < mw 6 t2 è p− < p∗ < p+ . Çäåñü è âûøå mw ðàññìàòðèâàåòñÿ êàê ñëó÷àéíàÿ âåëè÷èíà, à íå êàê êîíêðåòíîå å¼ çíà÷åíèå. Âû÷èñëåíèå çíà÷åíèé áèíîìèàëüíûõ âåðîÿòíîñòåé (8) èëè ôóíêöèè ðàñïðåäåëåíèÿ (28) ÿâëÿåòñÿ âåñüìà òðóäî¼ìêîé ïðîöåäóðîé. Ïîýòîìó âî âñåõ ñëó÷àÿõ, êîãäà ýòî âîçìîæíî (m À 1), ïðèáåãàþò ê àïïðîêñèìàöèè áèíîìèàëüíîãî ðàñïðåäåëåíèÿ.  ñëó÷àå áîëüøèõ âûáîðîê è íå ñëèøêîì ìàëûõ p∗ , òî÷íåå, åñëè îäíîâðåìåííî mp∗ è m(1 − p∗ ) > 5 [21] äëÿ âû÷èñëåíèÿ ãðàíèö äîâåðèòåëüíîãî èíòåðâàëà ìîæíî âîñïîëüçîâàòüñÿ àïïðîêñèìàöèåé áèíîìèàëüíîãî ðàñïðåäåëåíèÿ íîðìàëüíûì. Çàìåíà áàçèðóåòñÿ íà òîì ôàêòå, ÷òî ïåðâàÿ ïðîèçâîäíàÿ ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ L ðàñïðåäåëåíà àñèìïòîòè÷åñêè íîðìàëüíî ñî ñðåäíèì, ðàâíîì íóëþ è äèñïåðñèåé µ ¶ nµ ∂ ln L ¶2 o n ∂ 2 ln L o ∂ ln L D = M = −M . (31) ∂p ∂p ∂p2 Äëÿ íàøåãî ñëó÷àÿ áèíîìèàëüíîãî ðàñïðåäåëåíèÿ è p ∈ (0, 1) ôóíêöèè ïðàâäîïîäîáèÿ åñòü L(p) = pmw (1 − p)m−mw , è ïîëó÷àåì, ÷òî âåëè÷èíà
mw − m p T = p m p (1 − p)
(32)
èìååò àñèìïòîòè÷åñêè ñòàíäàðòíîå íîðìàëüíîå ðàñïðåäåëåíèå N (0, 1) ò.å.
P{mw 6 t | m, p} ≈ Φ0 (T ) ,
(33)
ãäå Φ0 (·) ôóíêöèÿ ñòàíäàðòíîãî (íîðìèðîâàííîãî è öåíòðèðîâàííîãî) íîðìàëüíîãî ðàñïðåäåëåíèÿ. Â ñèëó ýòîãî
1 P{−zη < T < zη } ≈ √ 2π
Zzη e−
x2 2
dx = 2Φ0 (zη ) = η .
−zη
Òàêèì îáðàçîì ïðèõîäèì ê óðàâíåíèþ äëÿ ãðàíèö èñêîìîãî èíòåðâàëà µ ¶ µ ¶ zη2 zη2 2 p 1+ − p 2 pˆ + + pˆ2 = 0 . m m
(34)
Çäåñü pˆ = mw /m íåñìåù¼ííàÿ îöåíêà âåðîÿòíîñòè p. Ëåãêî ïîêàçàòü, ÷òî ýòîìó óðàâíåíèþ â êîîðäèíàòàõ p è pˆ ñîîòâåòñòâóåò ýëëèïñ, âïèñàííûé â ïîëîñó 0 6 p 6 1 è ïåðåñåêàþùèé åäèíè÷íûé êâàäðàò â òî÷êàõ (0, 0), (1 − c, 0), (1, 1), (c, 1), ãäå c = 1+z12 /m 29 . η Ðåøàÿ êâàäðàòíîå óðàâíåíèå (34), ïîëó÷àåì # " r ³ z ´2 2 z p ˆ (1 − p ˆ ) m η η pˆ + − zη + , p− = 2 m + z 2m m 2m η (35) # " r ³ ´ 2 2 m zη zη pˆ(1 − pˆ) + , p+ = m + zη 2 pˆ + 2m + zη m 2m 29 Âûõîä
ýëëèïñà çà ïîëîñó 0 6 pˆ 6 1 ñâÿçàí ñ òåì, ÷òî ïðè p∗ áëèçêèõ ê 0 èëè 1 àïïðîêñèìàöèÿ (33) íåêîððåêòíà è íàäî èñïîëüçîâàòü ïóàññîíîâñêóþ àïïðîêñèìàöèþ (äëÿ p∗ èëè 1 − p∗ , ñì. äàëåå (38) ).
ãäå âåëè÷èíà zη íàõîäèòñÿ èç óðàâíåíèÿ
Φ0 (zη ) =
η 2
ïðè ïîìîùè òàáëèö ôóíêöèè Φ0 (·) . Ïðè çíà÷åíèÿõ m ïîðÿäêà ñîòåí ìîæíî ïðåíåáðå÷ü ìàëûìè çíà÷åíèÿìè îòíîøåíèé z 2 /2m, z 2 /4m2 , z 2 /m è ïîëüçîâàòüñÿ áîëåå ãðóáûìè îöåíêàìè r pˆ(1 − pˆ) , p− = pˆ − zη m (36) r p+ = pˆ + zη pˆ(1 − pˆ) . m Îñîáûé ñëó÷àé ïðåäñòàâëÿåò pˆ = 0 (0-ñîáûòèå). Äëÿ íàñ ýòî ñëó÷àé êîððåêòíîãî àëãîðèòìà ñ mw = 0. Çäåñü òî÷íóþ âåðõíþþ ãðàíèöó âû÷èñëÿþò ïî ôîðìóëå √ (37) p+ = 1 − m α , √ ñîîòâåòñòâåííî, äëÿ ïîëíîãî ñîáûòèÿ pˆ = 1 òî÷íàÿ íèæíÿÿ ãðàíèöà åñòü p− = m α . Äëÿ α = 0.95, n > 50 è mw = 0 (mw = 1) ñïðàâåäëèâî ïðèáëèæåíèå p+ ' 3/m (p− ' 1 − 3/m).  ñëó÷àå áîëüøèõ m, íî òàêèõ, ÷òî mp∗ íå ñëèøêîì âåëèêî, áèíîìèàëüíîå ðàñïðåäåëåíèå ìîæíî àïïðîêñèìèðîâàòü ðàñïðåäåëåíèåì Ïóàññîíà P o(k; λ) = λk exp(−λ)/k! c λ = mp :
P{mw 6 t | m, p} ≈
t X (m p)k k=0
k!
e−m p .
(38)
Äàëåå ìîæíî âîñïîëüçîâàòüñÿ ìåòîäàìè äîâåðèòåëüíîãî (îäíîñòîðîííåãî (0, λsη,+ ) èëè äâóñòîðîííåãî (λη,− , λη,+ ) ) îöåíèâàíèÿ ïóàññîíîâñêîãî ïàðàìåòðà λ ïðè äîñòîâåðíîñòè η [34], [41]è çàòåì îïðåäåëèòü èíòåðâàë äëÿ p : (J = (0, λsη,+ /m) èëè J = (λη,− /m, λη,+ /m)) ñîîòâåòñòâåííî. Ïðè íåâîçìîæíîñòè èñïîëüçîâàíèÿ àïïðîêñèìàöèîííûõ ôîðìóë (ïîäðîáíûé ïåðå÷åíü ïðåäïîëîæåíèé äëÿ èõ ïðèìåíåíèÿ äàí â [7], à äëÿ (33) è â [21]) ìîæíî ãîâîðèòü, ÷òî èìååò ìåñòî ìàëàÿ âûáîðêà.  ýòîì ñëó÷àå íåîáõîäèìî ïåðåéòè ê ïðÿìîìó ðåøåíèþ óðàâíåíèé (28) (30). ßñíî, ÷òî çàäàâàÿ ðàçëè÷íûå âåëè÷èíû α1 è α2 â (30)
α1 , Pp− { mw 6 t1 } > 0 , α2 , Pp+ { mw > t2 } > 0 , α1 + α2 = α = 1 − η , ìîæíî ïîëó÷àòü ðàçëè÷íûå äîâåðèòåëüíûå èíòåðâàëû. Ïðè α1 = α2 = α/2 ñîîòâåòñòâóþùèé èíòåðâàë J íàçûâàåòñÿ öåíòðàëüíûì 30 . Æåëàíèå ïîëó÷èòü èíòåðâàë íàèìåíüøåé äëèíû ïðèâîäèò ê òðåáîâàíèþ ìàêñèìàëüíîñòè t1 è ìèíèìàëüíîñòè t2 â (30). Åñëè óñëîâèå (30) âûïîëíÿåòñÿ ñî çíàêîì ðàâåíñòâà, òî äàííîå òðåáîâàíèå ïðèâîäèò ê îäíîçíà÷íîìó îïðåäåëåíèþ p− , p+ , t1 , t2 . Ê ñîæàëåíèþ, ýòî ÿâëÿåòñÿ ñêîðåå èñêëþ÷åíèåì, 30 Çàìåòèì,
ñòàòèñòèêè.
÷òî öåíòðàëüíîñòü èíòåðâàëà íå îçíà÷àåò, ÷òî åãî ãðàíèöû ðàâíîîòñòîÿò îò âûáîðî÷íîé
â ñèëó ÷åãî ãðàíèöû p− , p+ äîâåðèòåëüíîãî èíòåðâàëà J ïî (30), êàê ïðàâèëî, íå óñòàíàâëèâàþòñÿ îäíîçíà÷íî. Äëÿ ðàçðåøåíèÿ óêàçàííîãî çàòðóäíåíèÿ áûëè ïðåäëîæåíû ðàçëè÷íûå ïîäõîäû. Ñóùåñòâóþò [22], [25], [30] ñïîñîáû èçáåæàòü íåîäíîçíà÷íîñòè îïðåäåëåíèÿ ãðàíèö äîâåðèòåëüíîãî èíòåðâàëà îñíîâàííûå íà èäåå ìîäèôèêàöèè âûðàæåíèÿ (30) ñ ïîìîùüþ ââåäåíèÿ äîïîëíèòåëüíûõ ñëó÷àéíûõ âåëè÷èí. Òàêàÿ ïðîöåäóðà íàçûâàåòñÿ ðàíäîìèçàöèåé. Ïðè ýòîì îêàçûâàåòñÿ, ÷òî äîâåðèòåëüíûé èíòåðâàë äàæå óêîðà÷èâàåòñÿ. Ýòî îáúÿñíÿåòñÿ òåì, ÷òî ïîòåðè îò íîâîé íåîïðåäåë¼ííîñòè, ñâÿçàííîé ñ ââåäåíèåì ñëó÷àéíîé âåëè÷èíû îêàçûâàþòñÿ ìåíüøå óñòðàí¼ííûõ ïîòåðü îò íåîïðåäåë¼ííîñòè, ñâÿçàííîé ñ íåðàâåíñòâîì.  [62], [68] ïðåäëîæåíî èñïîëüçîâàòü öåíòðàëüíûå èíòåðâàëû, ò.å. ðàçäåëèòü âåðîÿòíîñòü èíòåðâàëüíîé íåäîîöåíêè è ïåðåîöåíêè ïîðîâíó è íàõîäèòü p+ , t1 è p− , t2 èç óñëîâèé © ª 1−η t1 = arg max Pp+ {mw 6 t} = , 06t6m 2 (39) © ª 1 − η t2 = arg min Pp− {mw > t} = 06t6m 2 ñîîòâåòñòâåííî. Çäåñü ïîëó÷åííûå çíà÷åíèÿ t1 è t2 îäíîçíà÷íî îïðåäåëÿþò ãðàíèöû p+ è p− äîâåðèòåëüíîãî èíòåðâàëà. Ñëåäóåò òîëüêî èìåòü â âèäó, ÷òî p+ = 1 ïðè t = m è p− = 0 ïðè t = 0. Óðàâíåíèÿ (39) èçâåñòíû ïîä íàçâàíèåì ôîðìóë Êëîïïåðà-Ïèðñîíà. Ïðÿìîé ìåòîä èõ ðåøåíèÿ îñíîâàííûé íà ïåðåáîðå çíà÷åíèé t = 0, 1, . . . êðàòêî îïèñàí â [56] è [25]. Îäíàêî ñîîòâåòñòâóþùèé àëãîðèòì, î÷åâèäíî, äîñòàòî÷íî òðóäî¼ìîê. Ïîýòîìó áîëåå óäîáíî âîñïîëüçîâàòüñÿ äðóãèì ìåòîäîì ðåøåíèÿ (39), îñíîâàííûì íà èñïîëüçîâàíèè èçâåñòíîé ñâÿçè ìåæäó âåëè÷èíîé B(t, m, p) , Pp { mw 6 t} â (28) è ôóíêöèåé F ðàñïðåäåëåíèÿ ñëó÷àéíîé âåëè÷èíû Uν1 , ν2 ñ ν1 è ν2 ñòåïåíÿìè ñâîáîäû [34]: ½ ¾ (t + 1)(1 − p) B(t, m, p) = P U2(m−t), 2(t+1) < = (m − t) p ½ ¾ (m − t) p = P U2(t+1), 2(m−t) > . (t + 1)(1 − p) Ñ ïîìîùüþ óêàçàííûõ ñîîòíîøåíèé îïðåäåëÿþòñÿ òî÷íûå ôîðìóëû äëÿ ãðàíèö öåíòðàëüíîãî äîâåðèòåëüíîãî èíòåðâàëà. Îíè èìåþò ñëåäóþùèé âèä [21]:
mw , p− = mw + (m − mw + 1)Fν1− , ν2− p+ =
(mw + 1)Fν1+ , ν2+ m − mw + (mw + 1)Fν1+ , ν2+
(40)
,
ãäå Fν1− , ν2− è Fν1+ , ν2+ êâàíòèëè F -ðàñïðåäåëåíèÿ ñ ν1− = 2(m − mw + 1), ν2− = 2mw è ν1+ = 2(mw + 1), ν2+ = 2(m − mw ) ñòåïåíÿìè ñâîáîäû ñîîòâåòñòâåííî äëÿ äîâåðèòåëüíîé âåðîÿòíîñòè îøèáêè α/2. Äëÿ ðåøåíèÿ (30) ìîæíî òàêæå âîñïîëüçîâàòüñÿ òàáëèöàìè áèíîìèàëüíîãî ðàñïðåäåëåíèÿ. Ãðàíèöû p− , p+ äîâåðèòåëüíîãî èíòåðâàëà áóäóò òîãäà îïðåäåëÿòüñÿ è 1+η êàê çíà÷åíèÿ âåðîÿòíîñòè p, ïðè êîòîðîé âåëè÷èíà (8) áóäåò ðàâíÿòüñÿ 1−η 2 2 ñîîòâåòñòâåííî.
Äëÿ áûñòðîãî ïðèáëèæ¼ííîãî ðåøåíèÿ óðàâíåíèé (39) ñî çíà÷åíèÿìè äîñòîâåðíîñòè α = 0.1; 0.05 è îáú¼ìîâ âûáîðêè m = 10, . . . , 1000 ïîñòðîåíû ãðàôè÷åñêèå çàâèñèìîñòè ìåæäó íàáëþäàåìûìè çíà÷åíèÿìè pˆ è îòíîñèòåëüíûìè ÷àñòîòàìè ãåíåðàëüíîé ñîâîêóïíîñòè, îïðåäåëÿþùèìè äîâåðèòåëüíûé èíòåðâàë (ñì. íàïðèìåð, [21], [28], [53]). Ïðåäñòàâëÿåòñÿ, ÷òî òî÷íîñòü äàííîãî ãðàôè÷åñêîãî ìåòîäà â áîëüøèíñòâå ñëó÷àåâ äîñòàòî÷íà äëÿ çàäà÷ îöåíêè íàäåæíîñòè àëãîðèòìîâ ðàñïîçíàâàíèÿ îáðàçîâ. Ñëåäóåò òîëüêî èìåòü â âèäó, ÷òî íà óêàçàííûõ ãðàôèêàõ íå ó÷ò¼í îñîáûé ñëó÷àé 0-ñîáûòèÿ, êîãäà íóæíî ïîëüçîâàòüñÿ ôîðìóëîé (37). Ñêàæåì çäåñü, ÷òî ñ íàøåé òî÷êè çðåíèÿ ïðèìåíåíèå öåíòðàëüíûõ èíòåðâàëîâ äëÿ îöåíêè âåðîÿòíîñòè îøèáêè p∗ = p∗w àëãîðèòìà ðàñïîçíàâàíèÿ, âîîáùå ãîâîðÿ, íå ÿâëÿåòñÿ îïðàâäàííûì. Äåéñòâèòåëüíî, îøèáêà pˆ, êàê ïðàâèëî, ìàëà (à äëÿ êîððåêòíûõ àëãîðèòìîâ âîîáùå ðàâíà íóëþ), è ìû õîòèì áûòü óâåðåíû, ÷òî å¼ âåëè÷èíà íå ïðåâçîéäåò íåêîòîðîãî çíà÷åíèÿ. Ïîýòîìó îøèáèòüñÿ ìû èìååì ïðàâî ñêîðåå â áîëüøóþ ñòîðîíó.  ñèëó ýòîãî äëÿ îöåíêè p∗w áîëåå àäåêâàòíûì ïðåäñòàâëÿåòñÿ èñïîëüçîâàíèå íåöåíòðàëüíûõ, à äëÿ äîñòàòî÷íî ìàëûõ çíà÷åíèé pˆ è îäíîñòîðîííèõ èíòåðâàëîâ J(0, p+ ).  ïîñëåäíåì ñëó÷àå â êà÷åñòâå p+ áåðåòñÿ ñîîòâåòñòâóþùàÿ âåëè÷èíà èç (40), îïðåäåë¼ííàÿ äëÿ äîâåðèòåëüíîé âåðîÿòíîñòè 1 − η . Çàìåòèì, ÷òî ïðè pˆ = 0 ïîëó÷åííàÿ îöåíêà ñîâïàä¼ò ñ (37).
6.1.1.2 Íàèáîëåå ñåëåêòèâíûå èíòåðâàëû. Äæ. Íåéìàí ïðåäëîæèë ìåòîä
ïîñòðîåíèÿ äîâåðèòåëüíûõ èíòåðâàëîâ, êîòîðûå òàêæå íàçâàë ¾êðàò÷àéøèìè¿ [67], [37].  òîæå âðåìÿ îíè ïîñòðîåíû íà ñîâåðøåííî èíîé èäåå. ×òîáû îòëè÷àòü èõ îò ðàññìîòðåííûõ êðàò÷àéøèõ äîâåðèòåëüíûõ èíòåðâàëîâ, íåéìàíîâñêèå èíòåðâàëû JN â [25] ïðåäëîæåíî íàçûâàòü íàèáîëåå ñåëåêòèâíûìè (òàì æå ñì. îáñóæäåíèå ðàçëè÷èé ìåæäó êðàò÷àéøèìè äîâåðèòåëüíûìè è íàèáîëåå ñåëåêòèâíûìè èíòåðâàëàìè). Ïîñëåäíèå, â îòëè÷èå îò ðàíåå ðàññìîòðåííûõ êðàò÷àéøèõ äîâåðèòåëüíûõ èíòåðâàëîâ J ñ äàííîé äîñòîâåðíîñòüþ η ìèíèìèçèðóþò íå ñâîþ äëèíó â óñëîâèè θ∗ ∈ J , à âåðîÿòíîñòü θ ∈ JN , θ 6= θ∗ .  ñèëó ýòîãî ÿñíî, ÷òî îíè íå îáÿçàòåëüíî ÿâëÿþòñÿ êðàò÷àéøèìè â ïðÿìîì ñìûñëå ýòîãî ñëîâà. Îäíàêî îêàçàëîñü, ÷òî ¾ñåëåêòèâíûé¿ ïîäõîä, ñâÿçàííûé ñ æåëàíèåì èñêëþ÷èòü èç èíòåðâàëà JN êàê ìîæíî áîëüøå ëîæíûõ çíà÷åíèé θ, òàê ÷òîáû îøèáêà ïðèíÿòèÿ íåâåðíîãî çíà÷åíèÿ áûëà áû ìèíèìàëüíîé, îêàçàëñÿ â îáùåì ñëó÷àå çíà÷èòåëüíî áîëåå ïðîñòûì è óäîáíûì. Êðîìå òîãî, èìåííî òàêîé ïîäõîä èñïîëüçóåòñÿ â òåîðèè ïðîâåðêè ñòàòèñòè÷åñêèõ ãèïîòåç (ãäå óêàçàííàÿ âûøå îøèáêà ÿâëÿåòñÿ îøèáêîé âòîðîãî ðîäà ). Íàèáîëåå ñåëåêòèâíûå èíòåðâàëû ðàññìîòðåíû ïîäðîáíî â [30]. Òàì æå îïèñàí ìåòîä èõ ïîñòðîåíèÿ, îñíîâàííûé íà ëåììå Íåéìàíà-Ïèðñîíà. Ñîãëàñíî íåéìàíîâñêîìó ìåòîäó ãðàíèöû θ− , θ+ äîâåðèòåëüíîãî èíòåðâàëà JN = (θ− , θ+ ) ñ êîýôôèöèåíòîì äîâåðèÿ η = 2P − 1, ãäå 0.5 6 P < 1 äëÿ íåèçâåñòíîé âåëè÷èíû θ∗ îïðåäåëÿþòñÿ êàê ðåøåíèÿ ñîîòâåòñòâåííî ïåðâîãî è âòîðîãî óðàâíåíèé ( 1−P , G(T, θ) = (41) P. Çäåñü G(T, θ) íåïðåðûâíàÿ ôóíêöèÿ ðàñïðåäåëåíèÿ ñòàòèñòèêè T , èñïîëüçóåìîé â êà÷åñòâå òî÷å÷íîé îöåíêè θ∗ è íàçûâàåìàÿ (íåéìàíîâñêèì) äîâåðèòåëüíûì ðàñïðåäåëåíèåì T . Ïðè óñëîâèè âûïîëíåíèÿ íåêîòîðûõ óñëîâèé ðåãóëÿðíîñòè [67], [30], [8], êîòîðûå âûïîëíÿþòñÿ ïî÷òè âî âñåõ èíòåðåñíûõ äëÿ ïðàêòèêè ñëó÷àÿõ, âûøåïðèâåä¼ííûå óðàâíåíèÿ èìåþò åäèíñòâåííûå ðåøåíèÿ θ− , θ+ .  íàøåì ñëó÷àå T = mw , θ = p ∈ (0, 1) è G(mw , p) ôóíêöèÿ ðàñïðåäåëåíèÿ Bi (m, p) â (28) G( mw , p ) = P{mw 6 t | m, p} .
Ôóíêöèåé ðàñïðåäåëåíèÿ âåðîÿòíîñòåé B -ðàñïðåäåëåíèÿ (12) ÿâëÿåòñÿ íåïîëíàÿ B ôóíêöèÿ, îáîçíà÷àåìàÿ Ip (a, b), (0 6 p 6 1, a > 0, b > 0):
Γ(a + b) Ip (a, b) , Γ(a)Γ(b)
Zp xa−1 (1 − x)b−1 dx . 0
Íåïîëíàÿ B -ôóíêöèÿ îáëàäàåò ñâîéñòâîì
Ip (a, b) ≡ 1 − I1−p (b, a) , à äëÿ öåëûõ a è b èìåþò ìåñòî çàìå÷àòåëüíûå ðàâåíñòâà a+b−1 X µa + b − 1¶ Ip (a, b) = pk (1 − p)a+b−1−k , k k=a
¶ ∞ µ X a+k−1 a p (1 − p)k . I1−p (b, a) = a−1 k=b
(42)
Èñïîëüçóÿ ëåãêî (42) ïîêàçàòü, ÷òî t µ ¶ X m k p (1 − p)m−k = P{mw 6 t | m, p} = k k=0
= 1 − Ip (t + 1, m − t) = I1−p (m − t, t + 1) . Çíà÷åíèÿ ôóíêöèè áèíîìèàëüíîãî ðàñïðåäåëåíèÿ G(mw , p) = P{mw 6 t| m, p} ñîâïàäàþò, ñëåäîâàòåëüíî, ñî çíà÷åíèÿìè ôóíêöèè B -ðàñïðåäåëåíèÿ I1−p (b, a) â öåëî÷èñëåííûõ òî÷êàõ b = m − t è a = t + 1, t = 0, 1, . . . , m. ßñíî, ÷òî ïîëüçîâàòüñÿ õîðîøî èçó÷åííîé è çàòàáóëèðîâàííîé íåïîëíîé B -ôóíêöèåé íàìíîãî óäîáíåå, ÷åì ñ áèíîìèàëüíûìè ñóììàìè (28) è (29). Îäíàêî ïðè çàìåíå G(mw , p) íà I1−p (m − t, t + 1) âîçíèêàåò ñëåäóþùàÿ òðóäíîñòü. Ïîñêîëüêó mw ïîä÷èíÿåòñÿ áèíîìèàëüíîìó çàêîíó è èìååò äèñêðåòíîå ðàñïðåäåëåíèå, ôóíêöèÿ G(mw , p) íå áóäåò íåïðåðûâíîé. Ýòî, â ñâîþ î÷åðåäü, ïðèâåäåò ê íåðàâåíñòâàì â ôîðìóëàõ äëÿ îïðåäåëåíèÿ ãðàíèö èíòåðâàëà (41), à ïðè èñïîëüçîâàíèè òàì ðàâåíñòâ ê òîìó, ÷òî ëèáî mw äîëæíî áûòü íåöåëûì ÷èñëîì, ëèáî ãðàíèöû èíòåðâàëà íå áóäóò îïðåäåëÿòüñÿ îäíîçíà÷íî.  êà÷åñòâå âûõîäà èç äàííîé ñèòóàöèè ìîæíî ïðèáåãíóòü ê ðàíäîìèçàöèè, ðàññìîòðåâ íîâóþ ñòàòèñòèêó T = mw + U , ãäå U ñëó÷àéíàÿ âåëè÷èíà, ðàâíîìåðíî ðàñïðåäåë¼ííàÿ íà (0, 1). Íà ïðàêòèêå æå, ÷òîáû èçáåæàòü ðàíäîìèçàöèè è óñòàíîâèòü ãðàíèöû, íå çàâèñÿùèå îò äîïîëíèòåëüíîé âåëè÷èíû U îáû÷íî âåëè÷èíó T ïðè îïðåäåëåíèè âåðõíåé ãðàíèöû äîâåðèòåëüíîãî èíòåðâàëà çàìåíÿþò âåëè÷èíîé mw + 131 . Ïðè ýòîì âåðõíÿÿ ãðàíèöà îêàçûâàåòñÿ íåñêîëüêî çàâûøåííîé, ÷òî, åñòåñòâåííî, êîìïåíñèðóåòñÿ áîëüøåé âåðîÿòíîñòüþ íàêðûòèÿ èñòèííîãî çíà÷åíèÿ p∗ .  ðåçóëüòàòå [7] ãðàíèöû íåéìàíîâñêîãî äîâåðèòåëüíîãî èíòåðâàëà JN = (p− , p+ ) ñ êîýôôèöèåíòîì äîâåðèÿ η = 2P − 1, ãäå 0.5 6 P < 1 ìîãóò áûòü îïðåäåëåíû êàê ðåøåíèÿ óðàâíåíèé 1−η , Ip− (mw , m − mw + 1) = 1 − P = 2 (43) Ip+ (mw + 1, m − mw ) = P = 1 + η . 2 31 êîíå÷íî,
åñëè mw < m, èíà÷å èìååì ñëó÷àé ïîëíîãî ñîáûòèÿ.
Äëÿ ðåøåíèÿ óðàâíåíèé (43) ìîæíî âîñïîëüçîâàòüñÿ òàáëèöàìè B -ðàñïðåäåëåíèÿ (ñì., íàïðèìåð, [39], [34]).  [60], [7], [34] ãðàíèöû äîâåðèòåëüíîãî èíòåðâàëà JN äëÿ áèíîìèàëüíîãî ðàñïðåäåëåíèÿ òàáóëèðîâàíû. Çàìåòèì, ÷òî ìåòîä îñòà¼òñÿ ïðèãîäíûì è êîãäà íåèçâåñòíûé ïàðàìåòð ðàññìàòðèâàåòñÿ êàê ñëó÷àéíûé.
6.1.1.3 Ôèäóöèàëüíûå èíòåðâàëû. Òåîðèÿ ôèäóöèàëüíûõ èíòåðâàëîâ Ð. Ôèøåðà [65], [27] áàçèðóåòñÿ íà ñëåäóþùèõ ñîîáðàæåíèÿõ. Ïóñòü x ñëó÷àéíàÿ âåëè÷èíà ñ ôóíêöèåé ðàñïðåäåëåíèÿ G(x, θ), ãäå θ íåêîòîðûé ñêàëÿðíûé ïàðàìåòð. Ïðè ôèêñèðîâàííîì x âî ìíîãèõ ñëó÷àÿõ G(x, θ) ñ òî÷íîñòüþ äî ìóëüòèïëèêàòèâíîé êîíñòàíòû ôîðìàëüíî ïðåäñòàâëÿåò ñîáîé ôóíêöèþ ðàñïðåäåëåíèÿ âåðîÿòíîñòåé èëè ôóíêöèþ âûæèâàíèÿ θ, ðàññìàòðèâàåìîé êàê ñëó÷àéíàÿ âåëè÷èíà32 . ¾Ôèäóöèàëüíîå ðàñïðåäåëåíèå íå ÿâëÿåòñÿ ðàñïðåäåëåíèåì âåðîÿòíîñòè â ñìûñëå ÷àñòîòíîé òåîðèè. Ýòî íîâîå ïîíÿòèå, âûðàæàþùåå èíòåíñèâíîñòü íàøåé âåðû â ðàçëè÷íûå âîçìîæíûå çíà÷åíèÿ ïàðàìåòðà¿ [25]. Âîïðîñ çàêëþ÷àåòñÿ â òîì, êîãäà G(x, θ) äåéñòâèòåëüíî ìîæíî ðàññìàòðèâàòü êàê ðàñïðåäåëåíèå âåðîÿòíîñòè â ¾÷àñòîòíîì¿ ñìûñëå. Ôèøåð ñ÷èòàë, ÷òî âñåãäà. Îäíàêî îêàçàëîñü, ÷òî òàêîå óòâåðæäåíèå ÿâëÿåòñÿ îøèáî÷íûì. Ïîäðîáíûé ðàçáîð óñëîâèé, ïðè âûïîëíåíèè êîòîðûõ íà óêàçàííûé âîïðîñ ìîæíî âñ¼ æå îòâåòèòü ïîëîæèòåëüíî ñì., íàïðèìåð â [9], [6], [8]. Ïðè ýòîì îêàçûâàåòñÿ, ÷òî äàííûå óñëîâèÿ íå ÿâëÿþòñÿ ñëèøêîì æ¼ñòêèìè, â ñèëó ÷åãî äîâåðèòåëüíûå ôèøåðîâñêèå è íåéìàíîâñêèå ðàñïðåäåëåíèÿ, êàê ïðàâèëî, ñîâïàäàþò, è îòëè÷èå (ïðèíöèïèàëüíîå!) èõ èñõîäíûõ êîíöåïöèé çàêëþ÷àåòñÿ ëèøü â èñòîëêîâàíèè ðåçóëüòàòîâ. Îñíîâíûìè èç óïîìÿíóòûõ óñëîâèé ÿâëÿþòñÿ íåïðåðûâíîñòü ðàñïðåäåëåíèÿ G(x, θ) ïî x è (ñòðîãî) ìîíîòîííàÿ çàâèñèìîñòü G(x, θ) îò θ. ßñíî òàêæå, ÷òî âìåñòî x ìîæíî ðàññìàòðèâàòü íåêîòîðóþ ñòàòèñòèêó T , ðàññìàòðèâàåìóþ â êà÷åñòâå òî÷å÷íîé îöåíêè θ.  òàêîì ñëó÷àå ïðåäåëû èíòåãðèðîâàíèÿ G(x, θ) ïî θ ìîãóò áûòü ïðèíÿòû çà ãðàíèöû äîâåðèòåëüíûõ èíòåðâàëîâ, à çíà÷åíèÿ ýòèõ èíòåãðàëîâ çà äîñòîâåðíîñòü ñîîòâåòñòâóþùåé èíòåðâàëüíîé îöåíêè è òåîðèÿ ôèäóöèàëüíîãî îöåíèâàíèÿ ïðèâîäèò ê òåì æå ðåçóëüòàòàì, ÷òî è òåîðèÿ äîâåðèòåëüíîãî îöåíèâàíèÿ. Äëÿ íàøåé çàäà÷è ïåðâîå èç óïîìÿíóòûõ óñëîâèé ìîæíî îáîéòè, èñïîëüçóÿ, íàïðèìåð, ðàíäîìèçàöèþ èëè ïåðåõîä îò mw ê mw + 1 (ñì. âûøå). Òàêæå èìååò ìåñòî (ñòðîãî óáûâàþùàÿ) ìîíîòîííàÿ çàâèñèìîñòü ôóíêöèè áèíîìèàëüíîãî ðàñïðåäåëåíèÿ âåðîÿòíîñòåé (28) îò p (âòîðîå óñëîâèå). Òàêèì îáðàçîì, ôèøåðîâñêèå èíòåðâàëû â íàøåì ñëó÷àå (êàê è â ïîäàâëÿþùåì ÷èñëå ïðàêòè÷åñêè èíòåðåñíûõ ñëó÷àåâ) ñîâïàäàþò ñ íåéìàíîâñêèìè. 6.1.1.4 Ìåòîä äîâåðèòåëüíûõ èíòåðâàëîâ Ë.Í. Áîëüøåâà [8] ñîâìåùàåò ôèøåðîâñêèé ôèäóöèàëüíûé ïîäõîä (â òåõ ñëó÷àÿõ, êîãäà îí ïðèìåíèì) ñ ïîñòðîåíèåì íàèáîëåå ñåëåêòèâíûõ èíòåðâàëîâ ïî Íåéìàíó.  ñèëó ýòîãî â íàøåé çàäà÷å îí íå ïðèâåäåò ê íîâûì ðåçóëüòàòàì.
6.1.2 Ìíîãîìåðíûé ñëó÷àé Îòìåòèì ñíà÷àëà òåõíè÷åñêèå è ìàòåìàòè÷åñêèå ñëîæíîñòè ðàáîòû ñ ìíîãîìåðíûìè äîâåðèòåëüíûìè èíòåðâàëàìè è íåêîððåêòíîñòü ïðèìåíåíèÿ ïðÿìûõ ìåòîäîâ ïîñòðîåíèÿ äîâåðèòåëüíîãî ìèíèìàëüíîãî èíòåðâàëà ê êàæäîìó îòäåëüíîìó ïàðàìåòðó pk 32 Ôóíêöèþ
G(x, θ) Ôèøåð è íàçâàë ¾fiducial distribution¿ ôèäóöèàëüíûì (òî÷íåå ¾ôèäüþøèàëüíûì¿), ò.å. ¾äîâåðèòåëüíûì¿ ðàñïðåäåëåíèåì. Ïîýòîìó ïðàâèëüíåå áóäåò ãîâîðèòü î äîâåðèòåëüíûõ ïî Ôèøåðó â îòëè÷èå îò äîâåðèòåëüíûõ ïî Íåéìàíó ðàñïðåäåëåíèÿõ è èíòåðâàëàõ.
(íåñìîòðÿ íà òî, ÷òî ìóëüòèíîìèàëüíîå ðàñïðåäåëåíèå M ( m; p1 , p2 , . . . , pv ) ÿâëÿåòñÿ âîñïðîèçâîäÿùèì ïî m).  ñëó÷àå áîëüøèõ âûáîðîê ìîæíî îáîáùèòü ðåçóëüòàòû àïïðîêñèìàöèè íîðìàëüíûì ðàñïðåäåëåíèåì áèíîìèàëüíîãî íà ìóëüòèíîìèàëüíîå. Ëåãêî ïîêàçàòü, ÷òî â ðàññìàòðèâàåìîì ñëó÷àå ìóëüòèíîìèàëüíîå ðàñïðåäåëåíèå àïïðîêñèìèðóåòñÿ ðàñïðåäåëåíèåì χ2 . Äåéñòâèòåëüíî, âåëè÷èíà T 2 èç (32) ïîä÷èíÿåòñÿ ðàñïðåäåëåíèþ χ2 ñ 1 1 îäíîé ñòåïåíüþ ñâîáîäû. Êðîìå òîãî, m p (1−p) = m1p + m (1−p) . Òàêèì îáðàçîì â ìíîãîìåðíîì ñëó÷àå ìû áóäåì èìåòü v âåëè÷èí
Tk2 =
(mk − mpk )2 mpk
òàêèõ, ÷òî Tk ∼ N (0, 1), k = 1, v è ïîëó÷èì, ÷òî êðàò÷àéøèé ìíîãîìåðíûé äîâåðèòåëüíûé èíòåðâàë ñ íàä¼æíîñòüþ η äëÿ îöåíèâàíèÿ âåëè÷èíû p¯∗ ∈ Sv−1 áóäåò ïðåäñòàâëÿòü ñîáîé ìíîæåñòâî âåêòîðîâ b p¯ = (ˆ p1 , . . . , pˆv ) èç Rv>0 äëÿ êîòîðûõ v X (mk − mˆ pk )2 < χ2η , mˆ p k k=1
(44)
ãäå χ2η êâàíòèëü óðîâíÿ η ðàñïðåäåëåíèÿ χ2 ñ v − 1 ñòåïåíÿìè ñâîáîäû [49], [41]. Äàííàÿ pk > 1, êîãäà äîëÿ ôîðìóëà ñ÷èòàåòñÿ äîñòàòî÷íî òî÷íîé ïðè mˆ pk > 5, k = 1, v èëè mˆ òàêèõ pˆk íå ìåíåå 1/5. Ïðèâåä¼ííîé çàâèñèìîñòüþ èñ÷åðïûâàþòñÿ ðåçóëüòàòû ïî ïîñòðîåíèþ äîâåðèòåëüíûõ èíòåðâàëîâ ìóëüòèíîìèàëüíî ðàñïðåäåë¼ííîé âåëè÷èíû. Ñ äðóãîé ñòîðîíû ÿñíî, ÷òî ôîðìóëà (44) êðàéíå íåóäîáíà äëÿ ïðàêòè÷åñêîãî èñïîëüçîâàíèÿ. Çàìåòèì, ÷òî ðàñïðåäåëåíèå χ2 äîïóñêàåò àïïðîêñèìàöèþ ìíîãîìåðíûì íîðìàëüíûì ðàñïðåäåëåíèåì [48]. Ìîæíî ïðåäëîæèòü ïðèãîäíûé äëÿ ìàëûõ âûáîðîê ÷èñëåííûé ìåòîä ïîñòðîåíèÿ ñèììåòðè÷íûõ îòíîñèòåëüíî íåêîòîðîé òî÷å÷íîé îöåíêè (ˆ p1 , . . . , pˆv ) èíòåðâàëîâ âèäà (45)
JS = (ˆ p1 ± ε1 , . . . , pˆv ± εv ) .
Çäåñü (ε1 , . . . , εv ) ∈ (0, 1)v òî÷íîñòè äîâåðèòåëüíîãî îïðåäåëåíèÿ ñîîòâåòñòâóþùèõ âåðîÿòíîñòåé. Îáîçíà÷èì E i , (εi1 , . . . , εiv ) ∈ (0, 1)v . Ñîãëàñíî ïîäõîäó Ð. Ôèøåðà ðàñïðåäåëåíèå âåðîÿòíîñòåé áóäåò ÿâëÿòüñÿ ðàñïðåäåëåíèåì Äèðèõëå (19) è èíòåðâàë óêàçàííîãî âèäà áóäåò (ôèäóöèàëüíûì) äîâåðèòåëüíûì ñ äîñòîâåðíîñòüþ η = η(E i ), åñëè
(m + v − 1)! m1 ! . . . m v !
pˆZ 1 +ε1
pˆ1 −ε1
pˆZ v +εv mv i 1 xm 1 . . . xv dx1 . . . dxv = η(E ) .
... pˆv −ε1
Çäåñü, åñòåñòâåííî, âûïîëíÿåòñÿ (x1 , x2 , . . . , xv ) ∈ Sv−1 , ãäå
óñëîâèÿ
íîðìèðîâêè
n Sv−1 =
(46)
(x1 , x2 , . . . , xv ) : xk > 0, k = 1, v;
v X
Pv k=1
mk
=
m
è
o xk = 1
.
k=1
Êîíå÷íî, òàêèå èíòåðâàëû íå áóäóò ÿâëÿòüñÿ êðàò÷àéøèìè íè ñ êàêîé òî÷êè çðåíèÿ, îäíàêî îíè èñêëþ÷èòåëüíî óäîáíû â èñïîëüçîâàíèè íà ïðàêòèêå. Èíòåãðàë â (46) ìîæåò
áûòü âû÷èñëåí ÷èñëåííî äëÿ ðàçíûõ íàáîðîâ E i , εi+1 6 εik , k = 1, v, i = 1, 2, . . . Ïðè k ýòîì çíà÷åíèå äîñòîâåðíîñòè áóäåò óìåíüøàòüñÿ. Ìîæíî îñòàíîâèòüñÿ íà çíà÷åíèè η(E i ) íå ìåíüøåì íåêîòîðîãî âûáðàííîãî. Ðàñïðîñòðàíÿÿ ìåòîä Íåéìàíà íà ìíîãîìåðíûé ñëó÷àé ìîæíî ïðåäëîæèòü íàõîäèòü âåëè÷èíû p1,− , . . . , pv,− è p1,+ , . . . , pv,+ ÷èñëåííî ðåøàÿ ñîîòâåòñòâåííî ïåðâîå è âòîðîå óðàâíåíèå ñèñòåìû 1−η 1 − P = , Zp1 Zpv 2 (m + v − 1)! m1 v . . . x1 . . . x m (47) v dx1 . . . dxv = m1 ! . . . mv ! 1 + η 0 0 P = . 2 Çäåñü, êîíå÷íî, (x1 , x2 , . . . , xv ) ∈ Sv−1 . Äîâåðèòåëüíûé èíòåðâàë äîñòîâåðíîñòè η áóäåò ïðè ýòîì èìåòü âèä
JN = ( p1,− 6 p1 6 p1,+ . . . , pv,− 6 pv 6 pv,+ ) . Äîâåðèòåëüíàÿ òåîðèÿ ¾äîñòèãàåò îáùíîñòè öåíîé òîãî, ÷òî îêàçûâàåòñÿ íåñïîñîáíîé âêëþ÷àòü àïðèîðíûå¿ çíàíèÿ â ñâîè óòâåðæäåíèÿ [25].
6.2 Áàéåñîâñêèé ïîäõîä Ðàññìîòðèì ñðàçó ìíîãîìåðíûé ñëó÷àé. Èíòåðâàëüíîå áàéåñîâñêîå îöåíèâàíèå òåñíî ñâÿçàíî ñ ôèäóöèàëüíûìè ðàñïðåäåëåíèÿìè [25], ÷òî, âïðî÷åì, ìîæíî çàêëþ÷èòü èç îïðåäåëåíèÿ ôèäóöèàëüíîãî ðàñïðåäåëåíèÿ â ï. 6.1.1.3.  ÷àñòíîñòè, èñïîëüçóÿ (21) ïîëó÷àåì, ÷òî ïðè àïðèîðíîì ðàñïðåäåëåíèè Di(d1 , . . . , dv ) áàéåñîâñêèé äîâåðèòåëüíûé èíòåðâàë (45) äîñòîâåðíîñòè η(E i ) ïðè òî÷å÷íûõ îöåíêàõ (ˆ p1 , . . . , pˆv ) äîëæåí óäîâëåòâîðÿòü ñîîòíîøåíèþ
Γ(d1 + . . . + dv + m) Γ(d1 + m1 ) . . . Γ(dv + mv )
pˆZ 1 +ε1
pˆZ v +εv
x1d1 +m1 −1 . . .
...
pˆ1 −ε1
(48)
pˆv −εv
. . . xdvv +mv −1
i
dx1 . . . dxv = η(E ) . (x1 , x2 , . . . , xv ) ∈ Sv−1 .
 ñëó÷àå ðàâíîìåðíîãî àïðèîðíîãî ðàñïðåäåëåíèÿ ïîëó÷èì ôîðìóëó (46). Ïðè íåðàâíûõ âåñàõ ïðåöåäåíòîâ, ïîâòîðÿÿ ðàññóæäåíèÿ ï. 5.2.4, âìåñòî (48) ïîëó÷èì ôîðìóëó
Γ(d1 + . . . + dv + M ) Γ(d1 + µ1 ) . . . Γ(dv + µv )
pˆZ 1 +ε1
pˆ1 −ε1
. . . xdvv +µv −1
pˆZ v +εv
...
x1d1 +µ1 −1 . . . (49)
pˆv −εv i
dx1 . . . dxv = η(E ) . (x1 , x2 , . . . , xv ) ∈ Sv−1 .
ãäå µk , M, è pˆk , k = 1, v îïðåäåëÿþòñÿ ïî ôîðìóëàì (24), (25) è (26). Äëÿ ðàâíîìåðíîãî àïðèîðíîãî ðàñïðåäåëåíèÿ ôîðìóëà (49) ïðåâðàùàåòñÿ â (46) ñ çàìåíîé mk íà µk è m íà M, k = 1, v . Ýòî, ôàêòè÷åñêè, ðàñïðîñòðàíåíèå ìåòîäà Áîëüøåâà íà ìíîãîìåðíûé ñëó÷àé. Óðàâíåíèÿ (48) è (49) ìîæíî ðåøàòü ÷èñëåííî òåì æå ìåòîäîì, ÷òî è (46).
Îäíèì èç íàïðàâëåíèé áàéåñîâñêîãî ïîäõîäà ÿâëÿåòñÿ ò.í. ýìïèðè÷åñêèé áàéåñîâñêèé ìåòîä ðàññìàòðèâàþùèé ïîñòðîåíèå îöåíîê â óñëîâèÿõ íåèçâåñòíîãî àïðèîðíîãî ðàñïðåäåëåíèÿ [10].  ðàìêàõ óêàçàííîãî ìåòîäà ìîæíî ïðåäëîæèòü ñëåäóþùèé ¾êîìïëåêñíûé¿ ìåòîä äîâåðèòåëüíîãî îöåíèâàíèÿ. Êàê óêàçûâàëîñü â ï. 5.2.2, â îäíîìåðíîì ñëó÷àå ïðè ìàëûõ p∗ â êà÷åñòâå àïðèîðíîãî ðàñïðåäåëåíèÿ ìîæåò áûòü èñïîëüçîâàíî ðàñïðåäåëåíèå Be(1, b) ñ áîëüøèì b ïðèâîäÿøåå ê áàéåñîâñêîé îöåíêå (17) mw + 1 pˆ = . m+b+1 Êàê îáîñíîâàííî âûáðàòü çíà÷åíèå b? Çàìåòèì, ÷òî ïðè mw 6= 0 è b = m/mw − 1 äàííàÿ îöåíêà áóäåò ñîâïàäàòü ñ ÌÏ-îöåíêîé, à ïðè m > 1 áóäåì èìåòü b > 1. Ýòî äàåò îñíîâàíèå â óêàçàííûõ óñëîâèÿõ ïðèíÿòü çà àïðèîðíîå ðàñïðåäåëåíèå Be(1, b). Òîãäà ìîæíî ïðåäëîæèòü îïðåäåëÿòü âåðõíþþ ãðàíèöó îäíîñòîðîííåãî äîâåðèòåëüíîãî èíòåðâàëà J = (0, p+ ) äîñòîâåðíîñòè η èç óñëîâèÿ Zp+ Γ(m + b + 1) xmw (1 − x)mr +b−1 dx = η , Γ(mw + 1) Γ(mr + b) 0
÷òî ýêâèâàëåíòíî
Ip+ (mw + 1, mr + b) = η .
(50)
Çàìåòèì, ÷òî çäåñü âòîðîé ïàðàìåòð íå îáÿçàòåëüíî öåëî÷èñëåííûé. Äàííîå óðàâíåíèå ìîæíî ðåøàòü èñïîëüçóÿ òàáëèöû íåïîëíîé B -ôóíêöèè èëè èñïîëüçóÿ ñâÿçü B -ôóíêöèè ñ F -ðàñïðåäåëåíèåì.  ïîñëåäíåì ñëó÷àå ñ ó÷¼òîì (40) ïîëó÷èì (mw + 1)Fν1 , ν2 p+ = , (51) mr + b + (mw + 1)Fν1 , ν2 ãäå Fν1 , ν2 êâàíòèëü F -ðàñïðåäåëåíèÿ ν1 = 2(mw + 1), ν2 = 2(mr + b) ñòåïåíÿìè ñâîáîäû äëÿ äîâåðèòåëüíîé âåðîÿòíîñòè îøèáêè 1 − η .
6.3 Ñðàâíåíèå îöåíîê, ïîëó÷åííûõ ðàçëè÷íûìè ìåòîäàìè  êà÷åñòâå ïðèìåðà ïðèâåä¼ì îöåíêè âåðîÿòíîñòåé ñîáûòèé, ïîëó÷åííûå ðàçëè÷íûìè ìåòîäàìè äëÿ îäíîìåðíîãî ñëó÷àÿ. Ïðè ýòîì âîçüì¼ì çíà÷åíèÿ m, ïðè êîòîðûõ íåïðèìåíèìû àïïðàêñèìàöèîííûå ìåòîäû. Ïóñòü m1 = 8, m2 = 10, m3 = 15 è mw = 1 âî âñåõ òð¼õ ñëó÷àÿõ. Íîìåð âàðèàíòà áóäåì îáîçíà÷àòü âåðõíèì èíäåêñîì ñîîòâåòñòâóþùåé îöåíêè.
6.3.1 Òî÷å÷íûå îöåíêè. ÌÏ-îöåíêè ðàâíû
1 1 1 = 0.125 , pˆ2M L = = 0.100 , pˆ3M L = ≈ 0.067 . 8 10 15 Áàéåñîâñêèå îöåíêè ñóòü 2 2 2 = 0.2 , pˆ2B = ≈ 0.167 , pˆ3B = ≈ 0.118 . pˆ1B = 10 12 17 Ìåäèàííûå îöåíêè ìîæíî îïðåäåëèòü ïî Òàáëèöå 3.4 [7] êâàíòèëåé óðîâíÿ P = 0.5 B -ðàñïðåäåëåíèÿ: pˆ1m ≈ 0.190 , pˆ2m ≈ 0.148 , pˆ3m ≈ 0.103 . pˆ1M L =
Ìû âèäèì, ÷òî ìåäèàííûå îöåíêè áëèæå ê áàéåñîâñêèì, ÷åì ê ÌÏ-îöåíêàì.
6.3.2 Èíòåðâàëüíûå îöåíêè.  [34] çàòàáóëèðîâàíû ýêñòðåìàëüíûå ðåøåíèÿ íåðàâåíñòâà (30). Ïî Òàáëèöå 1. íàõîäèì:
J 1 = (0.006, 0.500) , J 2 = (0.005, 0.446) , J 3 = (0.003, 0.302) äëÿ η = 0.95 . Ðåøåíèå (30) èñïîëüçóþùåå çàìåíó áèíîìèàëüíîãî ðàñïðåäåëåíèÿ íà F -ðàñïðåäåëåíèå (ñì. [41]) äà¼ò
J 1 = (0.104, 0.526) , J 2 = (0.025, 0.445) , J 3 = (0.105, 0.319) äëÿ η = 0.95 . Ðåøàÿ óðàâíåíèÿ (39) Êëîïïåðà-Ïèðñîíà ïî ôîðìóëàì (40) (çàìåíîé áèíîìèàëüíîãî íà F -ðàñïðåäåëåíèå), ïîëó÷èì
J 1 = (0.125, 0.526) , J 2 = (0.100, 0.445) , J 3 = (0.007, 0.319) äëÿ η = 0.95 , ÷òî î÷åíü áëèçêî ê ïðåäûäóùèì ðåøåíèÿì. Ãðàôè÷åñêèì ìåòîäîì ðåøåíèÿ óðàâíåíèé (39) Êëîïïåðà-Ïèðñîíà áîëåå-ìåíåå óâåðåííî ìîæíî îïðåäåëèòü ëèøü îöåíêó äëÿ âòîðîãî ñëó÷àÿ:
J 2 = (0.02, 0.32) äëÿ η = 0.9 è J 2 = (0.01, 0.46) äëÿ η = 0.95 . Íåéìàíîâñêèå îöåíêè íàéäåì ïî òàáëèöå 5.2 [7] Äîâåðèòåëüíûõ ïðåäåëîâ äëÿ ïàðàìåòðà p áèíîìèàëüíîãî ðàñïðåäåëåíèÿ:
JN1 = (0.006, 0.471) , JN2 = (0.005, 0.394) , JN3 = (0.003, 0.279) è
JN1 = (0.003, 0.527) , JN2 = (0.003, 0.445) , JN3 = (0.002, 0.319)
äëÿ η = 0.9 (P = 0.95) è η = 0.95 (P = 0.975) ñîîòâåòñòâåííî. Âèäíî, ÷òî íåéìàíîâñêèå íàèáîëåå ñåëåêòèâíûå èíòåðâàëû íå ñóòü êðàò÷àéøèå äîâåðèòåëüíûå.  çàêëþ÷åíèå ìû ïðèâåä¼ì ñëîâà èç ôóíäàìåíòàëüíîé ìîíîãðàôèè [25]: åñëè ðåçóëüòàòû ðàçëè÷íûõ ïîõîäîâ íå ñîâïàäàþò, òî ¾îñíîâíàÿ ïðè÷èíà ðàçëè÷èÿ íå â òîì, ÷òî òîò èëè èíîé ïîõîä íå âåðåí, à â òîì, ÷òî îíè, ñîçíàòåëüíî èëè íå ñîçíàòåëüíî, ëèáî îòâå÷àþò íà ðàçíûå âîïðîñû, ëèáî îñíîâûâàþòñÿ íà ðàçíûõ ïîñòóëàòàõ¿.
Àâòîð ãëóáîêî ïðèçíàòåëåí àêàäåìèêó ÐÀÍ Þ.È. Æóðàâë¼âó çà ïîíèìàíèå è ïîääåðæêó. Àâòîð òàêæå áëàãîäàðåí ïðîô. Â.Å. Áåíèíãó çà öåííûå êîíñóëüòàöèè è ê.ô.ì.í. Ê.Â. Âîðîíöîâó çà ïðåäîñòàâëåííûå ìàòåðèàëû ïî òåîðèè Âàïíèêà-×åðâîíåíêèñà è ïîëåçíûå îáñóæäåíèÿ ðàññìàòðèâàåìûõ âîïðîñîâ.
Ñïèñîê ëèòåðàòóðû 1.
Aéçåðìàí Ì.À., Áðàâåðìàí Ý.Ì., Ðîçîíîýð Ë.È. Ìåòîä ïîòåíöèàëüíûõ ôóíêöèé â òåîðèè îáó÷åíèÿ ìàøèí. Ì.: Íàóêà, 1970.
2.
Àíäåðñîí Ò. Ââåäåíèå â ìíîãîìåðíûé ñòàòèñòè÷åñêèé àíàëèç /Ïåð. ñ àíãë. Ì.: Ôèçìàòãèç, 1963.
3.
Áåëÿåâ Þ.Ê., Íîñêî Â.Ï. Îñíîâíûå ïîíÿòèÿ è çàäà÷è ìàòåìàòè÷åñêîé ñòàòèñòèêè: Ó÷åá. ïîñîáèå. Ì.: Èçä-âî ÌÃÓ, ×åÐî, 1998.
4.
Áåðèêîâ Â.Á. Îá óñòîé÷èâîñòè àãîðèòìîâ ðàñïîçíàâàíèÿ â äèñêðåòíîé ïîñòàíîâêå //Èñêóññòâåííûé èíòåëëåêò. Íàó÷íî-òåîðåòè÷åñêèé æóðíàë. ÍÀÍ Óêðàèíû. Èí-ò ïðîáëåì èñêóñò. èíòåëåêòà. Äîíåöê, 2000, 2. Ñ. 5-8.
5.
Áåðèêîâ Â.Á. Áàéåñîâñêèé ïîäõîä ê îïðåäåëåíèþ êà÷åñòâà ðàñïîçíàâàíèÿ //¾Ìàòåìàòè÷åñêèå ìåòîäû ðàñïîçíàâàíèÿ îáðàçîâ¿ (ÌÌÐÎ-10). Äîêëàäû Õ Âñåðîññèéñêîé êîíôåðåíöèè. Ì.: Ðîññèéñêàÿ àêàäåìèÿ íàóê, Âû÷èñëèòåëüíûé öåíòð, 2001, C. 6-9.
6.
Áåðíøòåéí Ñ.Í. Î ¾äîâåðèòåëüíûõ¿ âåðîÿòíîñòÿõ Ôèøåðà /Ñ.Í. Áåðíøòåéí. Ñîáðàíèå ñî÷èíåíèé. Òîì IV. Òåîðèÿ âåðîÿòíîñòåé è ìàòåìàòè÷åñêàÿ ñòàòèñòèêà (1911-1946). Ì.: Íàóêà, 1964. Ñ. 386393
7.
Áîëüøåâ Ë.Í., Ñìèðíîâ Í.Â. Òàáëèöû ìàòåìàòè÷åñêîé ñòàòèñòèêè. Ì.: Íàóêà, Ãë. ðåä. ôèç.-ìàò. ëèò., 1983.
8.
Áîëüøåâ Ë.Í. Î ïîñòðîåíèè äîâåðèòåëüíûõ ïðåäåëîâ // Òåîðèÿ âåð.-òè è å¼ ïðèìåíåí. 1965, òîì Õ, âûï. 1. C. 197-192.
9.
Áîëüøåâ Ë.Í. Êîììåíòàðèé ê ðàáîòå Ñ.Í. Áåðíøòåéíà ¾Î äîâåðèòåëüíûõ âåðîÿòíîñòÿõ Ôèøåðà¿ / Ñ.Í. Áåðíøòåéí. Ñîáðàíèå ñî÷èíåíèé. Òîì IV. Òåîðèÿ âåðîÿòíîñòåé è ìàòåìàòè÷åñêàÿ ñòàòèñòèêà (1911-1946). Ì.: Íàóêà, 1964. Ñ. 566 569.
10.
Áîëüøåâ Ë.Í. Ïðèëîæåíèÿ ýìïèðè÷åñêîãî áàéåñîâñêîãî ïîäõîäà /Ìåæäóíàðîäíûé êîíãðåññ ìàòåìàòèêîâ â Íèööå 1970. Äîêëàäû ñîâåòñêèõ ìàòåìàòèêîâ. Ì., 1972, C. 48-55.
11.
Áîðîâêîâ À.À. Ìàòåìàòè÷åñêàÿ ñòàòèñòèêà. Ì.: Íàóêà, 1984.
12.
Âàïíèê Â.Í., ×åðâîíåíêèñ À.ß. Òåîðèÿ ðàñïîçíàâàíèÿ îáðàçîâ. Ñòîõàñòè÷åñêèå ïðîáëåìû îáó÷åíèÿ. Ì.: Íàóêà, 1974.
13.
Âàïíèê Â.Í. Âîññòàíîâëåíèå çàâèñèìîñòåé ïî ýìïèðè÷åñêèì äàííûì. Ì.: Íàóêà, 1979.
14.
Ãàñêàíîâ Ä.Â., Øàïîâàëîâ Â.È. Ìàëàÿ âûáîðêà. Ì.: Ñòàòèñòèêà, 1978.
15.
Ãìóðìàí Â.Å. Òåîðèÿ âåðîÿòíîñòåé è ìàòåìàòè÷åñêàÿ ñòàòèñòèêà. Ì.: Âûñøàÿ øêîëà, 1977.
16.
Ãóðîâ Ñ.È. Îöåíêè âåðîÿòíîñòè îøèáîê êëàññèôèêàöèè ïðè ìàëîì ÷èñëå ïðåöåäåíòîâ //Èíòåëëåêòóàëèçàöèÿ îáðàáîòêè èíôîðìàöèè. Ìåæäóíàðîäíàÿ íàó÷íàÿ êîíôåðåíöèÿ ÈÎÈ'2000. Òåçèñû äîêëàäîâ (Àëóøòà, 10-14 èþíÿ 2000 ã.). Ñèìôåðîïîëü: Êðûìñêèé íàó÷íûé öåíòð ÍÀÍ Óêðàèíû, Òàâðè÷åñêèé íàöèîíàëüíûé óíèâåðñèòåò, 2000. Ñ. 26.
17.
Ãóðîâ Ñ.È. Òî÷å÷íûå îöåíêè îøèáîê ðàñïîçíàâàíèÿ // ¾Ìàòåìàòè÷åñêèå ìåòîäû ðàñïîçíàâàíèÿ îáðàçîâ¿ (ÌÌÐÎ-10). Äîêëàäû Õ Âñåðîññèéñêîé êîíôåðåíöèè. Ì.: Ðîññèéñêàÿ àêàäåìèÿ íàóê, Âû÷èñëèòåëüíûé öåíòð, 2001, C. 34-37.
18.
Ãóðîâ Ñ.È. Îöåíêè îøèáîê àëãîðèòìîâ ðàñïîçíàâàíèÿ // Ó÷¼íûå çàïèñêè Òàâðè÷åñêîãî Íàöèîíàëüíîãî Óíèâåðñèòåòà èì. Â.È. Âåðíàäñêîãî. Òîì 15 (54). 2002, 1. Ìàòåìàòèêà. Ìåõàíèêà. Èíôîðìàòèêà è êèáåðíåòèêà. Ñ. 202211.
19.
Æóðàâëåâ Þ.È. Êîððåêòíûå àëãåáðû íàä ìíîæåñòâîì íåêîððåêòíûõ (ýâðèñòè÷åñêèõ) àëãîðèòìîâ. I, II, III. // Êèáåðíåòèêà, I: 4, 1977, Ñ. 5-17; II: 6, 1977, Ñ. 21-27; III: 2, 1978, Ñ. 35-43.
20.
Æóðàâëåâ Þ.È. Îá àëãåáðàè÷åñêîì ïîäõîäå ê ðåøåíèþ çàäà÷ ðàñïîçíàâàíèÿ èëè êëàññèôèêàöèè // Ïðîáëåìû êèáåðíåòèêè. Ñá. ñòàòåé. Ì.: Íàóêà, Âûï. 33, 1978. Ñ. 569.
21.
Çàêñ Ë. Ñòàòèñòè÷åñêîå îöåíèâàíèå /Ïåð. ñ íåì. ïîä ðåä. Þ.Ï. Àäëåðà, Â.Ã. Ãîðñêîãî. Ì.: Ñòàòèñòèêà, 1976.
22.
Çàêñ Ø. Òåîðèÿ ñòàòèñòè÷åñêèõ âûâîäîâ: Ïåð. ñ àíãë./ Ïîä ðåä. Þ.Ê. Áåëÿåâà. Ì.: Ìèð, 1975.
23.
Èíòåãðàëû è ðÿäû. Ýëåìåíòàðíûå ôóíêöèè /Ïðóäíèêîâ À.È., Áðû÷êîâ Þ.À., Ìàðè÷åâ Î.È. Ì.: Íàóêà, 1981.
24.
Êåíäàë Ì., Ñòþàðò À. Òåîðèÿ ðàñïðåäåëåíèé /Ïåð. ñ àíãë. Ì.: Íàóêà, 1966.
25.
Êåíäàë Ì., Ñòþàðò À. Ñòàòèñòè÷åñêèå âûâîäû è ñâÿçè /Ïåð. ñ àíãë. Ì.: Íàóêà, 1973.
26.
Êîëüöîâ Ï.Ï. Ìàòåìàòè÷åñêèå ìîäåëè òåîðèè ðàñïîçíàâàíèÿ îáðàçîâ //Êîìïüþòåð è çàäà÷è âûáîðà /Àâòîð ïðåäèñë. Þ.È.Æóðàâë¼â. Ì.: Íàóêà, 1989. Ñ. 89-119.
27.
Êëèìîâ Ã.Ï. Èíâàðèàíòíûå âûâîäû â ñòàòèñòèêå. Ì.: Íàóêà, Ãë. ðåä. ôèç.-ìàò. ëèò., 1973.
28.
Êðåìåð Í.Ø. Òåîðèÿ âåðîÿòíîñòåé è ìàòåìàòè÷åñêàÿ ñòàòèñòèêà. Ì.: ÞÍÈÒÈÄÀÍÀ, 2000.
29.
Ëåìàí Ý. Òåîðèÿ òî÷å÷íîãî îöåíèâàíèÿ /Ïåð. ñ àíãë. Ì.: Íàóêà, Ãë. ðåä. ôèç.-ìàò. ëèò., 1991.
30.
Ëåìàí Ý. Ïðîâåðêà ñòàòèñòè÷åñêèõ ãèïîòåç. Ì.: Íàóêà, Ãë. ðåä. ôèç.-ìàò. ëèò., 1979.
31.
Ëáîâ Ã.Ñ., Ñòàðöåâà Í.Ã. Ñëîæíîñòü ðàñïðåäåëåíèé â çàäà÷àõ êëàññèôèêàöèè //Äîêëàäû ÐÀÍ, 1994, òîì 338, 5. Ñ.
32.
Ëáîâ Ã.Ñ., Ñòàðöåâà Í.Ã. Ëîãè÷åñêèå ðåøàþøèå ôóíêöèè è âîïðîñû ñòàòèñòè÷åñêîé óñòîé÷èâîñòè ðåøåíèé. Íîâîñèáèðñê: Èçä-âî Èí-òà ìàòåìàòèêè, 1999.
33.
Ìåòîäû còàòèñòè÷åñêîãî àíàëèçà è îáðàáîòêà ìàëîãî ÷èñëà íàáëþäåíèé ïðè êîíòðîëå êà÷åñòâà è íàäåæíîñòè ïðèáîðîâ è ìàøèí. Ë., 1974.
34.
Ìþëëåð Ï., Íîéìàí Ï., Øòîðì Ð. Òàáëèöû ïî ìàòåìàòè÷åñêîé ñòàòèñòèêå /Ïåð. ñ íåì. è ïðåäèñë. Â.Ì. Èâàíîâîé. Ì.: Ôèíàíñû è ñòàòèñòèêà, 1982.
35.
Íåäåëüêî Â.Ì. Îöåíèâàíèå äîâåðèòåëüíîãî èíòåðâàëà âåðîÿòíîñòè îøèáêè ðåøàþùåé ôóíêöèè ðàñïîçíàâàíèÿ ïî ýìïèðè÷åñêîìó ðèñêó // ¾Ìàòåìàòè÷åñêèå ìåòîäû ðàñïîçíàâàíèÿ îáðàçîâ¿ (ÌÌÐÎ-9). Äîêëàäû 9-é Âñåðîññèéñêîé êîíôåðåíöèè. Ì.: Ðîññèéñêàÿ àêàäåìèÿ íàóê, Âû÷èñëèòåëüíûé öåíòð, 1999. Ñ. 88-90.
36.
Íåäåëüêî Â.Ì. Êðèòåðèé îöåíêè êà÷åñòâà ðåøàþùåé ôóíêöèè ïî ýìïèðè÷åñêîìó ðèñêó â çàäà÷å êëàññèôèêàöèè // Èñêóññòâåííûé èíòåëëåêò. Íàó÷íî-òåîðåòè÷åñêèé æóðíàë. ÍÀÍ Óêðàèíû. Èí-ò ïðîáëåì èñêóñò. èíòåëåêòà. Äîíåöê, 2000, 2. Ñ. 172178.
37.
Íåéìàí Þ. Ñòàòèñòè÷åñêàÿ îöåíêà êàê ïðîáëåìà êëàññè÷åñêîé òåîðèè âåðîÿòíîñòåé // Óñïåõè ìàòåì. íàóê., ò. 10, 1944, ñ. 207-229.
38.
Îáó÷àþùèåñÿ ñèñòåìû îáðàáîòêè èíôîðìàöèè è ïðèíÿòèÿ ðåøåíèé: íåïàðàìåòðè÷åñêèìé ïîäõîä / À.Â. Ëàïêî, Ñ.Â. ×åíöîâ, Ñ.È. Êðîõîâ, Ë.À. Ôåëüäìàí. Íîâîñèáèðñê: Íàóêà. Ñèáèðñêàÿ èçäàòåëüñêàÿ ôèðìà ÐÀÍ, 1996.
39.
Îóýí Ä.Á. Ñáîðíèê ñòàòèñòè÷åñêèõ òàáëèö. Ì.: ÂÖ ÐÀÍ, 1966.
40.
Ïàòðèê Ý. Îñíîâû òåîðèè ðàñïîçíàâàíèÿ îáðàçîâ /Ïåð. ñ àíãë. Ïîä. ðåä. Á.Ð. Ëåâèíà. Ì.: Ñîâ. ðàäèî, 1980.
41.
Ïîëëàðä Äæ. Ñïðàâî÷íèê ïî âû÷èñëèòåëüíûì ìåòîäàì ñòàòèñòèêè /Ïåð. ñ àíãë. Â.Ñ. Çàíäâîðîâà; Ïîä. ðåä. è ñ ïðäèñë. Å.Ì. ×åòûðêèíà. Ì.: Ôèíàíñû è ñòàòèñòèêà, 1982.
42.
Ïûòåâ Þ.Ï. Âîçìîæíîñòü. Ýëåìåíòû òåîðèè è ïðèìåíåíèÿ. Ì.: Ýäèòîðèàë ÓÐÑÑ, 2000.
43.
Ðàî Ñ.Ð. Ëèíåéíûå ñòàòèñòè÷åñêèå ìåòîäû è èõ ïðèìåíåíèå /Ïåð. ñ àíãë. Ì.: Íàêóà, 1968.
44.
Ðóäàêîâ Ê.Â. Îá àëãåáðàè÷åñêîé òåîðèè óíèâåðñàëüíûõ è ëîêàëüíûõ îãðàíè÷åíèé äëÿ çàäà÷ êëàññèôèêàöèè // Ðàñïîçíàâàíèå, êëàññèôèêàöèÿ, ïðîãíîç. Ìàòåìàòè÷åñêèå ìåòîäû è èõ ïðèìåíåíèå. Âûï. 1. Ì.: Íàóêà, 1989. Ñ. 176-200.
45.
Ñìèðíîâ Í.Â., Äóíèí-Áàðêîâñêèé È.Â. Êóðñ òåîðèè âåðîÿòíîñòåé è ìàòåìàòè÷åñêîé ñòñòèñòèêè äëÿ òåõíè÷åñêèõ ïðèëîæåíèé. Ì.: Íàóêà, 1965.
46.
Ñïðàâî÷íèê ïî òåîðèè âåðîÿòíîñòåé è ìàòåìàòè÷åñêîé ñòñòèñòèêå /Â.Ñ. Êîðîëþê, Í.È. Ïîðòåíêî, À.Â. Ñêîðîõîä, À.Ô. Òóðáèí. Ì.: Íàóêà, 1985.
47.
Òó Äæ., Ãîíñàëåñ Ð. Ïðèíöèïû ðàñïîçíàâàíèÿ îáðàçîâ /Ïåð. ñ àíãë. Ì.: Ìèð, 1978.
48.
Òèõîìèðîâà Ì.È., Ãîñòÿêîâ Â.Ï. Íîðìàëüíîå ïðèáëåæåíèå ìíîãîìåðíîãî χ2 ðàñïðåäåëåíèÿ // Òðóäû ïî äèñêðåòíîé ìàòåìàòèêå. Òîì 4. Ì.: Ôèçìàòëèò, 2001. Ñ. 259272.
49.
Óèëêñ Ñ. Ìàòåìàòè÷åñêàÿ ñòàòèñòèêà / Ïåð. ñ àíãë. Ì.: Íàóêà, 1967.
50.
Ôîìèí Â.Í. Ìàòåìàòè÷åñêàÿ òåîðèÿ îáó÷àåìûõ îïîçíàþùèõ ñèñòåì. Ë.: Èçä-âî Ëåíèíãð. óí-òà, 1976.
51.
Ôó Ê. Ïîñëåäîâàòåëüíûå ìåòîäû â ðàñïîçíàâàíèè îáðàçîâ è îáó÷åíèè ìàøèí /Ïåð. ñ àíãë. Ì.: Íàóêà, 1971.
52.
Ôèõòåíãîëüö Ã.Ì. Êóðñ äèôôåðåíöèàëüíîãî è èíòåãðàëüíîãî èñ÷èñëåíèÿ. Ò. 3. Ì.: Íàóêà, 1966.
53.
Ôóêóíàãà Ê. Ââåäåíèå â ñòàòèñòè÷åñêóþ òåîðèþ ðàñïîçíàâàíèÿ îáðàçîâ /Ïåð. ñ àíãë. Ì.: Íàóêà, Ãë. ðåä. ôèç.-ìàò. ëèò., 1979.
54.
Ôóðñîâ Â.À. Èäåíòèôèêàöèÿ ìîäåëåé ñèñòåì ôîðìèðîâàíèÿ èçîáðàæåíèé ïî ìàëîìó ÷èñëó íàáëþäåíèé. Ñàìàðà: Ñàìàð. ãîñ. àýðîêîñì. óí-ò., 1998.
55.
Õàñòèíãñ Í., Ïèêêîê Äæ. Ñïðàâî÷íèê ïî ñòàòèñòè÷åñêèì ðàñïðåäåëåíèÿì /Ïåð. ñ àíãë. À.Ê. Çâîíêèíà. Ì.: Ñòàòèñòèêà, 1990.
56.
Øìåòòåð Ë. Ââåäåíèå â ìàòåìàòè÷åñêèóþ ñòàòèñòèêó. Ì.: Íàóêà, 1976.
57.
Øîð ß.Á. Ñòàòèñòè÷åñêèå âûâîäû àíàëèçà è êîíòðîëÿ íàäåæíîñòè è êà÷åñòâà. Ì.: Ñîâ. ðàäèî, 1962.
58.
Øóðûãèí À.Ì. Ïðèêëàäíàÿ ñòîõàñòèêà: ðîáàñòíîñòü, îöåíèâàíèå, ïðîãíîç. Ì.: Ôèíàíñû è ñòàòèñòèêà, 2000.
59.
×èáèñîâ Ä.Ì., Ïàãóðîâà Â.È. Çàäà÷è ïî ìàòåìàòè÷åñêîé ñòàòèñòèêå. Ì.: Èçä-âî Ìîñê. óí-òà, 1990.
60.
ßíêî ß. Ìàòåìàòèêî-ñòàòèñòè÷åñêèå òàáëèöû. Ì.: Ãîññòàòèçäàò, 1961.
61.
Box G.E., Tiao G.C. Bayesian Inference in Statistical Analysis. Mass.: AddissonWesley, Reading, 1973.
62.
Clopper C.J., Pearson E.S. The use of confidence or fiducial limits illustrated in the case of the binominal //Biometrika 26 (1934), 404-413.
63.
Hoeffding W. Probability inequalities for sums of founded random variables // J. Amer. Statist. Assoc., 1963, Vol. 58. Pp. 1330.
64.
Jeffreys H. The Theory of Probability. Oxford: Oxford University Press, 1961.
65.
Fisher R.A. The fiducial argument in statistical inference // Annals of Eugenics, vol. 5, 1935. 391-398.
66.
Parzen E. On estimation of a probability density function and mode // Annals of Math. Statist., 1962, v. 33, 3.
67.
Neyman J. Outline of a theory of statistical estimation based on the classical theory of probability // Philos. Trans. Roy. Soc. London. Ser. A., 1937, v. 236, p. 333-380.
68.
Pearson E.S., Hartlay H.O. Biometrika tables for ststisticians, I, II. Cambridge, 1966/72.
69.
Rozenblatt M. Remarks of some non-parametric estimates of a density function // Annals of Math. Statist., 1956, v. 27, 3.
70.
Teicher H. Maximum likehood characterization of distributions // Annals of Math. Statist., 1961, vol. 32, 4.
Îãëàâëåíèå Ââåäåíèå . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Îñíîâíûå ïîíÿòèÿ è îïðåäåëåíèÿ . . . . . . . . . . . . . . . . . . . . . . . . . 2 Àíàëèòè÷åñêèå ìåòîäû ïîëó÷åíèÿ îöåíîê íàäåæíîñòè àëãîðèòìîâ êëàññèôèêàöèè . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Ïîñòàíîâêà çàäà÷è . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Äâà ïîäõîäà ê ïîñòðîåíèþ îöåíîê . . . . . . . . . . . . . . . . . . . . . . . . . 5 Òî÷å÷íûå îöåíêè . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 ×àñòîòíûé ïîäõîä . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Ìíîãîìåðíûé ñëó÷àé . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Îäíîìåðíûé ñëó÷àé . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Áàéåñîâñêèé ïîäõîä . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Îäíîìåðíûé ñëó÷àé . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Îáñóæäåíèå ïîëó÷åííûõ îöåíîê. Äðóãèå òî÷å÷íûå îöåíêè . 5.2.3 Ìíîãîìåðíûé ñëó÷àé . . . . . . . . . . . . . . . . . . . . . . . 5.2.4 Ñëó÷àé íåðàâíûõ âåñîâ ïðåöåäåíòîâ . . . . . . . . . . . . . . 6 Èíòåðâàëüíûå îöåíêè . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 ×àñòîòíûé ïîäõîä . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Îäíîìåðíûé ñëó÷àé . . . . . . . . . . . . . . . . . . . . . . . . 6.1.2 Ìíîãîìåðíûé ñëó÷àé . . . . . . . . . . . . . . . . . . . . . . . 6.2 Áàéåñîâñêèé ïîäõîä . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Ñðàâíåíèå îöåíîê, ïîëó÷åííûõ ðàçëè÷íûìè ìåòîäàìè . . . . . . . . . 6.3.1 Òî÷å÷íûå îöåíêè. . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.2 Èíòåðâàëüíûå îöåíêè. . . . . . . . . . . . . . . . . . . . . . . Ñïèñîê ëèòåðàòóðû . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 3 7 10 12 14 14 14 16 16 17 20 22 24 26 26 26 32 34 35 35 36 37