позволяющее более точно проводить идентифицикацию. В настоя-
щей работе МГЭ распространяется на случай задачи прогнозиро-
вания эффективности нескольких методик. Ниже подробно рас-
сматривается случай двух методик. В результате строится несколь-
ко прогностических групп, для каждой из которых дается прогноз
оценки эффективности той или иной методики.
Предлагаемый подход описывается на примере задачи обучения
с помощью двух методик обучения, однако он может применяться
к решению различных задач: прогнозирование эффективности ле-
чения некоторой болезни тем или иным лечебным препаратом, про-
гнозирование эффективности применения или неприменения химио-
терапии для лечения онкологических больных, прогнозирование эф-
фективности той или иной системы тренировок спортсменов или той
или иной системы обучения разным наукам или профессиям.
Проведенная проверка на некоторых известных базах данных, а
также на базах данных, полученных автором для различных мето-
дик тренировок спортсменов, дает обнадеживающие результаты.
2. Задача идентификации. Задачу идентификации можно
сфоpмулиpовать следующим обpазом. Пусть заданы множества A ⊂
R
n
и B ⊂ R
n
.
198
Положим C = A∪B. Тpебуется найти пpавило, называемое пpави-
лом идентификации или pешающим пpавилом (РП), с помощью ко-
тоpого можно идентифициpовать точки множества C. Обычно иден-
тификация пpоводится с помощью некотоpого функционала, назы-
ваемого идентификатоpом, следующим обpазом: если f : R
n
→ R
– идентификатоp и c ∈ C, то точка c "пpиписывается" к (считается
пpинадлежащей) множеству A, если f (c) ≥ 0, и к множеству B, если
f (c) < 0.
Может оказаться, что некотоpые точки множества C невеpно
идентифициpованы идентификатоpом f . Чеpез A
+
(f ) ⊂ A обозна-
чим подмножество точек множества A, котоpые пpавильно иден-
тифициpованы идентификатоpом f , а чеpез A
−
(f ) ⊂ A – подмно-
жество точек множества A, котоpые невеpно идентифициpованы
идентификатоpом f . Аналогично, чеpез B
+
(f ) ⊂ B обозначим под-
множество точек множества B, котоpые пpавильно идентифициpо-
ваны идентификатоpом f , а чеpез B
−
(f ) ⊂ B – подмножество то-
чек множества B, котоpые невеpно идентифициpованы идентифи-
катоpом f . Заметим, что A
+
(f ) ∪ A
−
(f ) = A, B
+
(f ) ∪ B
−
(f ) = B.
Качество пpавила идентификации (или качество идентифика-
тоpа f ) можно измеpять, напpимеp, количеством невеpно иденти-
фициpованных точек. Если каждое из множеств A и B содеpжит
конечное число точек, то можно взять один из следующих кpитеpи-
ев:
ϕ
1
(f ) = |A
−
(f )| + |B
−
(f )|,
ϕ
2
(f ) =
|A
−
(f )|
|A|
+
|B
−
(f )|
|B|
,
ϕ
3
(f ) = max |A
−
(f )|, |B
−
(f )| ,
ϕ
4
(f ) = max
|A
−
(f )|
|A|
,
|B
−
(f )|
|B|
.
Здесь |A| – количество точек в множестве A. Если F – семейство
идентификатоpов, а ϕ(f ) – выбpанная кpитеpиальная функция, то
задача идентификации может быть сфоpмулиpована так:
Найти f
∗
∈ F такое, что
ϕ(f
∗
) = min
f ∈F
ϕ(f ).
199
Если A ∩ B = ∅, то, в пpинципе, можно постpоить функционал, ко-
тоpый пpавильно идентифициpует все точки множества C. Однако
практического значения такой идентификатор не имеет, поскольку
для другой генеральной выборки такой идентификатор не годится.
Если же A ∩ B = ∅, то самый лучший идентификатоp может
идентифициpовать только точки множества (A ∪ B) \ (A ∩ B).
Множество A ∩ B пpедставляет собой множество существенно
неидентифициpуемых точек.
Для постpоения пpавил идентификации используются pазличные
методы (см., напpимеp, [3–7]).
3. Задача прогнозирования. Предположим, что существуют
две методики обучения, например, китайскому языку. Назовем их
"Методика 1" (М1) и "Методика 2" (М2). Пусть известны результа-
ты применения этих методик к двум группам учащихся, каждая из
которых представляет собой репрезентативную выборку из общего
числа учащихся. Каждый учащийся представлен точкой в n-мерном
пространстве. Координатами точки являются данные об этом уча-
щемся: пол, вес, рост, оценки по разным предметам, данные психоло-
гических и других тестов, быстрота реакции, способность к запоми-
нанию и т.п.
Итак, пусть даны множества Ω
1
⊂ R
n
и Ω
2
⊂ R
n
. Будем так-
же считать, что каждое из множеств содержит конечное количество
точек. В свою очередь, Ω
1
= A
1
∪ B
1
,
Ω
2
= A
2
∪ B
2
, где
A
1
= {a
1i
∈ R
n
| i ∈ I
1
},
B
1
= {b
1j
∈ R
n
| j ∈ J
1
},
I
1
= 1 :
N
11
,
J
1
= 1 : N
12
,
A
2
= {a
2i
∈ R
n
| i ∈ I
2
},
B
2
= {b
2j
∈ R
n
| j ∈ J
2
},
I
2
= 1 :
N
21
,
J
2
= 1 : N
22
.
Множество Ω
1
– это множество точек (учащихся), обучавшихся
языку по методике М1, а множество Ω
2
– это множество учащихся,
обучавшихся языку по методике М2. Множество A
1
– это множе-
ство точек (учеников) из множества Ω
1
, для которых методика М1
оказалась успешной (обучение было результативным), а множество
B
1
– это множество точек (учеников) из множества Ω
1
, для которых
методика М1 оказалась неуспешной (их не удалось научить языку).
Аналогично, множество A
2
– это множество точек (учеников) из
множества Ω
2
, для которых методика М2 оказалась успешной (обу-
чение было результативным), а множество B
2
– это множество точек
(учеников) из множества Ω
2
, для которых методика М2 оказалась
200
неуспешной (их не удалось научить языку).
Теперь предположим, что нам известны идентификаторы f
1
:
R
n
→ R и f
2
: R
n
→ R. Идентификатор f
1
идентифицирует точ-
ки множеств A
1
и B
1
по описанному в п. 2 правилу: если c ∈ Ω
1
, то
точка c "пpиписывается" к (считается пpинадлежащей) множеству
A
1
, если f
1
(c) ≥ 0, и к множеству B
1
, если f
1
(c) < 0.
Идентификатор f
2
идентифицирует точки множеств A
2
и B
2
по
правилу: если c ∈ Ω
2
, то точка c считается пpинадлежащей множе-
ству A
2
, если f
2
(c) ≥ 0, и множеству B
2
, если f
2
(c) < 0.
Естественно предполагать, что идентификаторы f
1
и f
2
доста-
точно "хорошие": они успешно в том или ином смысле разделили
соответствующие множества A
1
и B
1
(идентификатор f
1
), A
2
и B
2
(идентификатор f
2
). Качество прогнозирования существенно зави-
сит от качества имеющихся идентификаторов.
Пpедположим, что A
1
∩ B
1
= ∅, A
2
∩ B
2
= ∅ (множества не имеют
общих точек). Положим
Q
11
= {x ∈ R
n
|f
1
(x) ≥ 0},
Q
12
= {x ∈ R
n
|f
1
(x) < 0},
Q
21
= {x ∈ R
n
|f
2
(x) ≥ 0},
Q
22
= {x ∈ R
n
|f
2
(x) < 0}.
Очевидно,
Q
11
∩ Q
12
= ∅,
Q
11
∪ Q
12
= R
n
,
Q
21
∩ Q
22
= ∅,
Q
21
∪ Q
22
= R
n
.
В результате, пространство R
n
окажется разделенным на 4 непе-
ресекающиеся части:
C
++
= Q
11
∩ Q
21
, C
+−
= Q
11
∩ Q
22
, C
−+
=
Q
12
∩ Q
21
, C
−−
= Q
12
∩ Q
22
.
4. Исследование множеств Ω
1
и Ω
2
методом главного экс-
перта. Вначале изучим множество Ω
1
. Построим множества C
++
11
=
A
1
∩C
++
,
C
+−
11
= A
1
∩C
+−
,
C
−+
11
= A
1
∩C
−+
,
C
−−
11
= A
1
∩C
−−
,
C
++
12
= B
1
∩ C
++
,
C
+−
12
= B
1
∩ C
+−
,
C
−+
12
= B
1
∩ C
−+
,
C
−−
12
=
B
1
∩ C
−−
. Положим
p
++
1
=
|C
++
11
|
|C
++
11
| + |C
++
12
|
,
p
+−
1
=
|C
+−
11
|
|C
+−
11
| + |C
+−
12
|
,
p
−+
1
=
|C
−+
11
|
|C
−+
11
| + |C
−+
12
|
,
p
−−
1
=
|C
−−
11
|
|C
−−
11
| + |C
−−
12
|
.
Величина p
++
1
представляет собой вероятность успешного обуче-
ния ученика, "попавшего"в множество C
++
, с помощью методики
201
M1; величина p
+−
1
представляет собой вероятность успешного обу-
чения ученика, "попавшего"в множество C
+−
, с помощью методики
M1; величина p
−+
1
представляет собой вероятность успешного обу-
чения ученика, "попавшего"в множество C
−+
, с помощью методики
M1; наконец, величина p
−−
1
представляет собой вероятность успеш-
ного обучения ученика, "попавшего"в множество C
−−
, с помощью
методики M1.
Описанный метод представляет собой метод главного эксперта (в
частном случае наличия только двух экспертов).
Теперь проведем аналогичное исследование множества Ω
2
этим
же методом. Для этого построим множества
C
++
21
= A
2
∩ C
++
,
C
+−
21
= A
2
∩ C
+−
,
C
−+
21
= A
2
∩ C
−+
,
C
−−
21
= A
2
∩ C
−−
,
C
++
22
= B
2
∩ C
++
,
C
+−
22
= B
2
∩ C
+−
,
C
−+
22
= B
2
∩ C
−+
,
C
−−
22
= B
2
∩ C
−−
.
Положим
p
++
2
=
|C
++
21
|
|C
++
21
| + |C
++
22
|
,
p
+−
2
=
|C
+−
21
|
|C
+−
21
| + |C
+−
22
|
,
p
−+
2
=
|C
−+
21
|
|C
−+
21
| + |C
−+
22
|
,
p
−−
2
=
|C
−−
21
|
|C
−−
21
| + |C
−−
22
|
.
Величина p
++
2
представляет собой вероятность успешного обуче-
ния ученика, "попавшего"в множество C
++
, с помощью методики
M2; величина p
+−
2
представляет собой вероятность успешного обу-
чения ученика, "попавшего"в множество C
+−
, с помощью методики
M2; величина p
−+
2
представляет собой вероятность успешного обу-
чения ученика, "попавшего"в множество C
−+
, с помощью методики
M2; наконец, величина p
−−
2
представляет собой вероятность успеш-
ного обучения ученика, "попавшего"в множество C
−−
, с помощью
методики M2.
Теперь можно сформулировать полученную методику прогнози-
рования для ученика c:
1. Если он попал в группу C
++
, т.е. c ∈ C
++
, то при p
++
1
> p
++
2
считаем, что этому ученику следует учиться по методике M1
(при этом вероятность успеха равна p
++
1
), а при p
++
1
< p
++
2
считаем, что данному ученику следует учиться по методике
M2 (при этом вероятность успеха равна p
++
2
);
202
2. Если он попал в группу C
+−
, т.е. c ∈ C
+−
, то при p
+−
1
> p
+−
2
считаем, что этому ученику следует учиться по методике M1
(при этом вероятность успеха равна p
+−
1
), а при p
+−
1
< p
+−
2
считаем, что данному ученику следует учиться по методике
M2 (при этом вероятность успеха равна p
+−
2
);
3. Если он попал в группу C
−+
, т.е. c ∈ C
−+
, то при p
−+
1
> p
−+
2
считаем, что этому ученику следует учиться по методике M1
(при этом вероятность успеха равна p
−+
1
), а при p
−+
1
< p
−+
2
считаем, что данному ученику следует учиться по методике
M2 (при этом вероятность успеха равна p
−+
2
);
4. Если он попал в группу C
−−
, т.е. c ∈ C
−−
, то при p
−−
1
> p
−−
2
считаем, что этому ученику следует учиться по методике M1,
при этом вероятность успеха равна p
−−
1
, а при p
−−
1
< p
−−
2
счи-
таем, что данному ученику следует учиться по методике M2
(при этом вероятность успеха равна p
−−
2
).
Положим
p
++
= max{p
++
1
, p
++
2
},
p
+−
= max{p
+−
1
, p
+−
2
},
p
−+
= max{p
−+
1
, p
−+
2
},
p
−−
= max{p
−−
1
, p
−−
2
},
m
++
1
= |C
++
11
| + |C
++
12
|,
m
++
2
= |C
++
21
| + |C
++
22
|},
m
+−
1
= |C
+−
11
| + |C
+−
12
|,
m
+−
2
= |C
+−
21
| + |C
+−
22
|},
m
−+
1
= |C
−+
11
| + |C
−+
12
|,
m
−+
2
= |C
−+
21
| + |C
−+
22
|},
m
−−
1
= |C
−−
11
| + |C
−−
12
|,
m
−−
2
= |C
−−
21
| + |C
−−
22
|}.
Тогда прогнозируемое количество учеников из множества Ω
1
, успеш-
но прошедших обучение по оптимальной для них методике, равно
u
∗
1
= m
++
1
p
++
+ m
+−
1
p
+−
+ m
−+
1
p
−+
+ m
−−
1
p
−−
,
а прогнозируемое количество учеников из множества Ω
2
, успешно
прошедших обучение по оптимальной для них методике, равно
u
∗
2
= m
++
2
p
++
+ m
+−
2
p
+−
+ m
−+
2
p
−+
+ m
−−
2
p
−−
.
Нетрудно видеть, что u
∗
1
≥ |A
1
|, а u
∗
2
≥ |A
2
|.
Еще раз отметим, что сделанные выводы справедливы, если мно-
жества Ω
1
и Ω
2
представляют собой репрезентативные выборки из
203
общего количества учащихся. Если имеющиеся базы данных не явля-
ются репрезентативными выборками, их можно сделать таковыми,
удалив часть точек (при условии, что количество точек в этих ба-
зах достаточно велико). Естественно предполагать, что множество
Ω
1
∪ Ω
2
представляет собой репрезентативную выборку, и эту выбор-
ку и следует сравнивать с множествами Ω
1
и Ω
2
при оценке того,
являются ли они репрезентативными выборками.
Описанный подход может быть обобщен на случай наличия k
методик обучения или лечения. В этом случае пространство R
n
и
множества Ω
1
и Ω
2
делятся не на 4, а на 2
k
частей.
Литература
1. Демьянова В.В. Метод главного эксперта в задачах идентифи-
кации // Устойчивость и процессы управления: Труды междун.
конф., посвященной 75-летию со дня рождения В.И. Зубова. Рос-
сия, СПб, 29 июня – 1 июля 2005 г. / Под ред. Д.А. Овсянникова,
Л.А. Петросяна. – СПб.: СПбГУ, НИИ ВМ и ПУ, ООО ВВМ, 2005.
Т. 2. С. 815–822.
2. Demyanova V.V. The principal expert method in data mining //
Applied comput. math., 2005. V. 4, № 1. P. 70–74.
3. Bagirov A.M., Rubinov A.M., Soukhoroukova N.V., Yerwood J.
Unsupervised and supervised data classification via nonsmooth and
global optimization // Top, 2003. V. 11, № 1. P. 1–93.
4. Bennett K.P., O.L. Mangasarian O.L. Robust linear programming
discrimination of two linearly inseparable sets // Optimization
methods and software, 1992. V. 1, № 1. P. 22–34.
5. Kokorina A.V. Ranking the parameters in the mathematical
diagnostics problems // Comments to the paper, 2002. P. 86–89.
6. Yuh-Jye Lee, O.L.Mangasarian O.L. SSVM: a smooth support
vector machine for classification // Computational optimization and
applications, 2001. V. 20, №. 1. P. 5–22.
7. Vapnik V. The nature of statistical learning theory. New York:
Springer-Verlag, 2000. 343 p.
204
Житкова Е.М., Колесин И.Д.
Санкт-Петербургский государственный университет
Восстановление параметров эпидемиологической
модели по данным измерения заболеваемости
и выздоравливаемости
Постановка задачи. Развитие эпидемии описывается уравне-
ниями Кермака – Мак-Кендрика [1]:
dN
1
dt
= −aN
1
N
2
,
dN
2
dt
= aN
1
N
2
− βN
2
,
dN
3
dt
= βN
2
,
N
1
+ N
2
+ N
3
= const,
где N
1
, N
2
, N
3
— число восприимчивых, больных, иммунных. При
наличии данных наблюдения эта модель может быть идентифици-
рована и использована как средство прогноза. Для наблюдения за
развитием эпидемии обычно используется характеристика "суточ-
Достарыңызбен бөлісу: |