Результаты кластеризации и оценки качества В таблице 3 представлены результаты кластеризации и оценки качества. Алгоритм Neural-Gas работает значительно лучше с точки зрения средней квадратичной ошибки и сопоставимо с точки зрения среднего значения.
чистота. Однако алгоритм k-means работает гораздо быстрее. Результаты работы записаны на компьютере Pentium 4 с частотой 3,06 ГГц и 1 Гбайт памяти под управлением Windows XP.
На рисунке 2 представлены общая ошибка классификации, FPR и FNR для алгоритмов k-means и Neural-Gas в сравнении с классификатором на основе дерева решений C4.5. Мы выбрали C4.5 для сравнения, поскольку он широко используется и известен своей надежностью в плане точности классификации. Поскольку FPR и FNR находятся в обратной зависимости для данного метода классификации, мы получили результаты классификации C4.5, отрегулировав некоторые параметры (такие как глубина дерева, коэффициент обрезки и т.д.) для достижения ошибок FPR, схожих с двумя методами кластеризации.
Neural-Gas работает немного хуже для JM1-8850 и только немного лучше для KC2- 520, чем k-means с точки зрения общего коэффициента ошибок, хотя в таблице 3 приведено значительно меньшее значение MSE. Вероятно, это связано с шумом в наборах данных (неправильные метки или недостаточное количество атрибутов). Количество ошибок сравнимо с результатами C4.5, что говорит о том, что классификация качества ПО на основе кластеров и экспертов является жизнеспособным вариантом (по сравнению с контролируемым обучением), когда данные о качестве ПО недоступны.
Стоит отметить, что классификация набора данных JM1-8850 является сложной даже для многих современных классификаторов. Например, при использовании программного пакета LIBSVM (доступен по адресу www.csie.ntu.edu.tw/~cjlin/libsvm) с двукратной перекрестной проверкой, метод опорных векторов достигает общей точности только 20 процентов, при этом FPR равен 0, а FNR - 98 процентов. То есть метод векторной машины поддержки классифицирует почти все данные как не подверженные сбоям. Мы получили аналогичные результаты для KC2-520. Однако сложность классификации KC2-520 была относительно ниже, чем для JM1-8850, как показано на рисунке 2. Многообещающие результаты точности на рисунке 2 дают основания для дальнейших исследований по созданию кластерных и экспертных программных систем прогнозирования качества продукции.
Отзывы нашего эксперта показали, что результаты Neural-Gas показались более легкими для маркировки, чем результаты k-means. Мы подозреваем, что причина в том, что алгоритм Neural-Gas генерирует более связные кластеры. Это важно для реальной интерактивной системы анализа данных, поскольку эксперт будет с большей уверенностью объяснять кластеры, которые он или она получает из программных метрик.