Кластеризации данных в области прикладной информатики и программной инженерии на примере зарубежного опыта и зарубежных публикаций



бет16/17
Дата15.12.2022
өлшемі177,5 Kb.
#57493
1   ...   9   10   11   12   13   14   15   16   17
Результаты обнаружения шума
Мы сравнили модули, помеченные как шум с помощью ансамблевого фильтра шума, с модулями, ошибочно помеченными экспертом по программному обеспечению в методе, основанном на кластеризации. Результаты на рисунке 3 показывают интересное соответствие между двумя наборами модулей. Ось x показывает уровень консенсуса среди 25 лассификаторов, используемых для фильтрации шума. Например, 13 означает, что модуль рассматривается как шум, если 13 или более классификаторов предсказали неправильную метку. Ось y показывает процент отзыва модулей, которые ансамбль считает шумом, то есть, сколько из них покрывается набором модулей, которые эксперт пометил неправильно.
В JM1-8850 показатели отзыва по шуму при классификации на основе экспертов с кластерами, полученными с помощью Neural-Gas, были в целом лучше, чем с кластерами на основе k-means. В KC2-520, однако, наблюдалась обратная картина. Абсолютный показатель отзыва шума при классификации на основе экспертных данных был в целом лучше для набора данных KC2-520, чем для набора данных JM1- 8850. Это указывает на то, что такие характеристики данных, как степень потенциального шума, наряду с другими факторами, влияют на производительность классификатора.
Интересно, что большинство модулей, которые были определены как шум, были среди модулей, неправильно помеченных методом кластеризации и экспертной маркировки. Хотя мы еще не знаем, какой из методов (метод фильтрации шума или метод кластеризации) был более точным для данного примера, совпадение результатов дает основания для будущих исследований по фильтрации шума с использованием методов кластеризации без наблюдения.
Данное исследование отражает наши первые исследования в области анализа на основе кластеризации для проблем оценки качества программного обеспечения.
проблем оценки качества продукции. Мы планируем продолжить обсуждение с инженерами программного обеспечения, чтобы лучше оценить преимущества анализа на основе кластеризации. Для этого мы должны дополнительно интерпретировать результаты оценки качества и обнаружения шума.
Можно создать более интерактивную систему, позволяющую инженерам-программистам исследовать данные метрик программного обеспечения, выявлять неправильно маркированные программные модули, определять недостатки и несоответствия собранных метрик программного обеспечения. Аналитики данных и специалисты по программной инженерии могут более тесно сотрудничать для построения и сбора более информативных метрик программного обеспечения.
Аналитики данных могут применять схему классификации на основе кластеризации и экспертных оценок для решения задач классификации в других областях, таких как медицинские исследования и обнаружение вторжений в компьютерные сети. В будущем они могут рассмотреть дополнительные методы кластеризации и сравнить их с методами, использованными в данном исследовании.
исследовании. Влияние количества кластеров на точность классификации также заслуживает дополнительного изучения.


Достарыңызбен бөлісу:
1   ...   9   10   11   12   13   14   15   16   17




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет