201
За несколько лет работы совместно со студентами и магистрантами над различными
модификациями морфологического анализатора казахского языка, можно сделать вывод, что
в основе наиболее эффективного анализатора должен лежать именно комбинированный
метод его построения. Поскольку в базе данных начальных форм слов находится около 50
тысяч начальных форм слов, из которых сгенерировано более 3 миллионов словарных
статей, то в случае работы декларативного метода такое количество является недостаточным
для эффективной работы морфологического анализатора. Смею предположить, что для
эффективной работы такого метода необходимо 150 тысяч начальных форм слов и около 9
миллионов словарных статей. В сложившейся ситуации комбинированный метод позволяет
построить эффективный анализатор около 90%, остальные 10% ошибок можно устранить за
счет пополнения базы данных начальных форм слов. Данные ошибки неизбежны из-за
вхождений последовательностей символов окончаний и суффиксов друг в друга, когда их
невозможно развести явно по семантическим признакам.
Достарыңызбен бөлісу: