7-кезең.Леммаға келтіру, сөз таптарын анықтау, омонимдер мен омо- графтарды ажырату. С ө з д і к т і ң с ө з т і з б е с і н і ң алғашқы нұсқасы екі
көшірмеде сақталды. Біріншісі бойынша сөзформалар жиілігі, ал екіншісі бо-
йынша негізсөздердің жиілігі, стильдерге үлестірілген жиілік, əр стильдің жиілігі,
ортақ база мəтіні жиілігі, сөз таптарының жиілігі мен омонимдер жиілігі жасалды.
Негізсөз сөзтізбесінен, сөзформаларды қоспағанда, сөздіктің барлық 58 түрленімі
жасалды. Сондықтан оның сөзтізбесін жасау ісі аса жауапты болды. Мұнда сөздер
негіз формасына келтірілді. Сөзді л е м м а л а у , яғни леммаға (негізге) келтіру
мен сөз табын қою үдерісі бір-бірімен тығыз байланысты болғандықтан, бірге
атқарылды.
Қазақ тілінде ғана емес, əлемдік тіл білімінде жиілік сөздік құрастырудың
сан алуан əдіс-тəсілі бар. Дəстүрлі реестр сөздерді тізімдейтін басқа да кез кел-
ген сөздік түрі сияқты жиілік сөздіктер де негіз сөздер бойынша құрастырылады.
Сондықтан жиілік сөздіктер жасаудың қай тəсілін пайдаланса да, сөзформаларды
негізге келтіру (лемматизациялау) процесіне тіреліп отырады. Леммалау əрекеті
қолданбалы тіл білімі дамыған елдерде əдетте морфологиялық талдағыш
көмегімен автоматты түрде жасалады. Алайда морфологиялық талдағышта сөз
табы қойылмаған көптеген сөзді негізге келтіру кезінде олардың қай сөз табы-
на жататынын анықтау қиынға соқты, тізімі алдыңғы (бесінші) кезеңде жаса-
лып қойған мұндай сөздер құрастырушылардың қолын біраз ұстады. Мəселен,
ағын сөзінің ақ+ын/ТС табыс септігіндегі субстантивтенген сын есімдік
қолданысы (мысалы, ағын таңдады) мен ағын зат есімдік қолданысын (мыса-
лы, ағын су) ажырату үшін сөздіктің құрастырушылары оларды мəтіннен тексе-
ру жұмыстарымен отырды. Мұндай тексеру сөздіктің сапасын едəуір жақсартты,
статистикалық мəліметтерінің дəлдік деңгейін арттырды. Сөйтіп, сөздіктегі
сөздерді леммаға келтіру барысында ал (сын есім) – ал (етістік), жаз (етістік) –
жаз (зат есім), кез (етістік) – кез (зат есім) сияқты г р а м м а т и к а л ы қ о м о - н и м д е р 12
мен ағартушы (ағарт/ет+ушы жəне ағартушы/зт), адымдай (адым- да/ет+й жəне адымдай/сн), айнала (айнал/ет+а жəне айнала/зт) сияқты кейбір