20
6. СӨЗДІКТІ ЖАСАУ КЕЗЕҢДЕРІ
Шартты түрде сөздіктің дайындалу үдерісін бірнеше кезеңге бөлуге болады:
1-кезең. Мəтіндік база жинақтау. Мəтіндік базаны жинақтауға
құрастырушылар ерекше жауапкершілікпен қарады. Бұл кезеңдегі жұмыстар
жоғарыда мəтін базасына қойылатын талаптарға сəйкес түрде атқарылды деуге
əбден болады.
2-кезең. Жиналған материалды қарапайым символдық талдауға икемді,
элементтерінің жиілігін шығаруға қолайлы түрге келтіру. Аталған кезеңде
құрастырушылар екі мəселені шешті. Біріншісі – мəтінді элементтері талдау мен
өңдеуге икемді түрге келтірілген символдар массивіне айналдыру.
Екіншісі – мəтінді икемдеу барысында суреттер мен кестелердің өзгеріп кет-
кен түсініксіз таңбаларынан, мағыналық жүгі
жоқ символдардан, яғни «мəтіндік
қоқыстан» тазарту. Бұл екі мəселе де жаппай барлық мəтіндерге қатысты бола
берген жоқ. Кейбір мəтіндер керекті Word форматында қолжетімді болды. Алай-
да көптеген мəтін арнайы жинақталды, электрондық нұсқасы дайын күйінде
қолымызда болмады, сондықтан оларды қағаз нұсқадан сканерлеу арқылы WORD,
PDF форматына ауыстыру кезеңі жəне ауысқан мəтіндегі «қоқыстарды» тазалау
ісіне құрастырушылардың біраз күші жұмсалды.
Мұнда да базасы цифрлен-
ген, электрондық нұсқаға салынған «Қазақ тілінің ұлттық корпусының»
қажеттілігі қатты сезілді.
3-кезең. Басқа мағыналық элементтердің жиілік сипаттамасына кедергі
келтіретіндіктен, мəтінді кейбір мағыналық жүгі бар элементтерден тазар-
ту. Жиілік шығаруға арналған базадағы тазартылуға тиісті мəтін элементтерін
шартты түрде «мағынасыз» («қоқыс») жəне «мағыналы» деп екі түрге
бөліп
алдық. «Қоқыстарға» қандай таңбалалар жататыны жоғарыдағы жұмыс кезеңінің
сипаттамасында айтылды. Ал «мағыналы» керексіз элементтерге мəтін ішіндегі
кейбір қысқартып берілген сілтемелік қана жүгі бар сөздер, мысалы: «келесі
бетті
қара», «бб.»; латын қаріптерімен терілген сөздер:
SMALL, HP, т.б.; математикалық
формулалардағы латын-грек əліпбиінің əріп-таңбалары
: β, ∞, μ, π; басқа да
таңбалар: ®, ©, 1234567890, ***, т.б.
Мұндай таңбаларды мəтіннен тазалау барысында жинақталған тəжірибе
келесі жиілік сөздіктер жасау ісін жеңілдетеді. Мəселен, осы таңбалардың, яғни
«мағыналы», «мағынасыз» керексіз элементтердің тізімдемесін жасау аса қажет.
Сонда келесі осындай жұмыстарда оларды компьютерден «іздеу» командасымен
тауып алып, босаралықпен (пробел) автоматты түрде
алмастырса, бұл кезеңге
жұмсалатын уақыт пен күш əлдеқайда азаяды.
4-кезең. Мəтіннен онимдер мен қысқарған сөздерді (аббревиатураларды)
бөлек жинау. Алғашқы екі кезең жұмыстарынан өткен мəтін ішінен Институттың
ономастика бөлімі мамандары дайындаған «Ономастикалық стандарт»
(ономастикалық атаулардың бір жүйеге түскен тізімі) негізінде табылған атаулар
теріліп алынып, бөлек жиналды. Сонымен бірге қысқарған
сөздер қолда бар тізімі
бойынша мəтіннен алынып тасталды. Алайда қолда бар стандарт пен тізімде жоқ
бұл атаулар мəтінде қалып қойғандықтан, сөзтізбеден де оларды тазалау қажет
болды.