26
қарман/ет/зт
ылғалда/ет/зт
қату/сн/ет
ылғалды/сн/зт
қатысты/сн/ет
ілбі/ет/зт
қашаған/сн/зт/geo
ілгерілеу/ет/сн/зт
қашау/ет/зт
іле/geo/үс/ет
қима/зт/ет
ілмек/зт/ет
электролизде/ет/зт
Əрбір
сөз табына қатысты леммалау кезіндегі қиындықтар мен мəселелер жəне
оларды шешу жолдары туралы
сөз таптары жеке сөзтізбесінің ерекшеліктері
туралы төмендегі тараушада жан-жақты айтылды.
8-кезең. Статистикалық мəлімет алу. Сөзтізбенің құрамы осы кезеңдегі
өңдеуден өткізілгеннен кейін сөздіктің статистикалық деректері мынадай форму-
ла бойынша есептелді:
Абсолютті жиіліктер қосындысы алынған мəтіндер көлеміне тең:
1
2
3
1
;
n
i
n
i
N
f
f
f
f
f
=
=
= + + + ⋅⋅⋅ +
∑
F
i
–
абсолютті жиілік.
Қатынастық жиілік:
;
i
i
f
F
N
=
Жиынтық қатынастық жиілік:
1
1
n
i
i
i
f
F
N
=
=
=
∑ ∑
.
Сөздік бірлігінің м ə т і н д і қ а м т у п а й ы з ы н ы ң пайыздық салмағы:
1
1
1
100%
100%
n
n
i
i
i
f
F
N
=
=
⋅
=
=
∑
∑
.
Көрсетілген формулалар арқылы сөздіктің статистикалық деректері мен бір
топ сөздің қайталана кездесу жиілігі негізіндегі олардың мəтінді
қамту пайызы
есептеліп, жиілік сөздікте көрсетілді.
Осы тұста
бір топ сөздің мəтінді қамту пайызы ұғымына түсінік бере кету
сөздіктің тұтынушысы үшін пайдалы болмақ. Бұл терминнің мəнін басқаша
түсіндірген болса, оны сөздік сөзтізбесіндегі қатарынан тұрған сөздердің мəтінді
түсінуге қатысты үлесінің көрсеткіші деуге де болады. Бұл көрсеткіш жеке
сөздерге ешқандай қатысы жоқ, ол басынан бастағандағы
бір топ сөзге қатысты
жиынтық көрсеткіш болып табылады.
Мəселен, жалпы əліпбилі-жиілік сөздіктегі
абадан сөзі 7 млн сөзқолданыстан
астам мəтінде небары 2 рет қолданылады, демек оның реестр басында тұрғандағы
мəтінді қамту пайызы 0,00003 – өте төмен. Сонымен бірге ол əліпбилі-жиілік
сөздікте бірінші сөз. Яғни, басқаша айтқанда, сөздіктегі
осы бірінші тұрған
сөзді ғана білу мəтіннің 0,00003 пайызын түсіну мүмкіндігін береді. Ал егер осы
бірінші тұрған сөзбен қоса
абажадай, абажурлы 2-3-сөзді де танып-білу мəтінді
түсіну пайызын сəл болса да арттыра түседі, 0, 00015 болады. Бірақ бұл өте төмен
27
көрсеткіш, 1-ге де жетпейді, себебі бұл сөздердің жиілігі өте төмен (біреуі 2 рет,
екіншісі 6 рет, үшіншісі 3-ақ рет қолданылған).
Ал жалпы жиілікті-əліпбилі
сөздікте абадан жиілігі төмен сөз ретінде соңғы
жақта 24316-ретте тұр, яғни сөздіктің бұл типіндегі сөзтізбеден бірінші тұрған,
яғни
бол сөзінен бастап осы 24316-реттегі, яғни
абадан сөзіне дейін меңгерген
адам мəтіннің 99,7 пайызын түсінеді деп жорамалдауға əбден болады. Бір топ
сөздің мəтінді қамту пайызы деген көрсеткіш осындай практикалық маңызға
ие. Төменде сөздіктің статистикалық сипаттамасында жалпы жиілікті-əліпбилі
сөздіктің негізсөз сөзтізбесінің осы көрсеткіш
бойынша кестесі берілді
13
.
9-кезең. Негізсөз жəне сөзформалар сөзтізбесін жүйеге келтіру. Негізсөз,
яғни екінші нұсқадағы
сөзтізбе əліпбилі-жиіліктік типте əзірленді. Оның
құрамында сөйлеу стиліне, бейканондық лексикаға қатысты сөздердің
орфографиялануының алуан түрлі варианттары, жаргон, диалект сөздер, яғни
бейəдеби
тілдің лексикалық бірліктер сараптама барысында өңделді, біразы
сөзтізбеден алынды.
Ал сөздік
сөзтізбесінің бірінші нұсқасында, яғни
сөзформалар тізбесінде
сөздер леммаға келтірілмеген күйде сақталды. Бұл сөзтізбені сөзформалар
құрады. Оның құрамында да жоғарыда айтылған бейəдеби тілдік бірліктер болды.
Сөзтізбенің екі нұсқасы да осындай бірліктерден тазаланды. Алайда сөзформалар
сөздігінде ішінара қиылып тасталған өте сирек қолданыстағы тым пəс стильдегі
бірліктер болмаса, бұлардың біразы сақталды.
Оның себебі сөзформаларда
сөзтүрленімнің барлық ерекшелігін қамту мақсат етілді. Екі сөзтізбедегі аздаған
айырмашылыққа қарамастан, олар ортақ принциптерге сүйеніп, құрастырылды.
Достарыңызбен бөлісу: