8. СӨЗДІК СТАТИСТИКАСЫ
Негізсөз сөзтізбесінің статистикасы
Негізсөз сөзтізбесінде барлығы 36265 бірлік бар. Бұл тілтанымдық сарапта-
мадан кейін біраз сөздермен қысқартылғаннан кейінгі соңғы құрам. О бастағы
сөзтізбедегі сөздер саны бұдан əлдеқайда көп болған: онимдер – топонимдер, ан-
тропонимдер, сондай-ақ жиілігі 1 ғана болған мағынасы күңгірт, диалектілік, пəс
стильдік қолданыстар, ауызекі сөйлеудің өзінде сирек кездесетін жаргондар мен
варваризмдер, ұлттық тілде баламасы бар орыс сөздері алынып тасталды.
Сөз басындағы əріптерге қатысты сөз статистикасы. Төмендегі кестеде
əрбір əріптен басталатын сөздердің саны берілген. Іздеуге оңай болу үшін 6-кес-
теде əріптер əліпби ретімен орналасса, 7-кестеде сөз санының кему тəртібімен
берілді.
6-кесте.
Жалпы əліпбилі-жиілік сөздіктегі əрбір əріптен басталатын
сөздердің рет саны мен мөлшері:
Əріп
Əліпбилі-жиілікті
сөздік реестріндегі
орны
Барлығы,
сөз саны
Мəтінді қамту пайызы
(%)
А
1 – 2976
2976
7,72928
Ə
2977 – 3670
693
2,22661
Б
3671 – 6299
2628
12,86481
В
6300 – 6429
129
0,0801
Г
6430 – 7055
625
0,28946
Ғ
7056 – 7225
169
1,40439
Д
7226 – 8738
1512
3,67772
Е
8739 – 9549
810
4,22051
Ж
9550 – 12037
2487
8,96265
З
12038 – 12406
368
0,8877
45
И
12407 – 13102
696
0,63203
Й
13103 – 13110
7
0,00255
К
13111 – 15825
2714
7,45765
Қ
15826 – 19331
3505
9,57542
Л
19332 – 19621
289
0,22798
М
19622 – 21429
1807
5,24786
Н
21430 – 21879
449
1,50542
О
21880 – 22669
789
4,65901
Ө
22670 – 23208
538
2,871923
П
23209 – 24245
1036
1,25142
Р
24246 – 24823
577
1,28002
С
24824 – 28040
3216
6,95548
У
31506 – 31661
155
0,23443
Ұ
31662 – 32156
494
1,48655
Ү
32157 – 32572
415
1,49494
Ф
32573 – 33011
438
0,30424
Х
33012 – 33289
277
0,68465
һ
33290 – 33291
2
0,00072
Ц
33292 – 33385
93
0,02925
Ч
33386 – 33402
16
0,01211
Ш
33403 – 34951
1548
2,05353
Щ
34952
1
0,00008
Ы
34953 – 35314
361
0,24372
І
35315 – 35563
248
0,86351
Э
35564 – 36243
679
0,35590
Ю
36244 – 36246
3
0,05766
Я
36247 – 36265
18
0,01634
7-кесте.
Жалпы əліпбилі-жиілік сөздіктегі əрбір əріптен басталатын
кему ретімен берілген сөз саны:
Əріп
Əліпбилі-жиілікті
сөздік реестріндегі
орны
Барлығы,
сөз саны
Мəтінді қамту пайызы
(%)
Қ
15826 – 19331
3505
9,57542
Т
28041 – 31503
3462
9,47815
С
24824 – 28040
3216
6,95548
А
1 1–
2976
2976
7,72928
К
13111 – 15825
2714
7,45765
Б
3671 – 6299
2628
12,86481
Ж
9550 - 12037
2487
8,96265
М
19622 – 21429
1807
5,24786
Ш
33403 – 34951
1548
2,05353
Д
7226 – 8738
1512
3,67772
46
П
23209 – 24245
1036
1,25142
Е
8739 – 9549
810
4,22051
О
21880 – 22669
789
4,65901
И
12407 – 13102
696
0,63203
Ə
2977 – 3670
693
2,22661
Э
35564 – 36243
679
0,35590
Г
6430 – 7055
625
0,28946
Р
24246 – 24823
577
1,28002
Ө
22670 – 23208
538
2,871923
Ұ
31662 – 32156
494
1,48655
Н
21430 – 21879
449
1,50542
Ф
32573 – 33011
438
0,30424
Ү
32157 – 32572
415
1,49494
З
12038 – 12406
368
0,8877
Ы
34953 – 35314
361
0,24372
Л
19332 – 19621
289
0,22798
Х
33012 – 33289
277
0,68465
І
35315 – 35563
248
0,86351
Ғ
7056 – 7225
169
1,40439
У
31506 – 31661
155
0,23443
В
6300 – 6429
129
0,0801
Ц
33292 – 33385
93
0,02925
Я
36247 – 36265
18
0,01634
Ч
33386 – 33402
16
0,01211
Й
13103 – 13110
7
0,00255
Ю
36244 – 36246
3
0,05766
һ
33290 – 33291
2
0,00072
Щ
34952
1
0,00008
Жоғарыдағы кестеде қазақ əріптерінің ішінде Қ-дан басталатын сөздің көп
екені байқалады. Демек, Қ дыбысынан басталатын түбірлердің сөзжасамдық аясы
кең екені аңғарылады. Сол сияқты И, К, Г, П, Э, Ф дыбысынан басталатын сөз
санының көп болуы бұлардың айтарлықтай бөлігін шет тілінен енген терминдер
құрайтынымен байланысты.
Кестедегі қызықты көрініс ретінде С жəне Б дыбыстарынан басталатын сөз
саны мен мəтінді қамту пайызына қатысты мəліметтерді келтіруге болады. Мұнда
Б дыбысынан басталатын сөз саны жағынан кестеде алдына Қ, Т, С, А, К əріптерін
жіберіп, өзі алтыншы орында (2628 сөз) тұрса да, барлық əріп ішінде осы дыбыс-
тан басталатын сөздердің мəтінді қамту пайызы ең жоғары көрсеткішті беріп тұр –
12,8648, демек, осы дыбыстан басталған сөздердің мəтін ішіндегі қолданылу
жиіліктері өз алдында тұрған саны көп дыбыстарға қарағанда жоғары болған. Яғни
осы дыбыстан басталатын сөздердің ішінде Қ-дан басталатын сөздерге қарағанда
белсенді лексикалық қабаттағы сөздер көбірек болса керек. Ал С əрпінен баста-
латын сөздер саны жағынан Қ мен Т əрпінен басталатын сөздерден кейін үшінші
орында тұр (3462 сөз), алайда оларды мəтінді қамту пайызы небары 6,95548, яғни
өзінің маңындағы алғашқы орындарда тұрған əріптердің көрсеткішінен азырақ,
47
демек, осы сөзден басталатын сөздер көп болғанымен, олардың біразының
белсенді лексикалық қабатқа кірмей тұрғаны анық.
Сөздердің жиілігіне қатысты статистикасы. Жалпы жиілікті-əліпбилі сөздік
(негізсөздердің) сөзтізбесіндегі 36265-нан құралған барлық сөздің біріншісінен
( бол етістігінен) бастап 1060-сөзі 7 миллион сөзқолданыстан тұратын мəтін ба-
засында 108 133 реттен бастап 1000 ретке дейінгі жиілікте қолданылған. Яғни
ең жоғары жиіліктен бастап 1000 реттік жиілікпен небары 1060 сөз ерекшелен-
ген. Бұл осы мың алпыс сөздің белсенді лексикалық қабаттың бірліктері екенін
аңғартады. Осылай сөзтізбедегі сөздерді жиілік деңгейі бойынша таптастырса,
мынадай мəлімет көрінеді (8-кестені қараңыз).
8-кесте.
Достарыңызбен бөлісу: |