Қазіргі кезде мәшине оқитын фонетикалық
корпустарды құрастыру үшін сөйлеу тілі
дыбыстарының орфографиялық көрінісіне
негізделген транскрипция қолданылады.
Қажеттікке қарай, просодикалық,
паралингвистикалық және т.б. бейнелейтін
мотр қосымша белгілер де транскрипция
үшін пайдаланылған. Фонетикалық
корпустарды құрастырудың қиындығына
қарамай, әлемде мұндай тұлғалы
корпустардың көптеген түрлері жасалғаны
мәлім.
Мәселен, А.В. Зубов пен И.И. Зубованың оқулығында сипатталғандай, ХХ
ғасырдың 70-жылдары АҚШ-та Х.Далем және оның әріптестері «Корпус
устной речи американского варианта английского языка» атты
фонетикалық корпус құрастырады. Бұл корпустың көлемі
психоаналитикалық сеанстар кезіндегі жазба мәтінінен алынған 1 млн.
сөзқолданыстан тұрады. Корпусты құрастырушылар иелігінде болған 15
таспаның әрбіреуінде кездейсоқтықпен сеанс мәтіндерінен таңдалып
алынған 225 жазба мәтін болған. Онда АҚШ-тың 9 қаласынан қатысқан 8
әйелдің және 21 ер адамның дауыстары жазылған. Іріктеліп алынған
жазбалар ағылшын орфографиясының стандарты негізінде
транскрипция процесінен өтеді. Айтылымдарда кездескен диалектілік
нұсқалар есепке алынбаған, танылмаған сөздер жазбада Z әріпімен
белгіленген, сол сияқты екпіндер мен сөздердің басқа да просодикалық
сипаттары ескерілмеген.
Британ ұлттықкорпусын құрастырушылардың
бірі Л. Бернардтың пайымдауынша, корпусты
құрастыру кезінде (1990-шы жылдары) ауызша
дерекөздерден 10 млн. сөзді іріктеп алу жазба
мәтіндерден іріктеп алынған 50 млн. сөзбен
Достарыңызбен бөлісу: |