Аударманың Өзекті мәселелері алматы, 2015

жүктеу/скачать 2,17 Mb.

Pdf көрінісі

бет	39/103
Дата	23.10.2022
өлшемі	2,17 Mb.
	#45033
түрі	Бағдарламасы

1 ... 35 36 37 38 39 40 41 42 ... 103

Байланысты:
audarmanyng ozektigi Kulmanov

Трансформациялық машиналық аударма

Тікелей бинарлық аударма машиналық аударманың «ескі»
жүйелерінен орын алса да, сол қалыпта машиналық аударманың
көптеген практикалық жүйелерінің негізгі стратегиясына

117
айналып отыр. Мұндай тәсіл нақты тілдік жұпқа, яғни қос
тілдерге бағышталады (GAT, SYSTRAN жүйелері және олардың
дереваттары Бүкілодақтық аударма орталығында зерттелген
АРМАС жүйесі). Бинарлық аударма әрекеті кезінде сегменттердің
шекарасын анықтау мен омонимияны мәнмәтінге қатысты ажырату
негізінде сөйлемдерге қарапайым өзгертулер (трансформация)
жүргізіледі.
Бұрынырақ зерттелген машиналық аударма жүйесін құрастыру
тәжірибесі мен оны пайдалану тиімділігі, олардағы аса күшті
сөздіктер қоры мен арнайы түзету (редакциялау) тәсілдерінің
негізінде деуге болады. Оған Джорджтаун университетінің
GAT жүйесі мен оның түрлі варианттық жүйелері мысал бола
алады. Бірақ жеке лексика-морфологиялық және семантика-
синтаксистік ішкі құрылымдар (подструктуры) негізінде іске
асатын тікелей бинарлық сәйкестендіру жүйенің лингвистикалық
және программалық жабдықталуын тек нақты тілдер жұбының
ерекшеліктеріне ғана бағыштап қоймай, сонымен бірге ішкі
тілдердің (подъязык) айырым-белгілеріне де қатаң түрде көңіл
бөлуді қажет етеді. Егер тіл жұптарының бір сыңары басқа бір тілге
ауыстырылса, іле-шала лингвистикалық, ал кейбір жағдайларда
программалық жабдықтауларды да қайта құру қажет болады.
Трансформациялық машиналық аударма (трансфер
арқылы аударма) әдісі де машиналық аударма дамуының екінші
кезеңінде қолданылып, сынақтан өтті. Трансферді пайдаланатын
бұл стратегияны қолдану – түрлі тілдердің мәтіндеріне тікелей
қатысы бар жазбаларды жүзеге асырудың мүмкін еместігі
жөніндегі теориялық болжамға негізделеді. Мұндай байланыс
түрі әртүрлі деңгейдегі жалғас жұмсалымдар жолымен анықталуы
мүмкін: лексикалық, морфологиялық, синтаксистік құрылымдар
деңгейінде (конфигурациялық және реляциондық синтаксис
терминдерімен) және синтаксис деңгейінде сипаттау. Түрлі
деңгейдегі талдаулар кезінде «кіретін» сөйлемнің құрылысын
сипаттайтын трансферді пайдалану бағыныңқы таралымнан
базалық грамматикалық бірліктер ретіндегі басты астырт
құрылымға (к глубинной ролевой структуре) біртіндеп өтуді
көздейді және одан әрі «шығатын» бағыныңқы таралымға өтеді.
Мұндай кезде тек белгілі бағыныңқы таралымға қатысты қайта

118
құру әрекеті сөйлемнің толық түсінігінің моделін құрастырмай-ақ
машиналық аударма жасауға мүмкіндік тудырады. Бұл мәселенің
шешімін табу машиналық аударма кезінде міндетті емес, өйткені
астырт (глубинной) семантикалық-синтаксистік құрылымдарға
түсініктеме беру тұтынушының үлесіне қалдырылады, яғни
ЭЕМ-нан шыққан аудармамен әрі қарайғы жұмыс істейтін маман
аудармашының үлесіне тиеді. Трансферді қолданудың мұндай
тәсілі көптеген шетел ұжымдарымен бірге машиналық аударма
жүйесін қолданатын бірқатар ресейлік ұжымдарға да тән болып
келді.
Аталған жүйелерде аударманың негізгі үш сатысын бөліп
айтуға болады: талдау (анализ), трансфер және жинақтау (синтез).
Әрбір саты жүйелі субпроцестер түрінде орындалады. Мәселен,
жоғарыда аталған SUSY атты жүйеде талдау әрекеті 8 субпроцесті
қамтиды. Нәтижесінде талдауға қатысты «кіретін» сөйлемнің
таралымы құрастырылады және «шығатын» сөйлемнің таралымы
жайлы мәлімет 8 субпроцессордан тұратын трансфер түрінде
көрініс табады. Талдау кезеңінде бұл таралым үш субпроцестің
өзара әрекеттесуінің нәтижесінде аралық-тілдегі сөйлем түріне
қайта келтіріледі. Осыған ұқсас тәсілдер трансфермен әрекет ететін
басқа да жүйелер түрлерінде қолданылады: CADA, GETA, TAUM-
METEO, жапон жүйесі, EUROTRA жүйесі, Ресейдегі СИЛОД
(MULTIS) жүйесі, А.И.Герцен атындағы РГПУ-да зерттелген
ФРАП, АРАП, ЭТАП, ЭТАП-2, STYLUS және т.б.
Еуропалық экономикалық бірлестіктің айрықша комиссиясы
жанында 1982 жылы машиналық аударманың дамуының үшінші
кезеңінде ұсынылған EUROTRA жүйесінің негізі қаланды. Аталған
жүйенің тілдері: ағылшынша, французша, немісше, итальянша,
испанша, португалша, голландша, датша, жаңагрекше. Бұл жоба
БЭЖ (ЕЭС) елдерінің тоғыз ресми тілі үшін машиналық аударма
жүйесін құруды және 72 тілдің жұбы бойынша аударма жасау
қарастырылды.
Аталған тілдердің қайсысын болса да аударуға қажетті талдауда
интерфейстік көрініс деп аталатын синтаксистік қатынастардың
семантикалық түсінігі беріледі. Мәтін семантикалық бағының-
қылықтардың түзілістері арқылы көрініс табады. Мысалы, олар
астырт септігі типінде (типа глубинных падежей) болуы мүмкін.

119
Бұл жерде арнайы атап кетуге тұрарлықтай жайт – бір тілдің
интерфейстік құрылымының басқа тілдегі осындай құрылыммен
сәйкес келмеуі және осыған қарамай трансферді қолдануға қажетті
мүмкіндіктің туатындығы. Сонымен, ана тілінің аясында аударма
жасайтын әрбір маман талдау мен жинақтау тәсілдерінен басқа
трансфердің 8 түрлі процедурасын да құра білуі қажет.
Жобаның мақсаты – өндірістік машиналық аударма жүйесінің
бастапқы үлгісін жасау. EUROTRA жүйесінде іске асатын
трансфердің ерекшелігі, оның қадамдап әрекет етуі. Әрбір
қадамды жасаудан бұрын алдыңғы қадамдағы әрекеттердің бұрыс
нәтижелері «тазартылады».
Трансферді пайдаланатын жүйелерге ЭТАП-2 атты жүйе де
жатады [27]. Бұл жүйе ағылшынша-орысша машиналық аударма
жасай алады. Бұл идеологиялық тұрғыдан қарастырғанда
ИНФ-ЭЛ жүйесінің жетілген түрі және айрықша сөздіктермен
жабдықталған – нақты бір пәндік салаға арналған, ұластыруға
негізделген (комбинаторлық) автоматты сөздік. Зерттеушілер
мұндай «тәуелсіздік» мүмкіндігін тілдік модельдің жан-жақты
зерттелуімен байланыстырады.
Трансфердің барлық ережелері жүйе ішінде жалпылық, жекелік
(трафареттік) және сөздіктік деп үшке бөлініп қарастырылады.
Жүйеде 45 жай (элементарлық) предикат пен 5 синтаксистік
қатынас орын алған. Сүзгіден өткізу тетігі (механизмі) мен жоғары
баға беру ережелері ұсынылған синтаксистік болжамдар ішінен
тек біреуіне ғана артықшылық беруге мүмкіндік туғызады.
Трансферді қолдану талдаудың әртүрлі деңгейінде «кіретін»
сөйлемнің құрылымын сипаттайтын ішкі тармақтардан
(поддеревья) базалық грамматика берілісін қолданатын астырт
басты құрылымға (к глубинной ролевой структуре) жүйелі түрде
көшу жолы мен одан әрі қарай «шығатын» ішкі таралымдарға көшу
әрекеті қарастырылған. Осындай жағдайда белгілі ішкі тармақтар
үшін қайта құру әрекеттері сөйлем түсінігін модельдемей-ақ,
машиналық аударма жасауға мүмкіндік тудырады. Ұғынуды
модельдеу міндеті машиналық аударма мәселесінен тыс жатады,
өйткені машиналық аударма мәселесіндегі астырт (глубинный)
түсініктеме алу адам үлесіне, яғни нақты пәндік сала маманына
жүктелетіні жоғарыда айтылды.

120
Трансфер арқылы машиналық аударма жүйелерін іске қосатын
мұндай тәсіл машиналық аударма жүйесі дамуының екінші
кезеңінде пайда болған СИЛОД жүйесінде де қолданыс тапты.
Қазіргі кезде SILOD-MULTIS көптілді жүйе дербес компьютерлерде
аударма жұмысын атқарады. Машиналық аударманың барлық
процесі лексика-морфологиялық және семантика-синтаксистік
субпроцестердің композициясы ретінде SILOD-MULTIS жүйесінде
модельденеді. Лексика-морфологиялық талдау кезінде мәтіндер
мен сөздік бірліктерін сәйкестендіру жұмысы жүргізіледі және
сонымен бірге автоматты сөздік топтамасынан сөздікке қатысты
ақпараттар шығарылып алынады. Мұндай талдаудың нәтижесі
ретінде мәтіннің кесте түріндегі көрінісін және канондық пішіндегі
аударма баламалары (переводные эквиваленты) жайлы ақпаратты
айтуға болады. Бұл кестеде әрбір сөзтұлғаға оның лексика-
семантикалық сипаттамасы сәйкестікке қойылады. Сәйкестіктің
дәлдігі конверсиялық және/немесе омонимдік септелуге (подежная
омонимия) дейін, функционалдық, басты (ролевой) және
семантикалық сипатына дейін анықталады. Мәтінді талдаудың
барлық деңгейлеріндегі берілісі сияқты, аталған көріністер
әртүрлі жағдайда қолданылуы мүмкін (машиналық аудармада,
аннотациялауда, рефераттауда және т.б.). Егер машиналық аударма
жайлы ғана айтатын болсақ, онда талдаудың бұл сатысында
алынатын нәтиже – лексика-морфологиялық және фразеологиялық
тұрғыда жолма-жол (подстрочник) аударылған мәтін.
Семантика-синтаксистік өңдеудің нәтижесінде құрылымды
тіларалық деңгейде қайта құру жүзеге асады. Ол үшін лексика-
морфологиялық талдау сатысындағы барлық ақпарат іске
қосылады, одан кейін барып грамматикалық және семантикалық
топтамалар пайдаланылады. Мұндай трансферде иерархиялық
бөліктер (компоненттер) мәтін ішінен алынатын тік қисындасқан
жүйешіктердің жиынтығы ретінде модельденеді.
Семантика-синтаксистік талдау сөйлем құрылымының
әртүрлі деңгейлерінде жүйелі түрде жүзеге асады: топтар деңгейі,
функционалды сегменттердің деңгейі және, ең соңында, сөйлем
деңгейінде [48; 27]. Топтар деңгейінде топтардың шекаралары мен
лексикалық бірліктің өзара байланысы белгіленеді. Келесі деңгейде
бөлініп алынған тізбектер сөйлемнің тұрлаулы мүшелеріне

121
сәйкес келетін функцоналды сегменттерге біріктіріледі. Бөлініп
алынған сегменттерде мәтінді кестелік көрініске модификациялау
деңгейінде қайта құру әрекеті жүзеге асады. Функционалды
сегменттер деңгейінде алынған нәтиже – шектеулі грамматика
бойынша жасалған машиналық аударма болып саналады. Толық
түрдегі семантика-синтаксистік талдау сөйлем деңгейінде ғана
іске асады.
Талдау мен трансфер процедураларын жүзеге асырғанда
синтаксистік сипаттау маңызды рөл атқарады, өйткені тек осының
негізінде ғана сөйлемнің мүмкін болатын фреймі танылады.
Мұндай таным әрекетінде актанттар жиыны, меңгеру моделінің
мүмкіндігі жайлы және т.б. ақпараттарды бойында сақтайтын
етістіктің лексика-синтаксистік сипатталуы негізгі рөл атқарады.
Осы әдістемеге сәйкес SILOD-MULTIS машиналық аударма
жүйесі автоматты сөздіктер мен грамматикалардың жинағы ретінде
жүзеге асады. Жүйенің негізгі пішін үйлесімділігінде үндіеуропа
және басқа құрылымдық тілдермен әрекет ету мүмкіндіктері алдын
ала қарастырылған. Мұндай мүмкіндік барлық «кіретін» тілдердің
сөзтізбелерінің әмбебаптық құрылымына және «шығатын» орыс
тілінің бірыңғай құрылымына негізделеді.
Нақты әрекеттегі машиналық аударма жүйелерінің трансферді
пайдалануы дәл осы стратегияны таңдаудың мақсатқа сай екендігін
дәлелдей түсті. Сонымен бірге жасанды интеллект жүйесінің
даму деңгейі мен есептеу техникасының жаңа мүмкіндіктері
машиналық аударманың үшінші стратегиясына қызығушылықты
жаңаша түрде жандандыра түсті.
Аралық-тілді қолдануға қатысты аударма стратегиясы
машиналық аударма прагматикасына білім базасын құрудағы
машиналық аударма мен оның идеологиясының әсерін
бейнелейді. Машиналық аударманың даму сатысының бірінші
кезеңінде қолданылатын аралық-тіл тәжірибе жүзінде ғана жүзеге
асқанымен, ол өз уақытынан айтарлықтай озды – оның пайда
болуы машиналық аударманың жаңа кезеңі деуге болады. Мысалы,
аралық-тілді қолдана отырып, Карнеги университетінде CMU
жүйесі, Утрехте зерттелген DLT жүйесі, Японияда – JETR, АҚШ-
та – SAM және TRANSLATOR жүйелері машиналық аударма
жасауда қолданыс тапты.

122
Аралық-тілді пайдаланатын машиналық аударма жүйесі мен
жасанды интеллект жүйесін бір-біріне қисындастыру мәселесі –
сөйлем мағынасын немесе тұтас мәтіннің мазмұнын тануға және
оның мазмұнын автоматты түрде сөйлеу тілінде туындату үшін
күрделі білім базасын қолданудың қажеттігімен түсіндіріледі.
Жасанды интеллект жүйесінің аралық деңгейі болып саналатын
ұғынудың (понимание) концептуалды деңгейін модельдеу бірнеше
базалық құрастырушыларға негізделеді:
– ұғым түйіндері (узлы-понятия) мен байланыс типтері жайлы
сөз болатын мақала түріндегі сөздіктерді құрастыруды қажет
ететін білімді тануға көмектесетін тілдер;
– «белгі – мағына» принципі бойынша қайта құруды жүзеге
асыратын жүйелі грамматикалар.
Қазіргі кезеңдегі аралық-тілдің негізі ретінде білімді танытатын
тілдер саналады. Осыған қатысты талдаудың мақсаты «кіретін»
сөйлем бойынша алынатын және білім базасының ақпаратымен
толықтырылатын сөйлем мағынасын таныту. Аударманы жүзеге
асыру әрекетінде «кіретін» тілдің құрылымын «шығатын» тілдің
құрылымына сәйкестендіріп, қайта құру қажет болады. Әрине
мұндай аударма нәтижесі шын мағынасындағы аудармадан гөрі,
берілген мәтіннің мазмұнын не сөйлемнің мағынасын қайталап
айтып беру жағдайына көбірек ұқсайды.
Осындай жағдаятта білімді танытатын тілді аралық-тілдің өзі
деуге болады. Мұндағы аралық-тіл «кіретін» фразаның (сөйлемнің)
семантикалық желісі мен «шығатын» фразаның ішкі берілісінен
қайта туындауға қатысты семантикалық таңбалауды («разметка»)
жүзеге асырады. Осылайша қайта туындату (генерация) белгілі
үлгі бойынша (шаблон, фрейм және т.б.) орындалады. Бұл әдістің
жалпытеориялық тартымдылығына қарамай, ол тек тәжірибелік
деңгейде ғана жүзеге асты. Себебі оның автоматтандырылған
лексикондарының негізінде аса күшті семантикалық желі құруға
қажетті лингвистикалық негіздемесі мен программалық құралдары
әлі де болса толық қамтылмаған еді.
Машиналық аударма жүйелерінің кең түрде қолданыс табуы
оның эксперименттік дәрежесінен автоматтанған дәрежесіне,
редакциялау ерекшелігіне, мақсатқа сай келуіне қарай аударма-
шының жұмыс орнына айналуына жағдай жасайды [20; 27].

123
Машиналық аударма жүйелерінің қазіргі сатыдағы даму
ерекшеліктерін қарастыра келіп, оны әр кезеңге бөліп топтап, баға
беру дұрыс бола бермейді. Себебі машиналық аудармаға қатысты
ондай топтаулар есептеу машиналарының (компьютерлердің)
кезеңді өзгерістеріне және мүмкіндіктерінің артуына тікелей
байланысты.
Қазіргі кездегі машиналық аударма жүйелерінің зерттелуі
мен қолданылуы мына жайтты байқатады. Машиналық аударма
жүйелерін талдау және олардың функционалдық критерийлері
бойынша салыстыру мынаған саяды:

жүктеу/скачать 2,17 Mb.

Достарыңызбен бөлісу:

1 ... 35 36 37 38 39 40 41 42 ... 103