Атты студенттердің IV жоо аралық дәстүрлі ғылыми конференциясының ЕҢбектері



Pdf көрінісі
бет90/135
Дата21.02.2017
өлшемі15,88 Mb.
#4636
1   ...   86   87   88   89   90   91   92   93   ...   135

Литература 

1.

 



Благая Е.А. Учебник китайского языка. Начальный курс.- Москва, 2008,  С. 545  

2.

 



Демина Н.А., Чжу Канцзи. Китайский язык. Страноведение. – Пекин, 2004, С. 351 

3. Ли Пэйюянь, Жень Юань. Основы китайского языка.- Шанхай,1991.С 373  

4. Спешнев Н.А. Введение в китайский язык. – СПб., 2006, С.252  

 

 



УДК 81 

 

ЭЛЕКТРОННАЯ КОММУНИКАЦИЯ – РЕАЛЬНОСТЬ 21 ВЕКА 

Канаева А., Сатыбалдиева Ж. 

Университет имени С. Демиреля 

 

Мақалада  қатынас  құралының  жаңа  жазбаша  түрі  –  SMS  және  Блог 

хабарламаларының  ерешеліктері  қарастырылған.  Орыс  және  қазақ  тілдерінде  жазылған 

соңғы кезде қолданылып жүрген  хабарламаларына баға беріліп талдау жасалынады. 

 

In this article features of the new written form of communication-SMS messages and are 



shown. Analysis and marks of modern  messages in russian and kazakh languages are submitted 

too. 


 

684 

 

Ключевые слова: коммуникация, sms-сообщения, блог, записи в блоге, компрессия, 



транслитерация, электронная связь. 

 

   Активное развитие Интернета как коммуникативной среды привело к тому, что за 

последнее  десятилетие  появилось  значительное  число  лингвистических  работ, 

посвященных данной проблематике. По мнению Е. И. Горошко, на данный момент можно 

уже  говорить  о  формировании  особой  дисциплинарной  парадигмы  «Лингвистика 

Интернета».  Основной  целью  этого  направления  должно  стать  описание  и  объяснение 

особенностей функционирования языка в Интернете.  

Его исследовательским объектом является электронная коммуникация, под которой 

понимается коммуникативное взаимодействие в глобальной компьютерной сети Интернет, 

а  предметом  исследования  становятся  лингвистически  особенности  электронной 

коммуникации  на  различных  языковых  уровнях:  морфологическом,  лексическом, 

синтаксическом,  текстовом  (на  уровне  текста  или  совокупности  текстов), 

коммуникативном (уровне коммуникативной стратегии) и т. д. /1, с.22/. 

Ряд ученых говорит о возникновении особого электронного письма, а также особой 

функциональной разновидности языка /8,с.65; 4,с.37/.  

Сегодня  можно  констатировать  взрыв  речетворчества  молодых  людей, 

захватывающий все языковые  уровни, но особенно ярко это  видно по сетевой лексике и 

особому компьютерному сленгу. Однако часто это новаторство выражается в отклонении 

от графических и грамматических языковых норм. 

Попробуем проследить лингвистически особенности электронной связи на примере 

наиболее популярном способе общения как SMS и  ведение записи в блогах как речевой 

жанр интернет – коммуникации. 

Общение с помощью мобильного телефона - сегодня наиболее распространённый и 

доступный  для  молодежи  способ  электронной  связи.  Мобильная  связь  осуществляет  не 

только  голосовую  передачу  информации,  но  и  передачу  текстовых  сообщений,  которые 

называются  SMS  (Short  Message  Service).  В  настоящее  время  все  мобильные  телефоны 

имеют функцию обмена SMS-сообщениями, являющуюся одной из самых востребованных 

в  мобильной  связи.  Слово  «SMS»  (эсэмэс)  уже  вошло  в  литературный  язык  и  стало 

общеупотребительным.  

   Чем же привлекает молодежь данный вид общения? По мнению психологов, SMS-

общение  раскрепощает  человека:  в  коротком сообщении  можно  написать  то,  что  бывает 

трудно произнести вслух в живой беседе. Некоторые абоненты мобильной связи (студенты 

не являются исключением) посылают до 30 сообщений в день. Студенты вузов и учащиеся 

школ  широко  пользуются  SMS-сообщениями  по  нескольким  причинам:  этот  способ 

общения экономит время и деньги; SMS-сообщение может быть доставлено в подходящее 

для  твоего  адресата  время,  использовать  SMS-сообщения  удобно,  если  необходимо 

соблюдать  тишину.  Студенты    пользуются  услугами  мобильного  телефона  не  только  в 

школе на переменах, но и во время уроков (они отправляют короткие текстовые сообщения, 

чтобы получить подсказку или сверить ответы и решения). 

   Электронный способ письменного общения студентов - переписка друг с другом с 

помощью  SMS-сообщений  -  представляет  собой  письменную  форму  разговорной  речи 

учащихся.  На  наш  взгляд,  появился  особый  способ  общения  молодежи    -  язык  SMS-

сообщений (или SMS-язык), который строится на использовании определённого сленга и 

изобретённых ими слов и отличается преобладанием  необычных сокращений. Кроме того, 

постоянно  происходит  пополнение  его  лексики  из  писем  электронной  почты,  из 

видоизменённой  разговорной  речи,  живущей  в  чатах  и  на  форумах  Интернета.  Наконец, 

короткие текстовые сообщения, представляя собой письменную форму разговорной речи 

учащихся, отражают естественные процессы, возникающие в SMS-языке. 

  Важно  отметить,  что  в  последние  годы  заметно  возрос  интерес  к  языку  SMS-

сообщений.  Общество  начинают  волновать  проблемы,  связанные  с  культурой  речи 



685 

 

современных учащихся, в печати появляются отдельные статьи, авторы которых касаются 



проблемы «мобилемании» среди молодежи.  

В них, как правило, пишется о вреде, наносимом  языковому сознанию современного 

читателя и зрителя низкопробными СМИ, их сниженным стилем, речевой небрежностью, 

отсутствием  грамотности.  Так,  засоряют  ли,  как  пишут  авторы  статьи,    смски    язык?  

Попытаемся ответить на этот вопрос. На наш взгляд,  смски - явление с лингвистической и 

психологической  точки  зрения  скорее  позитивное,  чем  негативное.  Исследователи 

отмечают,  что    человек,  пишущий  смски,  решает  (замечает  он  это  или  нет)  несколько 

важных задач, помимо простой передачи содержания. 

1) Компрессия текста.  Объем смски ограничен, следовательно, нужно сообразить, 

как уложить максимум содержания в минимум знаков. Сознательно или бессознательно у 

смс-автора актуализируются процессы свертывания речи и он приступает к сжатию текста. 

При этом  компрессия текста может происходить за счет средств разных языковых уровней: 

а)  графических:  щас    (сейчас),    skoko,    skol'ko  (сколько),  2U(  to  you),    пжл 

(пожалуйста), будь спок (будь спокоен); 

б)  активное использование безглагольных конструкций  - Мне на частнике или на 

метро?; 


в)  морфологических:  еду  вместо  уезжаю,  говорил  вместо    поговорил,  то  есть 

употребление  форм, в которой меньше знаков; 

г) словообразовательных : усечение –универ и др.; 

д) лексических (часто с использованием иностранных слов): тут вместо здесь, сеть 

или  - net вместо  Интернет, shop вместо магазин. 

Как видим,   в смсках представлены  слова в нетрадиционном графическом облике. 

На  наш  взгляд,  ничего  страшного,    если  молодой  человек    напишет  в  смске  лав  вместо 

люблю, 4уток (рripozdal 4utok),   хочеца (экономия одного знака по сравнению с чуток и  

хочется),  а  в  остальных  случаях  (помимо  смс)  будет  придерживаться  нормативной 

орфографии. 

2) Транслитерация, это так называемый транслит - необходимость набирать русские 

слова латиницей (так приходится делать пользователям нерусифицированных телефонов).  

Следует  заметить,  что    смски  демонстрируют  разнообразные  возможности 

транслитерации: 

-  одни пишущие ставят вместо Ж - zh, Ц - ts или c, Щ – sch, Ч  - цифру 4; 

-    для  изображения  русского  Ц  ставят  латинскую    букву  c  или  сочетанием  ts.  

Мягкость  согласного  обозначается    с  помощью  апострофа  или  же  это  обозначение 

игнорируется 

-  для  передачи  йотированных  гласных  (pokupaju  -  покупаю)  используется    j  или 

обходиться без j (pokupau).  

Для наглядности приведем примеры:  

 Privet, Аygero4ka! Ny s prazdnikom tebya!) Nastroenia vesennego tebe, bezoblachnogo 

neba nad golovoi i ylibok solnechnix - teplix i oslepitelnix! Yra!=)); 

смс-диалог: 

Chert, kogda uzhe zakon4itsa para?! 

Poterpy, 5 min ostalos`.:-) 

Наблюдения  показывают,  что  типичными  коммуникативными  задачами,  которые 

решаются с помощью смсок следующие: 

узнать о местонахождении (и планах) адресата: Ты где? или Чего не отвечаешь? Чего 

заблокирован? Опять телефоны отобрали? Ну... Ответь сейчас хотя бы!; 

узнать о самочувствии и настроении адресата: Аууу!!!! Ты жива? или Привет! Как 

прошли выходные?; 

сообщить  о  своем  местонахождении  (и  планах):  Я  ещё  в  краске.  Ещё  стричься  и 

сушиться. Короче, минут сорок или Я в кино; 



686 

 

сообщить о своем самочувствии и настроении:  В сети буду после 9. Очень плохое 



настроение и куча домашних дел  

сообщить о мимолетном текущем впечатлении, о чем-то только что сделанном или 

увиденном: Ura! Ura! ispolnilas' moya mechta! Ya nakonets-to, pervyi raz v jizni, iskupalsya v 

prorube!; 

выразить  в  ответ  сочувствие,  поощрение,  благодарность  и  т.п.:  Спасибо)  И  тебе 

всякого разнообразного. 

Все они предполагают передачу не только смысла, но и эмоционального отношения, 

позитивной энергии, участия, сочувствия, желания поделиться радостью или печалью. 

Неслучайно,  в  смс  нормативные  знаки  препинания  зачастую  уступают  место 

смайликам - графическим значкам, передающим определенные чувства: 

:) - улыбающийся 

;) - подмигивающий 

:( - грустный 

:D - смеющийся 

Они необходимы там, где лексические значения, грамматические формы и порядок 

слов не могут точно выразить смысл. Они организуют синтаксическую конструкцию так, 

как  это  делает  интонация  в  устной  речи.  Всем  этим  параметрам  отвечает  употребление 

смайликов.  

Следует  учесть,  что  все  наблюдения, представленные  выше,    сделаны  на  русском 

материале.  Как же обстоит дело в казахском языке? Рассмотрим следующие примеры смс 

- диалогов: 

- Сәлем, брат. Амаңсын? 

- Шүкір. Не іст жатсн? 

 - Еш, отған, сеңші?  Не жаналық?  

- Жа.лық жоқ 

- Оқұ как? 

- Норм? Өз 

- Жаман емес 

- Анг айт :) Не қызық?  

- Еш.  Кешке неістсн? киноға барайық. 

- Даже білмеймін.  Хаб айтам. 

- Ок. Күтем.  

или же  

-

 



Серый,  қалайсын?  

-

 



Ниче,  пойдет. Өзін?- 

-

 



Тоже. Кеше футбол кордба? Не болт?  

-

 



Тема! 2-4 

-

 



Да ну,  шынба. Гол кімдер салт?  

-

 



Барсада  Месси 2  гол? Хави 1 иньеста 1  

-

 



Реалда кім? 

-

 



Роналдо 2г. 

-

 



Еее  Мыыықты:) :)  

-

 



Бүгн кореснба 

-

 



- Нешеде  

-

 



1.30 

-

 



Давай, хабарлас  

-

 



Ок 

Приведенные  примеры  показывают,  что  задача  вложить  максимум  содержания  в 

минимум знаков присутствует и здесь. С этой целью авторы смс используют разного рода 

сокращения: іст жатсн вместо істеп жатырсың; еш, отған вместо ештене, отырған; жа.лық 

вместо жаналық; хаб вместо хабарлас; анг (әнгіме)  и др. При этом следует заметить, что 


687 

 

помимо  сокращений  на  казахском  языке  используются  и  на  русском.  К  примеру,  норм 



(нормально). Характерно и прижившееся английское ОК, а также слэнгового слова «тема» 

для  выражения  восхищения.  Использование  смайликов  тоже  не  исключение  в  казахских 

текстах смс.  

Таким образом,  даже небольшой обзор данной проблемы позволяет сделать вывод

что смс-сообщения, несмотря на необычность, ненормативность языкового облика, служат 

все же средством позитивной частной коммуникации. И,  безусловно, рассмотрение смс – 

сообщений    как  новой  формы  эпистолярного  жанра    интересно  и  требует  дальнейшего 

изучения. 

Исследование  блогов  логично  начать  с  определения  самого  понятия.  В  данной 

работе за основу берется следующее определение блога: «Веб-сайт (или раздел веб-сайта), 

содержащий  датированные записи  мультимедийного  характера,  с  возможностью 

оставления комментариев к записям и просмотра любой записи 

Кратко  опишем  технологические  характеристики  блогов.  Блоги  являются 

асинхронными  системами  с  односторонней  передачей  сообщений  и  высокой  степенью 

постоянства записей. Размер буфера сообщений составляет десятки тысяч знаков в случае 

стандартных блогов и 140 знаков в случае микроблогов. Блоги допускают те же средства 

мультимедиа, что и обычные веб-страницы (текст, изображения, аудио, видео). В блогах 

возможны  анонимные  комментарии  (но  невозможны  анонимные  блог-записи),  личные 

сообщения,  фильтрация  сообщений,  однако,  как  правило,  отсутствуют  специальные 

средства  для  цитирования  сообщений.  В  блогах  записи  появляются  в  обратном 

хронологическом порядке и состоят из заголовка, даты, самой записи, меток, указания на 

количество  комментариев,  ссылки  на  добавление  комментария  и  постоянной  ссылки  на 

запись. Что касается комментариев к блог-записям, то они состоят из имени пользователя, 

картинки  пользователя,  времени  отправки  комментария,  факультативного  поля 

«заголовок» и  комментария.  

Рассмотрев этимологию слова  «блог», дав определение блогу, проследив историю 

научного лингвистического изучения блогов, мы пришли к выводу, что в жанре блоговых 

записей,  безусловно,  на  первый  план  выходит  индивидуальность  и  свобода  языкового 

выражения. Для данного жанра не характерны ни крайне сжатые, краткие высказывания, 

ни крайне объемные. Число знаков в большинстве варьируется, как правило, от нескольких 

сотен  до  нескольких  тысяч.  В  целом  языковое  воплощение  блогов  напрямую  связано 

пониманием блоговых записей  как персонального СМИ, а потому в первую очередь зависит 

от автора, богатством его словаря, способности к словотворчеству. 

В  дальнейшем  исследовании  возможно  более  подробное  изучение  языка  блога, 

каждой  его  характеристики,  каждой  части  структуры,  актуальным  будет  исследование 

сравнения русскоязычных и англоязычных блогов. У  данного исследования много путей 

продолжения и углубления, так как этот вопрос актуален и мало изучен в лингвистике. 

 

Литература 

1.

 

Горошко  Е.И.  Интернет-жанр  и  функционирование  языка  в  Интернете:  попытка 



рефлексии [Текст] / Е.И. Горошко // Жанры речи. - Саратов: Издательский центр «Наука», 

2009. - Выпуск 6 «Жанр и язык». - C.11-127. 

2.Горошко Е. И. Интернет-коммуникация: проблема жанра [Текст] / Е.И. Горошко // Жанры 

и типы текста в научном и медийном дискурсе. - Межвуз. сб. науч. тр. Вып. 4. - 2006. - C. 

165-175. 

3. Горошко, Е. И. Теоретический анализ Интернет-жанров [Текст] / Е.И. Горошко // Жанры 

речи. Выпуск 5 «Жанр и культура». - Саратов: Издательский центр «Наука», 2007 

4. Иванов, В.Е. Интернет в формировании диалогического пространства в социокультурной 

среде [Текст] / В.Е. Иванов // Мир психологии. - 2000. - № 2. 

5.

 



Колесов В.В. Язык, стиль, норма. 

6.

 



Маклюэн М. Понимание Медиа: Внешние расширения человека. М., 2003 

688 

 

7.



 

Сидорова М.Ю. Рефлексия "наивного" говорящего над языком и коммуникацией (по 

материалам открытых Интернет-дневников) // Сибирский филологический журнал. 2004, 

№ 1 


8.

 

Трофимова, Г.Н. Языковой вкус интернет-эпохи в России: Функционирование русского 



языка в Интернете: концептуально-сущностные доминанты [Текст] / Г.Н.Трофимова. - М.: 

Изд-во РУДН, 2004. 

9.

 

Щерба Л.В. Теория русского письма. Л., 1983 



 

http://ru.wikipedia.org/wiki/

 

 

УДК 510.5 



 

ОБЗОР СТАТИСТИЧЕСКОЙ СИСТЕМЫ МАШИННОГО ПЕРЕВОДА И 

НЕКОТОРЫЕ ПРОБЛЕМЫ СОЗДАНИЯ ПАРАЛЛЕЛЬНОГО КОРПУСА 

Сабырбаев Хасеин Камзаевич    

КазНУ им. Аль-Фараби, механико-математический факультет, кафедра 

Информационные системы, Алматы,Казахстан   

 

Аннотация  

 

Работа посвящена статистической системе перевода естественных языков. Приведен 



общий  обзор  существующих  систем  машинного  перевода  и  проблемы  создания 

параллельного корпуса с казахского на другие. В настоящее время  создан параллельный 

корпус для казахско-русской языковой пары на платформе Moses, который содержит более 

60 000 слов и словосочетаний. 

 

Annotation 

 

This article is devoted to the statistical system of translation of natural languages. Provides 

an overview of the existing machine translation systems and the problems of creating a parallel 

case with the Kazakh others. Currently set up a parallel body to the Kazakh-Russian language on 

the platform Moses, which contains over 60,000 words and phrases. 

 

Ключевые  слова:  корпус,  машинный  перевод,  гибридная  система  машинного 

перевода, СМП-статистический машинный перевод, шифрование и расшифровка текста. 

 

На сегодняшний день информационные технологии являются неотъемлемой частью 



нашей  жизни.  Быстрое развитие  новых информационных  технологий  свидетельствует  о 

всевозрастающей роли компьютерной техники в мировом информационном пространстве. 

С  каждым  днем  увеличивается  число  пользователей  Интернета.  Все  больше  сетевые 

технологии  оказывают  влияние  на  развитие  самой  науки  и  техники.  Развитие  науки  и 

образования,  да  и  вообще  формирование  мирового  информационного  пространства 

значительно тормозится из-за так называемого языкового барьера. Эта проблема пока не 

нашла  своего  кардинального  решения.  Последние  годы  объем  предназначенной  для 

перевода  информации  увеличился  потому  что  объемы  доступной  информации  на 

зарубежных  языках  увеличивается  с  каждой  секундой.  Нынешний  век  диктует  свои 

условия:  информация  меняется  двадцать  четыре  часа  в  сутки,  широко  применяются 

электронные средства связи. В помощь в изучении информации на зарубежных языках при 

условии, если мы не знаем этот язык может помочь переводчик лингвист или же машинный 

перевод.  У  переводчика  конечно  перевод  будет  лучше  по  качеству  перевода,  если 

переводимом  материале  нужна  будет  особая  точность  тогда  конечно  он  нужен,  но,  если 

этого не требуется тогда машинный перевод будет намного удобней.  


689 

 

Машинный  перевод  –  перевод  текста  с  одного  человеческого  языка  на  другой  с 



помощью компьютера. 

Есть три вида машинного перевода 

 

1 машинный перевод на основе правил 



2 статистический машинный перевод 

3 гибридный машинный перевод 

 

Машинный перевод на основе правил требует много времени для создания, усердного 

труда лингвистов на основании которых программисты будем писать алгоритмы. Этот вид 

машинного  перевода  считается  старым  и,  по  моему  мнению,  в  будущем  не  будет 

актуальным, пока не будет решена проблема понятие смысла текста машиной. Если машина 

не понимает смысла текста тогда она никогда не сможет заменить человеческий перевод 

где  нужна  будет  особая  точность  перевода.  Машинный  перевод  на  основе  правил 

отличаются стабильностью перевода. 

Статистический машинный перевод – перевод одного человеческого языка на другой 

с помощью компьютера, которые научились переводить с помощью огромных количеств 

переведенного текста. Для создания статистической машины используется знания в области 

программирования,  статистического  анализа  и  теории  вероятности.  В статистическую 

машину  загружается  двуязычный  корпус  текстов,  после  чего  система  анализирует 

статистику  межъязыковых  соответствий,  синтаксических  конструкций. Система  является 

самообучаемой —  при  выборе  варианта  перевода  она  опирается  на  полученную  ранее 

статистику  вероятностей  перевода.  Чем  больший  словарь  внутри  языковой  пары  и чем 

точнее он составлен, тем лучше результат статистического машинного перевода. С каждым 

новым переведенным текстом улучшается качество последующих переводов. 



Основные  цели  использования  статистического  машинного  перевода:  быстрое 

ознакомление  с интересующей  информацией,  возможность  коммуникаций,  упрощение 

работы  переводчика.  Статистические  системы  отличаются  быстротой  настройки 

и легкостью  добавления  новых  направлений  перевода.  Среди  недостатков  наиболее 

значительными 

являются 

наличие 

многочисленных 

грамматических 

ошибок 


и нестабильность перевода.  

Гибридный  машинный  перевод  –  он  использует  вместе  два  машинный  перевода 

статистический и перевод на основе правил.  

Машинный  перевод  никогда  не  сможет  давать  точность  перевода  как  у  человека, 

причина  этому  он  не  может  понять  смысла  текста.  Пока  эта  проблема  не  будет  решена 

машинный  перевод  никогда  не  сможет  дать  нам  очень  точный  перевод.  Он  нужен  для 

быстрого  ознакомление  человеком  материала  на  любом  языке  мира  и  понять 

приблизительно смысл данной информации. Он не сможет заменить переводчика, но может 

облегчить ему работу, как и всем людям. 

Какая система машинного перевода будет актуальным в будущем? Мы сравнили три вида 

машинного перевода, и, считаем, что статистический машинный перевод является лучшим 

среди  остальных  систем.  Еще  раз  можем  привести  определение  СМП.  Статистический 

машинный перевод — это метод машинного перевода. Он использует сравнение больших 

объемов языковых пар (корпус). Статистический машинный перевод обладает свойством 

«самообучения».  Чем  больше  в  распоряжении  имеется  языковых  пар  и  чем  точнее  они 

соответствуют  друг  другу,  тем  лучше результат  статистического  машинного  перевода. 

Статистический машинный  перевод  основан  на  поиске  наиболее  вероятного  перевода 

предложения с использованием данных из двуязычных корпусов текстов. В результате при 

выполнении  перевода  компьютер  не  оперирует  лингвистическими  алгоритмами,  а 

вычисляет  вероятность  применения  того  или  иного  слова  или  выражения.  Слово  или 

последовательность  слов,  имеющие  оптимальную  вероятность,  считаются  наиболее 


690 

 

соответствующими  переводу  исходного  текста  и  подставляются компьютером 



в получаемый в результате текст. 

Усилия по созданию систем машинного перевода начались почти сразу, как появились 

электронно-вычислительные 

машины. 


В статистическом 

машинном 

переводе 

ставится задача не перевода текста, а задача его расшифровки /1,15 стр/. 

Например, Модель Шеннона-Уивера 

 

 



 

 

Модель  состоит  из  пяти  элементов:  источника  информации,  передатчика,  канала 



передачи,  приемника  и  конечной  цели,  расположенных  линейно.  Передатчик  кодирует 

информацию, полученную от источника, и передает ее на канал. По каналу передачи, на 

который  действует  шум  помехи  любого  рода,  искажающие  информацию, 

данные поступают в приемник, где они декодируется и передаются к конечной цели 

 Из-за  шума  полученная  приемником  информация  в  общем  случае  не  совпадает 

с информацией, отправленной передатчиком. Однако, согласно модели Шеннона, создавая 

избыточную информацию, исходные данные можно восстановить со сколь угодно высокой 

вероятностью.  Для  обнаружения  ошибок  используются  контрольные  суммы,  для  их 

исправления  специальные  корректирующие  коды,  при условии,  что степень  шума 

не превосходит некоторой границы. Стоит отметить, что любая информация в некотором 

роде  избыточна.  Человеческая  речь  избыточна  —  чтобы  уловить  смысл предложения, 

зачастую необязательно слышать его полностью /1,15 стр/. Аналогично, письменная речь, 

тоже избыточна, и при переводе этим можно воспользоваться. Если предложение в целом 

понятно,  но  есть  несколько  незнакомых  слов,  то  обычно  не  трудно  догадаться  об  их 

значении. Таким образом, для перевода текста необходимо найти способ декодирования, 

использующий  естественную  избыточность,  в  связи  с  чем  декодирование  должно  быть 

вероятностным.  Задача  такого  декодирования  заключается  в  том,  чтобы,  при  данном 

сообщении найти исходное сообщение, которому соответствует наибольшая вероятность. 

Для  этого  же  необходимо  для  любых  двух  сообщений  уметь  находить  условную 

вероятность того, что переведенное сообщение, пройдя через канал с шумом, преобразуется 

в исходное сообщение. В данном случае нужна модель источника (модель языка) и модель 

канала  (модель  перевода).  Модель  языка  дает  оценку  вероятности  фразам  переводного 

языка,  а модель  перевода оценивает  вероятность  исходной фразы  при  условии  фразы  на 

переводном  языке.  Если  нам  нужно  перевести  фразу  с русского  на  английский,  то  мы 

должны  знать,  что  именно  обычно  говорят  по  английский  и как  английские  фразы 

искажаются до  состояния  русского  языка.  Сам  по  себе  перевод  превращается  в  процесс 

поиска такой английской фразы, которая максимизировала бы произведения безусловной 

вероятности  английской  фразы  и  вероятности  русской  фразы  оригинала  при  условии 

данной английской фразы /1,16 стр/. 

 

max P



К

Р



)=max(P(P(φ

K

)*P(φ



K

 |φ


Р

)), где 


φ

K

-фраза перевода 



φ

K

-фраза оригинала 



 

В  системах  статистического  перевода,  в  качестве  модели  языка  используются 

варианты n - граммной модели (например, в переводчике Google используется 5-граммная 

модель). Согласно этой модели, правильность выбора того или иного слова зависит только 

от предшествующих (n−1) слов. Самой простой статистической моделью перевода является 

модель 


пословного 

перевода. 

В этой 

модели, известной как 



Модель IBM №1, предполагается, что для перевода предложения с одного языка на другой 

достаточно перевести все слова, а расстановку их в правильном порядке обеспечит модель 

Источник(R) 

Цель(E) 


приемник 

передатчик 



691 

 

языка. Единственным массивом данных, которым оперирует Модель №1, является таблица 



вероятностей парных переводных соответствий слов двух языков. Обычно используются 

более  сложные  модели  перевода.  Работа  статистических  систем,  так  же,  как  и  систем, 

основанных на примерах, происходит в двух режимах: обучения и эксплуатации. В режиме 

обучения  просматриваются  параллельные  корпуса  текста  и вычисляются  вероятности 

переводных  соответствий.  Строится  модель  языка  перевода.  Тут  же  определяются 

вероятности  каждой  n-граммы.  В  режиме  эксплуатации,  для  фразы  из  исходного  текста 

ищется фраза переводного текста, так, чтобы максимизировать произведение вероятностей. 

Статистический  машинный  перевод  сегодня  используется  в  таких  компаниях  как  Гугл, 

Яндекс и т. д.  

Причины использования СМП этими компаниями: 

 

Быстрота создания корпуса для новых языков, рост информации значить и рост 



данных и качества перевода.  

 

Предлагаемые нами решения для создания параллельного корпуса казахского языка и 



других языков:  

4.

 



разделить все языки на группы, в группе будут объедены родственные языки в одну 

группы, у каждой группы будет главенствовать тот язык, у которого объём корпуса 

самый  большой.  Перевод  будет  осуществляться  между  родственными  языками  с 

помощью главенствующего языка, а с остальными языками между главенствующих 

языков групп. Преимущество этого метода экономия времени и качество перевода.  

5.

 



Использования самых распространённых языков для создания переходного корпуса 

на другие языки.  

6.

 

Использовать эти два способа для казахского языка. Создать корпус на казахском и 



на русских языках, с помощью русского языка создать статистическую машину на 

существующий  корпус  английского  языка,  дальше  выйти  на  все  языки  мира  с 

помощью этих двух языков. 

 

В настоящее время нами создан параллельный корпус для казахско-русской языковой 



пары на платформе Moses, который содержит более 60 000 слов и словосочетаний. Как мы 

знаем,  по  исследованиям  проведенным  компанией  Promt  минимальный  объем 

параллельного корпуса для получения качественного перевода должен быть более 2 млн. 

слов, поэтому в данный момент ведутся работы по заполнению параллельного корпуса для 

казахско-русской  языковой  пары  в  лаборатории  Интеллектуальных  ИС  Казахского 

Национального Университета им. аль-Фараби.   

 



Достарыңызбен бөлісу:
1   ...   86   87   88   89   90   91   92   93   ...   135




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет