●
Общественные науки
№4 2015 Вестник КазНТУ
622
УДК 378:650.9(593)
Шаяхметова К. Б.
(Евразийский национальный университет им. Л.Н. Гумилева,
Астана, Казахстан, kyrmyzy.shayakhmetova@gmail.com)
РАСПОЗНАВАНИЕ И ОБРАБОТКА ТЕКСТА ДЛЯ ПЕРЕВОДА
НА ИНОСТРАННЫЙ ЯЗЫК
Аннотация. Статья посвящена описанию реализации приложения для обработки текста для дальнейшего
перевода на иностранный язык. Рассматривается алгоритм распознавания символов системы Тesseract OCR.
Так как в наше время мобильные устройства являются неотъемлемой частью разработка приложения
для устройства является хорошим выбором. Приложение является полезным вкладом в развитие мобильных
приложений. При написании статьи проведена работа по определению эффективных методов и алгоритмов
компьютерного зрения и в дальнейшем данное приложение может быть использовано в повседневной жизни не
только казахстанцев, но и иностранных туристов.
Ключевые слова: распознавание изображений, обработка текста, мобильное приложение, компьютер-
ное зрение.
Мобильные телефоны являются неотъемлемой частью жизни в современной жизни людей и
неудивительно, что рынок мобильных приложений развивается по экспоненте.
Предметом является приложение для перевода текста в виде изображения с одного языка на
другой, использующего оптическое распознавание текста. Оптическим распознаванием текста назы-
вается перевод изображений печатного текста в текстовые данные - последовательность
кодов
, ис-
пользующихся для
представления символов
в
компьютере
(например, в
текстовом редакторе
). [1]
ОРТ позволяет обрабатывать отсканированные книги, скриншоты и фотографии с текстом и полу-
чить редактируемые документы, как TXT, DOC или PDF-файлов. Эта технология широко использу-
ется во многих областях и самые передовые системы оптического распознавания символов могут об-
рабатывать почти все типы изображений, даже такой комплекс, как отсканированные страницы жур-
нала с изображениями или фотографии с мобильного телефона.
Основным инструментом в ходе разработки приложения является Tesseract OCR. Система
Tesseract оптического распознавания текста (OCR) показала один из трёх лучших результатов в 1995
году на тесте UNLV.[2] Между 1995 и 2006 система мало развивалась, но потом была значительно
улучшена Google и сейчас, вероятно, является одной из наиболее точных систем OCR с открытым
исходным кодом. Может читать широкий диапазон различных форматов и преобразовывать их в
текст на более чем 40 языках, в том числе на русский, украинский и белорусский. В августе 2006 г.
Google купил её и открыл исходные тексты под лицензией Apache 2.0 для продолжения разработки. В
настоящий момент программа уже работает с UTF-8. Tesseract никогда не нужен был свой анализ
шаблонов. Поэтому предполагается, что входные данные представляют собой двоичное изображение
с определенными дополнительными полигональными текстовыми областями. Обработка изображе-
ний следует поэтапно шаг за шагом. Первым шагом является компонентный анализ, во время которо-
го сохраняются очертания компонентов. Компоненты собираются вместе, которые в дальнейшем об-
разуются в текстовые строки. Распознавание осуществляется в процессе в два прохода. В первый
проход, попытка распознать слова по очереди. Каждое слово, которое было распознано удовлетвори-
тельно передается дальше в адаптианый классификатор. Адаптивный классификатор при этом полу-
чает возможность более точно распознать текст. Второй проход выполняется для тех слов, которые
не были распознаны достаточно хорошо. Заключительный этап решает нечеткие пространства.[3]
Определение с фиксированным шагом
Tesseract проверяет текстовые строки, чтобы определить фиксированный шаг. При нахождении
фиксированного шага, Tesseract делит слова в символы, используя шаг. На Рис.1 показан пример дан-
ного деления.
●
Қоғамдық ғылымдар
ҚазҰТУ хабаршысы №4 2015
623
Рис.1.
Рис.2 иллюстрирует некоторые типичные проблемы. Разрыв между десятками и единицами
'11,9% ' является аналогичного размера , что и общее пространство, и больше, чем пространстве меж-
ду «erated» и «junk». Tesseract решает большинство из этих проблем путем измерения зазоров в огра-
ниченный вертикальный диапазон между базовым и средним линиям. О пространствах, близких к
порогу на данном этапе сделаны нечеткие представления, так что окончательное решение может быть
принято после распознавания слов.
Рис. 2
Распознавание слов
Когда результат является неудовлетворительным, Tesseract пытается улучшить результат путем
измельчения отрезка с худшим коэффицентом доверия от символьного классификатор. Точки отрде-
ления могут быть найдены на вогнутых вершинах ломаной аппроксимации [4], и может иметь другую
вогнутую вершину напротив, или отрезок. На Рис. 3 показан набор точек со стрелками и выбрано
разделение в виде линии через место, где 'R' касается 'M'.
Рис.3
Отрезки выполняются в приоритетном порядке. Любой отрезок, который не помогает получе-
нию результат отбрасывается, но не навсегда, таким образом он может быть использован повторно
при необходимости.
Когда набор потенциальных отрезков исчерпан, но слово еще не достаточно хорошо сформиро-
ван, он отдается ассоциатору. Ассоциатор делает A * (лучший первый) поиск графика сегментации
возможных комбинаций максимально нарезанных отрезков в кандидаты символов. Он делает это,
фактически без построение графика сегментации, но вместо этого использует хеш-таблицу посещае-
мых пунктов.
Лингвистический анализ
Tesseract содержит относительно скудный лингвистический анализ. Когда модуль распознава-
ния слова рассматривает новую сегментацию, языковой модуль выбирает наилучшие имеющиеся
строки слов в каждой из следующих категорий: Топ частых слов, Toп слов из словаря, Toп числовых
слов, Toп слов в верхнем регистре, Toп слов в нижнем регистре. Окончательным решением сегмента-
ции является просто слово с самой низким общим рейтингом расстояния, где каждый из вышеуказан-
ных категорий умножается на разные постоянные [5].
●
Общественные науки
№4 2015 Вестник КазНТУ
624
Слова из разных сегментаций могут иметь различное число символов в них. Трудно сравнить
эти слова напрямую, даже там, где классификатор утверждает, что будет производить вероятности,
которые Tesseract не делает. Эта проблема решается в Tesseract путем генерирования двух чисел для
каждого символа классификация. Первый называется уверенность, минус нормированное расстояние
от прототипа. Это позволяет ему быть "уверенным" в том смысле, что чем больше номера, тем лучше,
но чем дальше расстояние от нуля, тем больше расстояние. Второй выход, называется оценка, умно-
жает нормированное расстояние от прототипа на общую длину контура неопознанного символа.
Рейтинг символов в слове может быть выражена многозначным, так как общая длина наброски для
всех символов в слове всегда одна и та же.
Касаемо самого приложения, которое использует принцип описанный выше, является ценным
вкладом в развитии экономики республики, так как предназначена для увеличения потока иностран-
ных туристов, путем облегчения ориентации в стране, разрушая языковой барьер. Алгоритм работы
приложения описан ниже:
Шаг 1. На вход подается входные данные. Данные имеют тип изображение, так как основной
технологией, используемой в приложении, является Computer Vision( вспомогательные инструмен-
ты: библиотека OpenCV,система Tesseract OCR).
Шаг 2. При считывании данных, имеющих тип изображения, изображение преобразуется в
текст (алгоритм распознавания текста описан выше).
Шаг 3. После преобразования изображения текст считывается пословно для дальнейшего пе-
ревода на нужный язык. При считывании ищем совпадения слов. При нахождении совпадающих
слов, оставляем только одно.
Шаг 4. Для каждого слова осуществляется поиск перевода.
Шаг 5. Если перевода не существует, то пользователь может самостоятельно ввести слово с
переводом. Существует два варианта, если слова не было в базе данных, то он его добавляет вместе с
переводом, если слово уже было, то он обновляет его перевод.
Шаг 6. Формирует результат. Выводится следующая информация: текст и его перевод.
ЛИТЕРАТУРА
1. https://ru.wikipedia.org
2. С.В. Райс, Ф.Р. Дженкинс, Т.А. Нарткер, Четвертое ежегодное Тестирование OCR Точности, Техниче-
ский отчет 95-03, Информационный научно-исследовательский институт, Университет Невады, Лас-Вегас,
июль 1995 года.
3. Рэй Смит Google Inc., Обзор Механизма Тессеракт OCR
4. RW Смит, Распознавания текстов на мультимедийных документах с изображениями, кандидатская
диссертация, Университет Бристоля, ноябрь 1987 года.
5. И. Marosi, "Подходы промышленной OCR: архитектура, алгоритмы и методы адаптации", Распознава-
ние документа и поиска XIV, SPIE января 2007, 6500-01.
REFERENCES
1. https://ru.wikipedia.org
2. S.V. Rice, F.R. Jenkins, T.A. Nartker, The Fourth Annual Test of OCR Accuracy, Technical Report 95-03, In-
formation Science Research Institute, University of Nevada, Las Vegas, July 1995.
3. Ray Smith Google Inc. , An Overview of the Tesseract OCR Engine
4. R.W. Smith, The Extraction and Recognition of Text from Multimedia Document Images, PhD Thesis, Uni-
versity of Bristol, November 1987.
5. I. Marosi, “Industrial OCR approaches: architecture, algorithms and adaptation techniques”, Document
Recognition and Retrieval XIV, SPIE Jan 2007, 6500-01.
Шаяхметова К. Б.
Мәтіндерді шет тілдерге аудару үшін оны өңдеуді меңгеру.
Түйіндеме. Бұл мақала сурет өңдеу қосымшаларды дамытуға, сондай-ақ одан әрі аудару үшін негізгі
құрал болып табылатын Tesseract OCR бейне тану жүйесінің кейбір принциптерін сипаттайды. Атап айтқанда,
жұмысты келесі бөліктерге бөлуге болады: тіркелген қадам анықтау, сөз тану, лингвистикалық талдау. Соны-
мен қатар, қолданбаның жұмыс алгоритмі сипаттады.
Түйінді сөздер: сурет тану, мәтін өңдеу, мобильді қосымша, компьютерлік көру.
●
Қоғамдық ғылымдар
ҚазҰТУ хабаршысы №4 2015
625
Шаяхметова К. Б.
Распознавание и обработка текста для перевода на иностранный язык
Резюме. В данной статье рассмотрены некоторые принципы работы системы распознавания изображе-
ния Tesseract OCR, который является основным инструментом при разработке приложения для обработки изоб-
ражения и дальнейшего перевода. В частности всю работу можно разделить на следующие части: определение
с фиксированным шагом, распознавание слов, лингвистический анализ. В дополнение приведен алгоритм рабо-
ты самого приложения.
Ключевые слова: распознавание изображений, обработка текста, мобильное приложение, компьютер-
ное зрение.
К. Shayakhmetova
determination and processing of a text for the interpretation on foreign language
Resume. This article describes some of the principles of the image recognition system Tesseract OCR, which is
the main tool for the development of image processing applications, and further translation. In particular, the work can
be divided into the following parts: the definition with a fixed pitch, word recognition, linguistic analysis. In addition,
the algorithm of how the application works is given.
Key words: image recognition, text processing, mobile application, computer vision.
УДК 004
А.Н. Абеустанова
(Әль-Фараби атындағы Қазақ ұлттық университеті,
Алматы, Қазақстан Республикасы, happiness_love_01@mail.ru)
ҚАЗАҚ ТІЛІНДЕГІ КӨПМАҒЫНАЛЫ СӨЗДЕРДІҢ
БІРІН АНЫҚТАУДЫҢ БІР БОЛЖАМЫ
Аннотация. Қазіргі таңда сөзді бір тілден екінші тілге аударған кезде бірнеше проблемалар туындайды,
сондықтан да бұл проблеманы шешу үшін мысал ретінде көпмағыналы сөздер қарастырылған. Машиналық
аудару кезінде сөйлем аудару оңайға соқпайды, бірнеше, атап айтқанда құрылымдық, лексикалық тараптар жа-
ғынан сұрақтар туындайды. Сол сұрақтарға жауап беру үшін сөйлем мен сөз таптары арасындағы байланыс
көрсетіліп,нақты есептеулер жүргізілген.
Кілттік сөздер: көпмағыналы сөздер, ықтималдық, қазақ тілі
Тіліміздегі ұзақ уақыт бойы қолданылып келе жатқан байырғы сөздер жаңа сөз, жаңа мағына-
лар жасауға ұйытқы болады. Олар бұрынғы тура мағынасының үстіне жаңадан бір не бірнеше қо-
сымша, яғни туынды мағыналарға ие болып жатады. Соның нәтжесінде сөздік қордағы сөздер сан
жағынан да, сапа жағынан да дамып, жетіліп, тілдің байлығы артады. Сөздің екі я одан да көп мағы-
наға ие болуын сөздің көп мағыналылығы дейміз. Көп мағыналы сөздер бір негізден таралады да, бір
сөз табына қатысты болады. Мысалы: Бас (зат есім) - 1) адамның, айуанның, жәндіктің дене мүшесі;
2) шөптің, ағаштың ең жоғарғы жағы; 3) таудың ең үсті, төбесі; 4) өзеннің, бұлақтың басталған жері;
5) таяқтың ұшы; 6) балтаның, шоттың жүзі бар жағы; 7) бір нәрсенің айналасы. Ата (зат есім) - 1) үл-
кен әке, әкенің әкесі; 2) ата жолы - ескіден қалған женө-жоба, әдет-ғұрып; 3) ата жұрт - ежелгі мекен;
4) ата кәсіп - атадан келе жатқан шаруашылық. Сонымен, сөздің қолданылу аясының өзгеруі, яғни бір
саладан басқа бір салаға ауысуы оның мағынасының өзгеруіне әсер етеді. [7]
Тілдегі кейбір сөздер бірнеше мағынада қолданылады. Екі не одан да көп мағынада қолданыла-
тын сөздер көп мағыналы сөздер деп аталады. Көп мағыналы сөздер бір сөз табынан болады және бір
негізден таралады. Мысалы, адамның немесе жан-жануардың көзі, иненің көзі, терезенің көзі, бұлақ-
тың көзі, білімнің көзі, істің көзі. Осы тіркестердегі «көз» сөзі – бір негізден таралған зат есім.
Бұл жұмыстың идеясы негізінде машиналық аудармашының көмегімен ағылшын тілінен қазақ
тіліне аударылған мәтінді түзету болып саналады. Дәлірек айтсақ, аударылған сөйлем ішінен көп ма-
ғыналы сөзді таңдап және түзету болып келеді.
Достарыңызбен бөлісу: |