Аңдатпа. Осы жұмыс түркі тілдерін компьютерлік өңдеу бойынша халықаралық
ғылыми-практикалық конференцияның порталын әзірлеуге арналған. Портал айтылған
конференция туралы қажетті ақпаратты интернеттен оңай, әрі жылдам табуға және осы
уақытқа дейін жинақталған деректерді бір ортада сақтап, қарауға мүмкіндік береді.
Түйін сөздер: веб-сайт, веб-портал, HTML, CSS, PHP, MySQL.
Кіріспе
Бүгінгі күні адамдардың өмірін интернетсіз елестету мүмкін емес. Ол әр түрлі керекті
ақпаратты іздеуге, онымен танысуға, оқып білуге және бөлісуге мүмкіндік беретін негізгі
орта түріне айналды. Қазіргі кезде қажетті ақпаратты алудың ең танымал әрі ең қарапайым
тәсілі – қажетті интернеттегі веб-сайтқа кіру болып табылады.
Веб-сайт дегеніміз – белгілі бір тақырыпқа байланысты бір ортада шоғырланған
ақпараттардың жиынтығы, интернет желісінде ақпарат таратудың негізгі бірлігі [1-2]. Бұл
сайттардың түрлері олардың қолданылу саласына байланысты сан алуан болып келеді.
Мысалы, күрделілігіне және қарастыратын ақпарат ауқымына байланысты қарапайым
тақырыптық сайттар және үлкен ақпараттық порталдар, көрсететін қызмет түрлеріне
байланысты ақпарат іздеу сервистері (қызметтері), электронды пошта сервистері, сонымен
қатар түрлі форумдар және жеке блогтар болады.
Қарастырылып отырған жұмыстың мақсаты түркі тілдерін компьютерлік өңдеу
мәселесі бойынша қажетті көкейкесті ақпаратты алу жолын жеңілдететін сәйкес ғылыми-
практикалық конференцияның порталын жасау және ұйымдастырушы мекемелердің оң
имиджін қалыптастыру.
Осы жұмысты жасағанға дейін жыл сайын әртүрлі елде өтетін «Түркі тілдерін
компьютерлік өңдеу» атты халықаралық ғылыми-практикалық конференция жайында әр
өткізуші ұйымның өзіндік жеке веб-порталы болды.
Конференцияның негізгі мақсаты түркі тілдерін компьютерлік өңдеу бойынша
көкейкесті мәселелерді талқылау, соның ішінде компьютерлік лингвистика саласындағы
келесі мәселелерге назар аудару еді:
компьютерлік жүйелер мен терминологиялардың ұлттық баптау;
түркі тілдерінің электрондық корпустары;
мәтіндерді морфологиялық және синтаксистік өңдеу жүйелері;
дауысты тану және синтездеу жүйелері;
түркі тілдерін бір-біріне машиналық аудару жүйелері;
интеллектуалды жүйелер мен түркі тілдерін оқытатын технологиялар;
Конференцияның өткізушілері туралы нақтырақ айтсақ, оны алғашқы рет 2013 жылы
Қазақстандағы Л.Н.Гумилев атындағы Еуразия ұлттық университетінің «Жасанды
интеллект» ғылыми-зерттеу институты [4], екінші рет 2014 жылы Туркиядағы Стамбул
техникалық университеті [5] және үшінші рет 2015 жылы Татарстандағы Ғылым
Академиясының «Қолданбалы семиотика» ғылыми-зерттеу институты [6] өткізді. Ал
төртінші рет 2016 жылы Қырғызстандағы мемлекеттік техникалық университет өткізбекші.
Конференцияда түркі тілдес елдерден және басқа елдердерден келген ғалымдар мен
мамандар
өздерінің
конференция
тақырыбына
қатысты
жүргізген
зерттеулерінің
нәтижелерін бір-бірімен талқылап, ой бөліседі және тәжірибе алмасады. Бірақ, осындай
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
351
жұмыстарды конфенция арасында веб-портал арқылы жүргізуге мүмкіндік жоқ. Себебі,
осыған дейінгі порталдың дизайны, функциялары, басқару элементтері және қолданған
құрал-саймандары бөлек болды. Сол себептен, айтылған тақырыптағы зерттеушілердің бір-
бірімен ақпарат алмасуын бірегей әрі ыңғайлы ету үшін осы «TurkLang.kz» порталын жасау
қажеттілігі туындады. Осыған байланысты, қарастырылып отырған жұмыста айтылған
конференцияның орталық бірегей веб-порталын әзірлеу және оны желіге қосу жұмыстары
туралы айтылады.
Жұмыс мақсаты мен есептері
Бұл жұмыстың негізгі мақсаты – «Түркі тілдерін компьютерлік өңдеу» атты
халықаралық ғылыми-практикалық конференцияға қатысушылар мен осы салада жұмыс
жасайтын қызығушылық танытқан барлық тұлғаларға арналған бірегей ақпараттық ортаны
қалыптастыратын веб-портал жасау болады.
Бұл порталда өткізілген және алдағы уақытта болатын конференциялар туралы
анықтамалық ақпараттар мен жаңалықтар жарияланады және конференцияны өткізуді
қолдайтын программалық сервистер (қызметтер) орналасады. Олар конференцияны
ұйымдастырушылардың және оған қатысушылардың кейбір жұмыстарын автоматтандырып,
конференцияны өткізудің сапасын арттыруға мүмкіндік береді.
Сапаны арттыру деп, бір-жағынана, конференция сайтын жасау және оны әрдайым
актуалды (ондағы ақпарат ескірмеген) күйде белсенді ұстау болады, ал екінші жағынан,
ұйымдастырушыларға конференцияның қатысушылары сайтқа тіркелген кезде олар туралы
барлық қажет ақпаратты дәл және толық жинауға мүмкіндік береді. Мұнда пайдаланушы
интерфейсінің эргономикалылығы – минималды әрекет жасау арқылы қажетті көлемде
ақпарат алу мүмкіншілігі болуы керек.
Автоматтандыру объектісі (нысаны) ретінде конференцияны өткізуге қатысты бизнес-
үдерістер қарастырылады. Нақтылай келсек, жүйе тұрғысынан қарағанда бизнес-үдерісті
ортақ мақсатпен біріктірілген жүйе шешетін есептердің жиынтығы деп қарастыруға болады.
Әдетте негізгі бизнес үдерістерге мыналар жатады:
1)конференция сайтын қалыптастыру;
2)ақпараттық хабарларды тарату;
3) қатысушылардың өтінімін тіркеу;
4) баяндаманы пікір беру процедурасына өткізу;
5) конференцияның бағдарламасын құру;
6) конференцияның еңбектер жинағын құру.
Қатысты жұмыстар
Қазіргі таңда конференцияға арналған бірнеше порталдар бар [4-6]. Бұл порталдар
арнайы көркем стильге және ауқымды функционалға ие. Әрқайсысының өзіндік бір ерекшелігі
бар. Алайда, бұл порталдардың бір кемшілігі, олар тек өткізілген жылғы конференция жайында
ғана толық ақпаратты береді.
Осы жобаларды зерттеп, артықшылықтары мен кемшіліктерін саралау арқылы
қарастырылып отырған жұмысқа қажетті мағлұматтар алынып барлығы есепке алынды.
«TurkLang.kz» ғылыми-танымдық порталын әзірлеу
Бүгінде веб-портал жай ғана гипертекстті белгілеу тілі көмегімен жасалған қарапайым
суреттер мен мәтіндерден тұратын ақпараттық статикалық бет болмауы керек. Ол
қолданушының әрекетіне белсенді жауап қайтара алатын, заманауи техникалық және
эстетикалық талаптарға сай, динамикалық құрылымды, көп функционалға ие ауқымды жоба
болуы қажет.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
352
Қарастырылып отырған «TurkLang.kz» ғылыми-танымдық порталы жоғарыда
айтылған талаптарға сай болуы үшін келесідей веб-технологияларды пайдалану арқылы
жүзеге асырылды:
HTML (HyperText Markup Language) – мәтіндерді веб-құжат (HTML-құжат)
түрінде бейнелеуге арналған нұсқаулар жиынын анықтайтын гипермәтінді белгілеу тілі.
Оның көмегімен салыстырмалы қарапайым, бірақ жақсы безендірілген құжаттар жасауға
болады [7-9].
CSS (Cascading Style Sheets) – стильдердің каскадты кестелері – белгілеу тілімен
жазылған құжаттың сыртқы бейнесін сипаттауға арналған формалдық тіл. Ол веб-беттердің
элементтерінің түстерін, қаріптерін, жеке блоктардың орналасуын, осы веб-беттердің сыртқы
бейнесін ұсынудың басқа да аспектілерін белгілеу үшін қолданылады [8-10].
MySQL - Sun Microsystems компаниясының өнімі болып табылатын, еркін таралатын,
өте кең танылған реляциялық деректер базасын басқару жүйесі [11-13].
PHP (Hypertext Preprocessor) – www.php.net ресми сайтында берілген анықтамаға
сәйкес – серверлік, платформаға тәуелсіз, HTML беттерге ендірілетін сценарийлер жазу тілі.
Қазіргі таңда PHP тілі веб-қосымшаларды және динамикалық веб-беттерді жасауда
қолданылатын ең танымал тілдердің бірі болып табылады [13-15].
Осы аталған технологияларды пайдалана отырып порталды әзірлеу бойынша келесідей
жұмыстар жасалды:
Веб-портал әзірлеудің бастапқы техникалық тапсырмасын бекіту;
Веб-порталдың құрылымдық схемасын – бөлімдердің, контенттің және навигацияның
орналасуын анықтау;
Веб-дизайн – портал үлгісінің графикалық элементтерін, стильдерін және навигация
элементтерін құру;
Бағдарламалық кодты, модулдерді, деректер базасын және жобаға қажетті басқа
элементтерді құру;
Веб-порталды тестілеу және интернет желісіне енгізу.
Нәтиже ретінде аталған порталды әзірлеу сәтті аяқталып 1-суретте көрсетілгендей
дизайндағы портал желіде тіркелді.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
353
1-сурет. «TurkLang.kz» порталының басты беті
Қазіргі таңда портал үш тілде жұмыс жасайды. Олар: қазақ, орыс және ағылшын
тілдері.
Қорытынды
«TurkLang.kz» порталының жасалуы аталған конференция туралы ақпарат алуды
жеңілдететіні сөзсіз. Себебі өткізілген және келешекте болатын конференциялар туралы
толық ақпарат ендігі уақытта бір ортада шоғырланатын болады.
Әдебиеттер:
1. https://ru.wikipedia.org/wiki/Сайт
2. https://ru.wikipedia.org/wiki/Веб-портал
3. ТҮРКІ ТІЛДЕРІН КОМПЬЮТЕРЛІК ӨҢДЕУ. Бірінші халықаралық конференция:
Еңбектері – Астана: Л.Н. Гумилев атындағы ЕҰУ баспасы, 2013. – 328 бет.
4. http://www.turklang.e-zerde.kz/ - TurkLang 2013, Astana
5. http://www.turklang.itu.edu.tr/ - TurkLang 2014, Istanbul
6. http://turklang.antat.ru – TurkLang 2015, Kazan
7. Гончаров А. Самоучитель HTML. — СПб.: Питер, 2002. — 240 с.: ил.
8. Фрэйн Б. HTML5 и CSS3. Разработка сайтов для любых браузеров и устройств. — СПб.:
Питер, 2014. — 304 с.: ил.
9. Дронов В. А. HTML 5, CSS 3 и Web 2.0. Разработка современных Web-сайтов. — СПб.:
БХВ-Петербург, 2011. — 416 с.: ил. — (Профессиональное программирование).
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
354
10. Седерхольм Д., Маркотт И. CSS ручной работы. Библиотека специалиста. — СПб.: Питер,
2011. — 240 с.: ил. — (Серия «Библиотека специалиста»).
11. http://www.mysql.ru/docs/man/
12. Гольцман В. MySQL 5.0. Библиотека программиста – СПб.: Питер, 2010. – 380 с.: ил.
13. Верлинг Л., Томсон Л. Разработка веб-приложений с помощью PHP и MySQL, 4-е изд.:
Пер. С англ. – М.: ООО «И.Д. Вильямс», 2010. – 848 с. :ил.
14. http://www.php.net/
15. Никсон Р. Создаем динамические веб-сайты с помощью РНР, MySQL, JavaScript и
CSS. 2-е изд. — СПб.: Питер, 2013. — 560 с.: ил. — (Серия «Бестселлеры O ’Reilly»).
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
355
СЕКЦИЯ 5
SECTION 5
АҚПАРАТТЫҚ ҚАУІПСІЗДІК ЖӘНЕ СИГНАЛДАРДЫ САНДЫҚ ӨҢДЕУ
ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ И ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ
INFORMATION SECURITY AND DIGITAL SIGNAL PROCESSING
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
356
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
357
UDC 004.056.5
BUZAUBAKOV R.A., ARYSTANGALI F.A.
DEEP PACKET INSPECTION FAILURES
(Kazakh-British Technical University, Almaty, Kazakhstan)
ABSTRACT
Deep Packet Inspection (DPI) is a way of identifying the application, protocol by analyzing
the packets’ content. Many refer to DPI when the classical port-based approach does not work,
since many applications use non standard port for communication. As a fact DPI seems the last
reliable method for protocol identification. In fact there are lots of cases when DPI is useless. This
article reveals failures of DPI in the network.
INTRODUCTION
The term Deep Packet Inspection(DPI) means that packets are analyzed to try to figure out
what protocol, application, or function they are related to. Vendors use terms like "classification" or
"Deep Packet Inspection". The terms are a bit misleading, since much of the time this "Deep
Inspection" is just looking at a byte or two in the packet header. The more complicated
identifications may include connection states and decoding multiple levels of protocol headers. This
might be necessary to determine, for instance, what specific user is logged into a server, and the
tracking of that users connections.
The concept is that by identifying 100’s of application streams, supposedly you can micro-
manage a network and specify precisely how much bandwidth each application can get. Virtually it
is hard to model how a large network should operate at a micro level. The dynamics change
continuously. For instance, customers frequently ask how they can prioritize HTTP to make
browsing better. This is a dangerous and counterproductive because one can do that without
possibly creating a lot of other problems, then you really don not understand the big picture.
WHY THE BIG VENDORS ENDORSE DPI
There are main two reasons why the well-financed vendors endorse DPI as the method to
use for bandwidth management:
Complexity: In order to code your application to support 100’s of applications, and to track
changes in all of those applications, you have to have resources. You need people to do the work,
you need to buy many of the applications so you have them in your lab, and you need to have
access to large client networks to test applications that can't easily be run in a lab. This protects
these companies against small, more cost-efficient vendors coming in and competing directly.
Revenue: Once you have committed to per protocol bandwidth management, you are
dependent on keeping up to date. This means endless upgrades, and expensive support contracts.
DPI systems are very expensive and provides lots of rich features.
WHY THE PROTOCOL METHOD FAILS
The protocol method fails because it does not account for the one component of bandwidth
management that matters most: volume. The reason that P2P protocols are considered abusive is
because they are automated. What most people do not understand, is that most of the traffic
generated by P2P applications is HTTP and ICMP traffic. Directory contents are exchanged with
HTTP and servers are discovered with ICMP. The reason its abusive is not because of file
downloads; its abusive because the application is automated; its generating traffic with a volume
that is the equivalent of 100’s of users. A protocol method that defines HTTP as a good protocol
will not work as expected, because these applications increase the volume of HTTP to the point
where the network's volume of HTTP is so high that you either have congestion, or you have to
limit users who are innocently surfing the web. The protocol method is a losing battle that fails to
solve the problem of network congestion.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
358
DPI IS EASILY DEFEATED
The biggest problem with DPI is that its easily defeated. The first way to defeat it is to make
your protocols complicated, and to change them regularly. The P2P people do this with fervor. A
way to absolutely defeat it is with encryption. How can one inspect a packet when it is impossible
to determine the contents? The truth is, it is impossble. There is no need in using encryption; just by
scrambling your headers or use variable codes. Packet shapers on high speed networks do not have
the CPU capacity to be trying to decrypt thousands of packets per second. And you do not have to
be an evil genius to defeat DPI; it can happen accidentally. For instance, IPSEC traffic can not be
managed with DPI or the protocol method. P2P applications can easily launch encrypted tunnels to
defeat any control attempt by upstream packet shapers.
FAIRNESS IS PER USER, NOT PER PROTOCOL
Most ISPs and Universities are interested in providing fair access to bandwidth for its
customers and users. The way to provide per user fairness is to manage by user. The beauty of per-
user management is that you do not care what they're doing. You do not have to know about every
protocol ever conceived. And you do not have to restrict access to some protocols altogether, since
any customer running abusive protocols will only consume their own bandwidth. You do not need
to upgrade every time something changes, and you do not need to buy expensive support. Per user
controls also can not be defeated. Since you are controlling by address or range of addresses,
tunneling, encryption, and header scrambling cannot be used to get around controls. The
customer/user has no choice but to use their assigned address, so you can always identify their
traffic, and can manage the volume of their traffic as a single, simple, easily manageable entity.
An added issue is that DPI consumes CPU resources. When using per user controls, you can
manage a lot more traffic, and you don't have to worry about CPU resoures being consumed. This
means that heavily utilized gigabit networks can be managed with a single system.
TIERING
The most productive and profitable way for service providers to generate revenue streams is
to sell raw bandwidth with the highest possible efficiency. When service providers start trying to
micro-manage user's traffic they are just opening up a Pandora's box of problems. Large service
providers can not recruit enough talent to manage these services, educate customers and deal with
customers whose expectations are well beyond what the service provider can deliver. Selling raw,
tiered service allows service providers to streamline their operations and to minimize the interaction
with day-to-day issues with customer problems. It allows them to have easy to understand services
that are easy to provide with minimal staff. It pushes the responsibility of micro-management to the
end user, where it is easier to do, and where dedicated staff becomes more cost effective.
AVOIDING THE LEGAL AND PUBLICITY PROBLEMS OF DPI
There are legal concerns about providers dictating what customers can do on the internet,
and even if your controls pass the legal test, there is public outcry about providers claiming to sell
raw internet access and then not allowing "certain" kinds of traffic to pass. Using a per-client
approach makes your controls transparent, as there is no limitation on what a customer can do, as
long as they don not exceed their fair share of bandwidth.
CONCLUSION
While Deep Packet Inspection presentations include graphs and seemingly exciting
possibilities, it is only effective in streamlining small, very predictable networks. The basic concept
is fundamentally flawed. The problem with large networks is not that bandwidth needs to be shifted
from "bad" protocols to "good" protocols. The problem is volume. Volume must be managed in a
way that maintains the strategic goals of the network administration. Almost always this can be
achieved with a macro approach of allocating a fair share to each entity that uses the network. Any
attempt to micro-manage large networks usually makes them worse; or at least simply results in
shifting bottlenecks from one thing to another.
«ҚОҒАМДЫ АҚПАРАТТАНДЫРУ» V ХАЛЫҚАРАЛЫҚ ҒЫЛЫМИ-ПРАКТИКАЛЫҚ КОНФЕРЕНЦИЯ
359
References:
1. Bujlow, Tomasz, Valentín Carela-Español, and Pere Barlet-Ros. "Independent comparison of
popular DPI tools for traffic classification."Computer Networks 76 (2015): 75-89.
2. Hjelmvik, Erik, and Wolfgang John. "Statistical protocol identification with spid: Preliminary
results." Swedish National Computer Networking Workshop. 2009.
Достарыңызбен бөлісу: |