Контекстік сұрақтар. Сұрақтар белгілі бір контесте беріледі. Контекст сұранысты нақтылап, қос мағыналықты түзетіп немесе тұтынушының сұрақтар тізбегі бойынша ой жүйегін қадағалауына болады.
QA-жүйесінің білім көздері Сұраққа жауап бермес бұрын, мәтін өңдеудің қандай тәсілі қолдансақ та, мәтіннің қол жетімді қорлары туралы біліп алған дұрыс. Егер де қорда дұрыс жауап жоқ болған жағдайдабіз оны таба алмаймыз.
Жауаптарды шығару Бұл жұмысты дұрыс орындау сұрақтың күрделілігіне, оның түріне, контекстіге, қол жетімді мәтіндердің сапасына, іздестірудің тәсіліне және т.б. көптеген факторларға байланысты. Сондықтан, мәтіндерді өңдеу тәсілдерін зерттеуге сақтақпен қарау керек, және бұл мәселе ерекше ынтаны қажет етеді.
Нақтылы мерзімде сұрақтарға жауап беру Сұрақтың күрделілігіне және қос мағыналылығына, құжат қорының өлшемі мен кеңдігіне қарамастан, қордан бірнеше секундта жауапты таба алатын жүйе жасап шығару қажет.
Қазіргі уақытта сұрақ-жауап жүйелерінің жүзеге асыру саны жеткілікті үлкен. Назар аударуға тұрарлық START жүйесі сұрақ-жауап жүйесін іске асырушы болып табылады. START жүйесі («SynTactic Analysis using Reversible Transformations»-ның қысқарған сөзі) – табиғи тілдегі 1993 жылдың желтоқсанынан бері онлайн-режимде тоқтаусыз жұмыс істеп отыратын әлемдегі ең бірінші желілік сұрақ-жауап жүйесі. Бұл желіні Борис Кац пен оның Массачусетск технологиялық институтының информатика мен жасанды интеллект зертханасындағы әріптестері құрастырған. Мұнда мәліметтерді сақтау және фактілер туралы сұраныстарды орындау үшін арнайы Omnibase «әмбебап қор» қолданылады. Оның «объект –сипаты -мағынасы» түріндегі моделі болады, мысалы, «Federico Fellini is a director of La Strada»:
объект – «La Strada»;
сипаты – «director»;
мағынасы – «Federico Fellini».
Әрбір объектімен мәліметтер көзі салыстырылған (data source),мысалы, Star Wars – imdbmovie.
Ашық жүйе мәртебесіне лайықты тағы бір қызықты жүйе бар,ол CYC жүйесі болып табылады. Осы жүйенің тарихы мен дамуы 30 жыл айналасында болды. Осы уақыт ішінде жүйеге барлық кездерге арналған онтологиялық көптеген өңдеулер әзірледі. Бастапқыда білім базасының көлемін білдіретін, CYC жүйесі ағылшын тілінде интерфейсін қамтамасыз ететін сұрақ-жауап жүйесі болып табылады.
Ашық сұрақ-жауап жүйелерінің арасында ең танымал атап өтетін іске асыру жүйесі Open Ephyra және ПИКАНТ болып табылады.
Деректер базасына негізделген табиғи-тілдік интерфейстер 70-80 жылдардағы қарапайым сұрақ-жауап жүйелерінің логикалық дамуы ретінде деректер базасымен табиғи тілде тілдесетін жүйелерді айтуға болады. Мұндай жүйелердің дамуы қазіргі кезге дейін өзекті. Деректер базасын басқару жүйелерінің ақырғы пайдаланушыларымен байланысты орнату үшін арнайы формалданған тілдер қолданылады. Бірақ бұл тілдер осы сала бойынша арнайы білімі бар мамандарға ғана арналған.
Деректер базасы бар жүйелерде тілдесу байланыс диалогы түрінде жүзеге асырылады, яғни, пайдаланушының сұрағына берілетін жауап оның алдыңғы қойған сұрағын немесе алдыңғы жауаптарын ескере отырып беріледі. Диалог кезінде негізгі ықылас пайдаланушы тарапынан болады. Байланыс жасау тілі табиғи тілдің ішкі жиыны болып табылады, ондағы пәндік облыс деректер базасы семантикалық шектелген болады. Пайдаланушының мәтіндік сұратымдарында жалпы қабылданған синтаксистік құрылымдар бойынша қателер болуы мүмкін. Сонымен қатар, эллипсистерді (берілген мәнмәтіннен жеңіл түрде қалпына келтіріп алуға болатын сөздер мен сөйлемдердің түсіп қалуы) және анафоралық сілтемелер (бұрын айтылып кеткен ақпаратқа сілтеме беру).қолданылуы да мүмкін.
Мұндай жүйелер көп таралмаған. Олардың себебі:
1. Олар реляциялық ДББЖ бағытталған.
2. Оларда күрделі есептеу және логикалық өңдеуді қажет ететін сұрақтарды қою мүмкіншілігі жоқ.
Олар есеп беруді құруды басқаруға мүмкіндік бермейді.
ДБ табиғи-тілдік сұратымдарды түсінудің бірнеше тәсілдері бар:
синтаксистік талдауға негізделген;
семантикалық талдауға негізделген;
шаблондарға негізделген.
Синтаксистік талдауға негізделген тәсілде сөйлемнің синтаксистік құрылымын қолданады, синтаксистік құрылымына тұрлаулы және тұрлаусыз сөйлем мүшелері кіреді, олар сөздердің морфологиялық мінездемелері бойынша анықталады. Мұндай бейнелеу сұратымның түпкі мағынасын аша алмайды.
Табиғи-тілдік сұратымдарды өңдеудің екінші тәсілін А.С. Нариньяни ұсынды. Сұратымдарда синтаксистік ақпараттан басқа, семантикалық сөздіктерде (тезаурустар) сақталған ақпараттар қолданылады. Олар сөздер арасындағы мағыналық қатынасты анықтауға мүмкіндік береді. Тезаурус дегеніміз сөздер және олардың мағыналары болып табылатын түйіндерден құралған үлкен желі (граф). Осындай тезаурустардың көмегімен сұратымның семантикалық бейнесін көрсетуге болады. Бұл кездегі негізгі есеп – синтаксистік байланыстар арқылы дұрыс семантикалық құрылымдарды анықтап, қажет емес мағлұматтарды алып тастау.
Табиғи-тілдік сұратымдарды түсінудің дәстүрлі синтаксистік бағытталған бағыты бойынша бірнеше мәселелер бар, олар:
күрделі сөйлемдерде сөздердің көпмағыналылығына байланысты талдаудың уақыты артып кетеді. Бұл дегеніміз күрделі сөздер үшін синтакксистік және семантикалық бірмағыналылық еместі шешу мәселесі шексіз көп уақыт алады;
негізінен алғанда көптеген табиғи-тілдік сұратымдардың синтаксистік құрылымы дұрыс болмайды. Олай болуының себебі – сөзформалар мен сөз түрлену формаларының көптігі, жалқы зат есімдер мен қысқартулардың болуы, неологизмдердің кеңінен қолданылуы;
семантикалық сөздіктерді жасау көп еңбекті қажет етеді және олар барлық пәндік облыстар үшін жасалмаған.
Табиғи-тілдік сұратымдарды талдау шаблондарға негізделген. Ол ең бірінші дамыды және программалық жүзеге асыруы тұрғысынан қарағанда жеңіл болып табылады. Бұл тәсіл кезінде келіп түскен сұратымдар шаблонқұрылымдар жиынымен салыстырылып, алдын ала анықталып қойған құрылымдар негізінде жауап беріледі. Бұл тәсілдің жүзеге асырылуы жеңіл болғанмен оның кемшілігі де бар. Мұндай жүйелерді басқа пәндік облыстарға көшіріп, қолдану қиын және бұл жүйелердің сұратымдарды түсіну сенімділігі өте төмен.
Диалогтық жүйелер технологиясындағы жаңа ағым 90-шы жылдардың соңында – 2000-жылдар басында ELIZA жүйесінде жүзеге асырылған идея өз жалғасыны A.L.I.C.E (Artificial Linguistic Internet Computer Entity, жасанды лингвистикалық компьютерлік интернет мән) [89] жобасы ретінде жалғасын табады. A.L.I.C.E эвристикалық салыстыру техникасын қолданады, яғни білімдер базасындағы үлгілерді AIML (Artificial Intelligence Markup Language, букв. Язык разметки искусственного интеллекта) тілінде салыстыруды жүзеге асырады, AIML тілі білімдерді белгілеу үшін қолданылады. Мұндай формат спецификациясының ашықтылығы осы сияқты басқа да жүйелердің жүзеге асырылуына алып келді, олар бір бірінен білімдер базасы немесе AIML тілінің кеңейтілімдері бойынша ерекшеленді. AIML базасында жасалған айрықша әзірлеме ол өзінің жеке диалогтық агенттерін құруға арналған PandoraBots [90] платформасы болып табылады. AIML спецификациясының өзекті нұсқасы – 1.0.1 [91] (референсті интерпретатор – Program D) және 2.0 [92] (референсті интерпретатор – Program AB). PandoraBots жүйесінің кейбір кеңейтілімдері AIML 2.0 спецификациясының бөлігі болып енгізілді.
A.L.I.C.E жобасымен қатар соған ұқсас CleverBot [93] жобасы да жүзеге асырылды. Оның құрушы Ролло Карпентер, бұл жүйе машиналық оқыту принциптеріне негізделген. Өзінің жеке диалогтық агенттерін құру үшін CleverScript [94] форматын қолдану ұсынылды. Бұл формат – Type (тип), Label (белгі), Description (сипаттама), Text (мәтін), If (егер), Learn (оқытылады), Goto (өтеді), Accuracy (нақтылық) өрістерінен тұратын мәтіндік форматтағы кестеден тұрды.