Асылбекова Дана Американ Ұлттық Корпусы – American National Corpus (anc)



Дата05.04.2023
өлшемі0,87 Mb.
#79666
Байланысты:
Асылбекова. ANC


Асылбекова Дана
Американ Ұлттық Корпусы – American National Corpus (ANC)


ANC – 1990 жылдары құрылған американдық ағылшын корпусы. Жазбаша және ауызша жазба сөздерден тұрды. 2003 жылы корпустың бірінші басылымында 11 млн сөз болды.
2005 жылы екінші басылымында 11 млн сөз 22 млн-ға өсті. Екінші басылымнан соң 2006 жылы Open American National Corpus атты ашық веб-сайт іске қосылды. Оған 22 млн сөздің 15 млн астам заманауи американдық сөйленістер енген [1, 110].

1 сурет. 2002-2015 жылдары жұмыс істеген anc.org сайтының басты бет интерфейсі


Корпустың Британ Ұлттық Корпусынан (BNC) ерекшелігі жаңа дереккөздер қатарына американдық “жаңа” тілдік деректер, яғни электронды пошта, твит, веб-парақшалардың мәтіндері қосылған [2, 2].
BNC-ден тағы бір айырмашылығы көптеген тілдік құбылыстар аннотацияланып, зат есім мен етістіктің негізінде талдау, жалқы обьектілер (ұйым, орналасқан жері, мерзімі), және т.б. аннотацияланған.
Екінші басылымнан соң ANC келесідей деректерді құрады:

  • Телефон қоңырауларын анықтау;

  • New York Times газеті мақалалары;

  • Berlitz Travel Guides;

  • Журналдар;

  • ICIC Corpus of Fundraising Texts мәтіндер жиынтығы (*жд);

  • Мичиган академиялық сөйленіс ағылшын корпусы (MICASE) (*жд);

  • Әртүрлі әдебиеттер;

  • Әртүрлі көркем әдебиеттер (*жд);

  • Медициналық зерттеу мақалалары (*жд);

  • Phoenix Board/Buffistas.org жарияланған аноним хаттар (*жд).

Мұндағы *жд – жаңа деректер мағынасында [2].
2002-2015 жылдары жұмыс істеп тұрған ашық anc.org сайтында ANC туралы жаңалықтар берілген. New York Times-та John Rosenthal жазған “Corpus Linguistics” атты шағын мақалада корпустың көлемі 100 млн сөзді құрауды жоспарланғаны жайлы жазылған. 100 млн құрамында кітаптар, журналдар мен газеттердегі мәтіндерден бастап, дәріхана мен кір жуатын орындардағы бетпе-бет айтылған әңгімелерге дейін жазылатыны жайлы айтылған.



2 сурет. New York Times-та жарияланған мақала [4]


100 млн деректі ANC корпусының жоспарлы дизайны да құралған.



3 сурет. 100 млн мақсаты үшін жасалған жоспарлы дизайн [2]


ANC корпусы BNC корпусының американдық ағылшын тіліндегі аналогы ретінде параллель жасалған. Дегенмен екінші басылымда жоғарыда айтқандай, жаңа тілдік деректердің қосылуы BNC корпусынан ерекшеледі.
ANC корпусы екіге бөлінген: сөйленіс және жазылым. Айтылымға үйге келіп түскен тел. қоңыраулар, Шарлотта әңгімелері, MICASE дерекқоры. Ал жазылымға 9-1-1 қолдау қызметінің баяндамалары, Berlitz гиді, PloS ғылыми кітапхананың онлайн журналдары, BioMed Central медициналық зерттеу мақалалары, және т.с.с. деректер енген.

4 сурет. ANC корпусының Spoken және Written деректер тізімі, құжаттар мен сөз саны [4]


Демек ANC 2 корпусының сөйленіс жазбаларында 2474 құжат пен 3 863 592 сөз болса, жазылымда 10 821 құжат пен 18 530 112 сөз бар. Жалпы алғанда корпуста бас-аяғы 22 393 704 сөз бар.


Әдебиеттер:



  1. Ide N. The American National Corpus: Then, Now and Tomorrow (2009). – URL: https://www.lingref.com/cpp/ausnc/2008/paper2293.pdf

  2. Ide N. The American National Corpus Overall goals and the first release (2004). - Article in Journal of English Linguistics. – URL: https://www.researchgate.net/profile/Nancy-Ide/publication/237406744_The_American_National_Corpus/links/5744413108aea45ee84e281b/The-American-National-Corpus.pdf?origin=publication_detail

  3. Reppen R., Ide N., Suderman K. American National Corpus (ANC) Second Release (2005). – URL: https://catalog.ldc.upenn.edu/LDC2005T35

  4. American National Corpus website: anc.org (2002-2015) Data: https://anc.org/data/anc-second-release/anc-second-release-contents/


Достарыңызбен бөлісу:




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет