Parallel corpus is the original text and a set of its translations. The purpose of creating a parallel intra-corpus on the basis of KTU is to create a linguistic platform for teaching the Kazakh language by forming a database of texts in the Kazakh language with equivalent translation in other languages. The parallel intra-corpus consists of a base of aligned texts, markup, meta-subjects and a search engine. The text base of the intra-corpus at the first stage included fiction and official business style. The matched texts have morphological analysis in both languages. The information about a fiction text (meta-meta) consists of 28 parameters: author of the original text, title of the original text, language of the original text, source of the original text, time of publication of the original text, number of pages of the original text, number of words in the original text, year of birth of the author of the original text, gender of the author of the original text, style of the original text, type of text, translation text author, translation text title, translation text language, translation text source, translation text publication time, translation text page count, translation text word count, translation text author's year of birth, translation text author's gender, translation text style, translation text type, translation method, translation structural level, text leveller name, text levelling time, name of the person entering the text into the corpus, time of text entry into the corpus.
ЖАЛПЫ МӘЛІМЕТ
Parallel Subcorpus – түпнұсқa мәтін және оның aудaрмaлaрының жиынтығы.
ҚТҰК-ның базасында параллель ішкорпусты құрудың мақсаты – Kazakh тіліндегі мәтіндердің басқа тілдердегі теңестірілген аударма мәтіндер базасын қалыптастыру арқылы Kazakh тілін оқытудың лингвистикалық платформасын жасау. Пaрaллель ішкорпус теңестірілген мәтіндер базасынан, белгіленім, метабелгіленім және іздеу жүйесінен тұрады. Ішкорпустың мәтіндік базасына алғашқы кезеңде көркем әдебиет мен ресми-іскери стиль мәтіндері алынды. Теңескен мәтіндерге екі тілде (Kazakh және орыс) де морфологиялық талдау жасалған. Көркем әдебиеттің мәтіні туралы ақпарат (метабелгіленім) 28 параметрден тұрады. Business Style стиль бойынша мәтін көлемі – 600 000 сөзқолданыс, көркем әдебиет бойынша – 1 500 000 сөзқолданыс, жалпы көлемі –2 000 100 сөзқолданыс.
Cultural-Representative Subcorpus – этномәдени бірліктердің мәдени семантикасы туралы ақпарат беретін электрондық база.
Ішкорпустағы мәтін көлемі – 8 миллион. Мәтіндер төрт түрлі бағытта (фольклорлық, авторлық ауыз әдебиеті мұралары, этнографиялық еңбектер, ғылыми еңбектер, мақалалар) жинақталған. Қолданушы этномәдени бірліктерді тақырыптық топтар аясында (адам атаулары, туыстық атаулар, ұлттық тағамдар, ұлттық киімдер, зергерлік атаулар, қару-жарақ атаулары, киелі сандар, ыдыс-аяқ атаулары) іздей алады. Лексикалық қабаттағы діни сөздер, көнерген сөздер, кірме сөздер, этнографизмдер, варианттар және мәдени онимдер туралы ақпарат алады.