Параллельный корпус – это совокупность оригинального текста и его переводов.
Цель создания Параллельного подкорпуса на базе Национального корпуса казахского языка – разработка лингвистической платформы для изучения казахского языка путем формирования базы переведенных и выровненных текстов казахского языка с их эквивалентами на других языках.
Параллельный подкорпус включает в себя базу выровненных текстов, разметку, метаразметку и поисковую систему.
На первом этапе в текстовую базу подкорпуса вошли произведения художественной литературы и официально-делового стиля.
Выровненные тексты подверглись морфологическому анализу на обоих языках.
Метаразметка художественного текста включают 28 параметров: автор оригинального текста, название оригинального текста, язык оригинального текста, источник оригинального текста, дата публикации оригинального текста, количество страниц в оригинальном тексте, количество словоупотреблений в оригинальном тексте, год рождения автора оригинального текста, пол автора оригинального текста, стиль оригинального текста, тип оригинального текста, автор перевода, название переведенного текста, язык переведенного текста, источник переведенного текста, дата публикации переведенного текста, количество страниц в переведенном тексте, количество словоупотреблений в переведенном тексте, год рождения автора перевода, пол автора перевода, стиль переведенного текста, тип переведенного текста, способ перевода, структурный уровень перевода, имя и фамилия редактора (выравнивателя) текста, дата выравнивания текста, имя и фамилия лица, внесшего текст в корпус, дата внесения текста в корпус.
ЖАЛПЫ МӘЛІМЕТ
Параллельный подкорпус – түпнұсқa мәтін және оның aудaрмaлaрының жиынтығы.
ҚТҰК-ның базасында параллель ішкорпусты құрудың мақсаты – Казах тіліндегі мәтіндердің басқа тілдердегі теңестірілген аударма мәтіндер базасын қалыптастыру арқылы Казах тілін оқытудың лингвистикалық платформасын жасау. Пaрaллель ішкорпус теңестірілген мәтіндер базасынан, белгіленім, метабелгіленім және іздеу жүйесінен тұрады. Ішкорпустың мәтіндік базасына алғашқы кезеңде көркем әдебиет мен ресми-іскери стиль мәтіндері алынды. Теңескен мәтіндерге екі тілде (Казах және орыс) де морфологиялық талдау жасалған. Көркем әдебиеттің мәтіні туралы ақпарат (метабелгіленім) 28 параметрден тұрады. Деловой стиль стиль бойынша мәтін көлемі – 600 000 сөзқолданыс, көркем әдебиет бойынша – 1 500 000 сөзқолданыс, жалпы көлемі –2 000 100 сөзқолданыс.
Культурно-репрезентативный подкорпус – этномәдени бірліктердің мәдени семантикасы туралы ақпарат беретін электрондық база.
Ішкорпустағы мәтін көлемі – 8 миллион. Мәтіндер төрт түрлі бағытта (фольклорлық, авторлық ауыз әдебиеті мұралары, этнографиялық еңбектер, ғылыми еңбектер, мақалалар) жинақталған. Қолданушы этномәдени бірліктерді тақырыптық топтар аясында (адам атаулары, туыстық атаулар, ұлттық тағамдар, ұлттық киімдер, зергерлік атаулар, қару-жарақ атаулары, киелі сандар, ыдыс-аяқ атаулары) іздей алады. Лексикалық қабаттағы діни сөздер, көнерген сөздер, кірме сөздер, этнографизмдер, варианттар және мәдени онимдер туралы ақпарат алады.