KZ | RU | EN
Параллельный корпус – это совокупность оригинального текста и его переводов. Цель создания Параллельного подкорпуса на базе Национального корпуса казахского языка – разработка лингвистической платформы для изучения казахского языка путем формирования базы переведенных и выровненных текстов казахского языка с их эквивалентами на других языках. Параллельный подкорпус включает в себя базу выровненных текстов, разметку, метаразметку и поисковую систему. На первом этапе в текстовую базу подкорпуса вошли произведения художественной литературы и официально-делового стиля. Выровненные тексты подверглись морфологическому анализу на обоих языках. Метаразметка художественного текста включают 28 параметров: автор оригинального текста, название оригинального текста, язык оригинального текста, источник оригинального текста, дата публикации оригинального текста, количество страниц в оригинальном тексте, количество словоупотреблений в оригинальном тексте, год рождения автора оригинального текста, пол автора оригинального текста, стиль оригинального текста, тип оригинального текста, автор перевода, название переведенного текста, язык переведенного текста, источник переведенного текста, дата публикации переведенного текста, количество страниц в переведенном тексте, количество словоупотреблений в переведенном тексте, год рождения автора перевода, пол автора перевода, стиль переведенного текста, тип переведенного текста, способ перевода, структурный уровень перевода, имя и фамилия редактора (выравнивателя) текста, дата выравнивания текста, имя и фамилия лица, внесшего текст в корпус, дата внесения текста в корпус.


Общая информация



Параллельный подкорпус — это совокупность исходных текстов и их переводов. Цель создания параллельного подкорпуса в базе Национального корпуса казахского языка — формирование базы выровненных переводных текстов для создания лингвистической платформы обучения казахскому языку. Параллельный подкорпус включает корпус выровненных текстов, аннотацию, метаданные и поисковую систему. На начальном этапе в текстовую базу подкорпуса были включены тексты художественного и официально-делового стилей. Для выровненных текстов на двух языках (казахском и русском) выполнен морфологический анализ. Метаданные художественных текстов включают 28 параметров. Объём текстов официально-делового стиля составляет 600 000 словоупотреблений, художественного стиля — 1 500 000 словоупотреблений, общий объём — 2 000 100 словоупотреблений. Культурно-репрезентативный подкорпус — это электронная база, содержащая информацию о культурной семантике этнокультурных единиц. Общий объём текстов подкорпуса составляет 8 миллионов словоупотреблений. Тексты собраны по четырём направлениям: фольклор, авторское устное народное творчество, этнографические исследования, научные труды и статьи. Пользователь может искать этнокультурные единицы по тематическим группам: наименования людей, родственные термины, национальные блюда, национальная одежда, ювелирные изделия, виды оружия, сакральные числа, названия предметов быта. Также предоставляется информация о лексических слоях: религиозные слова, устаревшая лексика, заимствованные слова, этнографизмы, варианты и культурные онимы.