НАЦИОНАЛЬНЫЙ КОРПУС КАЗАХСКОГО ЯЗЫКА

ОБЩАЯ ИНФОРМАЦИЯ

Национальный корпус казахского языка (НККЯ) – это обширное электронное собрание текстов, включающее миллионы словоупотреблений, полностью охватывающее лексико-грамматическую систему казахского языка (с глубинной аннотацией). Это «умный» специализированный фонд знаний, аккумулирующий всю информацию о казахском языке. Общий объем словоупотреблений – 250 000 000. Национальный корпус казахского языка в настоящее время состоит из 22 специально разработанных подкорпусов:

Основной корпус – электронное собрание текстов, взятых из 5 стилей казахского языка (художественный, научный, публицистический, деловой, разговорный), служащее IT-ресурсом для научных исследований и обучения.

Подкорпус Ахмета Байтұрсынұлы – электронная база данных текстов стихов, рассказов, статей и учебных пособий Ахмета Байтұрсынұлы.

Устный подкорпус – электронная база данных устной речи на казахском языке (аудио- и видеозаписей) с транскрипцией, орфоэпией и синхронизированным звуком.

Исторический подкорпус – база данных текстов письменных памятников с метаразметкой, созданных в различных графических системах за длительный исторический период.

Параллельный подкорпус – электронная база данных оригинальных текстов и их согласованных переводов.

Культурно-репрезентативный подкорпус – база данных, предоставляющая информацию о культурной семантике этнокультурных единиц.

Рекламный подкорпус – электронная база данных текстов рекламы на казахском языке с системой поиска.

Диалектологический подкорпус – электронная база данных устных и письменных текстов с региональными языковыми особенностями.

Подкорпус пословиц и поговорок – база данных с системой поиска, предоставляющая лингвокультурную и этнолингвистическую информацию о казахских пословицах и поговорках.

Подкорпус фразеологизмов – электронная база данных казахских фразеологизмов с раскрытыми значениями и толкованиями.

Ономастический подкорпус – база данных онимов (собственных имен), снабженная культурно-познавательной информацией и текстами с частым использованием онимов.

Подкорпус текстов писателей – аннотированный фонд художественной прозы и драматургии, содержащий выразительные средства, характерные для языка писателей.

Современный поэтический подкорпус – электронная база данных, предоставляющая доступ к текстам современных казахских поэтов, а также к информации об особенностях стихотворной структуры.

Историко-поэтический подкорпус – база данных, предоставляющая информацию о стихотворной структуре, лексике, стилях и устойчивых выражениях текстов казахской литературы VI–XIX веков.

Терминологический подкорпус – база данных текстов, собранных из работ по различным научным отраслям, содержащая всестороннюю информацию о терминах.

Учебный корпус – электронное собрание текстов для изучающих язык, снабженное лингвистическими инструментами для преподавателей и учащихся.

Learner’s Corpus – интерактивный учебный внутренний корпус, созданный для обучения казахскому языку англоязычных учащихся. Платформа включает тексты уровней A1–C1, грамматико-лексические справочники, иллюстрированный словарь, видеоматериалы и образцы упражнений.

Шестиязычный параллельный подкорпус – сбалансированная база данных, в которой одновременно представлены варианты одного и того же текста на казахском, английском, турецком, узбекском, уйгурском и азербайджанском языках.

Корпус ошибок – электронная база данных, предназначенная для сбора ошибок из письменных работ и их лингвистического анализа; направлена на выявление уровня письменной грамотности носителей казахского языка, уровня владения языком у изучающих казахский, повышение грамотности через анализ типичных ошибок и совершенствование методики преподавания языка.

Во всех подкорпусах слова снабжены морфологической, семантической, лексической и фонетико-фонологической разметкой. Эта разметка предоставляет информацию обо всех уровнях языка:

Морфологическая разметка автоматически делит слово или словоформу на корень и аффиксы (лемматизация), указывает часть речи корня (леммы) и грамматическую характеристику аффиксов.

Лексическая разметка показывает все значения слова по толковому словарю.

Фонетическая разметка предоставляет орфоэпию слова, делит его на слоги и описывает типы слогов.

Фонологическая разметка дает фонемные характеристики звуков в составе слова.

Для каждого подкорпуса разработана система специфической разметки. Каждый текст, включенный в подкорпус, снабжен метаразметкой (источник, автор текста, название текста, пол автора, стиль текста, аудитория, тип распространения, дата, тема, полный источник и т. д.), которая отображается на втором экране при наведении курсора на автора. Корпус поддерживает поиск по словам, словоформам, метаразметке и группам, специфичным для каждого подкорпуса.