Национальный корпус казахского языка (НККЯ) – это обширное электронное собрание текстов, включающее миллионы словоупотреблений, полностью охватывающее лексико-грамматическую систему казахского языка (с глубинной аннотацией). Это «умный» специализированный фонд знаний, аккумулирующий всю информацию о казахском языке. Общий объем словоупотреблений – 65 000 000.
Национальный корпус казахского языка в настоящее время состоит из 16 специально разработанных подкорпусов:
Основной корпус это электронное собрание текстов, взятых из 5 стилей казахского языка (стиль художественной литературы, научный стиль, публицистический стиль, деловой стиль, разговорный стиль), служащее IT-ресурсом для научных исследований и обучения. Цель Основного корпуса – быть источником данных, включающим все стилистические пласты казахского языка, которые формируют целостный образ одного языка. Общий объем текстовой базы Основного корпуса составляет 31 105 900 словоупотреблений.
Основной корпус включает систему поиска по словам и словоформам (словоформы). В Основном корпусе, а также во всех подкорпусах, работают морфологические, семантические, лексические, фонетико-фонологические виды разметки. Эти разметки предоставляют информацию обо всех уровнях языка по запрашиваемому слову:
В морфологической разметке анализатор автоматически делит слово/словоформу на корень и аффиксы (лемматизация), определяет часть речи для корня (леммы) и дает грамматическую характеристику аффиксов.
Лексическая разметка показывает все значения слов по толковому словарю. В фонетической разметке предоставляется орфоэпия слова, автоматическое деление на слоги и описание типов слогов. .
Фонетическая разметка предоставляет орфоэпию слова, делит его на слоги и описывает типы слогов.
В фонологической разметке дается фонемная характеристика звуков, входящих в состав слова. Каждый текст, включенный в подкорпусы, имеет источник данных (метаразметка). Окно метаразметки (автор текста, название текста, пол автора, стиль текста, аудитория, тип распространения, дата, тема, полный источник и др.) открывается на втором экране при наведении курсора на автора. Пользователь корпуса может искать нужное слово по типам метаразметки.
Для каждого подкорпуса разработана система специфической разметки. Каждый текст, включенный в подкорпус, снабжен метаразметкой (источник, автор текста, название текста, пол автора, стиль текста, аудитория, тип распространения, дата, тема, полный источник и т. д.), которая отображается на втором экране при наведении курсора на автора.
Корпус поддерживает поиск по словам, словоформам, метаразметке и группам, специфичным для каждого подкорпуса.