Национальный корпус казахского языка (НККЯ) – это обширное электронное собрание текстов, включающее миллионы словоупотреблений, полностью охватывающее лексико-грамматическую систему казахского языка (с глубинной аннотацией). Это «умный» специализированный фонд знаний, аккумулирующий всю информацию о казахском языке. Общий объем словоупотреблений – 65 000 000. Национальный корпус казахского языка в настоящее время состоит из 16 специально разработанных подкорпусов:
Основной корпус – электронное собрание текстов, взятых из 5 стилей казахского языка (художественный, научный, публицистический, деловой, разговорный), служащее IT-ресурсом для научных исследований и обучения.
Подкорпус Ахмета Байтұрсынұлы – электронная база данных текстов стихов, рассказов, статей и учебных пособий Ахмета Байтұрсынұлы.
Устный подкорпус – электронная база данных устной речи на казахском языке (аудио- и видеозаписей) с транскрипцией, орфоэпией и синхронизированным звуком.
Исторический подкорпус – база данных текстов письменных памятников с метаразметкой, созданных в различных графических системах за длительный исторический период.
Параллельный подкорпус – электронная база данных оригинальных текстов и их согласованных переводов.
Культурно-репрезентативный подкорпус – база данных, предоставляющая информацию о культурной семантике этнокультурных единиц.
Рекламный подкорпус – электронная база данных текстов рекламы на казахском языке с системой поиска.
Диалектологический подкорпус – электронная база данных устных и письменных текстов с региональными языковыми особенностями.
Подкорпус пословиц и поговорок – база данных с системой поиска, предоставляющая лингвокультурную и этнолингвистическую информацию о казахских пословицах и поговорках.
Подкорпус фразеологизмов – электронная база данных казахских фразеологизмов с раскрытыми значениями и толкованиями.
Ономастический подкорпус – база данных онимов (собственных имен), снабженная культурно-познавательной информацией и текстами с частым использованием онимов.
Подкорпус текстов писателей – аннотированный фонд художественной прозы и драматургии, содержащий выразительные средства, характерные для языка писателей.
Современный поэтический подкорпус – электронная база данных, предоставляющая доступ к текстам современных казахских поэтов, а также к информации об особенностях стихотворной структуры.
Историко-поэтический подкорпус – база данных, предоставляющая информацию о стихотворной структуре, лексике, стилях и устойчивых выражениях текстов казахской литературы VI–XIX веков.
Терминологический подкорпус – база данных текстов, собранных из работ по различным научным отраслям, содержащая всестороннюю информацию о терминах.
Учебный корпус – электронное собрание текстов для изучающих язык, снабженное лингвистическими инструментами для преподавателей и учащихся.
Learner’s Corpus – интерактивный учебный внутренний корпус, созданный для обучения казахскому языку англоязычных учащихся. Платформа включает тексты уровней A1–C1, грамматико-лексические справочники, иллюстрированный словарь, видеоматериалы и образцы упражнений.
Шестиязычный параллельный подкорпус – сбалансированная база данных, в которой одновременно представлены варианты одного и того же текста на казахском, английском, турецком, узбекском, уйгурском и азербайджанском языках.
Корпус ошибок – электронная база данных, предназначенная для сбора ошибок из письменных работ и их лингвистического анализа; направлена на выявление уровня письменной грамотности носителей казахского языка, уровня владения языком у изучающих казахский, повышение грамотности через анализ типичных ошибок и совершенствование методики преподавания языка.
Во всех подкорпусах слова снабжены морфологической, семантической, лексической и фонетико-фонологической разметкой. Эта разметка предоставляет информацию обо всех уровнях языка:
Морфологическая разметка автоматически делит слово или словоформу на корень и аффиксы (лемматизация), указывает часть речи корня (леммы) и грамматическую характеристику аффиксов.
Лексическая разметка показывает все значения слова по толковому словарю.
Фонетическая разметка предоставляет орфоэпию слова, делит его на слоги и описывает типы слогов.
Фонологическая разметка дает фонемные характеристики звуков в составе слова.
Для каждого подкорпуса разработана система специфической разметки. Каждый текст, включенный в подкорпус, снабжен метаразметкой (источник, автор текста, название текста, пол автора, стиль текста, аудитория, тип распространения, дата, тема, полный источник и т. д.), которая отображается на втором экране при наведении курсора на автора. Корпус поддерживает поиск по словам, словоформам, метаразметке и группам, специфичным для каждого подкорпуса.