KZ | RU | EN
Добро пожаловать на сайт Основного корпуса казахского языка! Основной корпус – это электронная совокупность текстов, отобранных из 5 функциональных стилей казахского языка (художественный, научный, публицистический, официально-деловой, разговорный), представляющая собой IT-ресурс для научных исследований и обучения. Цель Основного корпуса – стать текстовым ресурсом, охватывающим все стилевые слои казахского языка и отражающим целостную картину языка. Общий объем – 31 105 900 словоупотреблений. Основной корпус включает систему поиска по слову и словоформе (формам слова). В Основном корпусе функционируют морфологическая, семантическая, лексическая и фонетико-фонологическая разметки. Эти разметки предоставляют информацию о найденном слове на всех уровнях языка: В морфологической разметке анализатор автоматически делит слово/словоформу на корень и аффиксы (лемматизация) и определяет часть речи для корня (леммы). Также дается грамматическая характеристика аффиксов. Лексическая разметка показывает все значения слов, представленные в толковых словарях. Фонетическая разметка отражает орфоэпию слова, автоматически делит его на слоги и описывает типы слогов. Фонологическая разметка предоставляет фонемную характеристику звуков, входящих в состав слова. Каждый текст, включенный в Основной корпус, имеет источник (метаразметку). Окно метаразметки открывается на отдельной странице при наведении курсора на автора. Пользователь корпуса может осуществлять поиск слов по видам метаразметки (автор текста, название текста, пол автора, стиль текста, аудитория, тип распространения, период, тема, полный источник).


ОБЩАЯ ИНФОРМАЦИЯ



Национальный корпус казахского языка (НККЯ) – это обширное электронное собрание текстов, включающее миллионы словоупотреблений, полностью охватывающее лексико-грамматическую систему казахского языка (с глубинной аннотацией). Это «умный» специализированный фонд знаний, аккумулирующий всю информацию о казахском языке. Общий объем словоупотреблений – 65 000 000.

Национальный корпус казахского языка в настоящее время состоит из 16 специально разработанных подкорпусов:

Основной корпус это электронное собрание текстов, взятых из 5 стилей казахского языка (стиль художественной литературы, научный стиль, публицистический стиль, деловой стиль, разговорный стиль), служащее IT-ресурсом для научных исследований и обучения. Цель Основного корпуса – быть источником данных, включающим все стилистические пласты казахского языка, которые формируют целостный образ одного языка. Общий объем текстовой базы Основного корпуса составляет 31 105 900 словоупотреблений.

Основной корпус включает систему поиска по словам и словоформам (словоформы). В Основном корпусе, а также во всех подкорпусах, работают морфологические, семантические, лексические, фонетико-фонологические виды разметки. Эти разметки предоставляют информацию обо всех уровнях языка по запрашиваемому слову:

В морфологической разметке анализатор автоматически делит слово/словоформу на корень и аффиксы (лемматизация), определяет часть речи для корня (леммы) и дает грамматическую характеристику аффиксов.

Лексическая разметка показывает все значения слов по толковому словарю. В фонетической разметке предоставляется орфоэпия слова, автоматическое деление на слоги и описание типов слогов. .

Фонетическая разметка предоставляет орфоэпию слова, делит его на слоги и описывает типы слогов.

В фонологической разметке дается фонемная характеристика звуков, входящих в состав слова. Каждый текст, включенный в подкорпусы, имеет источник данных (метаразметка). Окно метаразметки (автор текста, название текста, пол автора, стиль текста, аудитория, тип распространения, дата, тема, полный источник и др.) открывается на втором экране при наведении курсора на автора. Пользователь корпуса может искать нужное слово по типам метаразметки.

Для каждого подкорпуса разработана система специфической разметки. Каждый текст, включенный в подкорпус, снабжен метаразметкой (источник, автор текста, название текста, пол автора, стиль текста, аудитория, тип распространения, дата, тема, полный источник и т. д.), которая отображается на втором экране при наведении курсора на автора.

Корпус поддерживает поиск по словам, словоформам, метаразметке и группам, специфичным для каждого подкорпуса.