KZ | RU | EN
Қазақ тілінің Негізгі корпусы сайтына қош келдіңіз! Основной корпус – ғылыми зерттеу және оқыту IT-ресурсы ретіндегі Казах тілінің 5 стилінен (көркем әдебиет стилі, ғылыми стиль, публицистикалық стиль, ісқағаз стилі, разговорный стилі) алынған мәтіндердің электронды жиынтығы.Негізгі корпустың мақсаты – бір тілдің біртұтас бейнесін танытатын Казах тіліндегі барлық стильдік қабаттарды қамтитын мәтіндер дереккөзі болу. Жалпы көлемі – 31 105 900 сөзқолданыс. Основной корпус сөз, сөзформа (сөз түрленімі) бойынша іздеу жүйесінен тұрады. Негізгі корпуста морфологиялық, семантикалық, лексикалық, фонетика-фонологиялық белгіленім түрлері жұмыс істейді. Бұл белгіленімдер іздеу жасалған сөз туралы тілдің барлық деңгейі бойынша ақпарат береді: Морфологиялық белгіленімде анализатор сөзді/сөзформаны автоматты түрде түбір мен қосымшаға бөліп (лемматизация), түбірге (леммаға) сөз табын қояды. Қосымшалардың грамматикалық сипаттамасын береді. Лексикалық белгіленім сөздердің түсіндірме сөздіктегі барлық мағынасын көрсетеді. Фонетикалық белгіленімде сөз орфоэпиясы беріліп, автоматты түрде буынға бөлінеді, буын түрлері сипатталады. Фонологиялық белгіленімде сөз құрамындағы дыбыстардың фонемалық сипаттамасы беріледі. Негізгі корпусқа енгізілген әрбір мәтіннің дереккөзі (метабелгіленімі) бар. Метабелгіленім терезесі курсорды авторға нұсқаған кезде екінші беттен ашылады. Корпусты пайдаланушы метабелгіленім түрлері (мәтін авторы, мәтін аты, автор жынысы, мәтін стилі, аудиториясы, таралым типі, мерзімі, тақырыбы, толық дереккөзі) бойынша қажетті сөзді іздей алады.


ОБЩАЯ ИНФОРМАЦИЯ



Национальный корпус казахского языка (НККЯ) – это обширное электронное собрание текстов, включающее миллионы словоупотреблений, полностью охватывающее лексико-грамматическую систему казахского языка (с глубинной аннотацией). Это «умный» специализированный фонд знаний, аккумулирующий всю информацию о казахском языке. Общий объем словоупотреблений – 65 000 000.

Национальный корпус казахского языка в настоящее время состоит из 16 специально разработанных подкорпусов:

Основной корпус это электронное собрание текстов, взятых из 5 стилей казахского языка (стиль художественной литературы, научный стиль, публицистический стиль, деловой стиль, разговорный стиль), служащее IT-ресурсом для научных исследований и обучения. Цель Основного корпуса – быть источником данных, включающим все стилистические пласты казахского языка, которые формируют целостный образ одного языка. Общий объем текстовой базы Основного корпуса составляет 31 105 900 словоупотреблений.

Основной корпус включает систему поиска по словам и словоформам (словоформы). В Основном корпусе, а также во всех подкорпусах, работают морфологические, семантические, лексические, фонетико-фонологические виды разметки. Эти разметки предоставляют информацию обо всех уровнях языка по запрашиваемому слову:

В морфологической разметке анализатор автоматически делит слово/словоформу на корень и аффиксы (лемматизация), определяет часть речи для корня (леммы) и дает грамматическую характеристику аффиксов.

Лексическая разметка показывает все значения слов по толковому словарю. В фонетической разметке предоставляется орфоэпия слова, автоматическое деление на слоги и описание типов слогов. .

Фонетическая разметка предоставляет орфоэпию слова, делит его на слоги и описывает типы слогов.

В фонологической разметке дается фонемная характеристика звуков, входящих в состав слова. Каждый текст, включенный в подкорпусы, имеет источник данных (метаразметка). Окно метаразметки (автор текста, название текста, пол автора, стиль текста, аудитория, тип распространения, дата, тема, полный источник и др.) открывается на втором экране при наведении курсора на автора. Пользователь корпуса может искать нужное слово по типам метаразметки.

Для каждого подкорпуса разработана система специфической разметки. Каждый текст, включенный в подкорпус, снабжен метаразметкой (источник, автор текста, название текста, пол автора, стиль текста, аудитория, тип распространения, дата, тема, полный источник и т. д.), которая отображается на втором экране при наведении курсора на автора.

Корпус поддерживает поиск по словам, словоформам, метаразметке и группам, специфичным для каждого подкорпуса.