Қазақ тілінің Негізгі корпусы сайтына қош келдіңіз! Негізгі корпус – ғылыми зерттеу және оқыту IT-ресурсы ретіндегі қазақ тілінің 5 стилінен (көркем әдебиет стилі, ғылыми стиль, публицистикалық стиль, ісқағаз стилі, сөйлеу стилі) алынған мәтіндердің электронды жиынтығы.Негізгі корпустың мақсаты – бір тілдің біртұтас бейнесін танытатын қазақ тіліндегі барлық стильдік қабаттарды қамтитын мәтіндер дереккөзі болу. Жалпы көлемі – 31 105 900 сөзқолданыс. Негізгі корпус сөз, сөзформа (сөз түрленімі) бойынша іздеу жүйесінен тұрады. Негізгі корпуста морфологиялық, семантикалық, лексикалық, фонетика-фонологиялық белгіленім түрлері жұмыс істейді. Бұл белгіленімдер іздеу жасалған сөз туралы тілдің барлық деңгейі бойынша ақпарат береді: Морфологиялық белгіленімде анализатор сөзді/сөзформаны автоматты түрде түбір мен қосымшаға бөліп (лемматизация), түбірге (леммаға) сөз табын қояды. Қосымшалардың грамматикалық сипаттамасын береді. Лексикалық белгіленім сөздердің түсіндірме сөздіктегі барлық мағынасын көрсетеді. Фонетикалық белгіленімде сөз орфоэпиясы беріліп, автоматты түрде буынға бөлінеді, буын түрлері сипатталады. Фонологиялық белгіленімде сөз құрамындағы дыбыстардың фонемалық сипаттамасы беріледі. Негізгі корпусқа енгізілген әрбір мәтіннің дереккөзі (метабелгіленімі) бар. Метабелгіленім терезесі курсорды авторға нұсқаған кезде екінші беттен ашылады. Корпусты пайдаланушы метабелгіленім түрлері (мәтін авторы, мәтін аты, автор жынысы, мәтін стилі, аудиториясы, таралым типі, мерзімі, тақырыбы, толық дереккөзі) бойынша қажетті сөзді іздей алады.


ЖАЛПЫ МӘЛІМЕТ



Параллель ішкорпус – түпнұсқa мәтін және оның aудaрмaлaрының жиынтығы.

ҚТҰК-ның базасында параллель ішкорпусты құрудың мақсаты – қазақ тіліндегі мәтіндердің басқа тілдердегі теңестірілген аударма мәтіндер базасын қалыптастыру арқылы қазақ тілін оқытудың лингвистикалық платформасын жасау.

Пaрaллель ішкорпус теңестірілген мәтіндер базасынан, белгіленім, метабелгіленім және іздеу жүйесінен тұрады. Ішкорпустың мәтіндік базасына алғашқы кезеңде көркем әдебиет мен ресми-іскери стиль мәтіндері алынды.

Теңескен мәтіндерге екі тілде (қазақ және орыс) де морфологиялық талдау жасалған. Көркем әдебиеттің мәтіні туралы ақпарат (метабелгіленім) 28 параметрден тұрады.

Іскери стиль бойынша мәтін көлемі – 600 000 сөзқолданыс, көркем әдебиет бойынша – 1 500 000 сөзқолданыс, жалпы көлемі – 2 000 100 сөзқолданыс.