Қазақ тілінің Негізгі корпусы сайтына қош келдіңіз! Негізгі корпус – ғылыми зерттеу және оқыту IT-ресурсы ретіндегі қазақ тілінің 5 стилінен (көркем әдебиет стилі, ғылыми стиль, публицистикалық стиль, ісқағаз стилі, сөйлеу стилі) алынған мәтіндердің электронды жиынтығы.Негізгі корпустың мақсаты – бір тілдің біртұтас бейнесін танытатын қазақ тіліндегі барлық стильдік қабаттарды қамтитын мәтіндер дереккөзі болу. Жалпы көлемі – 31 105 900 сөзқолданыс. Негізгі корпус сөз, сөзформа (сөз түрленімі) бойынша іздеу жүйесінен тұрады. Негізгі корпуста морфологиялық, семантикалық, лексикалық, фонетика-фонологиялық белгіленім түрлері жұмыс істейді. Бұл белгіленімдер іздеу жасалған сөз туралы тілдің барлық деңгейі бойынша ақпарат береді: Морфологиялық белгіленімде анализатор сөзді/сөзформаны автоматты түрде түбір мен қосымшаға бөліп (лемматизация), түбірге (леммаға) сөз табын қояды. Қосымшалардың грамматикалық сипаттамасын береді. Лексикалық белгіленім сөздердің түсіндірме сөздіктегі барлық мағынасын көрсетеді. Фонетикалық белгіленімде сөз орфоэпиясы беріліп, автоматты түрде буынға бөлінеді, буын түрлері сипатталады. Фонологиялық белгіленімде сөз құрамындағы дыбыстардың фонемалық сипаттамасы беріледі. Негізгі корпусқа енгізілген әрбір мәтіннің дереккөзі (метабелгіленімі) бар. Метабелгіленім терезесі курсорды авторға нұсқаған кезде екінші беттен ашылады. Корпусты пайдаланушы метабелгіленім түрлері (мәтін авторы, мәтін аты, автор жынысы, мәтін стилі, аудиториясы, таралым типі, мерзімі, тақырыбы, толық дереккөзі) бойынша қажетті сөзді іздей алады.


ЖАЛПЫ МӘЛІМЕТ



Тарихи ішкорпус – ескі кезеңдерден бері жарық көрген әртүрлі графикалық жүйедегі жазба мұралар мәтіндерінің метабелгіленімдері бар электрондық база.

ҚТҰК-ның тарихи ішкорпусының мақсаты – XII-XX ғғ. жазба мұралар мәтіндерінің түпнұсқа (араб, латын графикаларындағы), транскрипциялық және қазіргі қазақ тіліндегі аударма мәтіндерінің электрондық базасын жасау, олардың метабелгіленімдерін әзірлеу.

Әзірленіп жатқан тарихи ішкорпус XII-XX ғғ. араб және латын графикасында жазылған жазба мәтіндер базасынан тұрады. Корпусқа әр шығарманың қолжазбасы, транскрипциясы мен аудармасы енгізілді. Қолжазбаның әр бетіне сәйкес берілетін мәтіннің транскрипциясы мен аудармасы зерттеушілерге тарихи-салыстырмалы, диахронды-синхронды зерттеулер жасауына мүмкіндік береді.

Метабелгіленімде шығарманың қысқаша мазмұны, тақырыбы, авторы, жарияланған жылы, сақталған орны, стилі, жанры, мәтін нұсқалары, баспасы, бет саны т.б. туралы ақпарат беріледі. Мәтіндердегі тарихи сөздердің лингвистикалық белгіленімдері (графикасы, сөз табы, мәнмәтіндегі мағынасы (аудармасы) берілген.

Корпусқа енетін ерте дәуірде, орта ғасырда жазылған барлық жазба мұралар мәтіндерінің базасы және ондағы лингвистикалық мәліметтер шығыстанушыларға, тарихшыларға, түркітанушыларға, жалпы көпшілікке таптырмас пайдалы құрал бола алады.

Тарихи ішкорпус базасына енген мәтіндер саны – 66, сөзқолданыс саны – 655 997.