Қазақ тілінің ұлттық корпусы (ҚТҰК) – қазақ тілінің лексика-грамматикалық жүйесін толық қамтыған (терең аннотацияланған) миллиондаған сөзқолданыстан тұратын электронды пішіндегі көлемді мәтіндер жинағы, қазақ тілі жайлы барлық мәліметтерді жинақтаушы «ақылды», мамандандырылған білім қоры.
Қазақ тілінің ұлттық корпусы қазіргі кезде белгілі бір мақсатта арнайы әзірленген 16 ішкорпустан тұрады.
Жалпы сөзқолданыс саны – 65 000 000.
Негізгі корпус – ғылыми зерттеу және оқыту IT-ресурсы ретіндегі қазақ тілінің 5 стилінен (көркем әдебиет стилі, ғылыми стиль, публицистикалық стиль, ісқағаз стилі, сөйлеу стилі) алынған мәтіндердің электронды жиынтығы.
Негізгі корпустың мақсаты – бір тілдің біртұтас бейнесін танытатын қазақ тіліндегі барлық стильдік қабаттарды қамтитын мәтіндер дереккөзі болу.
Негізгі корпустың мәтіндер базасының жалпы көлемі – 31 105 900 сөзқолданыс.
Негізгі корпус сөз, сөзформа (сөз түрленімі) бойынша іздеу жүйесінен тұрады.
Негізгі корпуста және сондай-ақ барлық ішкорпустарда морфологиялық, семантикалық, лексикалық, фонетика-фонологиялық белгіленім түрлері жұмыс істейді. Бұл белгіленімдер іздеу жасалған сөз туралы тілдің барлық деңгейі бойынша ақпарат береді:
Морфологиялық белгіленімде анализатор сөзді/сөзформаны автоматты түрде түбір мен қосымшаға бөліп (лемматизация), түбірге (леммаға) сөз табын қояды. Қосымшалардың грамматикалық сипаттамасын береді.
Лексикалық белгіленім сөздердің түсіндірме сөздіктегі барлық мағынасын көрсетеді.
Фонетикалық белгіленімде сөз орфоэпиясы беріліп, автоматты түрде буынға бөлінеді, буын түрлері сипатталады.
Фонологиялық белгіленімде сөз құрамындағы дыбыстардың фонемалық сипаттамасы беріледі.
Ішкорпустарға енгізілген әрбір мәтіннің дереккөзі (метабелгіленімі) бар. Метабелгіленім терезесі (мәтін авторы, мәтін аты, автор жынысы, мәтін стилі, аудиториясы, таралым типі, мерзімі, тақырыбы, толық дереккөзі т.б.) курсорды авторға нұсқаған кезде екінші беттен ашылады.
Корпусты пайдаланушы метабелгіленім түрлері бойынша қажетті сөзді іздей алады.