Қазақ тілінің ұлттық корпусы (ҚТҰК) – Kazakh тілінің лексика-грамматикалық жүйесін толық қамтыған (терең аннотацияланған) миллиондаған сөзқолданыстан тұратын электронды пішіндегі көлемді мәтіндер жинағы, Kazakh тілі жайлы барлық мәліметті жинақтаушы «ақылды», мамандандырылған білім қоры. Жалпы сөзқолданыс саны – 65 000 000. Қазақ тілінің ұлттық корпусы қазіргі кезде белгілі бір мақсатта арнайы әзірленген 16 ішкорпустан тұрады. Олар:
Main Corpus – ғылыми зерттеу және оқыту IT-ресурсы ретіндегі Kazakh тілінің 5 стилінен (көркем әдебиет стилі, ғылыми стиль, публицистикалық стиль, ісқағаз стилі, Colloquial стилі) алынған мәтіндердің электронды жиынтығы.
Ahmet Baitursynuly Subcorpus – Ахмет Байтұрсынұлы өлеңдері мен әңгімелері, мақалалары, оқу құралдары мәтіндерінің электронды деректер базасы.
Spoken Subcorpus – Kazakh тіліндегі ауызша сөйленген сөздердің (аудио/бейнежазбалардың) транскрибациясы, орфоэпиясы, аудиосы теңестіріле салынған электронды деректер базасы.
Historical Subcorpus – ескі кезеңдерден бері жарық көрген әртүрлі графикалық жүйедегі жазба мұралар мәтіндерінің метабелгіленімдері бар электрондық база.
Parallel Subcorpus – түпнұсқa мәтін және оның aудaрмaлaры теңестірілген электрондық база.
Cultural-Representative Subcorpus – этномәдени бірліктердің мәдени семантикасы туралы ақпарат беретін электрондық база.
Advertising Subcorpus – Kazakh тіліндегі жарнама мәтіндерінің Search жүйесі арқылы жұмыс істейтін электрондық базасы.
Dialectal Subcorpus – Kazakh тіліндегі жергілікті тіл ерекшеліктері бар ауызша және жазбаша мәтіндердің Search жүйесі арқылы жұмыс істейтін электронды базасы.
Мақал-мәтелдер ішкорпусы – Kazakh тіліндегі қордаланған мақал-мәтелдердің Search жүйесіне бағындырылған, лингвомәдени/этнолингвистикалық ақпарат (түсіндірме) беретін электрондық база.
Phraseologisms ішкорпусы – Kazakh тіліндегі фразеологизмдердің мағыналары ашылып, түсіндірмелері (дефиница) берілген электрондық база.
Ономастикалық ішкорпус – онимдерді (жалқы есімдер) жинақтап, жүйелеп, оларға мәдени-танымдық ақпарат беретін және онимдер көп қолданылған мәтіндер базасы.
Corpus of writers' texts – проза және драма жанрындағы көркем шығармалардың аннотацияланған электрондық қоры және жазушының көркем тілін танытатын көріктеуіш құралдардың базасы.
Заманауи поэтикалық ішкорпус – қазіргі Kazakh ақындары шығармаларының ауызша және жазбаша мәтіндерін іздеу жүйесі арқылы тауып, ақпарат беретін және әрбір ақын шығармаларының өлең құрылысының ерекшелігін көрсететін электронды база.
Historical-Poetic Subcorpus – Kazakh халқының ертеден келе жатқан VI-XIX ғғ. аралығындағы өлең құрылысынан, сөз қолдану шеберлігінен, стилінен, тұрақты сөз орамдарынан тілтанымдық ақпарат беретін электронды база.
Terminological Subcorpus – Kazakh тіліндегі әртүрлі ғылым салалары бойынша жазылған еңбектерден жинақталған мәтіндерден тұратын және сала терминдері туралы жан-жақты лингвистикалық ақпарат беретін электронды база.
Оқу корпусы – тіл үйренушілерге арналған ақпараттық-корпустық ресурс, оқытушылар мен білім алушыларға арналған лингвистикалық құралдармен жабдықталған тіл меңгерту бағытындағы электронды мәтіндер жинағы.
Барлық ішкорпустарда сөздерге морфологиялық, семантикалық, лексикалық, фонетика-фонологиялық белгіленімдер қойылған. Бұл белгіленімдер іздеу жасалған сөз туралы тілдің барлық деңгейі бойынша ақпарат береді:
Морфологиялық белгіленімде анализатор сөзді/сөзформаны автоматты түрде түбір мен қосымшаға бөліп (лемматизация), түбірге (леммаға) сөз табын қояды. Қосымшалардың грамматикалық сипаттамасын береді.
Лексикалық белгіленім сөздердің түсіндірме сөздіктегі барлық мағынасын көрсетеді.
Фонетикалық белгіленімде сөз орфоэпиясы беріліп, автоматты түрде буынға бөлінеді, буын түрлері сипатталады.
Фонологиялық белгіленімде сөз құрамындағы дыбыстардың фонемалық сипаттамасы беріледі.
Сондай-ақ әрбір ішкорпусқа тән белгіленімдер жүйесі жасалған. Ішкорпустарға енгізілген әрбір мәтіннің дереккөзі (метабелгіленімі) бар. Метабелгіленім терезесі (мәтін авторы, мәтін аты, автор жынысы, мәтін стилі, аудиториясы, таралым типі, мерзімі, тақырыбы, толық дереккөзі т.б.) курсорды авторға нұсқаған кезде екінші беттен ашылады. Корпус сөз, сөзформа (сөз түрленімі), метабелгіленім және ішкорпустарға тән топтар бойынша Search жасайды.