Қазақ тілінің ұлттық корпусы (ҚТҰК) – Казах тілінің лексика-грамматикалық жүйесін толық қамтыған (терең аннотацияланған) миллиондаған сөзқолданыстан тұратын электронды пішіндегі көлемді мәтіндер жинағы, Казах тілі жайлы барлық мәліметті жинақтаушы «ақылды», мамандандырылған білім қоры. Жалпы сөзқолданыс саны – 65 000 000. Қазақ тілінің ұлттық корпусы қазіргі кезде белгілі бір мақсатта арнайы әзірленген 16 ішкорпустан тұрады. Олар:
Основной корпус – ғылыми зерттеу және оқыту IT-ресурсы ретіндегі Казах тілінің 5 стилінен (көркем әдебиет стилі, ғылыми стиль, публицистикалық стиль, ісқағаз стилі, разговорный стилі) алынған мәтіндердің электронды жиынтығы.
Подкорпус Ахмета Байтұрсынулы – Ахмет Байтұрсынұлы өлеңдері мен әңгімелері, мақалалары, оқу құралдары мәтіндерінің электронды деректер базасы.
Устный подкорпус – Казах тіліндегі ауызша сөйленген сөздердің (аудио/бейнежазбалардың) транскрибациясы, орфоэпиясы, аудиосы теңестіріле салынған электронды деректер базасы.
Исторический подкорпус – ескі кезеңдерден бері жарық көрген әртүрлі графикалық жүйедегі жазба мұралар мәтіндерінің метабелгіленімдері бар электрондық база.
Параллельный подкорпус – түпнұсқa мәтін және оның aудaрмaлaры теңестірілген электрондық база.
Культурно-репрезентативный подкорпус – этномәдени бірліктердің мәдени семантикасы туралы ақпарат беретін электрондық база.
Рекламный подкорпус – Казах тіліндегі жарнама мәтіндерінің Поиск жүйесі арқылы жұмыс істейтін электрондық базасы.
Диалектный подкорпус – Казах тіліндегі жергілікті тіл ерекшеліктері бар ауызша және жазбаша мәтіндердің Поиск жүйесі арқылы жұмыс істейтін электронды базасы.
Мақал-мәтелдер ішкорпусы – Казах тіліндегі қордаланған мақал-мәтелдердің Поиск жүйесіне бағындырылған, лингвомәдени/этнолингвистикалық ақпарат (түсіндірме) беретін электрондық база.
Фразеологизмы ішкорпусы – Казах тіліндегі фразеологизмдердің мағыналары ашылып, түсіндірмелері (дефиница) берілген электрондық база.
Ономастикалық ішкорпус – онимдерді (жалқы есімдер) жинақтап, жүйелеп, оларға мәдени-танымдық ақпарат беретін және онимдер көп қолданылған мәтіндер базасы.
Корпус текстов писателей – проза және драма жанрындағы көркем шығармалардың аннотацияланған электрондық қоры және жазушының көркем тілін танытатын көріктеуіш құралдардың базасы.
Заманауи поэтикалық ішкорпус – қазіргі Казах ақындары шығармаларының ауызша және жазбаша мәтіндерін іздеу жүйесі арқылы тауып, ақпарат беретін және әрбір ақын шығармаларының өлең құрылысының ерекшелігін көрсететін электронды база.
Историко-поэтический подкорпус – Казах халқының ертеден келе жатқан VI-XIX ғғ. аралығындағы өлең құрылысынан, сөз қолдану шеберлігінен, стилінен, тұрақты сөз орамдарынан тілтанымдық ақпарат беретін электронды база.
Терминологический подкорпус – Казах тіліндегі әртүрлі ғылым салалары бойынша жазылған еңбектерден жинақталған мәтіндерден тұратын және сала терминдері туралы жан-жақты лингвистикалық ақпарат беретін электронды база.
Оқу корпусы – тіл үйренушілерге арналған ақпараттық-корпустық ресурс, оқытушылар мен білім алушыларға арналған лингвистикалық құралдармен жабдықталған тіл меңгерту бағытындағы электронды мәтіндер жинағы.
Барлық ішкорпустарда сөздерге морфологиялық, семантикалық, лексикалық, фонетика-фонологиялық белгіленімдер қойылған. Бұл белгіленімдер іздеу жасалған сөз туралы тілдің барлық деңгейі бойынша ақпарат береді:
Морфологиялық белгіленімде анализатор сөзді/сөзформаны автоматты түрде түбір мен қосымшаға бөліп (лемматизация), түбірге (леммаға) сөз табын қояды. Қосымшалардың грамматикалық сипаттамасын береді.
Лексикалық белгіленім сөздердің түсіндірме сөздіктегі барлық мағынасын көрсетеді.
Фонетикалық белгіленімде сөз орфоэпиясы беріліп, автоматты түрде буынға бөлінеді, буын түрлері сипатталады.
Фонологиялық белгіленімде сөз құрамындағы дыбыстардың фонемалық сипаттамасы беріледі.
Сондай-ақ әрбір ішкорпусқа тән белгіленімдер жүйесі жасалған. Ішкорпустарға енгізілген әрбір мәтіннің дереккөзі (метабелгіленімі) бар. Метабелгіленім терезесі (мәтін авторы, мәтін аты, автор жынысы, мәтін стилі, аудиториясы, таралым типі, мерзімі, тақырыбы, толық дереккөзі т.б.) курсорды авторға нұсқаған кезде екінші беттен ашылады. Корпус сөз, сөзформа (сөз түрленімі), метабелгіленім және ішкорпустарға тән топтар бойынша Поиск жасайды.