Қазақ тілінің ұлттық корпусы (ҚТҰК) – қазақ тілінің лексика-грамматикалық жүйесін толық қамтыған (терең аннотацияланған) миллиондаған сөзқолданыстан тұратын электронды пішіндегі көлемді мәтіндер жинағы, қазақ тілі жайлы барлық мәліметті жинақтаушы «ақылды», мамандандырылған білім қоры. Жалпы сөзқолданыс саны – 65 000 000. Қазақ тілінің ұлттық корпусы қазіргі кезде белгілі бір мақсатта арнайы әзірленген 16 ішкорпустан тұрады. Олар: Негізгі корпус – ғылыми зерттеу және оқыту IT-ресурсы ретіндегі қазақ тілінің 5 стилінен (көркем әдебиет стилі, ғылыми стиль, публицистикалық стиль, ісқағаз стилі, сөйлеу стилі) алынған мәтіндердің электронды жиынтығы. Ахмет Байтұрсынұлы ішкорпусы – Ахмет Байтұрсынұлы өлеңдері мен әңгімелері, мақалалары, оқу құралдары мәтіндерінің электронды деректер базасы. Ауызша ішкорпус – қазақ тіліндегі ауызша сөйленген сөздердің (аудио/бейнежазбалардың) транскрибациясы, орфоэпиясы, аудиосы теңестіріле салынған электронды деректер базасы. Тарихи ішкорпус – ескі кезеңдерден бері жарық көрген әртүрлі графикалық жүйедегі жазба мұралар мәтіндерінің метабелгіленімдері бар электрондық база. Параллель ішкорпус – түпнұсқa мәтін және оның aудaрмaлaры теңестірілген электрондық база. Мәдени-репрезентативті ішкорпус – этномәдени бірліктердің мәдени семантикасы туралы ақпарат беретін электрондық база. Жарнама ішкорпусы – қазақ тіліндегі жарнама мәтіндерінің Іздеу жүйесі арқылы жұмыс істейтін электрондық базасы. Диалектілік ішкорпус – қазақ тіліндегі жергілікті тіл ерекшеліктері бар ауызша және жазбаша мәтіндердің Іздеу жүйесі арқылы жұмыс істейтін электронды базасы. Мақал-мәтелдер ішкорпусы – қазақ тіліндегі қордаланған мақал-мәтелдердің Іздеу жүйесіне бағындырылған, лингвомәдени/этнолингвистикалық ақпарат (түсіндірме) беретін электрондық база. Фразеологизмдер ішкорпусы – қазақ тіліндегі фразеологизмдердің мағыналары ашылып, түсіндірмелері (дефиница) берілген электрондық база. Ономастикалық ішкорпус – онимдерді (жалқы есімдер) жинақтап, жүйелеп, оларға мәдени-танымдық ақпарат беретін және онимдер көп қолданылған мәтіндер базасы. Жазушы мәтіндері ішкорпусы – проза және драма жанрындағы көркем шығармалардың аннотацияланған электрондық қоры және жазушының көркем тілін танытатын көріктеуіш құралдардың базасы. Заманауи поэтикалық ішкорпус – қазіргі қазақ ақындары шығармаларының ауызша және жазбаша мәтіндерін іздеу жүйесі арқылы тауып, ақпарат беретін және әрбір ақын шығармаларының өлең құрылысының ерекшелігін көрсететін электронды база. Тарихи-поэтикалық ішкорпус – қазақ халқының ертеден келе жатқан VI-XIX ғғ. аралығындағы өлең құрылысынан, сөз қолдану шеберлігінен, стилінен, тұрақты сөз орамдарынан тілтанымдық ақпарат беретін электронды база. Терминологиялық ішкорпус – қазақ тіліндегі әртүрлі ғылым салалары бойынша жазылған еңбектерден жинақталған мәтіндерден тұратын және сала терминдері туралы жан-жақты лингвистикалық ақпарат беретін электронды база. Оқу корпусы – тіл үйренушілерге арналған ақпараттық-корпустық ресурс, оқытушылар мен білім алушыларға арналған лингвистикалық құралдармен жабдықталған тіл меңгерту бағытындағы электронды мәтіндер жинағы. Барлық ішкорпустарда сөздерге морфологиялық, семантикалық, лексикалық, фонетика-фонологиялық белгіленімдер қойылған. Бұл белгіленімдер іздеу жасалған сөз туралы тілдің барлық деңгейі бойынша ақпарат береді: Морфологиялық белгіленімде анализатор сөзді/сөзформаны автоматты түрде түбір мен қосымшаға бөліп (лемматизация), түбірге (леммаға) сөз табын қояды. Қосымшалардың грамматикалық сипаттамасын береді. Лексикалық белгіленім сөздердің түсіндірме сөздіктегі барлық мағынасын көрсетеді. Фонетикалық белгіленімде сөз орфоэпиясы беріліп, автоматты түрде буынға бөлінеді, буын түрлері сипатталады. Фонологиялық белгіленімде сөз құрамындағы дыбыстардың фонемалық сипаттамасы беріледі. Сондай-ақ әрбір ішкорпусқа тән белгіленімдер жүйесі жасалған. Ішкорпустарға енгізілген әрбір мәтіннің дереккөзі (метабелгіленімі) бар. Метабелгіленім терезесі (мәтін авторы, мәтін аты, автор жынысы, мәтін стилі, аудиториясы, таралым типі, мерзімі, тақырыбы, толық дереккөзі т.б.) курсорды авторға нұсқаған кезде екінші беттен ашылады. Корпус сөз, сөзформа (сөз түрленімі), метабелгіленім және ішкорпустарға тән топтар бойынша Іздеу жасайды.