Қазақ тілінің ауызша корпусы – Казах сөздерінің аудиосы, бейнесі және оның айнытпай қағазға түсірілген жазба нұсқасы және сөйлеушінің орфоэпиясы мен интонациясы, оның үстіне дұрысында қандай болуы керек еді дегенді тану үшін әдеби нормадағы орфоэпиясы қоса көрсетілген және осы айтылғандардың бәрі теңестіріле салынған электронды база. Бұндай база, бұндай ауызша корпус түрі бұрын-соңды елімізде жасалмаған, әлемдегі өзге ауызша корпустарға ұқсамайтын, яғни үлгісін шетелден “көшірмеген” теңдесі жоқ корпус. Корпусты әзірлеген Ахмет Байтұрсынұлы атындағы Тіл білімі институты. Идея авторы – Институт директоры Анар Фазылжан. Ауызша корпустың мұндай түрін жасаудағы басты мақсат – Казах сөзінің дұрыс айтылымын, разговорный сазын көрсету. Жоғалып бара жатқан үндесім, үйлесім заңдылықтарын беру болды. Белді, беделді, ел ұстаған, сөз ұстаған тұлғалардың, ақын-жазушы, қарапайым еңбек адамдарының, дәстүрлі сөзсаптам иелерінің, жергілікті тұрғындардың сөздерін, разговорный машықтарын сақтау, үлгі ету мақсаты да қамтылды.
Ауызша корпусты пайдалану арқылы:
– Казах тілінде дұрыс сөйлеп үйренуге;
– ауызша сөздің үдерістерін анықтауға;
– лингвоәлеуметтік ерекшеліктерді тануға;
– фонетикалық, орфоэпиялық талдаулар жасауға;
– белгілі тұлғалардыңы тілін, сөз стилін зерттеуге;
– Қазақ тілінің аймақтық сөз ерекшеліктерін анықтауға;
– Казах тілінің орфоэпиялық нормасына сай ауызша разговорный дағдысын меңгеруге;
– Казах тілінің ұлттық ауызша тілінің машығын тануға, меңгеруге, зерттеуге;
– разговорный процесі үстіндегі просодикалық белгіленімнің көрінісі мен сипатын тануға болады.
Сондай-ақ жасанды интеллектінің сапалы базасы бола алатын корпус. Қазақ тілінің үндестік заңын сақтай отырып жасанды интеллектіні сөйлетуге мүміндік беретін электронды база. Сөзді тану (speech recognation), мәтінді дыбыстау (text to speech), сөз тудыру (speech generation), сөзді мәтінге айналдыру (speech to text) сияқты табиғи тілді өңдеуде (natural language processing) жүзеге асатын пәнаралық салаларда база ретінде, зерттеу нысаны ретінде қолдануға болады. Ауызша корпустың іздеу жүйесі қажет сөзді жазу және сұрыптап іздеу арқылы жүзеге асады. Поиск по сортировке кезінде аймақты, тақырыпты, сөз стилін, лингвоәлеуметтік деңгейін, сұхбат берушінің бірін таңдау арқылы іздеу батырмасын басып, керек мәліметті аласыз. Поиск жүйесінің қай түрін таңдасаңыз да, сөз және оның иесі туралы мәлімет және сол сөздің орфографиясы, сөйлеушінің орфоэпиясы мен сөздің нормаға түскен орфоэпиясы қолжетімді болады. Сонымен қатар, сол сұхбаттың бейнежазбасын көріп, аудиосын тыңдауға мүмкіндік бар. Орфография слова бөліміндегі әр сөзді басқанда фонетика-фонологиялық, просодикалық талдаулар қолжетімді, ғылыми түрде зерттеліп, дәлелденген ақпаратпен танысасыз.
Қазақ тілінің ауызша корпус базасы– сөйлеушінің орфоэпиясы, сөздің орфоэпиялық нормасы және орфографиясы жазылған сұхбатардан тұрады. Олар Ғабит Мүсірепов, Әзілхан Нұршайық, Шерхан Мұртаза, Мұхтар Әуезов, Мәулен Балақаев, Мырзатай Жолдасбеков, Мырзатай Жолдасбеков, Сатыбалды Нарымбет, Асанәлі Әшім, Ибраһим Ағытайұлы, Жақсылық Үшкемпір, Қанипаш Мәдібай, Зейнеп Ахметова, Жұмаділдаев Асқар, Жүнісбек Әлімхан, Хасанов Бақытжан, Рабиға Сыздық, Оразбаева Фаузия, Нақысбеков Оқас, Момышұлы Бауыржан, Мыңжани Нығмет, Сейдімбек Ақселеу, Қайсенов Қасым, Бекболат Тілеухан, Бәпи Ермұрат, Абзал Құспан, Әбдуәлі Қайдар, Нұртөре Жүсіп, Ұларбек Нұрғалымұлы, Нұргелді Уәли, Қалихан Ысқақ, Сәкен Жүнісов сынды тұлғалардың дәстүрлі разговорный үлгілерімен қатар Бекжан Тұрыс, Дана Нұржігіт, Саясат Нұрбек, Әлихан Смайлов, Ақберен Елгезек, Ғарифолла Есім, Мұхамеджан Тазабек, Нұрділдә Ораз, Қалқаман Сарин, Маралтай Райымбек, Ерлан Қарин, Дос Көшім, Оразгүл Асанғазықызы, Унзила Шапак, Анар Фазылжанова, Құралай Күдеринова, Нұржан Біртанов, Нұрғалымұлы Ұларбек, Қанат Забай Сәмен төре, Жайнагүл Тілемісова, Бауыржан Ғафуұлы, Мақпал Жұмабай, Асылхан Төлепов, Тамара Асар, Фархат Калиев, Артур Давлетьяров тағы да басқа әртүрлі сала мамандарының, қарапайым адамдардың ауызша сөздері алынды.