Қазақ тілінің ауызша корпусы – Kazakh сөздерінің аудиосы, бейнесі және оның айнытпай қағазға түсірілген жазба нұсқасы және сөйлеушінің орфоэпиясы мен интонациясы, оның үстіне дұрысында қандай болуы керек еді дегенді тану үшін әдеби нормадағы орфоэпиясы қоса көрсетілген және осы айтылғандардың бәрі теңестіріле салынған электронды база. Бұндай база, бұндай ауызша корпус түрі бұрын-соңды елімізде жасалмаған, әлемдегі өзге ауызша корпустарға ұқсамайтын, яғни үлгісін шетелден “көшірмеген” теңдесі жоқ корпус. Корпусты әзірлеген Ахмет Байтұрсынұлы атындағы Тіл білімі институты. Идея авторы – Институт директоры Анар Фазылжан. Ауызша корпустың мұндай түрін жасаудағы басты мақсат – Kazakh сөзінің дұрыс айтылымын, Colloquial сазын көрсету. Жоғалып бара жатқан үндесім, үйлесім заңдылықтарын беру болды. Белді, беделді, ел ұстаған, сөз ұстаған тұлғалардың, ақын-жазушы, қарапайым еңбек адамдарының, дәстүрлі сөзсаптам иелерінің, жергілікті тұрғындардың сөздерін, Colloquial машықтарын сақтау, үлгі ету мақсаты да қамтылды.
Ауызша корпусты пайдалану арқылы:
– Kazakh тілінде дұрыс сөйлеп үйренуге;
– ауызша сөздің үдерістерін анықтауға;
– лингвоәлеуметтік ерекшеліктерді тануға;
– фонетикалық, орфоэпиялық талдаулар жасауға;
– белгілі тұлғалардыңы тілін, сөз стилін зерттеуге;
– Қазақ тілінің аймақтық сөз ерекшеліктерін анықтауға;
– Kazakh тілінің орфоэпиялық нормасына сай ауызша Colloquial дағдысын меңгеруге;
– Kazakh тілінің ұлттық ауызша тілінің машығын тануға, меңгеруге, зерттеуге;
– Colloquial процесі үстіндегі просодикалық белгіленімнің көрінісі мен сипатын тануға болады.
Сондай-ақ жасанды интеллектінің сапалы базасы бола алатын корпус. Қазақ тілінің үндестік заңын сақтай отырып жасанды интеллектіні сөйлетуге мүміндік беретін электронды база. Сөзді тану (speech recognation), мәтінді дыбыстау (text to speech), сөз тудыру (speech generation), сөзді мәтінге айналдыру (speech to text) сияқты табиғи тілді өңдеуде (natural language processing) жүзеге асатын пәнаралық салаларда база ретінде, зерттеу нысаны ретінде қолдануға болады. Ауызша корпустың іздеу жүйесі қажет сөзді жазу және сұрыптап іздеу арқылы жүзеге асады. Search by sorting кезінде аймақты, тақырыпты, сөз стилін, лингвоәлеуметтік деңгейін, сұхбат берушінің бірін таңдау арқылы іздеу батырмасын басып, керек мәліметті аласыз. Search жүйесінің қай түрін таңдасаңыз да, сөз және оның иесі туралы мәлімет және сол сөздің орфографиясы, сөйлеушінің орфоэпиясы мен сөздің нормаға түскен орфоэпиясы қолжетімді болады. Сонымен қатар, сол сұхбаттың бейнежазбасын көріп, аудиосын тыңдауға мүмкіндік бар. Spelling of the word бөліміндегі әр сөзді басқанда фонетика-фонологиялық, просодикалық талдаулар қолжетімді, ғылыми түрде зерттеліп, дәлелденген ақпаратпен танысасыз.
Қазақ тілінің ауызша корпус базасы– сөйлеушінің орфоэпиясы, сөздің орфоэпиялық нормасы және орфографиясы жазылған сұхбатардан тұрады. Олар Ғабит Мүсірепов, Әзілхан Нұршайық, Шерхан Мұртаза, Мұхтар Әуезов, Мәулен Балақаев, Мырзатай Жолдасбеков, Мырзатай Жолдасбеков, Сатыбалды Нарымбет, Асанәлі Әшім, Ибраһим Ағытайұлы, Жақсылық Үшкемпір, Қанипаш Мәдібай, Зейнеп Ахметова, Жұмаділдаев Асқар, Жүнісбек Әлімхан, Хасанов Бақытжан, Рабиға Сыздық, Оразбаева Фаузия, Нақысбеков Оқас, Момышұлы Бауыржан, Мыңжани Нығмет, Сейдімбек Ақселеу, Қайсенов Қасым, Бекболат Тілеухан, Бәпи Ермұрат, Абзал Құспан, Әбдуәлі Қайдар, Нұртөре Жүсіп, Ұларбек Нұрғалымұлы, Нұргелді Уәли, Қалихан Ысқақ, Сәкен Жүнісов сынды тұлғалардың дәстүрлі Colloquial үлгілерімен қатар Бекжан Тұрыс, Дана Нұржігіт, Саясат Нұрбек, Әлихан Смайлов, Ақберен Елгезек, Ғарифолла Есім, Мұхамеджан Тазабек, Нұрділдә Ораз, Қалқаман Сарин, Маралтай Райымбек, Ерлан Қарин, Дос Көшім, Оразгүл Асанғазықызы, Унзила Шапак, Анар Фазылжанова, Құралай Күдеринова, Нұржан Біртанов, Нұрғалымұлы Ұларбек, Қанат Забай Сәмен төре, Жайнагүл Тілемісова, Бауыржан Ғафуұлы, Мақпал Жұмабай, Асылхан Төлепов, Тамара Асар, Фархат Калиев, Артур Давлетьяров тағы да басқа әртүрлі сала мамандарының, қарапайым адамдардың ауызша сөздері алынды.