НАЦИОНАЛЬНЫЙ КОРПУС КАЗАХСКОГО ЯЗЫКА

ИНФОРМАЦИЯ ОБ УСТНОМ КОРПУСЕ

Устный подкорпус казахского языка – это электронная база данных, содержащая аудио- и видеозаписи казахской речи, а также их точные письменные транскрипции. В корпусе представлены орфоэпия и интонация говорящего, а также нормативное литературное произношение, что позволяет сопоставлять реальные и нормативные варианты речи. Данный корпус является уникальным проектом, не имеющим аналогов в Казахстане и не копирующим зарубежные модели. Корпус разработан Институтом языкознания имени Ахмета Байтұрсынұлы. Автор идеи – директор института Анар Фазылжан.

Основная цель создания устного подкорпуса – показать правильное произношение казахских слов и особенности устной речи. Также важной задачей является сохранение закономерностей сингармонизма и гармонии, которые постепенно утрачиваются. В корпус включены речевые образцы известных общественных деятелей, писателей, представителей различных профессий, а также носителей традиционной речевой культуры и жителей разных регионов.

Использование устного подкорпуса позволяет:

– обучаться правильной устной речи на казахском языке;

– анализировать процессы устной речи;

– выявлять лингвосоциальные особенности;

– проводить фонетические и орфоэпические исследования;

– изучать языковой стиль и речь известных личностей;

– определять региональные особенности казахского языка;

– формировать навыки нормативного произношения;

– исследовать особенности национальной устной речи;

– анализировать просодические характеристики речи.

Кроме того, корпус может служить качественной базой для систем искусственного интеллекта. Он позволяет разрабатывать технологии, учитывающие законы гармонии казахского языка. Корпус может использоваться в таких направлениях, как распознавание речи (speech recognition), синтез речи (text-to-speech), генерация речи (speech generation), преобразование речи в текст (speech-to-text), а также в области обработки естественного языка (natural language processing).

Поиск в корпусе осуществляется по слову или с помощью фильтрации. Пользователь может выбрать регион, тему, стиль речи, лингвосоциальные параметры или конкретного говорящего. В результате отображается информация о слове, его орфографии, произношении говорящего и нормативной орфоэпии. Также доступны видеозаписи и аудио. При выборе слова открывается доступ к фонетико-фонологическому и просодическому анализу.

База устного подкорпуса казахского языка включает записи речи с указанием орфоэпии говорящего, нормативного произношения и орфографии слова. В корпус включены материалы таких известных личностей, как Ғабит Мүсірепов, Әзілхан Нұршайықов, Шерхан Мұртаза, Мұхтар Әуезов, Мәулен Балақаев, Мырзатай Жолдасбеков и других, а также представителей различных сфер деятельности.