ҚАЗАҚ ТІЛІНІҢ ҰЛТТЫҚ КОРПУСЫ

Русский English
  • Басты бет
  • Қазақ ұлттық корпусының базасынан іздеу формасы Іздеу
    • Негізгі корпустан іздеу
    • Ғылыми стильден іздеу
    • Іскери стильден іздеу
    • Публицистикалық стильден іздеу
    • Көркем әдебиет стилінен іздеу
    • Сөйлеу стилінен іздеу
  • Корпус туралы
    • Корпус дегеніміз не?
    • Глоссарий
    • Қазақ тілінің ұлттық корпусын жасау тарихы
    • Әлемдік лингвистикалық корпустар тарихы
    • Программалық құралдар
    • Мәтіндер дереккөзі
    • Қатенің себептері
  • Белгіленімдер
    • Лексикалық
    • Семантикалық
    • Фонетикалық
    • Морфологиялық
    • Сөзжасамдық
    • Метабелгіленім
    • Фразеологиялық
  • Біз туралы
    • Әзірлемешілер
    • Ғылыми мақалалар тізімі
  • Корпусты пайдалану
    • Нұсқаулық
    • Видеонұсқаулық көру
  • Шартты белгілер
  • Жаңалықтар
  • Конвертер

Жалпы ақпарат

«Қазақ тілінің ұлттық корпусы» мәтіндік базасының көлемі – 30 миллион сөзқолданыс. Оның ішінде көлемі 14 миллион сөзқолданыстан тұратын мәтінге 16-21 параметрлік метабелгіленім (мәтіннің авторы, автордың жасы, мәтін тақырыбы, жазылған стилі, жанры, мәтін типі, дереккөзі т.б.) енгізілген. Жинақталған мәтіндер қазақ тілінің 5 стилінен (көркем стиль, ғылыми стиль, публицистикалық стиль, ісқағаз стилі, сөйлеу стилі) алынды.

Көркем әдебиет стилінде жазылған мәтіндер қазақ ақын-жазушыларының шығармаларын қамтиды. Олар проза және поэзия жанрларына ажыратылып, жеке субкорпус құрайды.

Публицистикалық мәтіндер газет-журналдарда жарық көрген мақалалардан тұрады. Олар қазақ газет мәтіндерінің субкорпусы базасына жинақталды.

Ғылыми стильдегі мәтіндер негізінен ғылыми-гуманитарлық еңбектерден, ісқағаз стиліндегі мәтіндер іскери құжаттар мәтіндерінен алынып, дербес субкорпус базасына салынды.

Сөйлеу стилі мәтіндеріне газет-журналдардағы, сайттардағы сұхбаттар алынды. Сонымен қатар корпусқа оқулық мәтіндері де жинақталды.

Ұлттық корпусқа салынған мәтіндерге метамәтіндік белгіленімдер енгізілген. Метамәтіндік ақпараттар қажетті сөзді іздеу кезінде меңзерді сөйлемдердің жоғарғы жағындағы авторға нұсқап, тінтуірдің сол жақ батырмасын басқан кезде терезеде ашылып көрінеді.

Корпустан қажет сөзді іздеу барысында төмендегідей компьютерлік бағдарламалар жұмыс істейді:

  • Іздеген сөз кездесетін сөйлемдер легін шығару (конкорданс);
  • Конкорданстағы кез келген сөзформаны түбір мен қосымшаға автоматты түрде бөлу (лемматизация);
  • Лингвистикалық белгіленімдер енгізу бағдарламасы:
    • морфологиялық белгіленім;
    • сөзжасамдық белгіленім;
    • лексикалық белгіленім (мағына);
    • фонетикалық белгіленім (дыбыстар сипаттамасы және автоматты буынға бөлу);
    • морфо-семантикалық белгіленім;
  • Аталған метамәтіндік және лингвистикалық белгіленімдер бойынша іздеу жүйесі.

Бұл ақпараттар да қажетті сөзді іздеу кезінде меңзерді сөзге нұсқап, тінтуірдің сол жақ батырмасын басқан кезде терезеде ашылып көрінеді.

Сонымен, ұлттық корпуста компьютерлік бағдарлама бойынша қандай да бір сөзді іздегенде, экранға ең алдымен сол сөз кездесетін (метабелгіленімі берілген) мәтіндер, яғни мысалдар тізімі шығады. Сонымен қатар экранның екінші бетіне әртүрлі ұяшықта сол сөз туралы лингвистикалық ақпараттар беріледі.

Бұл сайт кез келген пайдаланушыға қолжетімді.

Ахмет Байтұрсынұлы атындағы Тіл білімі институты
qazcorpus.kz © 2020. Барлық құқықтар сақталған