Параллель корпус – түпнұсқa мәтін және оның aудaрмaлaрының жиынтығы. ҚТҰК-ының базасында параллель ішкорпусты құрудың мақсаты – қазақ тіліндегі мәтіндердің басқа тілдердегі теңестірілген аударма мәтіндер базасын қалыптастыру арқылы қазақ тілін оқытудың лингвистикалық платформасын жасау. Пaрaллель ішкорпус теңестірілген мәтіндер базасынан, белгіленім, метабелгіленім және іздеу жүйесінен тұрады. Ішкорпустың мәтіндік базасына алғашқы кезеңде көркем әдебиет мен ресми-іскери стилі алынды. Теңескен мәтіндерге екі тілде де морфологиялық талдау жасалған. Көркем әдебиеттің мәтіні туралы ақпарат (метабелгіленім) 28 параметрден тұрады: түпнұсқа мәтіннің авторы, түпнұсқа мәтіннің атауы, түпнұсқа мәтіннің тілі, түпнұсқа мәтіннің дереккөзі, түпнұсқа мәтіннің жарық көрген уақыты, түпнұсқа мәтіннің бет саны, түпнұсқа мәтіндегі сөзқолданыс саны, түпнұсқа мәтін авторының туған жылы, түпнұсқа мәтін авторының жынысы, түпнұсқа мәтіннің стилі, түпнұсқа мәтіннің типі, аударма мәтіннің авторы, аударма мәтіннің атауы, аударма мәтіннің тілі, аударма мәтіннің дереккөзі, аударма мәтіннің жарық көрген уақыты, аударма мәтіннің бет саны, аударма мәтіндегі сөзқолданыс саны, аударма мәтін авторының туған жылы, аударма мәтін авторының жынысы, аударма мәтіннің стилі, аударма мәтіннің типі, аударма тәсілі, аударманың құрылымдық деңгейі, мәтінді теңестірушінің аты-жөні, мәтінді теңестіру уақыты, мәтінді корпусқа енгізушінің аты-жөні, мәтіннің корпусқа енгізілу уақыты.
ЖАЛПЫ МӘЛІМЕТ
Параллель ішкорпус – түпнұсқa мәтін және оның aудaрмaлaрының жиынтығы.
ҚТҰК-ның базасында параллель ішкорпусты құрудың мақсаты – қазақ тіліндегі мәтіндердің басқа тілдердегі теңестірілген аударма мәтіндер базасын қалыптастыру арқылы қазақ тілін оқытудың лингвистикалық платформасын жасау. Пaрaллель ішкорпус теңестірілген мәтіндер базасынан, белгіленім, метабелгіленім және іздеу жүйесінен тұрады. Ішкорпустың мәтіндік базасына алғашқы кезеңде көркем әдебиет мен ресми-іскери стиль мәтіндері алынды. Теңескен мәтіндерге екі тілде (қазақ және орыс) де морфологиялық талдау жасалған. Көркем әдебиеттің мәтіні туралы ақпарат (метабелгіленім) 28 параметрден тұрады. Іскери стиль бойынша мәтін көлемі – 600 000 сөзқолданыс, көркем әдебиет бойынша – 1 500 000 сөзқолданыс, жалпы көлемі –2 000 100 сөзқолданыс.
Мәдени-репрезентативті ішкорпус – этномәдени бірліктердің мәдени семантикасы туралы ақпарат беретін электрондық база.
Ішкорпустағы мәтін көлемі – 8 миллион. Мәтіндер төрт түрлі бағытта (фольклорлық, авторлық ауыз әдебиеті мұралары, этнографиялық еңбектер, ғылыми еңбектер, мақалалар) жинақталған. Қолданушы этномәдени бірліктерді тақырыптық топтар аясында (адам атаулары, туыстық атаулар, ұлттық тағамдар, ұлттық киімдер, зергерлік атаулар, қару-жарақ атаулары, киелі сандар, ыдыс-аяқ атаулары) іздей алады. Лексикалық қабаттағы діни сөздер, көнерген сөздер, кірме сөздер, этнографизмдер, варианттар және мәдени онимдер туралы ақпарат алады.