Қазақ тілі публицистикалық мәтіндерінің кіші корпусы — қазақ тілі ұлттық корпусының публицистикалық мәтіндерінің кіші корпусы – «Ұлттық рухани жаңғыру» ұлттық жобасы шеңберінде іске асырылып жатқан жобалардың бірі.

Qazcorpora.kz
URL

https://qazcorpora.kz/

Сайттың түрі

ақпараттық-анықтамалық жүйе

Тіл(дер)і

қазақ, орыс, ағылшын

Иесі

Тіл саясаты комитеті
"Тіл-Қазына" орталығында әзірленді

Ашылған уақыты

2021

Корпус – белгілі бір тілдегі мәтіндердің электронды түрде жинақталуына негізделген ақпараттық-анықтамалық жүйе. Корпусты құрудың негізгі мақсаты – табиғи тілдік ресурстарды жинау, қалыпқа келтіріп, жүйелендіру, нәтижелерді ұтымды пайдалану үшін тұтынушыларға ұсыну.
Корпус – бұл қазақ тілінің бір жүйеге кіріктірілген тілдік материалдарының базасы ғана емес, сондай-ақ виртуалды кеңістікте мемлекеттік тілдің қызмет етуін, семантикалық кеңістігін кеңейту, ақпараттық таралу ауқымын кеңейту, тілдік ресурстарға жаппай қол жеткізу тетігі. Цифрландырылған жүйе түріндегі қазақ тіліндегі мәтіндердің базасын көрсететін осы ақпараттық-анықтамалық ашық жүйе ұлттық тіл тіршілігінің белгілі бір кезеңінде (немесе кезеңдерінде) әдеби тіл стилінің, тілдік қолданудың барлық түрлерін жинақтайды және тұтынушыға ұсынады.

Жыл бойғы есеп бойынша талданған сөзқолданыс саны – 2347713 бірлік.

Сөз таптарына шаққандағы саны – зат есім - 4927011, етістік – 1554236, сан есім – 1744, сын есім - 289935, қалғандарын өзге сөз таптары құрайды.

Корпус көлемі: 5 304 құжат, 309 153 сөйлем, 5 141 248 сөзқолданыс.

Іздеу жүйесі

өңдеу

Іздеу жүйесі бірнеше фильтрден тұрады:

  • нақты сөз арқылы іздеу;
  • морфологиялық іздеу, яғни сөздің жіктелуі бойынша іздеу;
  • сөз табы бойынша іздеу;
  • сөздің жіктелуі бойынша іздеу;
  • сөздің соңындағы тыныс белгілері арқылы іздеу.

Ұлттық корпустың мүмкіндіктері

өңдеу

Тілді ана тілі немесе шеттілі ретінде үйрету үшін қажет (әлемде оқулықтар мен оқу бағдарламалары қазір Корпусқа бағытталған. Кез келген шетелдік, мектеп оқушысы, мұғалім, журналист, редактор және жазушы корпусты қолдана отырып, бейтаныс сөзді немесе грамматикалық форманың қолдану ерекшеліктерін тез және тиімді тексере алады);

  • тілдің лексикасы мен грамматикасын, ондағы жүздеген жылдар бойы болған өзгерістерді ғылыми зерттеу үшін қажет;
  • ақпаратты іздеуді оңтайландырады;
  • ауқымды материалдарды талдау, өңдеуді, статистикалық мәліметтерді алуды оңайлатады;
  • қажетті сөздіктерді корпус базасына негізінде құрастыруға болады;
  • корпус базасы үнемі үздіксіз жетілдіріліп, толықтырылып отырады.

Мәтінге 12-20 параметрлік метабелгілер (мәтін авторы, мәтін тақырыбы, мәтін стилі, жанр, мәтін түрі, хронотоп, дереккөз, басылым мерзімі және т.б.) жасалды.

Жоба авторлары

өңдеу

Жоба жетекшісі— филология ғылымдарының кандидаты, доцент Аитова Н. Н., техникалық сүйемелдеу бойынша жетекшісі – М. Бақытқызы. Жоба жұмысына филолог ғалымдар, келесі отандық жоғары оқу орындары мен ғылыми ұйымдардың сала мамандары қатысты:

Публицистикалық мәтіндер корпусына «Егемен Қазақстан», «Ана тілі», «Қазақ әдебиеті», «Түркістан», «Заң» газеттерінде жарияланған мақалалардың электронды көшірмелері енгізілді.

Алдағы уақытта публицистикалық стильдің басқа да ішкі жанрларын қамту, сондай-ақ басылым кезеңдері бойынша ұлғайту және дереккөздердің атаулары бойынша кеңейту көзделуде.

Сыртқы сілтемелер

өңдеу