Korpus dilçiliyi nədir?

Mündəricat:

Korpus dilçiliyi nədir?
Korpus dilçiliyi nədir?
Anonim

Bir neçə onilliklər əvvəl elm adamları linqvistik tədqiqatların avtomatlaşdırılmasını ancaq xəyal edə bilərdilər. İş əllə görülüb, çoxlu sayda tələbə cəlb olunub, “diqqətsizlik” xətasının olma ehtimalı əhəmiyyətli idi və ən əsası, hamısı çox, çox vaxt aparıb.

Kompüter texnologiyasının inkişafı ilə tədqiqatları xeyli sürətlə aparmaq mümkün oldu və bu gün dilin öyrənilməsində perspektivli sahələrdən biri korpus linqvistikasıdır. Onun əsas xüsusiyyəti vahid verilənlər bazasında birləşdirilən, xüsusi qaydada qeyd edilən və korpus adlanan böyük həcmli mətn məlumatlarından istifadə edilməsidir.

Bu gün milyonlarla milyarddan on milyardlarla leksik vahidi əhatə edən müxtəlif dil materiallarına əsaslanan müxtəlif məqsədlər üçün yaradılmış çoxlu korpuslar mövcuddur. Bu istiqamət perspektivli kimi tanınır və tətbiqi və tədqiqat məqsədlərinə nail olmaqda əhəmiyyətli irəliləyiş nümayiş etdirir. Peşəkarlar, bu və ya digər şəkildə məşğul olurlartəbii dil üçün mətn korporasiyası ilə ən azı əsas səviyyədə tanış olmanız tövsiyə olunur.

Korpus dilçiliyinin tarixi

Bu istiqamətin formalaşması ötən əsrin 60-cı illərinin əvvəllərində ABŞ-da Braun Korpusunun yaradılması ilə bağlıdır. Mətnlər toplusu cəmi 1 milyon söz formasından ibarət idi və bu gün belə həcmli bir korpus tamamilə rəqabətsiz olardı. Bu, əsasən kompüter texnologiyasının inkişaf tempi, eləcə də yeni tədqiqat resurslarına artan tələbatla bağlıdır.

90-cı illərdə korpus dilçiliyi tam hüquqlu və müstəqil bir elm sahəsinə çevrildi, mətnlər toplusu tərtib edildi və bir neçə onlarla dil üçün qeyd edildi. Bu dövrdə, məsələn, Britaniya Milli Korpusu 100 milyon söz istifadəsi üçün yaradılmışdır.

korpus dilçiliyi
korpus dilçiliyi

Dilçiliyin bu istiqaməti inkişaf etdikcə mətnlərin həcmi böyüyür (və milyardlarla lüğət vahidinə çatır), işarələmə isə getdikcə müxtəlifləşir. Bu gün İnternet məkanında siz bədii və ya akademik ədəbiyyata yönəlmiş yazılı və şifahi nitq, çoxdilli və maarifləndirici nitq korpuslarını, eləcə də bir çox başqa çeşidləri tapa bilərsiniz.

Hansı hallar var

Korpus dilçiliyində korpus tipləri bir neçə şəkildə təmsil oluna bilər. İntuitiv olaraq aydındır ki, təsnifat üçün əsas mətnlərin dili (rus, alman), giriş rejimi (açıq mənbə, qapalı mənbə, kommersiya), mənbə materialın janrı (bədii ədəbiyyat) ola bilər.ədəbiyyat, sənədli film, akademik, jurnalistika).

korpus dilçiliyinin metodları
korpus dilçiliyinin metodları

Maraqlı şəkildə şifahi nitqi təmsil edən materialların generasiyası həyata keçirilir. Belə nitqin qəsdən qeydə alınması respondentlər üçün süni şərait yaradacağından və əldə edilən materialı “kortəbii” adlandırmaq mümkün olmadığından, müasir korpus dilçiliyi başqa yolla getdi. Könüllü mikrofonla təchiz olunub və gün ərzində onun iştirak etdiyi bütün söhbətlər qeydə alınır. Ətrafdakı insanlar, təbii ki, bilə bilməzlər ki, onlar gündəlik söhbət zamanı elmin inkişafına öz töhfələrini verirlər.

Daha sonra qəbul edilmiş audio yazılar məlumat bankında saxlanılır və transkript kimi çap mətni ilə müşayiət olunur. Beləliklə, gündəlik danışıq nitqinin korpusunu yaratmaq üçün lazım olan işarələmə mümkün olur.

Tətbiq

Dildən istifadə etmək mümkün olan yerdə mətn korpusundan da istifadə etmək mümkündür. Dilçilikdə korpus metodlarından istifadənin məqsədi aşağıdakılar ola bilər:

  • Seçicilərdən və müştərilərdən müvafiq olaraq müsbət və mənfi rəyləri izləmək üçün siyasətdə və biznesdə geniş istifadə olunan əhval-ruhiyyə proqramlarının yaradılması.
  • İnformasiya sistemini lüğətlər və tərcüməçilərin fəaliyyətini yaxşılaşdırmaq üçün onlara qoşmaq.
  • Dilin strukturunu, onun inkişaf tarixini və yaxın gələcəkdə dəyişməsi ilə bağlı proqnozları anlamağa kömək edən müxtəlif tədqiqat tapşırıqları.
  • Morfoloji əsasında məlumat çıxarma sistemlərinin inkişafı,sintaktik, semantik və digər xüsusiyyətlər.
  • Müxtəlif dil sistemlərinin işinin optimallaşdırılması və s.

Qabıqlardan istifadə

Resurs interfeysi tipik axtarış motoruna bənzəyir və istifadəçidən məlumat bazasında axtarış etmək üçün bəzi söz və ya söz birləşməsini daxil etməyi təklif edir. Dəqiq sorğu formasına əlavə olaraq, siz demək olar ki, istənilən linqvistik meyarlara uyğun olaraq mətn məlumatını tapmağa imkan verən genişləndirilmiş versiyadan istifadə edə bilərsiniz.

kompüter və korpus dilçiliyi
kompüter və korpus dilçiliyi

Axtarış üçün əsas ola bilər:

  • müəyyən nitq hissələri qrupuna aid;
  • qrammatik xüsusiyyətlər;
  • semantika;
  • stilistik və emosional rəngləmə.

Həmçinin, sözlər ardıcıllığı üçün axtarış meyarlarını birləşdirə bilərsiniz: məsələn, indiki zamanda, birinci şəxsdə, təkdən sonra "in" ön sözünün və təqsirləndirici halda bir ismin bütün təzahürlərini tapın.. Belə sadə tapşırığın həlli istifadəçiyə bir neçə saniyə çəkir və verilmiş sahələrə yalnız bir neçə siçan basmağı tələb edir.

Yaradılma prosesi

Axtarışın özü həm bütün subkorpuslarda, həm də konkret məqsədə çatarkən ehtiyaclardan asılı olaraq xüsusi seçilmiş birində aparıla bilər:

  1. İlk növbədə hansı mətnlərin korpusun əsasını təşkil edəcəyi müəyyən edilir. Praktik məqsədlər üçün tez-tez jurnalist, qəzet materialları, internet şərhlərindən istifadə olunur. Tədqiqat layihələrində ən çoxmüxtəlif növ korpuslar, lakin mətnlər bəzi ümumi əsaslarla seçilməlidir.
  2. Nəticədə mətnlər toplusu əvvəlcədən işlənir, səhvlər düzəldilir, əgər varsa, mətnin biblioqrafik və ekstralinqvistik təsviri hazırlanır.
  3. Bütün qeyri-mətn məlumatlar süzülür: qrafiklər, şəkillər, cədvəllər silinir.
  4. Tokenlər, adətən sözlər, sonrakı emal üçün ayrılır.
  5. Nəhayət, nəticədə elementlər toplusunun morfoloji, sintaktik və digər işarələmələri aparılır.

Bütün yerinə yetirilən əməliyyatların nəticəsi, hər biri üçün nitqin bir hissəsi, qrammatik və bəzi hallarda semantik xüsusiyyətləri müəyyən edilmiş, onun üzərində paylanmış elementlər toplusu olan sintaktik quruluşdur.

İşlərin yaradılmasında çətinliklər

Başa düşmək vacibdir ki, korpus əldə etmək üçün çoxlu söz və ya cümlə birləşdirmək kifayət deyil. Bir tərəfdən, mətnlər toplusu balanslaşdırılmış olmalıdır, yəni müxtəlif növ mətnləri müəyyən nisbətlərdə təqdim etməlidir. Digər tərəfdən, işin məzmunu xüsusi şəkildə qeyd edilməlidir.

Zaxarova korpus dilçilik
Zaxarova korpus dilçilik

Birinci məsələ razılaşma yolu ilə həll olunur: məsələn, topluya bədii mətnlərin 60%-i, sənədli filmlərin 20%-i daxildir, müəyyən nisbət şifahi nitqin yazılı təqdimatına, qanunvericilik aktlarına, elmi işlərə və s. Bu gün balanslaşdırılmış korpus üçün ideal resept mövcud deyil.

Məzmun işarələnməsi ilə bağlı ikinci sualı həll etmək daha çətindir. Mətnlərin avtomatik işarələnməsi üçün istifadə olunan xüsusi proqramlar və alqoritmlər var, lakin onlar 100% nəticə vermir, uğursuzluqlara səbəb ola bilər və əl ilə dəqiqləşdirmə tələb edir. Bu problemin həllində imkanlar və problemlər V. P. Zaxarovun korpus dilçiliyinə dair əsərində ətraflı təsvir edilmişdir.

Mətn işarələməsi aşağıda sadalayacağımız bir neçə səviyyədə həyata keçirilir.

Morfoloji işarələmə

Məktəb skamyasından xatırlayırıq ki, rus dilində müxtəlif nitq hissələri var və onların hər birinin özünəməxsus xüsusiyyətləri var. Məsələn, felin ismin olmadığı əhval-ruhiyyə və zaman kateqoriyaları var. Ana dilində danışan şəxs tərəddüd etmədən isimləri rədd edir və felləri birləşdirir, lakin əl əməyi 100 milyon söz istifadəsini qeyd etmək üçün uyğun deyil. Bütün lazımi əməliyyatları kompüter yerinə yetirə bilər, lakin bunun üçün onu öyrətmək lazımdır.

Morfoloji işarələmə kompüterin hər bir sözü müəyyən qrammatik xüsusiyyətlərə malik nitq hissəsi kimi "başa düşməsi" üçün lazımdır. Bir sıra müntəzəm qaydalar rus dilində (hər hansı digər dildə olduğu kimi) fəaliyyət göstərdiyi üçün maşına bir sıra alqoritmlər qoymaqla morfoloji analiz üçün avtomatik prosedur qurmaq mümkündür. Bununla belə, qaydanın istisnaları, eləcə də müxtəlif mürəkkəbləşdirən amillər var. Nəticədə, bu gün xalis kompüter təhlili idealdan uzaqdır və hətta 4%-lik səhvlər 100 milyon vahid korpusda 4 milyon söz dəyərini verir və əl ilə dəqiqləşdirmə tələb olunur.

Bu problem V. P. Zaxarovun "Korpus linqvistikası" kitabında ətraflı təsvir edilmişdir.

Sintaktik işarələmə

Sintaktik təhlil və ya təhlil cümlədəki sözlərin əlaqəsini müəyyən edən prosedurdur. Alqoritmlər toplusunun köməyi ilə mətndə mövzunu, predikatı, əlavələri, müxtəlif nitq növbələrini müəyyən etmək mümkün olur. Ardıcıllıqda hansı sözlərin əsas və hansının asılı olduğunu müəyyən etməklə, biz mətndən məlumatı səmərəli şəkildə çıxara və axtarış sorğusuna cavab olaraq yalnız bizi maraqlandıran məlumatları qaytarmaq üçün maşını öyrədə bilərik.

Rusiya universitetlərində korpus dilçiliyi laboratoriyaları
Rusiya universitetlərində korpus dilçiliyi laboratoriyaları

Yeri gəlmişkən, müasir axtarış sistemləri bundan "almada nə qədər kalori var" və ya "Moskvadan Sankt-Peterburqa qədər olan məsafə" kimi müvafiq sorğulara cavab olaraq uzun mətnlər əvəzinə konkret rəqəmlər vermək üçün istifadə edirlər. Bununla belə, təsvir olunan prosesin ən əsaslarını belə başa düşmək üçün siz "Korpus dilçiliyinə giriş" və ya digər əsas dərsliklə tanış olmalısınız.

Semantik işarələmə

Sözün semantikası sadə dillə desək, mənasıdır. Semantik təhlildə geniş tətbiq olunan yanaşma, bir sıra semantik kateqoriyalar və alt kateqoriyalar toplusuna aid olduğunu əks etdirən etiketlərin sözə aid edilməsidir. Bu cür məlumatlar mətn hisslərinin təhlili alqoritmlərini optimallaşdırmaq, avtomatik istinad etmək və korpus linqvistikası metodlarından istifadə edərək digər tapşırıqları yerinə yetirmək üçün dəyərlidir.

Ağacın bir sıra "kökləri" var, onlar mücərrəd sözlərdir.çox geniş semantika. Bu ağac budaqlandıqca daha çox spesifik leksik elementləri ehtiva edən qovşaqlar əmələ gəlir. Məsələn, “məxluq” sözü “insan”, “heyvan” kimi anlayışlarla əlaqələndirilə bilər. Birinci söz müxtəlif peşələrə, qohumluq şərtlərinə, milliyyətə, ikincisi isə heyvanların siniflərinə və növlərinə bölünməyə davam edəcək.

İnformasiya axtarış sistemlərindən istifadə

Korpus dilçiliyinin istifadə sferaları müxtəlif fəaliyyət sahələrini əhatə edir. Korpora lüğətləri tərtib etmək və düzəltmək, avtomatik tərcümə sistemləri yaratmaq, ümumiləşdirmək, faktları çıxarmaq, əhval-ruhiyyəni müəyyən etmək və digər mətn emalı üçün istifadə olunur.

korpus linqvistikası korpus növləri
korpus linqvistikası korpus növləri

Bundan əlavə, bu cür resurslar dünya dillərinin və bütövlükdə dilin fəaliyyət mexanizmlərinin öyrənilməsində fəal şəkildə istifadə olunur. Əvvəlcədən hazırlanmış böyük həcmli məlumatlara çıxış dillərin inkişaf tendensiyalarının sürətli və hərtərəfli öyrənilməsinə, neologizmlərin və sabit nitq növbələrinin formalaşmasına, leksik vahidlərin mənalarının dəyişməsinə və s.

Belə böyük həcmli məlumatlarla işləmək avtomatlaşdırma tələb etdiyi üçün bu gün kompüter və korpus linqvistikası arasında sıx qarşılıqlı əlaqə mövcuddur.

Rus Dilinin Milli Korpusu

Bu korpusa (NKRC kimi qısaldılmış) müxtəlif tapşırıqların həlli üçün resursdan istifadə etməyə imkan verən bir sıra alt korpuslar daxildir.

NCRA verilənlər bazasındakı materiallar aşağıdakılara bölünür:

  • 90-cı və 2000-ci illərin mediasındakı nəşrlərdəhəm yerli, həm də xarici illər;
  • şifahi nitqin qeydləri;
  • vurğu ilə işarələnmiş mətnlər (yəni vurğu işarələri ilə);
  • dialekt nitqi;
  • poetik əsərlər;
  • sintaktik işarəli materiallar və s.

İnformasiya sisteminə həmçinin əsərlərin rus dilindən ingilis, alman, fransız və bir çox başqa dillərə (və əksinə) paralel tərcümələri olan altkorpuslar daxildir.

Həmçinin, verilənlər bazasında inkişafının müxtəlif dövrlərində rus dilində yazılı nitqi əks etdirən tarixi mətnlər bölməsi var. Rus dilini mənimsəməkdə xarici vətəndaşlar üçün faydalı ola biləcək təlim korpusu da var.

Rus dilinin milli korpusuna 400 milyon leksik vahid daxildir və bir çox cəhətdən Avropa dilləri korpusunun əhəmiyyətli hissəsini qabaqlayır.

Perspektivlər

Bu sahənin perspektivli kimi tanınmasının lehinə olan fakt Rusiya universitetlərində, eləcə də xarici universitetlərdə korpus linqvistikası laboratoriyalarının olmasıdır. Nəzərdən keçirilən informasiya-axtarış resursları çərçivəsində istifadə və araşdırma ilə yüksək texnologiyalar, sual-cavab sistemləri sahəsində bəzi sahələrin inkişafı əlaqələndirilir, lakin bu, yuxarıda müzakirə edilmişdir.

korpus dilçiliyinin tarixi
korpus dilçiliyinin tarixi

Kompüter dilçiliyinin gələcək inkişafı texniki baxımdan bütün səviyyələrdə, informasiyanın axtarışı və emalı proseslərini optimallaşdıran yeni alqoritmlərin tətbiqi, kompüterlərin imkanlarının genişləndirilməsi, əməliyyat imkanlarının artırılması baxımından proqnozlaşdırılır.istifadəçilər gündəlik həyatda və işdə bu növ resursdan istifadə etmək üçün getdikcə daha çox yol tapdıqca, yaddaş və məişətlə bitən.

Sonda

Keçən əsrin ortalarında 2017-ci il kosmik gəmilərin Kainatın genişliklərində sörf etdiyi və robotların insanlar üçün bütün işləri gördüyü uzaq gələcək kimi görünürdü. Əslində isə elm “boş ləkələrlə” doludur və əsrlər boyu bəşəriyyəti narahat edən suallara cavab vermək üçün ümidsiz cəhdlər edir. Dilin işləməsi ilə bağlı suallar burada qürurverici yer tutur və korpus və hesablama linqvistikası onlara cavab verməkdə bizə kömək edə bilər.

Böyük həcmli məlumatların emalı əvvəllər əlçatmaz olan nümunələri aşkarlamağa, müəyyən dil xüsusiyyətlərinin inkişafını proqnozlaşdırmağa, demək olar ki, real vaxtda sözlərin formalaşmasını izləməyə imkan verir.

Praktik qlobal səviyyədə korporasiya, məsələn, ictimai əhval-ruhiyyənin qiymətləndirilməsi üçün potensial alət kimi nəzərdən keçirilə bilər - İnternet real istifadəçilər tərəfindən yaradılmış müxtəlif mətnlərin davamlı yenilənən məlumat bazasıdır: bunlar şərhlər, rəylər, məqalələrdir., və bir çox başqa nitq formaları.

Bundan əlavə, korporasiya ilə işləmək Google və ya Yandex xidmətlərindən, maşın tərcüməsindən, elektron lüğətlərdən bizə tanış olan məlumat axtarışında iştirak edən eyni texniki vasitələrin inkişafına töhfə verir.

Əminliklə demək olar ki, korpus linqvistikası yalnız ilk addımlarını atır və yaxın gələcəkdə sürətlə inkişaf edəcək.

Tövsiyə: