Tezlik mətn təhlili: xüsusiyyətlər və nümunələr

Mündəricat:

Tezlik mətn təhlili: xüsusiyyətlər və nümunələr
Tezlik mətn təhlili: xüsusiyyətlər və nümunələr
Anonim

Mətnlərlə işləməli olsanız, bu anlayışla həyatınızda bir dəfədən çox rastlaşmısınız. Xüsusilə, mətnin tezliyini dəqiq təhlil edən onlayn kalkulyatorlara müraciət edə bilərsiniz. Bu lazımlı alətlər mətnin istənilən keçidində müəyyən bir simvolun və ya hərfin neçə dəfə baş verdiyini göstərir. Çox vaxt faiz də göstərilir. Bu niyə lazımdır? Mətnin tezlik təhlili sadə şifrələrin “sındırılmasına” necə kömək edir? Onun mahiyyəti nədir, onu kim icad edib? Mövzu ilə bağlı bu və digər vacib suallara məqalənin gedişində cavab verəcəyik.

Tərif

Tezlik analizi kriptoanaliz növlərindən biridir. Bu, həm sadə, həm də şifrəli mətndə ayrı-ayrı simvolların və onların müntəzəm ardıcıllığının statistik qeyri-trivial paylanmasının mövcudluğu haqqında alimlərin fərziyyəsinə əsaslanır.

Ayrı-ayrı simvolların dəyişdirilməsinə qədər belə bir paylamanın şifrələmə/şifrləmə proseslərində də qorunub saxlanılacağına inanılır.

sistemlərin tezlik analizi
sistemlərin tezlik analizi

Proses xarakteristikası

İndi sadə dillə tezlik analizinə nəzər salaq. Bu o deməkdir ki, kifayət qədər uzunluqda olan mətnlərdə eyni əlifba xarakterli təkrarların sayı eyni dildə yazılmış müxtəlif mətnlərdə eynidir.

Bəs indi monoalfabetik şifrələmə haqqında nə demək olar? Ehtimal olunur ki, əgər şifrəli mətnli bölmədə belə bir baş vermə ehtimalı olan simvol varsa, o zaman onun həmin şifrələnmiş hərf olduğunu güman etmək realdır.

Tezlik mətn analizinin izləyiciləri eyni əsaslandırmanı diaqramlara (iki hərfin ardıcıllığı) tətbiq edirlər. Triqramlar - bu, artıq çoxəlifbalı şifrələrə aiddir.

Metodun tarixçəsi

Sözlərin tezlik analizi müasirliyin tapıntısı deyil. 9-cu əsrdən elm aləminə məlumdur. Onun yaradılması Əl-Kindi adı ilə bağlıdır.

Lakin tezlik analizi metodunun tətbiqinin məlum halları daha sonrakı dövrə aiddir. Burada ən parlaq misal 1822-ci ildə J.-F tərəfindən istehsal edilmiş Misir heroqliflərinin deşifr edilməsidir. Şampolyon.

Bədii ədəbiyyata müraciət etsək, bu şifrələmə üsulu ilə bağlı çoxlu maraqlı istinadlar tapa bilərik:

  • Conan Doyle - "Rəqs edən Adamlar".
  • Jul Verne - "Kapitan Qrantın Uşaqları".
  • Edqar Po - "Qızıl Bug".

Lakin ötən əsrin ortalarından etibarən şifrələmədə istifadə edilən alqoritmlərin əksəriyyəti onların belə tezlikli kriptoanalizlərə qarşı müqaviməti nəzərə alınmaqla işlənib hazırlanmışdır. Buna görə dəbu gün onlar ən çox yalnız gələcək kriptoqrafların hazırlanması üçün istifadə olunur.

mətn tezliyinin təhlili
mətn tezliyinin təhlili

Əsas metod

İndi tezlik reaksiyası təhlilini ətraflı təqdim edək. Bu cür təhlil birbaşa testin sözlərdən, onların isə öz növbəsində hərflərdən ibarət olmasına əsaslanır. Milli əlifbaları dolduran hərflərin sayı məhduddur. Məktubları sadəcə burada qeyd etmək olar.

Belə mətnin ən mühüm xüsusiyyətləri həm hərflərin təkrarı, müxtəlif biqramlar, triqramlar və n-qramlar, həm də müxtəlif hərflərin bir-biri ilə uyğunluğu, samitlərin/saitlərin növbələşməsi və s. bu simvolların növləri.

Metodların əsas ideyası milli əlifbanın hərflərindən ibarət təhlil üçün kifayət qədər uzunluqda (T=t1t2…tl ilə işarələnmiş) açıq mətnlərdə mümkün n-qramların (nm ilə işarələnmiş) baş vermələrini saymaqdır ({a1, a2, …, an}) ilə işarələnir. Yuxarıda göstərilənlərin hamısı mətnin bəzi ardıcıl m-qramlarına səbəb olur:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Əgər bu, m-qram ai1ai2…məqsədin müəyyən mətndə T təsadüflərinin sayıdırsa və L tədqiqatçı tərəfindən təhlil edilən m-qramların ümumi sayıdırsa, onda empirik olaraq müəyyən etmək olar ki, kifayət qədər böyük L, belə bir m-qram üçün tezliklər bir-birindən az fərqli olacaq.

tezlik analizi
tezlik analizi

Rus əlifbasının tez-tez rast gəlinən hərfləri

Ancaq zaman-tezlik analizinin, oxşar ada baxmayaraq, söhbətimizin mövzusu ilə heç bir əlaqəsi yoxdur. Bu cür təhlillər üçün aparılırxüsusi dalğa çevrilməsindən istifadə edərək aşağı müşahidə olunan radar stansiyalarından gələn siqnallar.

İndi isə qayıdaq əsas mövzuya. Tezlik təhlili apararkən, kifayət qədər həcmli mətnlərdə rus əlifbasının hansı hərflərinə daha çox rast gəlindiyini öyrənə bilərsiniz (faiz 0,062 ilə 0,018 arasında):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Ş.
  • b.
  • E.
  • I.

Hətta rus əlifbasının ən çox yayılmış hərflərini öyrənməyə kömək edən xüsusi mnemonik qayda da tətbiq edilib. Bunun üçün sadəcə bir sözü xatırlamaq kifayətdir - "hayloft".

Ümumi hallarda hərflərin faizlə istifadə tezliyi sadəcə olaraq təyin edilir: mütəxəssis hərfin mətndə neçə dəfə baş verdiyini hesablayır, sonra alınan dəyəri mətndəki simvolların ümumi sayına bölür. Və bu dəyəri faizlə ifadə etmək üçün onu 100-ə vurmaq kifayətdir.

Nəzərə almaq vacibdir ki, tezlik təkcə mətnin həcmindən deyil, həm də onun xarakterindən asılı olacaq. Məsələn, texniki mənbələrdə "F" hərfi bədii ədəbiyyatdan daha çox görünür. Buna görə də, obyektiv nəticələr üçün mütəxəssis tədqiqat üçün müxtəlif xarakterli və üslublu mətnləri yazmalıdır.

mətn tezliyi təhlili proqramları
mətn tezliyi təhlili proqramları

Bi-, tri-, dörd qram

Mənalı mətnlərdə siz həmçinin ən çox yayılmış mətnləri də tapa bilərsiniz (müvafiq olaraq, ən çoxtəkrarlanan) iki və ya daha çox hərfin birləşmələri. Mütəxəssislər müxtəlif əlifbaların oxşar diaqramlarının tezliyini göstərən bir neçə cədvəl də tərtib ediblər.

Rus dilinə gəlincə, həcmli mənalı mətnlər sistemlərinin tezlik təhlili ən çox yayılmış biqram və triqramları yaratmağa imkan verdi:

  • EN.
  • ST.
  • AMMA.
  • YOX.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • YENİ
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Hərflərin bir-birinə üstünlük verdiyi əlaqələr

Və bu, tezlik təhlilinin mətn tədqiqatçılarına verə biləcəyi bütün imkanlar deyil. Biqramların və triqramların oxşar cədvəllərindən məlumatları sistemləşdirməklə, hərflərin ən çox yayılmış birləşmələri haqqında məlumatları çıxarmaq mümkündür. Və ya başqa sözlə, onların bir-biri ilə üstünlük verdiyi münasibətlər.

Belə geniş araşdırma artıq ekspertlər tərəfindən aparılıb. Bunun nəticəsi əlifbanın hər hərfi ilə yanaşı qonşularının göstərildiyi bir cədvəl idi. Üstəlik, həm ondan əvvəl, həm də ondan sonra tez-tez rast gəlinən simvollar. Cədvəldəki hərflər təsadüfən yazılmır. Simvolun yaxınlığında ən çox görülən qonşular, daha sonra isə daha nadir qonşular göstərilir.

Nümunələrə nəzər salın:

  • "A" hərfi. Burada aşağıdakı üstünlük verilən əlaqələr fərqləndirilir: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Buradan görürük ki, mətnlərdə “A”dan əvvəl ən çox “H” (“NA”) olur. Rus dilindəki mətnlərdə "A" hərfindən sonra ən çox "L" hərfinə rast gələ bilərik.("AL").
  • "M" hərfi. Mütəxəssislər belə üstünlük verilən əlaqələri müəyyən ediblər: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • "b" hərfi. Tercih edilən bağlantılar aşağıdakılardır: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • "Ş" hərfi. Tercih edilən bağlantılar: "e-b-a-i-u-Sch-e-i-a".
  • "P" hərfi. Rus əlifbasının bu simvolu ilə üstünlük verilən əlaqələr: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
vaxt-tezlik analizi
vaxt-tezlik analizi

Təhlizi nə müəyyənləşdirir?

Müasir tezlikli mətn təhlili proqramları geniş çeşidli məqalələrin, esselərin, keçidlərin və s.-nin böyük həcmlərini öyrənməyə kömək edir. Aşağıdakı məlumat tədqiqatçıya standart olaraq təqdim olunur:

  • Mətndəki simvolların ümumi sayı.
  • Müəllif tərəfindən istifadə edilən boşluqların sayı.
  • Rəqəmlərin sayı.
  • İstifadə olunan durğu işarələri haqqında məlumat - nöqtələr, vergüllər və s.
  • Mövcud əlifbaların hər birindəki hərflərin sayı - Kiril, Latın və s.
  • Mətndə hər hərfin və simvolun istifadə tezliyi haqqında məlumat - qeydlərin sayı və bütün mətnlə müqayisədə faiz.

Həddindən artıq optimallaşdırma və həddindən artıq doyma ilə mübarizə

Mətn tezliyi təhlili niyə aparılır? Yazılı mətndə hansı simvolların tez-tez rast gəlindiyini müəyyən etmək üçün sadəcə maraq məqsədi daşıyırmı? Xeyr, təhlilin əsas tətbiqi praktikdir və o, başqa yerdədir.

N-qramlara təkcə sabit biqramlar və triqramlar daxil deyil. Eynikateqoriyalara açar sözlər (teqlər), kollokasiyalar daxildir. Yəni iki və ya daha çox sözdən ibarət sabit birləşmələr. Onlar belə kompozisiyaların mətndə birlikdə baş verməsi və eyni zamanda müəyyən semantik yük daşıması ilə seçilir.

Bu, vicdansız SEO mütəxəssislərinin əlinə keçir. Onlar öz işlərində bəzən konkret veb-səhifənin aktuallığını süni şəkildə artırmaq üçün mətndəki teqlərin və açar sözlərin təkrarlanmasından sui-istifadə edirlər. Onlar sistemi belə bir “hiylə” ilə aldatmağa çalışırlar: rus dili üçün ənənəvi olan (“mink p alto al”) adi söz birləşməsi ilə təbii birləşməni uyğunsuzluğa çevirmək. Yəni, sözləri belə təbii N-qramda ("mink p alto al") yenidən düzülməklə əldə edilir.

Lakin bu gün axtarış alqoritmləri həddən artıq optimallaşdırmanı - axtarış səhifəsində nəticələrin sıralanmasına təsir edən açar sözlər, teqlərlə mətnin həddən artıq doyması kimi effektiv aşkar etməyi öyrəniblər. Həddindən artıq optimallaşdırılmış səhifələr indi, əksinə, istifadəçinin sorğusuna görə aşağı sıralanır. İnsanlar özləri də başqa resursdakı faydalı məlumatı üstün tutaraq mənasız, təqlərlə dolu mətni oxumağa meylli deyillər.

tezlik analizi metodu
tezlik analizi metodu

SEO mütəxəssisləri üçün şəxsi təhlilə yardım

Beləliklə, müasir axtarış sistemlərinin mətn filtrləri bu gün həmin internet səhifələrinə üstünlük verir ki, onlar haqqında məlumatları oxumaq asan deyil, həm də ziyarətçilər üçün faydalıdır. İşlərini yeni standartlara uyğun optimallaşdırmaq üçün SEO mütəxəssislərivə mətnin tezlik təhlilinə müraciət edin. Bir çox məşhur xidmətlər onu bu gün təmin edir.

Tezlik təhlili məlumatlılıq üçün dərc üçün hazırlanan mətni nəzərdən keçirməyə kömək edir. Teqlərin və əsas ifadələrin lazımsız artıqlığını aradan qaldırın. O, həmçinin axtarış motorlarının mətn filtrlərində şübhə doğuran qeyri-təbii söz birləşmələrinə müəllifin diqqətini cəlb etməyə imkan verir.

tezlik reaksiyasının təhlili
tezlik reaksiyasının təhlili

Mətnin tezlik təhlili beləliklə mənbədə konkret simvolun xatırlanma tezliyini müəyyən etməyə kömək edir. Metod bu gün mətnin teqlərlə həddən artıq yüklənməsini, sözlərin qeyri-təbii dəyişdirilməsini qiymətləndirmək üçün istifadə olunur.

Tövsiyə: