Data Mining edir Konsepsiya, alqoritm təhlili, məqsəd və tətbiq

Mündəricat:

Data Mining edir Konsepsiya, alqoritm təhlili, məqsəd və tətbiq
Data Mining edir Konsepsiya, alqoritm təhlili, məqsəd və tətbiq
Anonim

İnformasiya texnologiyasının inkişafı praktiki nəticələr verir. Lakin məlumat tapmaq, təhlil etmək və istifadə etmək kimi vəzifələr hələ də effektiv yüksək keyfiyyətli alət əldə etməyib. Analitika və kəmiyyət alətləri var, həqiqətən işləyirlər. Lakin informasiyanın istifadəsində keyfiyyət inqilabı hələ baş verməyib.

Kompüter texnologiyasının yaranmasından çox-çox əvvəl insan böyük həcmdə məlumatı emal etməli idi və öz təcrübəsi və mövcud texniki imkanları daxilində bunun öhdəsindən gəlməli idi.

Bilik və bacarıqların inkişafı həmişə real ehtiyacları qarşılamış və cari vəzifələrə uyğun olmuşdur. Data mining insan fəaliyyətinin müxtəlif sahələrində qərarlar qəbul etmək üçün zəruri olan verilənlərdə əvvəllər naməlum, qeyri-trivial, praktiki olaraq faydalı və əlçatan biliklərin aşkar edilməsi üçün metodlar toplusuna istinad etmək üçün istifadə edilən ümumi addır.

İnsan, zəka, proqramlaşdırma

İnsan həmişə istənilən vəziyyətdə necə davranacağını bilir. Cahillik və ya tanış olmayan vəziyyət onun qərar qəbul etməsinə mane olmur. İstənilən insan qərarının obyektivliyi və əsaslılığı şübhə altına alına bilər, lakin qəbul ediləcək.

Zəka əsaslanır: irsi "mexanizm", əldə edilmiş, aktiv bilik. Bilik insanın qarşısında yaranan problemləri həll etmək üçün tətbiq edilir.

  1. Zəka unikal bilik və bacarıqlar toplusudur: insan həyatı və işi üçün imkanlar və təməl.
  2. Zəka daim inkişaf edir və insan hərəkətləri digər insanlara təsir edir.

Proqramlaşdırma verilənlərin təsvirini və alqoritmlərin yaradılması prosesini rəsmiləşdirmək üçün ilk cəhddir.

İnsan, zəka, proqramlaşdırma
İnsan, zəka, proqramlaşdırma

Süni intellekt (AI) vaxt və resurs itkisidir, lakin süni intellekt sahəsində ötən əsrin uğursuz cəhdlərinin nəticələri yaddaşlarda qalıb, müxtəlif ekspert (ağıllı) sistemlərdə istifadə edilib və transformasiya edilib, xüsusilə, alqoritmlər (qaydalar) və riyazi (məntiqi) məlumatların təhlili və Data Mining.

Məlumat və həll yolu üçün adi axtarış

Adi kitabxana biliklərin anbarıdır və çap olunmuş söz və qrafika hələ də kompüter texnologiyasına əl atmayıb. Fizika, kimya, nəzəri mexanika, dizayn, təbiət tarixi, fəlsəfə, təbiətşünaslıq, botanika, dərsliklər, monoqrafiyalar, alimlərin əsərləri, konfrans materialları, inkişaf işlərinə dair məruzələr və s. üzrə kitablar həmişə aktual və etibarlıdır.

Kitabxana bir-birindən fərqlənən çoxlu müxtəlif mənbələrdirmaterialın təqdimat forması, mənşəyi, quruluşu, məzmunu, təqdimat tərzi və s.

Kitabxana: kitablar, jurnallar və digər çap məhsulları
Kitabxana: kitablar, jurnallar və digər çap məhsulları

Zahirən hər şey anlamaq və istifadə etmək üçün görünür (oxunur, əlçatandır). Siz istənilən problemi həll edə, tapşırığı düzgün qoya, həllini əsaslandıra, esse və ya kurs işi yaza, diplom üçün material seçə, dissertasiya və ya elmi-analitik hesabata dair mənbələri təhlil edə bilərsiniz.

İstənilən məlumat problemi həll edilə bilər. Lazımi əzm və bacarıqla dəqiq və etibarlı nəticə əldə ediləcəkdir. Bu kontekstdə Data Mining tamamilə fərqli bir yanaşmadır.

Nəticədən əlavə, insan məqsədə çatmaq prosesində baxılan hər şeyə "aktiv bağlantılar" alır. Problemin həllində onun istifadə etdiyi mənbələrə istinad etmək olar və mənbənin mövcudluğu faktını heç kim mübahisə etməyəcək. Bu, həqiqiliyə zəmanət deyil, lakin həqiqiliyə görə məsuliyyətin "abunədən çıxarıldığına" əmin bir sübutdur. Bu nöqteyi-nəzərdən Data Mining etibarlılıq və "aktiv" bağlantıların olmaması ilə bağlı böyük şübhələr deməkdir.

Bir neçə problemi həll etməklə insan nəticə əldə edir və intellektual potensialını bir çox "aktiv əlaqələr"ə genişləndirir. Əgər yeni tapşırıq artıq mövcud linki "aktivləşdirərsə", şəxs bunu necə həll edəcəyini biləcək: yenidən heç nə axtarmağa ehtiyac yoxdur.

"Aktiv keçid" sabit birləşmədir: konkret halda necə və nə etməli. İnsan beyni ona potensial olaraq maraqlı, faydalı görünən hər şeyi avtomatik olaraq xatırlayır.ya da gələcəkdə lazım ola bilər. Bir çox cəhətdən bu, şüur altı səviyyədə baş verir, lakin "aktiv əlaqə" ilə əlaqələndirilə bilən bir vəzifə ortaya çıxan kimi dərhal zehnində görünür və əlavə məlumat axtarışı olmadan həll yolu tapılacaqdır. Data Mining həmişə axtarış alqoritminin təkrarıdır və bu alqoritm dəyişmir.

Daimi axtarış: "bədii" problemlər

Riyaziyyat kitabxanası və orada məlumat axtarmaq nisbətən zəif işdir. İnteqralı həll etmək, matris qurmaq və ya iki xəyali ədədi toplamaq əməliyyatını yerinə yetirmək üçün bu və ya digər üsul tapmaq zəhmət tələb edir, lakin sadədir. Bir çoxu müəyyən bir dildə yazılmış bir sıra kitabları çeşidləməli, düzgün mətni tapmalı, onu öyrənməli və tələb olunan həlli əldə etməlisiniz.

Vaxt keçdikcə sadalama tanış olacaq və toplanmış təcrübə sizə kitabxana məlumatı və digər riyazi problemlər arasında naviqasiya etməyə imkan verəcək. Bu sual və cavabların məhdud informasiya məkanıdır. Xarakterik bir xüsusiyyət: belə bir məlumat axtarışı oxşar problemlərin həlli üçün bilik toplayır. İnsanın məlumat axtarışı onun yaddaşında digər problemlərin mümkün həlli yollarına dair izlər ("aktiv keçidlər") qoyur.

Bədii ədəbiyyatda “1248-ci ilin yanvarında insanlar necə yaşayırdılar?” sualına cavab tapın. çox çətin. Mağaza rəflərində nələr var idi, ərzaq ticarətinin necə təşkil olunduğu sualına cavab vermək daha çətindir. Hətta hansısa yazıçı bu haqda öz romanında aydın və birbaşa yazsa belə, bu yazıçının adı tapılarsa, şübhə doğurur.alınan məlumatların etibarlılığı qalacaq. Etibarlılıq istənilən məlumat miqdarının kritik xüsusiyyətidir. Mənbə, müəllif və nəticənin yanlışlığını istisna edən sübutlar vacibdir.

Xüsusi vəziyyətin obyektiv halları

İnsan görür, eşidir, hiss edir. Bəzi mütəxəssislər unikal hissləri - intuisiyanı mükəmməl bilirlər. Problemin ifadəsi məlumat tələb edir, problemin həlli prosesi ən çox problemin ifadəsinin dəqiqləşdirilməsi ilə müşayiət olunur. Bu, məlumatın kompüter sisteminin bağırsaqlarına köçürülməsi ilə bağlı daha az problemdir.

Virtual məkanda məlumat
Virtual məkanda məlumat

Kitabxana və iş yoldaşları qərar vermə prosesinin dolayı iştirakçılarıdır. Kitabın (mənbənin) dizaynı, mətndəki qrafika, məlumatın başlıqlara bölünməsi xüsusiyyətləri, ifadələr üzrə qeydlər, mövzu indeksi, ilkin mənbələrin siyahısı - hər şey insanda həll prosesinə dolayı təsir göstərən assosiasiyaları oyadır. problem.

Problemin həllinin vaxtı və yeri vacibdir. İnsan o qədər nizamlanıb ki, problemin həlli prosesində istər-istəməz onu əhatə edən hər şeyə diqqət yetirir. Bu, diqqəti yayındıra bilər və ya stimullaşdırıcı ola bilər. Data Mining heç vaxt "başa düşməyəcək".

Virtual məkanda məlumat

İnsanı həmişə yalnız hadisə, hadisə, obyekt, problemin həlli alqoritmi haqqında etibarlı məlumat maraqlandırıb. İnsan həmişə istədiyi məqsədə necə nail ola biləcəyini dəqiq təsəvvür edib.

Kompüterlərin və informasiya sistemlərinin görünüşü insanın həyatını asanlaşdırmalı idi, lakin hər şey daha da mürəkkəbləşdi. İnformasiya kompüter sistemlərinin bağırsaqlarına köçdü və gözdən itdi. Lazımi məlumatları seçmək üçün düzgün alqoritm yaratmalı və ya verilənlər bazasına sorğu tərtib etməlisiniz.

İnformasiya sistemindəki məlumatlar
İnformasiya sistemindəki məlumatlar

Sual düzgün olmalıdır. Yalnız bundan sonra cavab ala bilərsiniz. Lakin həqiqiliyinə dair şübhələr qalmaqdadır. Bu mənada Data Mining həqiqətən “qazıntılardır”, “informasiya çıxarma”dır. Bu ifadəni belə tərcümə etmək dəbdədir. Rus versiyası data mining və ya data mining texnologiyasıdır.

Nüfuzlu mütəxəssislərin əsərlərində Data Mining-in vəzifələri aşağıdakı kimi göstərilir:

  • təsnifat;
  • klasterləşdirmə;
  • assosiasiya;
  • ardıcıllıq;
  • proqnozlaşdırma.

İnformasiyanın əl ilə işlənməsində insana rəhbərlik edən təcrübə nöqteyi-nəzərindən bütün bu mövqelər mübahisəlidir. İstənilən halda insan məlumatı avtomatik emal edir və verilənləri təsnif etmək, obyektlərin tematik qruplarını tərtib etmək (klasterləşdirmə), müvəqqəti nümunələri axtarmaq (ardıcıllıq) və ya nəticəni proqnozlaşdırmaq haqqında düşünmür.

İnsan şüurundaki bütün bu mövqelər daha çox mövqeləri əhatə edən və ilkin məlumatların emalı məntiqindən dinamik şəkildə istifadə edən aktiv biliklərlə təmsil olunur. İnsanın şüur altılığı mühüm rol oynayır, xüsusən də o, müəyyən bilik sahəsində mütəxəssis olduqda.

Nümunə: Kompüter avadanlığının topdan satışı

Tapşırıq sadədir. Bir neçə varonlarla kompüter avadanlığı və periferiya təchizatçıları. Hər birinin xls formatında (Excel faylı) qiymət siyahısı var, onu təchizatçının rəsmi saytından yükləmək olar. Excel fayllarını oxuyan, onları verilənlər bazası cədvəllərinə çevirən və müştərilərə ən aşağı qiymətlərlə istədikləri məhsulları seçməyə imkan verən veb resurs yaratmaq tələb olunur.

Problemlər dərhal yaranır. Hər bir təchizatçı xls faylının strukturu və məzmununun öz versiyasını təklif edir. Siz faylı təchizatçının saytından endirməklə, e-poçt vasitəsilə sifariş etməklə və ya şəxsi hesabınız vasitəsilə yükləmə linki əldə etməklə, yəni təchizatçıda rəsmi qeydiyyatdan keçməklə əldə edə bilərsiniz.

Virtual kompüter mağazası
Virtual kompüter mağazası

Problemin həlli (əvvəlində) texnoloji cəhətdən sadədir. Faylların yüklənməsi (ilkin məlumatlar), hər bir təchizatçı üçün faylın tanınması alqoritmi yazılır və məlumatlar ilkin məlumatların böyük bir cədvəlinə yerləşdirilir. Bütün məlumatlar alındıqdan sonra, təzə məlumatların davamlı dəyişdirilməsi (gündəlik, həftəlik və ya dəyişdirildikdə) mexanizmi qurulduqdan sonra:

  • çeşidləri dəyişdirin;
  • qiymət dəyişiklikləri;
  • stokda olan miqdarın aydınlaşdırılması;
  • zəmanət şərtlərinin, spesifikasiyaların və s. tənzimlənməsi

Əsl problemlər burada başlayır. İş ondadır ki, təchizatçı yaza bilər:

  • notebook Acer;
  • noutbuk Asus;
  • Dell noutbuku.

Söhbət eyni məhsuldan gedir, lakin fərqli istehsalçılardan. Notebook=laptopu necə uyğunlaşdırmaq olar və ya Acer, Asus və Dell-i məhsul xəttindən necə çıxarmaq olar?

Üçüninsan problem deyil, amma alqoritm Acer, Asus, Dell, Samsung, LG, HP, Sony-nin ticarət nişanı və ya təchizatçı olduğunu necə “başa düşəcək”? "Printer" və printer, "skaner" və "MFP", "kopiya" və "MFP", "qulaqlıq" ilə "qulaqlıq", "aksesuarlar" "aksesuarlar" ilə necə uyğunlaşdırılır?

Mənbə datasına (mənbə fayllar) əsaslanan kateqoriya ağacı yaratmaq hər şeyi avtomatik olaraq təyin etmək lazım olduqda artıq problemdir.

Məlumat nümunəsi: "təzə tökülmüş" qazıntılar

Kompüter avadanlıqları təchizatçılarının məlumat bazasının yaradılması vəzifəsi həll olundu. Kateqoriyalar ağacı quruldu, bütün təchizatçıların təklifləri ilə ümumi masa işləyir.

Bu nümunə kontekstində tipik Data Mining tapşırıqları:

  • ən aşağı qiymətə məhsul tapın;
  • ən aşağı çatdırılma dəyəri və qiyməti olan elementi seçin;
  • məhsul təhlili: meyarlara görə xüsusiyyətlər və qiymətlər.

Bir neçə onlarla təchizatçının məlumatlarından istifadə edən menecerin real işində bu tapşırıqların çoxlu variantları və daha da real vəziyyətlər olacaq.

Məsələn, ASUS VivoBook S15 satan "A" tədarükçüsü var: ilkin ödəniş, pulun faktiki alınmasından 5 gün sonra çatdırılma. Eyni modelin eyni məhsulunun "B" tədarükçüsü var: ödəniş alındıqdan sonra, bir gün ərzində müqavilə bağlandıqdan sonra çatdırılma, qiymət bir yarım dəfə yüksəkdir.

Data Mining başlayır - "qazıntılar". Obrazlı ifadələr: “qazıntılar” və ya “məlumatların çıxarılması” sinonimdir. Qərar vermək üçün səbəb əldə etmək haqqındadır.

"A" və "B" tədarükçülərinin çatdırılma tarixçəsi var. Sinifbirinci halda ilkin ödəniş ikinci halda qəbz üzrə ödənişə qarşı, ikinci halda çatdırılma uğursuzluğunun 65% yüksək olduğunu nəzərə alaraq. Müştəridən cərimə riski daha yüksək/aşağıdır. Necə və nə müəyyən etməli və hansı qərarı qəbul etməli?

Digər tərəfdən: verilənlər bazası proqramçı və menecer tərəfindən yaradılmışdır. Proqramçı və menecer dəyişibsə, verilənlər bazasının hazırkı vəziyyətini necə müəyyən etmək və ondan düzgün istifadə etməyi öyrənmək olar? Siz həmçinin data mining etməli olacaqsınız. Data Mining müxtəlif riyazi və məntiqi metodlar təklif edir, hansı növ məlumatların tədqiq edildiyinə əhəmiyyət vermir. Bu, bəzi hallarda düzgün həlli verir, lakin hamısında deyil.

Virtuallığa keçmək və məna tapmaq

Data Mining metodları məlumat verilənlər bazasına yazılan və “görünüş sahəsindən” itən kimi mənalı olur. Kompüter avadanlıqlarının ticarəti maraqlı bir işdir, lakin bu, sadəcə bir işdir. Onun şirkətdə nə qədər yaxşı təşkil olunması onun uğurundan asılıdır.

Planetdəki iqlim dəyişiklikləri və konkret şəhərin havası təkcə peşəkar iqlim ekspertlərini deyil, hamını maraqlandırır. Minlərlə sensor küləyin, rütubətin, təzyiqin, Yerin süni peyklərinin məlumatlarını oxuyur və məlumatların illər və əsrlər boyu tarixi mövcuddur.

Hava məlumatları təkcə işə çətir gətirmək və ya gətirməmək barədə qərar verməkdən ibarət deyil. Data Mining texnologiyaları təyyarənin təhlükəsiz uçuşu, magistralın dayanıqlı işləməsi və dəniz yolu ilə neft məhsullarının etibarlı tədarüküdür.

Məlumata "Raw" data göndərilirsistemi. Data Mining-in vəzifələri onları sistemləşdirilmiş cədvəllər sisteminə çevirmək, əlaqələr yaratmaq, homojen məlumat qruplarını vurğulamaq və nümunələri aşkar etməkdir.

İqlim, hava və xam məlumatlar
İqlim, hava və xam məlumatlar

Riyazi və məntiqi üsullar OLAP (On-line Analytical Processing) kəmiyyət analitikası dövründən öz praktikliyini göstərmişdir. Burada texnologiya kompüter avadanlığının satışı nümunəsində olduğu kimi mənasını tapmağa və onu itirməməyə imkan verir.

Üstəlik, qlobal tapşırıqlarda:

  • transmilli biznes;
  • hava nəqliyyatının idarə edilməsi;
  • yerin bağırsaqlarının və ya sosial problemlərin öyrənilməsi (dövlət səviyyəsində);
  • dərmanların canlı orqanizmə təsirinin öyrənilməsi;
  • sənaye müəssisəsinin tikintisinin nəticələrini proqnozlaşdırmaq və s.

Data Mine texnologiyaları və obyektiv qərarlar qəbul etməyə imkan verən "mənasız" məlumatları real məlumatlara çevirmək yeganə seçimdir.

İnsan imkanları böyük miqdarda xam məlumat olan yerdə bitir. Məlumatların öyrənilməsi sistemləri məlumatı görmək, anlamaq və hiss etmək tələb olunduğu yerlərdə faydalılığını itirir.

Funksiyaların ağlabatan paylanması və obyektivlik

İnsan və kompüter bir-birini tamamlamalıdır - bu aksiomadır. Dissertasiya yazmaq insan üçün prioritetdir, informasiya sistemi isə yardımçıdır. Burada Data Mining texnologiyasının malik olduğu məlumatlar evristika, qaydalar, alqoritmlərdir.

Həftəlik hava proqnozunun hazırlanması informasiya sisteminin prioritetidir. İnsan məlumatları idarə edir, lakin öz qərarlarını sistemin hesablamalarının nəticələrinə əsaslanır. O, Data Mining metodlarını, mütəxəssis məlumatların təsnifatını, alqoritmlərin tətbiqinə əl ilə nəzarəti, keçmiş məlumatların avtomatik müqayisəsini, riyazi proqnozlaşdırmanı və informasiya sisteminin tətbiqi ilə məşğul olan real insanların bir çox bilik və bacarıqlarını birləşdirir.

İnsan və kompüter
İnsan və kompüter

Ehtimal nəzəriyyəsi və riyazi statistika biliklərin ən "sevimli" və başa düşülən sahələri deyil. Bir çox mütəxəssis onlardan çox uzaqdır, lakin bu sahələrdə hazırlanmış üsullar demək olar ki, 100% düzgün nəticələr verir. Data Mining ideyalarına, metodlarına və alqoritmlərinə əsaslanan sistemləri tətbiq etməklə obyektiv və etibarlı həllər əldə etmək olar. Əks halda, həll yolu tapmaq qeyri-mümkündür.

Fironlar və keçmiş əsrlərin sirləri

Tarix vaxtaşırı yenidən yazılır:

  • dövlətlər - öz strateji maraqları naminə;
  • mötəbər elm adamları - öz subyektiv inancları naminə.

Nəyin doğru, nəyin yalan olduğunu ayırd etmək çətindir. Data Mining-dən istifadə bizə bu problemi həll etməyə imkan verir. Məsələn, piramidaların qurulması texnologiyası müxtəlif əsrlərdə salnaməçilər tərəfindən təsvir edilmiş və alimlər tərəfindən öyrənilmişdir. Bütün materiallar İnternetdə əldə edilməyib, burada hər şey unikal deyil və bir çox datada olmaya bilər:

  • təsvir edilmiş zaman nöqtəsi;
  • təsviri yazma vaxtı;
  • təsvirin əsaslandığı tarixlər;
  • müəllif(lər), rəylər (linklər) nəzərə alınıb;
  • obyektivliyin təsdiqi.

Bkitabxanalar, məbədlər və "gözlənilməz yerlər"də müxtəlif əsrlərə aid əlyazmaları və keçmişin maddi sübutlarını tapa bilərsiniz.

Maraqlı məqsəd: hər şeyi bir yerə toplamaq və "həqiqəti" üzə çıxarmaq. Problemin xüsusiyyəti: bir salnaməçinin ilk təsvirindən, fironların yaşadığı dövrdə, bu problemin müasir üsullarla bir çox alimlər tərəfindən həll edildiyi cari əsrə qədər məlumat əldə edilə bilər.

Data Mining istifadə üçün əsaslandırma: əl əməyi mümkün deyil. Həddindən artıq miqdar:

  • məlumat mənbələri;
  • təmsil dilləri;
  • eyni şeyi müxtəlif yollarla təsvir edən tədqiqatçılar;
  • tarixlər, tədbirlər və şərtlər;
  • term korrelyasiya problemləri;
  • statistikanın zamanla data qrupları üzrə təhlili fərqli ola bilər və s.

Keçən əsrin sonunda, süni intellekt ideyasının növbəti fiaskosu təkcə layman üçün deyil, həm də təcrübəli mütəxəssis üçün aydın olduqda, ideya ortaya çıxdı: “şəxsiyyəti yenidən yaratmaq”.

Məsələn, Puşkinin, Qoqolun, Çexovun əsərlərinə görə müəyyən qaydalar sistemi, davranış məntiqi formalaşır və insanın müəyyən suallara cavab verə biləcəyi informasiya sistemi yaradılır: Puşkin, Qoqol və ya Çexov. Nəzəri cəhətdən belə bir tapşırıq maraqlıdır, lakin praktikada onu həyata keçirmək olduqca çətindir.

Lakin belə bir tapşırığın ideyası çox praktik ideya təklif edir: “ağıllı informasiya axtarışını necə yaratmaq olar”. İnternet çoxlu inkişaf edən resurslar, nəhəng verilənlər bazasıdır və bu, Data Mining-i insanlarla birlikdə tətbiq etmək üçün əla fürsətdir.birgə inkişaf formatında məntiq.

Maşın və insan birlikdə
Maşın və insan birlikdə

Maşın və insan qoşalaşmış əla işdir və "informasiya arxeologiyası" sahəsində şübhəsiz uğurdur, məlumatlarda yüksək keyfiyyətli qazıntılar və nəticələr nəyisə şübhə altına alacaq, lakin şübhəsiz ki, sizə imkan verəcəkdir. yeni biliklər əldə etmək və cəmiyyətdə tələbat olacaq.

Tövsiyə: