Общественный фонд «правовая миссия» международный казахстанский криминологический клуб



Pdf көрінісі
бет4/6
Дата30.01.2022
өлшемі1,35 Mb.
#130205
1   2   3   4   5   6
Байланысты:
деректер талдау

Keywords:

  intelligence,  neuron,  large  database,  Data  Mining,  detection  of  knowledge  in  databases  model,  which  assumes  a 

characterizing model, classification, regression, time series analysis, clustering, completeness and rules of the Association. 

 

Білім – адамзатпен жинақталған деректер, түсінік, ережелер, әдістер және т.б. принциптер жиыны 

ретінде  немесе  ойлау  қызметінің  нәтижелер  жиыны  ретінде  немесе  хабардар  жағдай  ретінде 

анықталатын  ақпарат  десек  болады.  Білім  термині  интелект  ұғымымен  тығыз  байланысты.  Білім 




 

161 


 

терминін  деректер  сөзімен  шатастырмау  керек.  Мысалы,  дәрігер  деректер  –  тексеру  нәтижесі  мен 

білімін пайдалана отырып емделушіні емдейді. Білім ұғымын берудің жалпы сұлбасы: 

Ойдың бейнесі 



 Жазу (символдар, мәтін, кескін) 



 компьютерде сақтау 

Сандық  ақпараттарды  жинаудың  заманауи  әдістері  мен  оны  сақтау  технологиясының  дамуына 

үлкен  (Деректер  қоры)  ДҚ-ның  тез  таралуына  әкелді.  Бұл  адамзат  қызметінің  барлық  салаларында, 

дәстүрлі  салалардан  (мысалы,  кредиттік  карточкамен  сатып  алулар  туралы  жазбалар,  телефон 

қоңыраулары  туралы  ақпарат;  тұрғындар  туралы  статистикалық  деректері)  бастап  экзотикалық 

(мысалы,  астрономиялық  денелер  кескіні,  молекулалық  ДҚ  және  медициналық  құжаттамалар) 

салаларға  дейін  пайда  болды.  ДҚ-н  пайдаланушылар  үшін  маңызды  мәні  болуы  мүмкін  деректерді 

жүйелендіру  мүмкіндіктерін  оқуға  және  одан  ақпарат  алуға  қызығушылығы  арта  түсті.  Осындай 

зерттеулермен  байланысты  сала  (

ағылш

.  Data  Mining  –  деректерді  интелектуалды  талдау,  DM) 

атымен  белгілі  болды.  DM

 

үлкен  ДҚ-нан  болжамдық  ақпараттарды  генерациялау  және  автоматты 

түрде  шығару  үрдісін  орындауды  білдіреді.  Ол  пайдаланушыларға  бір  уақытта  пайдалы  және 

түсінікті  болатын,  бұрын  белгісіз  ара  қатынастағы  айқын  емес  деректерді  табу  мақсатында 

бақылаулар, деректер жиынын әдістерін талдауды қамтиды. DM көмегімен алынған қатынастар мен 

деректер  үшін 



модель

  және 


шаблон

  (


прототип

)  терминдері  жиі  пайдаланылады.  Бұл  сызықты 

теңдеулер,  ережелер,  кластерлер,  графиктер,  ағаш  тәрізді  құрылымдар  мен  уақыттық  қатарлардағы 

тізбектей  қайталанатын  шаблондар  (мысалы,  ауа  температурасы  мен  ылғалдылығының  сехзондық 

өзгеруі)  болуы  мүмкін.  DM  саласы  қандай  да  бір  басқа  мақсатпен  (мысалы,  олар  клиенттердің 

банктық  операциялар  тарихын  сақтау  үшін  жинақталған  болуы  ықтимал)  бұрын  жиналған 

деректермен  жұмыс  істейді.  Бұл  DM  мәселелері  деректерді  жинау  стратегиясында  ешқандай  рөл 

атқармайтынын  білдіреді.  Әрі  бұл  нақты  сұрақтарға  жауап  беру  үшін  тиімді  стратегиялардың 

көмегімен  деректер  жинаумен  айналысатын  көптеген  статистикалық  зерттеулерден  DM-нің 

айырмашылығын  білдіреді.    DM-ды  KDD  (



ағылш

.  Knowledge  Discovery  in  Databases  –  Деректер 

қорында  білімді  анықтау)  деп  аталатын  үлкен  ДҚ-нда  кездейсоқ  сақталған  немесе  айқын  емес 

білімдерді беретін шаблондарды автоматты немесе ыңғайлы тәсілдер ретінде шығарумен сипататуға 

болады.  Олар  деректер  сақтау  қоймасында,  интернетте  немесе  деректер  ағынында  миллиондаған 

жолдардан  тұруы  мүмкін.  Мысалы  деректер  сақтау  қоймасындағы  (



ағылш

.  DataWarehouse  – 

деректерді  сақтау  қоймасы,  DWH)  DM  орны  6.1-суретте  көрсетілген.  Мұнда  «деректер  қоймасы» 

термині үлкен деректер қоймасын өңдеу мен сақтау жүйелерін толық ашып көрсетпейді [1]. 

 

 

 



 

 

 



 

 

 



 

 

 



 

 

 



 

 

 



 

 

 



 

 

 



1-сурет. Деректер қоймасы архиитектурасындағы DM  

 

 



 

 

 



 

 

 



 

 

 



 

 

 



 

 

 



 

 

 




 

162 


 

Оқырмандар (ДҚ жүйесінің құрылымымен таныс) деректер қоймасы архитектурасының Data  

Mining, Талдау (KDD бөлігі ретінде), OLAP, OLTP, сондай-ақ DWH немесе Marts (кәсіпорынның 

әртүрі  қызметтеріне  арналған  серверлер  жиынтығы)  серверлері  енетін  дәстүрлі  ДҚ  жүйесінің 

архитектурасынан  негізгі  айырмашылықтарын  тануы  мүмкін.  Сонымен  қатар,  әдетте  деректер 

қоймаларында келіп түскен деректерді алдын ала өңдейтін модульдер болады [2]. 

Терминдер  тарихы  туралы  қысқаша  мағлұмат  айта  кетейік.

 

Григорий  Питетский-Шапиро  осы 

тақырып  бойынша  өткен  бірінші  семинарда  (KDD-1989)  ең  алғаш  рет  «Knowledge  Discovery  in 

Databases»  терминін  енгізді  және  бұл  термин  ЖИ-ті  зерттеу  және  машиналық  үйрену 

қауымдастықтарында  пайдаланыла  бастады.  Дегенмен,  бизнес  және  медиялық  қауымдастықтарда 

Data  Mining  (1990)  термині  кең  таралды.  Қазіргі кезде  Data  Mining  және  KDD  терминдері  синоним 

ретінде  пайдаланылады.  Шамамен  2007  жылдан  бастап  «Predictive  Analytics»  және  2011  жылдан 

бастап  «Data  Science»  терминдері  осы  бағыттағы ғылымдарды белгілеу  үшін  пайдаланыла бастады. 

Біз DM-ды ДҚ-ндағы білімдерді айқындаудың әртүрлі әдістерінің алгоритмдеріне байланысты KDD 

үрдісінің бір бөлімі деп нақты айта аламыз, сондай-ақ, бұл шешім қабылдауды қолдау, болжау, алдын 

ала  айту,  бағалау,  бейнені  тану  секілді  проблемаларды  зерттеуге  арналған  (статистикалық  және 

математикалық әдістермен ұштастыратын) құрал. Деректерді талдаудың міндеттері мен модельдеріне 

тоқталайық.  DM  зерттеу  жүргізуге  қажетті  көптеген  әртүрлі  алгоритмдерді  қамтиды.  Талдауға 

кіріспес  бұрын,  деректер  өңдеудің  сәйкес 



болжайтындай

  (predictive)  немесе 



сипаттайтындай

 

(descriptive) болып келетін моделін таңдау қажет. 2-суретте осы типтерге қатысты жиі қолданылатын 



DM мәселелері көрсетілген. 

 

 



 

 

 



 

 

 



 

 

 



 

 

 



 

 

 



 

 

2-сурет. DM модельдері және олардың негізгі мәселелері. 



 

Болжайтын модель 

(predictive  models)



 

деректердің



 

басқа (үйреткіш) іріктеуінің белгілі нәтижелерін 

пайдалану жолымен деректер мәнін болжауға мүмкіндік беретін модель. Бұл модельдерге [3.4]:

 

-

 



жіктеу



Достарыңызбен бөлісу:
1   2   3   4   5   6




©www.engime.org 2024
әкімшілігінің қараңыз

    Басты бет