Data Mining технологияларына жалпы сипаттама Data Mining негізгі түсініктері

Регрессия есебіндегі сызықтық модельдер есебі

жүктеу/скачать 1,52 Mb.

бет	11/16
Дата	13.05.2020
өлшемі	1,52 Mb.
	#67919

1 ... 8 9 10 11 12 13 14 15 16

Байланысты:
Негізгі бөлім

Регрессия есебіндегі сызықтық модельдер есебі

Қолданылатын мәндер,

– объект;

– объектілер жиынтығы;

y – x объектісінің жауабы;

– шешімдер жиынтығы;

– объектінің белгісінің сипаттамасы;

– модель, алгоритм;

– қате алгоритм функционалы;

– оқыту;

Регриссиядағы сызықтық алгоритм міндеттері келесідей:

(7)

Мұндағы,

– еркін коэффициет;

– белгісі;

– салмағы.

Сызықтық регрессия моделін оқыту. Бұл бөлімде желілік регрессия моделін қалай үйрету, яғни оның параметрлерін реттеу туралы сөз болады. Оқыту үлгісінде желілік модельдің сапасын арттыру үшін келесі өрнек енгізілді:

(8)

Белгілердің қатарына барлық объектілер үшін 1-ге тең тұрақты белгі кіреді, бұл соңғы қатынаста тұрақты құрамдас бөлікті алып тастауға мүмкіндік береді.

Аномальды мәндер (шығарындылар) және әсер ету нүктелері

"Ықпалды" бақылау, егер ол төмен түссе, модель (яғни бұрыштық коэффициент немесе еркін коэффициент) параметрлерінің бірі немесе одан да көп бағасын өзгертеді.

Шығарынды (деректер жиынтығындағы мәндердің көпшілігіне қайшы келетін бақылау) "ықпалды" бақылау болуы мүмкін және екі өлшемді шашырау диаграммасын немесе қалдық кестесін қарау кезінде көзбен жақсы көрінуі мүмкін.

Шығарындылар үшін де," ықпалды " бақылаулар (нүктелер) үшін де олардың қосылуымен де, онсыз да модельдерді пайдаланады, бағалаудың (регрессия коэффициенттерінің) өзгеруіне назар аударады.

Талдау жүргізген кезде шығарындылар немесе әсер ету нүктелерін автоматты түрде тастамау керек, себебі қарапайым елемеу алынған нәтижелерге әсер етуі мүмкін.

Сонымен, әрбір байқалатын x шама үшін қалдық айырмаға тең және тиісті болжамды әрбір y қалдық оң немесе теріс болуы мүмкін.

Сызықтық регрессия негізінде жатқан келесі болжамдарды тексеру үшін қалдықтарды пайдалануға болады:

x және y арасында сызықтық қатынасы бар: кез келген (x; y) жұбы үшін деректер түзу сызықты аппроксимациялау керек. Егер екі өлшемде кестеге қалдық келтірсе, онда біз қандай да бір жүйелі суретті емес, нүктелердің кездейсоқ шашырауын байқаймыз.
Қалдықтар нөлдік орташа мәнмен қалыпты таратылуы;
Қалдықтар барлық болжамды шамалар үшін бірдей вариабельділік (тұрақты дисперсия) бар, егер қалдықтарды болжалды y шамаларға қарсы келтірсек, біз нүктелердің кездейсоқ шашырауын Y байқауымыз керек. Егер қалдықтардың шашырауы кестесі ұлғайып немесе ұлғаюмен азайтылса, онда бұл жол орындалмайды.

Егер сызықтық, қалыпты немесе тұрақты дисперсияның жорамалдары күмәнді болса, біз бұл болжамдарды қанағаттанатын регрессияның x және y жаңа желісін түрлендіріп есептей аламыз (мысалы, логарифмдік түрлендіруді пайдалану немесе т.б.).

Әдістің талдау әдісі. Минималдау тапсырмасының аналитикалық шешімін табуға болады:

(9)
Шешім осындай тәсілмен есептелген кезде келесідей негізгі қиындықтар туындайды:

Шешімді табу үшін кері матрицаны табу керек. Матрица белгілері болған жағдайда тәртібін орындауды талап етеді, және он шақты белгімен күрделі матрица туындайды;
Кері матрицаны табудың сандық тәсілі кейбір жағдайларда қолданылуы мүмкін емес (мысалы, матрица нашар тұрғызылған болса).

3.2 Жіктеу әдісі. Кездейсоқ орман (Random Forrest) классификациясының алгоритмі

Жіктеу әдісінің міндеті – берілген объектінің белгілерін ескере отырып алдын ала анықталған санаттардың біріне негізінде жатқызу.

объекті болсын, мұндағы белгілермен сипатталатын, жіктеу есебінде осындай объектілерді қарастырамыз:

тиесілі кластарды жиынтығын деп белгілейміз. Белгілі бір мақсатты тәуелділік бар деп болжанады — мәндері соңғы таңдауы элементтерінде ғана белгілі. Қалған элементтер } сынақ таңдауы деп атаймыз.

Жіктеудің негізгі міндеті кеңістігіндегі аппроксимациясы болып табылады. Яғни оқыту деректері бойынша бас жиынтыққа тән жалпы тәуелділікті, заңдылықтары мен өзара байланысты анықтау қажет.

Ағаштар ансамбльдерін құруға байланысты алғашқы жұмыстар эвристикалық процедураларға негізделген және өткен ғасырдың 90-шы жж. басына жатады. Сондай-ақ ағаштар шешімі бустингте (boosting) негізделген тәсіл қолданылған.

Кездейсоқ кеңістіктегі тәсіл деп аталып кеткен неғұрлым қатаң әдіс Хоның жұмыстарында таңылған. Тәсілдің жұмысының негізгі мәні – әрбір ағашты құру мақсатында кездейсоқ таңдалған белгілердің тіркелген үлестері ғана пайдаланылады. Хо құрылған ағаштардың ансамбльдері кездейсоқ шешім ормандары (Random Decision Forests) деп атады.

Ағаштардың әр шыңын ажырату үшін кездейсоқ таңдалған белгілердің тек бекітілген үлесін ғана пайдалану ұсынылды, яғни ағаштың әр итерациясы үшін кездейсоқ кеңістіктің әдісін нақты пайдалану. Ақырында, Брейман кездейсоқ орман ретінде танымал әдісті ұсынды. Брейманның кездейсоқ орманы – шешімдердің әрқайсысы бастапқы оқыту үлгісінен (баггинг), бутстреп іріктеме негізінде құрылған шешімдер ағашының ансамблі, сонымен бірге шыңдарды ажырату үшін тек кездейсоқ таңдалған белгілердің үлесі ғана пайдаланылады. Нәтижесінде, толық ағаш (кесілмеген) салынады. Ансамблдегі ағаштарды жіктеу көпшілік дауыспен жүзеге асырылады.

Алғаш рет Брейман мен Катлер ойлап шығарған кездейсоқ орманды индуктивті құру және пайдалану алгоритмі, бірқатар коммерциялық пакеттерде жүзеге асырылды.

Кейбір нақты алгоритм бар болсын, мысалы, шешім қабылдау ағашы. Егер жауап қабылдаудың көптеген ағаштарын құрып, олардың болжауының нәтижесін орташалайтын болса (регрессия есебін шешкен жағдайда) немесе дауыс беру жолымен жауап қабылдайтын болса (жіктелген жағдайда), онда қорытынды нәтиже айтарлықтай ақпараттандырады. Мұндағы маңызды сәт – әрбір ағашты құрудағы кездейсоқ элемент болып табылады. Әрине, егер бірдей ағаштар көп болса, онда оларды орташалаудың нәтижесі бір ағаштың дәлдігіне ие болады.

Шешімдерді қабылдау графы. Ағаштың әрбір шыңы – деректерді бөлу нүктесі. Шың кейбір қарапайым критерийлерді анықтайды, ол бойынша деректер белгілі бір бөліктерге бөлінеді. Қарапайым болуы үшін бұдан әрі тек екілік ағаштарды қарастырылайық, онда әрбір шыңы деректерді екі бөлікке бөледі, олар тәжірибеде пайдаланылады. Сонымен қатар, бөлу жалғыз параметр бойынша болады. Осылайша, ағаштың әрбір шыңында параметрлердің бірінің мәніне сәйкес мәліметтер екі бөлікке жіктеледі.

Жауапты қабылдау ағашын құрудың абстрактілі үлгісін келтірелік.

Ағаш түйіндері деген предикатпен белгіленсін;

Ағаш жапырақтары:

Деректерді бөлу әрбір түйінде бір ғана белгі бойынша жүреді (6 – сурет).

жүктеу/скачать 1,52 Mb.

Достарыңызбен бөлісу:

1 ... 8 9 10 11 12 13 14 15 16