Ғылыми жоба тақырыбы: «Мәтінді тануға, аударуға арналған ocr- жүйесін моделдеу және жасау»

Символдарды математикалық моделдеу және тану

жүктеу/скачать 2,67 Mb.

бет	6/8
Дата	12.11.2023
өлшемі	2,67 Mb.
	#191104

1 2 3 4 5 6 7 8

Байланысты:
Мәтінді тануға, аударуға арналған ОСR-жүйесін моделдеу және жасау
Емтихан сұрақтары Алгоритмдер 2022 (3), 4сын. матем 21-22 сабақтар.Ләззат

Тәжірибелік бөлім 2.1 Мәтінді тануға арналған бағдарламалар алгоритмдері және әдістері

1.3 Символдарды математикалық моделдеу және тану
1. Қойылған есептiң шешімін эксперименталдi тексеру мүмкіншілігі қарастырылған, символдарды тану есебін шешуді үзеге асыратын алгоритмдер жасалған және ол келесі кезеңдерден тұрады:
- шетi жиектелген суретті бинаризациялау;
- символдарды орналастыры аумағын шектеу;
- жеке символдарды белгілеу;
- символдарды тану
2. Символдарды тануға жасалған алгоритмдер негізінде, нысанды - бағытталған бағдарламалау технологиясы бойынша Delphi 7 графикалық ортасында бағдарламалық жүйе жасалды, ол жобалауының қарапайымдылығымен ерекшеленеді, қажет құраушы тобы бар және ең аз шығынмен жедел түрде мәтін танитын бағдарламалық жүйе жасауға мүмкіндік береді және сол бағдарламаны экспериментті талдай алады.
Осы, жасалған символдарды тану алгоритмдері және тәсілдері, техникалық талаптарға сай және символдарды тану нақтылығы 98% болатын бағдарламалық жүйе жасауға мүмкіндік берді.

Тәжірибелік бөлім

2.1 Мәтінді тануға арналған бағдарламалар алгоритмдері және әдістері
Қазіргі уақытта көптеген құжаттар компьютерде жасалатынына қарамастан электронды құжат алмасуды толықтай жүзеге асыру әлі де мүмкін емес. Ереже бойынша қолданыста бар жүйелер бөлек ұжымдарда қолданылады, ал кәсіпорын араларында мәлімет алмасу қағаз құжаттары көмегімен жүзеге асырылады. Құжат айналым жүйелерінде пайда болған ақпаратты қағаздардан электронды тасымалдаушыларға аудару есебі тұтынушы шектеуінде ғана өзекті емес. Қазіргі ақпараттық технологиялар бізге адам жинақтаған ақпараттарды электронды түрге алмастыруын жеңілдетеді
Сканердің көмегімен құжаттарды сканерлеу жылдам және қарапайым болып табылады. Жұмыстың нәтижесі құжаттың сандық суреті - графикалық файл болып табылады. Ақпараттың графикалық түрде берілуінен қарағанда, мәтіндік түрде берілуі тиімді болып саналады. Бұл нұсқа ақпаратты беру мен сақтау барысында шығынды азайтады, сонымен қатар қолданудың барлық мүмкіншіліктерін жүзеге асыруға мүмкіндік береді. Сондықтан, тәжірибелік жағынан қарағанда құжатты қағаз тасымалдаушылар мәтіндік электрондық құжатқа аудару көп қызығушылық тудырады.

Құжаттың бетінен растрлық сурет тану жүйесіне еңгізіледі. Тану алгоритмдерінің жұмыс жасауы үшін еңгізілетін суреттің сапалы болғаны дұрыс. Егер сурет анық болмаса, контрастылығы төмен болса, онда ол тану алгоритмдерінің жұмыс жасауын қиындатады.

Сондықтан суретті өңдеу алдында, суреттің сапасын жақсарту үшін тану алгоритмдері оған алдын ала өңдеу жасайды. Оған суретті фильтрациялау, ашықтықты жоғарлату, суреттің берілуін жақсарту және пайдаланған жүйеде қажет пішімде ( біздің жағдайда сұр түстегі 8-биттік сурет )түрлендіру және түзету.
Дайындалған сурет сегментация модуліне енуіне түседі. Бұл модулдің есебі мәтіннің құрылымдық бірліктерін анықтау болып табылады, олар – қатарлар сөз және символдар. Жоғары деңгейдегі үзінділерді белгілеу, яғни қатар мен сөз аумақтар арасын талдау негізінде жүзеге асырылуы мүмкін. Өкінішке орай бұндай әдіс бөлек әріптерді белгілеуде қолданылмайды, себебі көрші әріптердің суреттері компоненттігіне байланысты бірігуі мүмкін (сурет 1) немесе керісінше бір әріптің суреті сызық немесе суреттің ерекшелігіне байланысты байланыстылықтың жеке компоненттерiне ыдырата алады (сурет 2). Көптеген жағдайда әрiптер деңгейінде сегменттеу есебін шешу үшiн қиын эверистикалық алгоритмдер қолданылады. Мұндай ерте өңдеу кезеңінде әріптерің шекараларының өтуі жайында соңғы шешімді қабылдау тану жүйесіне ақпарат жеткіліксіз деп ойлаймыз. Сондықтан, әріптер деңгейінде жасалған алгоритмде сегменттеу модулінің міндеті әріптер ішіндегі символдар шекарасын табу болып табылады, ал суреттің бөлек үзінділерін әріп түрінде сәйкестендіру есебімен сөзді үзу жайында соңғы шешімді қабылдау өңдеудің соңғы кезеңінде қабылданады. Мұндай қарастырудың қосымша артықшылығы бірнеше компоненттер байланыстарынан тұратын, мұндай жағдайларды арнайы өңдеусіз, әрiптердiң пiшiндерiмен жұмыс жасау мүмкiндiгi болып табылады. Сегменттеу модулі жұмысының қорытындысы сегменттеу ағашы – мәліметтер құрылымы, парақтағы мәтін құрылымын көрсету болып табылады. Ең жоғары деңгейге парақтың нысаны сай келеді. Ол қатарларды сипаттайтын нысандар массивінен тұрады. Өз кезегінде әр қатар.Сөздер бұл ағаштың жапырақтары болып табылады. сөздің әріптерге бөліну орындары жайында ақпарат сөзде сақталады, бірақ әріптер үшін бөлек нысандар берілмейді.Әр нысан ағашында суретте нысанның сәйкес аумағы жайында ақпарат сақталады. Мұндай құрылым басқа деңгейлерді бөлу үшін кеңейтілуі мүмкін, мысалы, колонкалар, кестелер.

Суреттің үзінділерін анықтау классификатордың енуіне беріледі, суреттің немесе қандай да бір әріптің жабдықтардың мүмкiндiгi вектор болып табылады. Жасалған алгоритмде құрылымдық архитектураның классификаторы қолданылады, ағаш түрінде ұйымдастырылған, жапырақтары қарапайым классификатор болып табылады, ішкі түйінділері төмен орналасқан деңгейлер нәтижелерін қиыстыру амалдарына сай келеді.
Қарапайым классификатордың жұмысы екі қадамда жүзеге асырылады (сурет 4). Бірінші алғашқы сурет бойынша белгілер есептеледі. Сурет пикселдерінің кейбір жиындарының жарықтығынан әр белгінің шамасы функция болып табылады. Нәтижесінде нейрондық желінің енуіне келіп түсетін белгілер шамаларының векторы пайда болады. Желіден шығу алфавиттің әріптерінің біріне сәйкес келеді, ал шығуда алынатын шама нәтиже әріптің тақ жиынға жататынын деңгейі ретінде қарастырылады.
Қиыстыру алгоритмінің міндеті енуші тақ жиындар түрінде келіп түсетін ақпаратты жалпылау және солардың негізінде танылатын символдардың жиынның айқын емес iшкi жиынының шығуын есептеу. Қиыстыру алгоритмі ретінде тақ жиындар теориясы амалдары (t-нормалары және s-нормалары) қолданылады, сенімді экспертті таңдау.
Классификатор жұмысының нәтижесі ең жоғары деңгейде қиыстыру нәтижесінде алынған тақ жиын болып табылады. Соңғы кезеңде сөзді оқудың шынайы нұсқасы туралы шешім қабылданады. Ол үшін орыс тіліндегі әріптерді сәйкестендіру жиілігі және әріп арасындағы сегменттеу, бөлек әріптерді оқу деңгейлерінің мүмкіншіліктері қолданылады.
Жасалған алгоритмнің тиімділігін бағалау үшін OCR –дің екі жүйесіне салыстыру жасалды. Бұл тегін CuneiForm v12 жүйесі open-source және ABBYY FineReader 10 ProfessionalEdition.
коммерциялық жүйе.

Тану жүйелерінің тиімділігін бағалау үшін шет ел мамандары дайындаған символдар тобы қолданылады, не авторлар жинақтаған және ашық жарияланбаған топтар қолданылады. Мысалы, ABBYY FineReader алгоритмдерінің жұмысының тиімділігін бағалауда автор CEDAR, NIST, CENPARMI мәліметтер қорын, сонымен қатар сканерленген БМЕ анықтамаларын қолданды. Себебі мәліметтер қорында ағылшын немесе қолжазба символдары бар, олар НИР «баспалық кирилдік символдарды тану алгоритміні жасау» тақырыбы орындауының тиімділігін бағалау үшін қолданылмайды.
Салыстыру 96 dpi және 180 dpi кеңейтілу үлгілерінде өткізілді. Салыстыруда 300 сөзден тұратын және Arial 14pt и Times New Roman 14pt қаріптерімен терілген мәтін қатысты. 96 dpi кеңейтілімдегі мәтін компьютерде графикалық файл түрінде жасалды. 180 dpi кеңейтілімдегі мәтінді тестілеу үшін текст лазерлік принтерде шығарылып, содан соң айтылған кеңейтілімде сканерден өткізілді.
96 dpi кеңейтілімі үшін танудың нәтижелері жақсы болуы жүйенің ағымдағы конфигурациясы Times New Roman 14pt және Arial 14pt қаріптерінде 96 dpi кеңейтілімімен жұмыс жасау үйреншікті болғанымен түсіндіруге болады. Осы өлшемдегі қаріптерді танитын, қарапайым классификаторларды жүйеге қосса бұл мәтін үшін нәтижелерінің жақсырауын қарапайым классификаторлар жүйесіне еңгізу барысында.
1200 сөзді танығанда:
• жасалған алгоритм: 1180 сөз (98,33%);
• CuneiForm ашық кодты жүйемен: 597 сөз(49,75%);
• коммерческой системой ABBYY FineReader коммерциялық жүйесімен: 1200 сөз (100%).

Көрінуі төмен болған жағдайда Cuneiform шу санының көп болу барысы мәтінді дұрыс тани алмайды, ал ұсынып отырған алгоритм осы сападағы мәтінді жақсы таниды.
Жалпы, ұсынылып отырған алгоритм ABBYY фирмасының коммерциялық өнімінен шамалы болғанымен, оның ашық CuneiForm алғашқы кодымен тану қабілетінен қарағанда, сапасы төмен мәтіндерді жақсы танитын қабілеті бар.

жүктеу/скачать 2,67 Mb.

Достарыңызбен бөлісу:

1 2 3 4 5 6 7 8