ka | en
Company Slogan TODO

ქართულ ენოვანი ხელნაწერებისათვის სიმბოლოთა ინტელექტუალური ამოცნობის შესახებ

ავტორი: მაგდა ცინცაძე
თანაავტორები: მ.ხაჩიძე, მ.არჩუაძე
საკვანძო სიტყვები: მანქანური სწავლება, მონაცემთა დამუშავება, OCR, ICR
ანოტაცია:

მონაცემთა დამუშავება, ყოველდღიური ცხოვრების განუყოფელი ნაწილი და თანამედროვე კვლევის ერთ-ერთი მთავარი ამოცანაა. ხელნაწერთა დამუშავების პრობლემა მრავალ ენაზე რჩება გადაუჭრელი პრობლემად, კერძოდ კი ქართულისათვის (ხაჩიძე და სხვები, 2017). ტექსტების უმეტესობა რომლებიც მხოლოდ ხელნაწერი ფორმითაა წარმოდგენილი მნიშვნელოვან რესურსს მოითხოვს მათ დამუშევებად ციფრულ ფორმატში გადასაყვანად. ეს პრობლემა განსაკუთრებით აქტუალურია საოფისე რეალობისათვის, ვინაიდან საძიებო და რედაქტირებადი სარეზერვო მასალის შექმნა ნაწილობრივ ან მთლიანად ხელნაწერი დოკუმენტებიდან ბევრ დროსა და რესურსს უკავშირდება. ამიტომაც გასაკვირი არაა რომ უაღრესად ზუსტი ხელნაწერის ამომცნობის შექმნა ათწლეულების განმავლობაში ძალზედ პრიორიტეტული იყო. მიუხედავად იმისა, რომ მნიშვნელოვანი პროგრესი იქნა მიღწეული სისტემებში, რომლებიც განკუთვნილია ლათინურ სიმბოლოების (Patel et al., 2012) ამოცნობისათვის, მრავალი ენისთვის და მათ შორის ქართულისათვისაც ჯერ კიდევ არ გვაქვს მისაღები ხარისხის პროგრამული უზრუნველყოფა. სიმბოლოთა ინტელექტუალური ამოცნობა (Intelligent Character Recognition -ICR) არის მოწინავე ოპტიკური ხასიათის ამომცნობი სისტემა (OCR) ან უფრო ზუსტად ხელნაწერის ამოცნობის პროგრამა, რომელიც საშუალებას აძლევს კომპიუტერებს შეისწავლონ შრიფტები და სხვადასხვა ხელნაწერი სტილი მათი დამუშავების პროცესში, რათა გაუმჯობესდეს სიზუსტე და ამოცნობის ხარისხი.. ხელნაწერის ამოცნობა შედგება მრავალი ეტაპისაგან (წინასწარი დამუშავება, სეგმენტაცია, მახასიათებლების ამოკრება, კლასიფიკაცია) და, ზოგადად, შეიძლება დაიყოს როგორც ორი ტიპის ამოცნობა: თანმიმდევრული და არათანმიმდევრული ამოცნობა. თანმიმდევრული (on-line) კლასიფიკაციის სისტემები განიხილავენ მონაცემების ნაკადს და იყენებენ მათი შეტანისმახასიათებლებს როგორიცაა მოძრაობის მიმართულებები, სიჩქარე, ინტერვალი. ხელით მართვადი მოწყობილობების გამოყენებამ, როგორიცაა სენსორული ეკრანირების და მსგავსი ტექნოლოგიები გაზარდა ხელნაწერის თანმიმდევრული ამომცნობი სისტემების საჭიროება (მაგალითად, ტაბლეტის სენსორული ეკრანიდან თითით შეყვანილი ინფორმაციის დამუშავებისათვის). წერის პროცესის დროს მიღებული დამატებითი მონაცემების გამოყენებით შეიძლება უმაღლესი სიზუსტის შეთავაზება დასწავლიც სულ მცირე რაოდენობისათვისაც. არათანმიმდევრული (off-line) კლასიფიკაცია პირდაპირ კავშირშიასურათების დამუშავებასან და წინამორბედისგან განსხვავებით გაცილებით რთულად ითვლება . სურათიდან ხელნაწერის ამოცნობის ამოცანის ერთ-ერთი მნიშვნელოვანი ნაწილია ხელნაწერი სიმბოლოების დიდი მონაცემთა ბაზის არსებობა მანქანური სწავლების ოპტიმალური მეთოდის შერჩევასთან ერთად. არჩევანი შესაძლებელია გაკეთდეს ისეთ მეთოდებს შორის როგორიცაა ხელოვნური ნეირონული ქსელები, მათ შორის VGG, ResNet, CNN, SVM. ნაშრომში განხილულია ქართული ხელნაწერისათვის სიმბოლოთა ინტელექტუალური ამოცნობის ამოცანა და შემოთავაზებულია თვით-ნორმალიზებული ნეირონული ქსელები როგორც საუკეთესო არჩევანი მანქანური სწავლების მოდელისათვის.



Web Development by WebDevelopmentQuote.com
Design downloaded from Free Templates - your source for free web templates
Supported by Hosting24.com