Деталями цієї ініціативи поділився ML Lead застосунку «Мрія» та радник зі штучного інтелекту в Мінекономіки Дмитро Войтех у подкасті AI&I. За словами Войтеха, ініціатива дасть змогу суттєво пришвидшити цифровізацію державних послуг і відкриє шлях до глобального оцифрування історичних архівів.

Читайте также: Промпт не вивезе: чому англійська залишається базою професійного стека в епоху ШІ

Ідея створення національного дата-сету народилася під час роботи над проєктом «єДозвіл», який має на меті перевести видачу ліцензій для підприємців у цифровий формат через «Дію». Для автоматизації цього процесу алгоритмам потрібно аналізувати документи заявників.

Проте виявилося, що для отримання багатьох ліцензій необхідно завантажувати старі дипломи (подекуди ще з 90-х років), які часто заповнені від руки, погано сфотографовані або мають дефекти. За словами Дмитра Войтеха, готові OCR-рішення (системи оптичного розпізнавання символів), які існують на ринку, виявилися абсолютно безсилими перед українськими рукописами.

«Ми стикнулися з тим, що дуже недобре працює на українських рукописах, особливо враховуючи, що наші перші ліцензії пов’язані з медичними послугами. Ми всі розуміємо, як виглядає шрифт наших любих лікарів», — розповів Войтех про проблематику українських рукописних текстів.

Читайте также: MacPaw провела двотижневий ШІ-спринт і отримала понад 200 рішень для автоматизації робочих процесів

Зіткнувшись із цією проблемою, розробники зрозуміли, що у відкритому доступі просто немає якісних і розмічених корпусів українського рукописного тексту. Щоб не чекати роками, поки система «єДозвіл» самостійно накопичить достатню кількість даних, Мінекономіки використало свій авторитет для об’єднання зусиль з іншими державними структурами.

Найбільшим партнером ініціативи став Державний архів України. Ця установа має колосальний інтерес у розвитку технології, адже їхня стратегічна мета — оцифрувати мільйони сторінок історичних документів. Замість того щоб годинами шукати інформацію фізично, як це відбувається зараз, якісна ШІ-модель дозволить перетворити архіви на зручну базу знань, де шукати інформацію можна буде так само легко, як у пошуковику.

Читайте также: MacPaw провела двотижневий ШІ-спринт і отримала понад 200 рішень для автоматизації робочих процесів

Від admin

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *