Деталями цієї ініціативи поділився ML Lead застосунку «Мрія» та радник зі штучного інтелекту в Мінекономіки Дмитро Войтех у подкасті AI&I. За словами Войтеха, ініціатива дасть змогу суттєво пришвидшити цифровізацію державних послуг і відкриє шлях до глобального оцифрування історичних архівів.

Читайте также: «Нова пошта» хоче купити банк під NovaPay. Чи відомо, який саме?

Ідея створення національного дата-сету народилася під час роботи над проєктом «єДозвіл», який має на меті перевести видачу ліцензій для підприємців у цифровий формат через «Дію». Для автоматизації цього процесу алгоритмам потрібно аналізувати документи заявників.

Проте виявилося, що для отримання багатьох ліцензій необхідно завантажувати старі дипломи (подекуди ще з 90-х років), які часто заповнені від руки, погано сфотографовані або мають дефекти. За словами Дмитра Войтеха, готові OCR-рішення (системи оптичного розпізнавання символів), які існують на ринку, виявилися абсолютно безсилими перед українськими рукописами.

«Ми стикнулися з тим, що дуже недобре працює на українських рукописах, особливо враховуючи, що наші перші ліцензії пов’язані з медичними послугами. Ми всі розуміємо, як виглядає шрифт наших любих лікарів», — розповів Войтех про проблематику українських рукописних текстів.

Читайте также: Anthropic додала в Claude Code і Cowork можливість відкривати файли та працювати в браузері користувача

Зіткнувшись із цією проблемою, розробники зрозуміли, що у відкритому доступі просто немає якісних і розмічених корпусів українського рукописного тексту. Щоб не чекати роками, поки система «єДозвіл» самостійно накопичить достатню кількість даних, Мінекономіки використало свій авторитет для об’єднання зусиль з іншими державними структурами.

Найбільшим партнером ініціативи став Державний архів України. Ця установа має колосальний інтерес у розвитку технології, адже їхня стратегічна мета — оцифрувати мільйони сторінок історичних документів. Замість того щоб годинами шукати інформацію фізично, як це відбувається зараз, якісна ШІ-модель дозволить перетворити архіви на зручну базу знань, де шукати інформацію можна буде так само легко, як у пошуковику.

Читайте также: OpenAI додала в ChatGPT хмарне сховище, яке зберігає всі файли користувача

Від admin

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *