Інформація про ОCR-технології.

 

Оптичне розпізнавання тексту (OCR) — це механічне або електронне переведення зображень рукописного, машинописного або друкованого тексту в послідовність кодів, що використовуються для представлення в текстовому редакторі. Розпізнавання широко використовується для конвертації книг і документів в електронний вигляд, для автоматизації систем обліку в бізнесі або для публікації тексту на веб-сторінці. Оптичне розпізнавання тексту дозволяє редагувати текст, здійснювати пошук слова або фрази, зберігати його в компактнішій формі, демонструвати або роздруковувати матеріал, не втрачаючи якості, аналізувати інформацію, а також застосовувати до тексту електронний переклад, форматування або перетворення в мовлення. Оптичне розпізнавання тексту є досліджуваною проблемою в галузях розпізнавання образівштучного інтелекту і комп'ютерного зору.


Системи оптичного розпізнавання тексту вимагають калібрування для роботи з конкретним шрифтом; у ранніх версіях, для програмування було необхідно зображення кожного символу, програма одночасно могла працювати тільки з одним шрифтом. Зараз найпоширеніші так звані «інтелектуальні» системи, що розпізнають більшість шрифтів із високим ступенем точності. Деякі системи оптичного розпізнавання тексту здатні відновлювати вихідне форматування тексту, включаючи зображення, колонки й інші нетекстові компоненти.



Точне розпізнавання латинських символів у друкованому тексті зараз можливе тільки, якщо доступні чіткі зображення, такі як друковані документи. Точність при такій постановці задачі перевищує 99%, абсолютна точність може бути досягнута тільки шляхом наступного редагування людиною. Проблеми розпізнавання рукописного «друкованого» тексту й стандартного рукописного тексту, а також друкованих текстів інших форматів (особливо з дуже великою кількістю символів) зараз є предметом активних досліджень.

Точність роботи методів може бути вимірювана декількома способами, і тому може сильно варіюватися. Приміром, якщо зустрічається спеціалізоване слово, відсутнє в словниках відповідного програмного забезпечення, при пошуку неіснуючих слів, помилка може збільшитися.

Використані джерела:
 https://uk.wikipedia.org/wiki/Оптичне_розпізнавання_символів#:~:text=код%5D&text=Оптичне%20розпізнавання%20тексту%20(англ.,для%20представлення%20в%20текстовому%20редакторі.
 https://www.google.com/search?q=%D1%96%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D1%96%D1%8F+%D0%BF%D1%80%D0%BE+%D0%9ECR-%D1%82%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3%D1%96%D1%97&rlz=1C1GGRV_enUA769UA769&hl=ru&source=lnms&tbm=isch&sa=X&ved=2ahUKEwiO6puDn8vtAhXokIsKHVvxDrEQ_AUoAnoECAoQBA&biw=1366&bih=625



Комментарии

Популярные сообщения из этого блога

Біометричні методи аутентифікації користувачів

Історія Інтернету речей.