Релиз системы распознавания текста Tesseract 3.0 с поддержкой русского языка

Опубликовано 04 Октябрь 2010 18:15:30

После трех лет разработки выпущен релиз системы оптического распознавания текста Tesseract 3.0. Одним из самых важных улучшений в новой версии стала поддержка распознавания документов на русском и украинском языках. Изначально система была создана в 1985-1995 годы в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google.

Основные улучшения Tesseract 3.0:

Проведена подготовка кода к использованию в многопоточных программах;
Добавлен модуль анализа структуры документа;
Добавлена поддержка вывода результатов в формате HOCR;
В качестве основного средства для ввода/вывода, обработки и анализа изображений теперь используется библиотека Leptonica. Пока использование Leptonica опционально, но в будущих выпусках станет обязательным;
Переписаны таблицы сопоставления неоднозначно распознаваемых элементов;
Добавлен TessdataManager для совмещения нескольких файлов с данными в один файл;
Проведена чистка неиспользуемого кода и прекращена поддержка сборки в VC++6;
Добавлены дополнительные языки в систему распознавания.

Источник: http://www.opennet.ru/opennews/art.shtml?num=28169

Нравится

Личный кабинет

Для чего нужна регистрация?

После прохождения регистрации вы получаете возможность добавлять статьи, в которых можете делиться своим опытом прохождения собеседований, профессиональными знаниями или задать интересующие вас вопросы и получать на них ответы от программистов.
Последние статьи
Рубрики

Работа для программистов

Релиз системы распознавания текста Tesseract 3.0 с поддержкой русского языка

Личный кабинет

Последние статьи

Рубрики

Архив