Тема: ABBYY FineReader*
Показать сообщение отдельно
Старый 01.11.2007, 19:42      #33
a2z
Супер-Модератор
 
Аватар для a2z
По умолчанию

ABBYY FineReader 9.0. Прямо в «девятку»

В футболе гол в верхний угол ворот называют ударом в «девятку» и считают высшим классом игрока. Таким вот голом «в девятку» стала новая версия программы ABBYY FineReader, которая по стечению обстоятельств имеет тоже номер «9». Еще одним совпадением можно назвать то, что именно в этом году компания ABBYY стала лауреатом CNews Awards 2007 в номинации «Экспансия года». Во многом этот успех обеспечен тем самым первоклассным продуктом для OCR — ABBYY FineReader, новая версия которого вышла буквально на днях, а точнее, 1 октября 2007 года.

Основная функция программы — перевод текста с бумажного носителя в электронный вид через сканирование изображения, последующее его распознание и сохранение в нужном для пользователя формате электронного документа. Редкий работник офиса, работник библиотеки, научный работник или студент обходятся без этой программы для распознавания текста с отсканированных изображений. Не мудрено, что эта программа в мире занимает устойчивое положение лидера, а уж про российский рынок и говорить не чего — здесь другой программы пользователи PC просто не знают. Поэтому не будем говорить о ABBYY FineReader как таковом долго, а посмотрим, чем дополнена новая, девятая версия.

Новшества девятой версии

Новшеств довольно много. Прежде всего, это поддержка новой операционной системы Windows Vista — этим хвастаются сейчас все новоиспеченные версии разных программ. Новый интерфейс — тоже традиционное изменение. Однако новая «мордочка» создана на основе опросов пользователей предыдущих версий. Мало того, что в «вистовской шкуре» программа выглядит намного приятнее, так и сам интерфейс стал гораздо удобнее, прежде всего, для профессионалов. Так, теперь все типовые сценарии работы вынесены в панель «Основные сценарии». И в эту самую панельку вы сможете добавлять и свои сценарии, если ваш алгоритм отличается чем-то от базового, и использовать свой порядок действий «в один клик».

1.jpg
Менеджер сценариев.

Для многоядерных систем реализована оптимизация нагрузки за счет распараллеливания. Опция, конечно, необходимая для современных машин, но полной синхронизации, ее создателям, похоже, добиться не удалось. Контроль загрузки процессоров (компьютер на базе процессора Intel D 805) при распознавании текста показал, что разница в нагрузке на ядра может достигать до 25 процентов. Но, согласитесь, это все же лучше, чем полное распознавание на одном ядре при простаивающем втором.

Появление режима фоновой работы программы сильно помогает при больших объемах отсканированного материала. Пока FineReader «пыхтит» над остальными изображениями, вы экономите время, начиная работу над текстом сразу после распознания первой страницы.

Насчет эффективности некоторых новшеств нам придется поверить компании ABBYY на слово, точнее, для этого надо проводить серьезное сравнение «восьмерки» и «девятки». В частности, придется поверить в повышенную точность сохранения оформления документов. Приводятся конкретные цифры (точность оформления договоров и юридических документов улучшена на 19%, книг — на 22%, газет и журналов — на 32%), но это внутреннее тестирование компании, данные которого нам не доступны.

Еще одну функцию мы так же не смогли опробовать, и все из-за того, что в тестировании у нас оказалась профессиональная версия программы — ABBYY FineReader Professional Edition, а возможность автоматической обработки документов из электронной почты есть только в редакции Corporate Edition. Всего же, как обычно, вышло три редакции: для дома и учебы — Home Edition, для профессионалов — Professional Edition, для работы в корпоративной сети — Corporate Edition.
Новый интерфейс программы. Опрятно и функционально.

А вот возможности автоматического распознавания языка документа проверить очень даже просто. Для этого достаточно выставить в свойствах создаваемого документа режим «Авто» и отсканировать страницу с двуязычным (а лучше — мультиязычным) текстом. Что мы и сделали. Сфотографировали страницу с немецким, польским, английским языком и подсунули FineReader'у, который проглотил все и не поперхнулся. Все было распознано, только иногда возникали проблемы с умляутами, что, скорее всего, связано с качеством фотографии (проверялось не на скане, а на фото с фотоаппарата менее 4 мегапикселей).

2.jpg
Новых языков в девятой версии не добавлено. Но и 179 имеющихся с избытком хватает для подавляющего большинства случаев.


ADRT

Эта аббревиатура означает Adaptive Document Recognition Technology или, по-русски, технология адаптивного распознавания документов. Что это значит? Даже когда вы производите перевод всего одной статьи на паре страниц, вы сталкиваетесь с тем, что часть текста может быть оформлена одним стилем, а часть другим (на обеих страницах встречаются колонтитулы, что встречаются сноски, подписи к картинкам и многие другие элементы, которые составляют единый стиль документа). При оцифровке бывает крайне желательно сохранить этот стиль.

3.jpg
Автоматическое форматирование распознанного текста: где надо — обычный, где надо — курсив, где надо верхний регистр, жирный и курсив одновременно.

И раньше проблем с этим не было: просто одновременно с обработкой ошибок распознавания проводилось форматирование документа — выделялись зоны картинок, подписей, сносок и так далее. Появление технологии ADRT не избавит вас от необходимости выполнения этой работы, но во многом облегчит ее.

Эта технология в состоянии самостоятельно определить элементы структуры документа и транслировать их на весь документ. Вам останется только проконтролировать, как она это сделала и, при необходимости подправить. Но при больших объемах документов есть еще один момент, который помогает разрешить технология ADRT — это объединение абзацев и таблиц в единое целое.

При постраничном распознавании FineReader обязательно вставит колонтитул, сноску, номер страницы между двумя частями таблицы, разнесенными на бумаге на разные страницы. И вам вручную придется в текстовом редакторе объединять эти таблицы в единое целое. А если таких таблиц много? Новая технология обеспечит серьезное уменьшение объема работы, объединив разрозненные части таблицы, абзаца в одно целое.

Распознавание с фотографии

Если быть точным, то распознавание с фотографии появилось еще в восьмой версии. Но только сейчас оно вошло в функционал программы не как простая функция, а как один из ключевых моментов.

Есть несколько ситуаций, когда нельзя по разным причинам осуществить сканирование документов. Это и невозможность вынести из библиотеки редкие издания. Это зачастую и отсутствие в некоторых хранилищах специальной техники для сканирования листов большого формата (газет, например). Это и случайное обнаружение нужной вам книги в чьих-то руках. Да и, наконец, приходится при посещении каких-нибудь заведений, учреждений фотографировать тексты со стендов объявлений. Перевести все это в электронный вид поможет фотография.

Надо просто отснять нужный текст на фотоаппарат, а дома распознать текст с изображений. Однако все это только на словах просто. Сканирование, в сравнении с фотографией — это рафинированный процесс получения изображения. Чтобы FineReader смог распознать текст с фотографии, это фото должно быть приближено к изображению со сканера. Советы о том, как делать фотографии, приводятся на сайте компании ABBYY. Освоить их не трудно.

Цифровых камер сейчас производится много, они есть, чуть ли не у каждого. Современные камеры, с матрицами более 4 мегапикселей делают фотографии пригодными для сканирования при соблюдении рекомендаций по технике съемки. Распознавание даже необработанных дополнительно фотографий не вызывает никаких проблем. FineReader с ходу «подхватывает» картинки и распознает их с коэффициентом неуверенности всего в 1-2%.

Но как быть владельцам устаревших фотоаппаратов и тем, у кого фотоаппарат встроен в мобильник? Забыть про возможности сканирования с фотографии? Нет, не надо забывать. Оказывается FineReader может распознать и такие фото.

Подготовка некачественной фотографии

Прежде всего, нужно снимать тексты с точным соблюдением рекомендаций по съемке. Далее придется поработать ручками в графическом редакторе. Точные рекомендации дать трудно, так как у каждого свой графический редактор, у каждого свое качество фотографий. Но общие понятия о процессе подготовки мы дадим. Первым делом, переведите изображение в тона серого. Затем произведите перерасчет разрешения изображения (чем больше — тем лучше, держитесь в диапазоне 400-600 dpi). Повысить контрастность и резкость можно как автоматическими фильтрами, так и вручную. Вручную, как правило, труднее, но результат лучше. Главное — это добиться минимального количества полутонов, мусора в виде пятен на бумаге и других помех, которые могут помешать работе программы.

В любом графическом редакторе с помощью инструмента Level проведите общую коррекцию уровней яркости. Затем (так как очень часто бывает, что при съемке лист книги выгнулся дугой) воспользуйтесь фильтром Unsharpen mask, который несколько повысит четкость изображения. Другой вариант обработки — инвертировать в графическом редакторе изображение в тонах серого. После этого добавить новый слой со 100% черным цветом. Режим слияния этого слоя должен быть Color Burn (для Adobe Photoshop, для других редакторов придется поискать иной режим). Для слоя с фотографией примените фильтр Unsharp Mask. Параметры этого фильтра надо подбирать для каждого конкретного случая. Можно дополнительно подредактировать уровни с помощью инструмента Level. Сливаем слои, инвертируем изображение обратно, сохраняем в нужном (BMP или TIFF) формате. Впрочем, есть помехи, которые убрать не удастся, и которые сильно могут вам подпортить жизнь, то есть, в нашем случае — результат распознавания. Это привычка некоторых дизайнеров современных журналов помещать фоном текста картинки. С этими помехами не справится и сканер. Так что независимо от способа получения изображения готовьтесь поработать ручками на клавиатуре для коррекции части текста при наличии таких фоновых картинок.

4.jpg
Даже некачественное фото можно распознать. Просто придется потрудиться, подготавливая его к работе.

Если не получилось распознавание текста с фотографии «с ходу», не отчаивайтесь. Прежде всего, попробуйте воспользоваться инструментами самого FineReader. Активируйте инструмент «Выделить область Текст» и дайте команду «Распознать область». Проблема зачастую не в том, что программа не в состоянии провести распознание текста с картинки. Она на данный момент не всегда справляется с анализом изображения в целом и не может провести анализ картинки и разбиение ее на логические блоки: текст, картинка или таблица. Если вы ей в этом поможете, указав такие области, то дальнейшее распознавание происходит, как правило, без проблем.

Подтверждением этому может служить то, что открытие одного и того же документа может привести к разным результатам: одна и та же страница может при одном открытии не распознаться, в следующий раз — откроется и распознается. Причем, и само распознание может пройти с разными показателями неуверенного распознавания от 6% до 9%.

Остальные «вкусности»

Как обычно, в качестве бонуса прилагается программка для распознавания текстов с экрана: ABBYY ScreenshotReader. Эта программа позволяет быстро перевести в текст изображение с экрана, что выручает при работе с сайтами, владельцы которых так беспокоятся о том, чтобы их контент не был украден, отключая работу правой кнопки мыши. Кроме этих нелепых случаев ScreenshotReader полезен, когда надо получить текст с флеш-картинок в интернете, субтитрах DVD-фильмов и даже с окон системных сообщений. Или если надо быстренько получить небольшой текст со страниц с файлов без OCR. Как правило, это старые файлы PDF (или файлы image-only), в которые не вставлен текст или файлы формата DjVu. Если, при необходимости, PDF можно открыть в FineReader'е и распознать, то в случае с DjVu придется пользоваться только ABBYY ScreenshotReader. В общем-то, это странно, ведь DjVu достаточно распространен, но пока не включен в список поддерживаемых форматов.

Резюме

Дальнейшее развитие ABBYY FineReader только радует. Для торопливых товарищей и для случаев, когда сканер отсутствует, предусмотрена возможность использования фотоаппарата. Новые поддерживаемые форматы, фоновая работа и распараллеливание нагрузки для многоядерных процессоров — все это очень полезные «фичи». Более удобный интерфейс также облегчает работу. Но вот единственное, чего так и не могут до сих пор сделать — это промежуточное масштабирование между значениями 100% и 200% как в панели изображения, так и в панели текста.

И все же, основным стимулом для обновления версии станет, на мой взгляд, технология ADRT. Ведь она позволяет существенно ускорить процесс перевода книг в электронный формат за счет облегчения работы по сохранению структуры издания.

2007-10-25 05:15:57
Роберт Басыров
soft.cnews.ru
__________________
× Если вы нашли ошибку в моём сообщении, выделите её мышкой и нажмите Alt-F4 ×
× Twitter, LastFm, SCC, What.cd, Tapochek.net ×
a2z вне форума Пол: Мужчина   Ответить с цитированием Вверх
Благодарности: 2
Niki4OFF (15.03.2008), Toxic (19.11.2007)