Не всё же критиковать чужие проекты, предложу-ка и я что-нибудь :)
Есть замечательная распознавалка текста tesseract (http://code.google.com/p/tesseract-ocr/). Насколько мне известно, это единственная бесплатная обучаемая распознавалка с нормальной поддержкой русского (а потенциально и любого другого) языка (есть ещё cuniform, но она не обучаемая). Распознаёт неплохо, проверено. Плюс, если я не ошибаюсь, не так давно google взял проект под своё крыло и делает на его основе движок для "пакетного" распознавания книжек Ocropus. Так что вещь весьма перспективная. Но вот процесс обучения этого зверя весьма нетривиален (оцените хотя бы объём мануала http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract). Посему предлагается: реализовать с использованием seaside (например) приложение для автоматизации процесса обучения tesseract новому языку на реальных примерах. Что под этим подразумевается: на входе -- набор файлов (сканов), на выходе файл нужного формата с данными о языке, который можно положить в нужную папочку и наслаждаться бесплатным распознаванием высокого качества. Программа должна включать: - формочку для загрузки файлов (а возможно и для получения их прямо со сканера); - редактор файлов, получающихся после первичного распознавания (так называемых box-файлов) и используемых в дальнейшем для обучения (что-то типа http://tesseract-ocr.googlegroups.com/web/tesseractTrainer.png); - средства автоматического формирования входных файлов на основе накопленной базы образов для каждой буквы алфавита и автоматическое обучение на этих файлах; - средства автоматизации других рутинных действий из вышеуказанного мануала, включая генерацию выходного файла. Примерно так. Помимо собственно популяризации Smalltalk'а, этот проект, на мой взгляд, может поспособствовать и продвижению tesseract'а. Ну и пользователям будет удобно, надеюсь, использовать такую тулзовину. Так что жду критических замечаний :) -- http://groups.google.ru/group/sugr |
А что, славно, я пытался баловаться с тессарактом немного, он довольно
интересен. Задачка, конечно, не на месяц, месяц там только на изучение процедуры обучения уйдёт...и особенно, её нюансов. Насколько я помню, там на выходе отнюдь не один файл. Например, в отдельном файле, насколько я помню, помещаются часто сливающиеся буквы и буквы, которые, стоя рядом, можно принять за другие буквы. Ну там "Ь1 <=> Ы". Но с другой стороны, тот же линукс испытывает голод в OCRках, особенно - для русского языка. -- http://groups.google.ru/group/sugr |
Спасибо за отзыв!
> Задачка, конечно, не на месяц, месяц там только на изучение процедуры > обучения уйдёт...и особенно, её нюансов. Ну, там не всё так плохо. Руками я этот квест прошёл за несколько часов когда-то :) (хотя, конечно, речь не шла о "полном" обучении). За месяц, думаю, в самом базовом варианте можно накатать, а дальше заниматься улучшательством :) > Насколько я помню, там на > выходе отнюдь не один файл. Например, в отдельном файле, насколько я > помню, помещаются часто сливающиеся буквы и буквы, которые, стоя > рядом, можно принять за другие буквы. Ну там "Ь1 <=> Ы". Да, там несколько файлов разного назначения. Но, вроде бы в новой версии (3.0) они объединяют их в один файл. Но да, нюансы есть, конечно. > > Но с другой стороны, тот же линукс испытывает голод в OCRках, особенно > - для русского языка. -- http://groups.google.ru/group/sugr |
In reply to this post by George Herolyants-3
Да, эта ссылка битая:
> (что-то типаhttp://tesseract-ocr.googlegroups.com/web/tesseractTrainer.png); -- http://groups.google.ru/group/sugr |
In reply to this post by George Herolyants-3
Давайте сделаем небольшой обзор OCR систем.
Лидеры - это ABBYY и Nuance. IRIS, TypeReader и прочие много хуже. (Не будем рассматривать системы распознования восточных языков и рукописного текста, так как это уже другая ценовая категория, на порядок больше.) Оба ABBYY FineReader CE 10 (или Recognition Server 3.0) и Nuance OmniPage 17 отлично справляются с грязным, наклонным текстом. Хороши в автоматизации и используют словари для автокоррекции. Однако, OmniPage имеет имеет проблемы с распознованием картинок. FineReader значительно хуже распознает сложноструктурированные документы, пропускает блоки, лепит картинки в местах слишком сложных структур. Хотя OmniPage немного лидирует, FineReader имеет намного более дружественный UI. И оба они требуют ручной корректировки. Если не ошибаюсь, то разработку OCR движка tesseract прекратили еще бог знает когда и качество распознования оставляет желать лучшего. Даже не смотря на это, как вы понимаете, существует ряд других немаловажных параметров. И хотя Tesseract лучшая из бесплатных OCR систем, но очень долека от совершенства, и вряд ли ее стоит использовать для серьезной работы. Домохозяйка могла бы использовать tesseract, но ставить его на конвейер в компанию вряд ли можно. Это к тому, чтобы не переоценивать значимость "этого замечательного Tesseract". -- http://groups.google.ru/group/sugr |
То-то google пытается на tesseract'е распознавалку ocropus построить.
Однозначно бесперспективная технология :) Согласен, tesseract по функционалу проигрывает коммерческим решениям, но по качеству распознавания он вполне на уровне. Да, doc'и генерить на выходе не умеет, pdf тоже, но это далеко не всегда требуется. Я пробовал tesseract. Качество распознавания меня вполне устроило. Единственная существенная проблема, с которой я столкнулся, tesseract пытается распознавать картинки :) (по крайней мере маленькие). Но, может быть в новой версии это пофиксили. Но есть ещё система cuneiform, у которой тоже неплохое качество распознавания для рус., англ, рус-англ текстов. Но необучаемая. > Домохозяйка могла бы использовать tesseract, но ставить его на > конвейер в компанию вряд ли можно. Это уж точно, домохозяйка могла бы использовать tesseract :D Это который под линуксом, да ещё и не имеет GUI :). Самое для домохозяек. А вот для встраивания в другие продукты как раз наоборот, вполне вменяемая вещь. Но зависит от целей, конечно. > Это к тому, чтобы не переоценивать значимость "этого замечательного > Tesseract". Никто и не переоценивает. Я так и сказал: лучшая из бесплатных. И перспективная. -- http://groups.google.ru/group/sugr |
Зарегил проект http://www.squeaksource.com/TessTrainer.html. В самое
ближайшее время планирую начать. Репоизиторий открыт на запись, так что присоединяйтесь, кто хочет :) -- http://groups.google.ru/group/sugr |
Free forum by Nabble | Edit this page |