Smalltalk › русский язык (Russian)

И снова идея для совместного проекта :)

_‹ Previous Topic Next Topic _›

Classic

List

Threaded

7 messages Options

George Herolyants-3

И снова идея для совместного проекта :)

Не всё же критиковать чужие проекты, предложу-ка и я что-нибудь :)

Есть замечательная распознавалка текста tesseract
(http://code.google.com/p/tesseract-ocr/). Насколько мне известно, это
единственная бесплатная обучаемая распознавалка с нормальной
поддержкой русского (а потенциально и любого другого) языка (есть ещё
cuniform, но она не обучаемая). Распознаёт неплохо, проверено. Плюс,
если я не ошибаюсь, не так давно google взял проект под своё крыло и
делает на его основе движок для "пакетного" распознавания книжек
Ocropus. Так что вещь весьма перспективная. Но вот процесс обучения
этого зверя весьма нетривиален (оцените хотя бы объём мануала
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract).
Посему предлагается: реализовать с использованием seaside (например)
приложение для автоматизации процесса обучения tesseract новому языку
на реальных примерах. Что под этим подразумевается: на входе -- набор
файлов (сканов), на выходе файл нужного формата с данными о языке,
который можно положить в нужную папочку и наслаждаться бесплатным
распознаванием высокого качества. Программа должна включать:
- формочку для загрузки файлов (а возможно и для получения их прямо со сканера);
- редактор файлов, получающихся после первичного распознавания (так
называемых box-файлов) и используемых в дальнейшем для обучения
(что-то типа http://tesseract-ocr.googlegroups.com/web/tesseractTrainer.png);
- средства автоматического формирования входных файлов на основе
накопленной базы образов для каждой буквы алфавита и автоматическое
обучение на этих файлах;
- средства автоматизации других рутинных действий из вышеуказанного
мануала, включая генерацию выходного файла.

Примерно так. Помимо собственно популяризации Smalltalk'а, этот
проект, на мой взгляд, может поспособствовать и продвижению
tesseract'а. Ну и пользователям будет удобно, надеюсь, использовать
такую тулзовину.

Так что жду критических замечаний :)

--
http://groups.google.ru/group/sugr

Yuriy Mironenko

Re: И снова идея для совместного проекта :)

А что, славно, я пытался баловаться с тессарактом немного, он довольно
интересен.

Задачка, конечно, не на месяц, месяц там только на изучение процедуры
обучения уйдёт...и особенно, её нюансов. Насколько я помню, там на
выходе отнюдь не один файл. Например, в отдельном файле, насколько я
помню, помещаются часто сливающиеся буквы и буквы, которые, стоя
рядом, можно принять за другие буквы. Ну там "Ь1 <=> Ы".

Но с другой стороны, тот же линукс испытывает голод в OCRках, особенно
- для русского языка.

--
http://groups.google.ru/group/sugr

George Herolyants-3

Re: И снова идея для совместного проекта :)

Спасибо за отзыв!

> Задачка, конечно, не на месяц, месяц там только на изучение процедуры
> обучения уйдёт...и особенно, её нюансов.

Ну, там не всё так плохо. Руками я этот квест прошёл за несколько
часов когда-то :) (хотя, конечно, речь не шла о "полном" обучении). За
месяц, думаю, в самом базовом варианте можно накатать, а дальше
заниматься улучшательством :)

> Насколько я помню, там на
> выходе отнюдь не один файл. Например, в отдельном файле, насколько я
> помню, помещаются часто сливающиеся буквы и буквы, которые, стоя
> рядом, можно принять за другие буквы. Ну там "Ь1 <=> Ы".

Да, там несколько файлов разного назначения. Но, вроде бы в новой
версии (3.0) они объединяют их в один файл. Но да, нюансы есть,
конечно.

>
> Но с другой стороны, тот же линукс испытывает голод в OCRках, особенно
> - для русского языка.

--
http://groups.google.ru/group/sugr

Yuriy Mironenko

Re: И снова идея для совместного проекта :)

In reply to this post by George Herolyants-3

Да, эта ссылка битая:

> (что-то типаhttp://tesseract-ocr.googlegroups.com/web/tesseractTrainer.png);

--
http://groups.google.ru/group/sugr

Stan-3

Re: И снова идея для совместного проекта :)

In reply to this post by George Herolyants-3

Давайте сделаем небольшой обзор OCR систем.

Лидеры - это ABBYY и Nuance. IRIS, TypeReader и прочие много хуже. (Не
будем рассматривать системы распознования восточных языков и
рукописного текста, так как это уже другая ценовая категория, на
порядок больше.) Оба ABBYY FineReader CE 10 (или Recognition Server
3.0) и Nuance OmniPage 17 отлично справляются с грязным, наклонным
текстом. Хороши в автоматизации и используют словари для
автокоррекции. Однако, OmniPage имеет имеет проблемы с распознованием
картинок. FineReader значительно хуже распознает
сложноструктурированные документы, пропускает блоки, лепит картинки в
местах слишком сложных структур.
Хотя OmniPage немного лидирует, FineReader имеет намного более
дружественный UI. И оба они требуют ручной корректировки.

Если не ошибаюсь, то разработку OCR движка tesseract прекратили еще
бог знает когда и качество распознования оставляет желать лучшего.
Даже не смотря на это, как вы понимаете, существует ряд других
немаловажных параметров. И хотя Tesseract лучшая из бесплатных OCR
систем, но очень долека от совершенства, и вряд ли ее стоит
использовать для серьезной работы.
Домохозяйка могла бы использовать tesseract, но ставить его на
конвейер в компанию вряд ли можно.

Это к тому, чтобы не переоценивать значимость "этого замечательного
Tesseract".

--
http://groups.google.ru/group/sugr

George Herolyants-3

Re: И снова идея для совместного проекта :)

То-то google пытается на tesseract'е распознавалку ocropus построить.
Однозначно бесперспективная технология :)

Согласен, tesseract по функционалу проигрывает коммерческим решениям,
но по качеству распознавания он вполне на уровне. Да, doc'и генерить
на выходе не умеет, pdf тоже, но это далеко не всегда требуется.

Я пробовал tesseract. Качество распознавания меня вполне устроило.
Единственная существенная проблема, с которой я столкнулся, tesseract
пытается распознавать картинки :) (по крайней мере маленькие). Но,
может быть в новой версии это пофиксили.

Но есть ещё система cuneiform, у которой тоже неплохое качество
распознавания для рус., англ, рус-англ текстов. Но необучаемая.

> Домохозяйка могла бы использовать tesseract, но ставить его на
> конвейер в компанию вряд ли можно.

Это уж точно, домохозяйка могла бы использовать tesseract :D Это
который под линуксом, да ещё и не имеет GUI :). Самое для домохозяек.
А вот для встраивания в другие продукты как раз наоборот, вполне
вменяемая вещь. Но зависит от целей, конечно.

> Это к тому, чтобы не переоценивать значимость "этого замечательного
> Tesseract".

Никто и не переоценивает. Я так и сказал: лучшая из бесплатных. И перспективная.

--
http://groups.google.ru/group/sugr

George Herolyants-3

Re: И снова идея для совместного проекта :)

Зарегил проект http://www.squeaksource.com/TessTrainer.html. В самое
ближайшее время планирую начать. Репоизиторий открыт на запись, так
что присоединяйтесь, кто хочет :)

--
http://groups.google.ru/group/sugr