Вы находитесь на странице: 1из 7

PDF и DJVU в fb2 с распознаванием

Также для тех, кто не знает как конвертировать doc, txt, rtf и др в fb2 (см. ниже
«Редактирование FB2»).

Автор : Psychedelic
Версия: 1.0
Декабрь 2008

Итак как распознать и перевести качественно pdf или djvu в fb2?


Мне пришлось довольно долго провозиться (не один день), дабы прийти к единому варианту, который
дает качественный fb2 с картинками хорошего качества и небольшого размера.

Программы которые понадобятся:


1. Если конвертируем djvu, тогда DjvuOCR. Например отсюда http://djvuocr.ucoz.ru/load/0-0-0-3-20

2. Abbyy Fine Reader 9 (я пользуюсь Portable версией, она не требует установки и всего один exe)
скачать можно здесь (Portable) http://rapidshare.com/files/173191103/FRP9.rar.html

3. Irfan View - для пакетного конвертирования картинок.


http://www.irfanview.com/main_download_engl.htm

4. BookDesigner (ни в коем случае не FictionBook Designer — она очень глючная и это тоже самое
что BD, только BD более свежей версии) Инсталлятор : http://www.the-ebook.org/rus/?dl_id=1
Обновление : http://www.the-ebook.org/rus/?dl_id=2
Также для этой программы необходим установленный Word.

5. FictionBook Editor. http://www.litres.ru/static/FBE_2.0_beta/FictionBook%20Editor%202.0%20beta


%20build%2002%20Jul.exe

DJVU

1. Запускаем DjvuOC, жмем Djvu Decoder >> жмем Add и добавляем djvu файл в список.
2. Указываем Output Directory ниже, все настройки оставляем по умолчанию, далее жмем Process.

После окончания декодирования получаем tiff'ы, которые грузим в Fine Reader для распознавания.
PDF грузиться напрямую в программу Fine Reader.

Настройка FR
Перед тем как загружать готовые изображения нужно настроить FR.
Итак запускаем программу, заходим в Сервис >> Опции

1. Закладка Документ: Флаг "Распознавать как форматированный пробелами текст" должен быть
выключен.
2. Закладка Сканировать: Не обрабатывать полученные изображения (понадобится позже)
3. Закладка "Сохранить": в ней выбираем закладку HTML:
Оформление : форматированный текст.
Сохранять колонтитулы - снимаем флаг.

Качество картинок «пользовательское», и далее в появившейся форме выбираем:

a) Разрешение : Как в оригинале (после мы будем конвертировать)


b) Формат: - если в книге в большинстве фотографии, тогда jpg цветной, качество - 100%, если рисунки
(картинки от руки), схемы итп - png (цветной, с пометкой для чертежей и схем). Лучше png, т.к. он дает
качественную картинку, при меньшем размере.
с) Улучшать качество картинок - включено.
Жмем ок.

Все жмем Ок в настройках. Все настроено.

Далее, загружаем : Файл >> открыть pdf\изображение, указываем путь к pdf, если у нас djvu тогда
указываем путь к нашим tiff, которые были получены с помощью DjvuOCR - Ctrl + A - выделяем их все, и
добавляем.

После загрузки можно увидеть содержимое документа.


Имеем три окна - Документ, Изображение и Текст.
Теперь, для того чтобы пропускать колонтитулы (то что обычно пишется вверху, - Глава 1, название
романа, номер страницы итп.) выбираем во втором окне "Зона распознавания", и выделяем мышкой ту
область, которую нужно распознать. Соответственно туда не должны входить колонтитулы.

После того, как выделили, загружаем это шаблон на все страницы и выбираем :

1. Меню "Области" >> Сохранить шаблон областей.


2. В окне Документы выделяем все страницы - Ctrl + A, если страницы не выделяются, следует выделить
мышкой пару страниц, а после нажать Ctrl + A.
3. Области >> Загрузить шаблон областей, и выбирай наш сохраненный.

Прокручиваем в середину и смотрим не захватывает ли область колонтитулы, (т.к. страница не всегда


ровно кладется на сканер), вобщем в целом быстрый обзор по документу.

Все готово, далее включаем распознавание Меню Документ >> Раcпознать документ.

После распознавания начинается кропотливая робота. Нужно просмотреть каждую страницу, и если
программа не заметила картинки, выделить их. Таблицы также лучше выделить как картинки.
Также желательно сразу исправить ошибки раcпознавания, они выделены синим цветом.
В сумме это может на длительное время и больше, поэтому следует не спешить. Я понимаю что у многих
нет времени, но пару часов можно уделять вечером и в выходные. Следует также удалить содержание и
другие страницы которые не пригодятся в электронном варианте.
Бывают ситуации, когда программа один и тот же текст ошибочно выделяет разными шрифтами, или
ставит другой размер, хотя на деле он напечатан тем же шрифтом. Для этого, ставим курсор на тексте,
который выделен другим шрифтом, выбираем Сервис — редактор стилей и выбираем тот шрифт,
который должен быть для этого стиля.

Сноски.
При просмотре документа нужно обращать внимание на сноски. Если попалась сноска, можно сделать
так, выделяем текст сноски, вырезаем его, ставим курсор туда где сноска обозначена (там где цифра или
звездочка) пишем две фигурные (это важно) скобки {}, вставляем курсор между ними, и копируем туда
вырезанный текст сноски. В FBE позже, есть скрипт который определит что в фигурных скобках
содержится сноска.
Итак когда все готово, сохраняем документ в HTML. Почему выбран именно html а не doc или rtf? Дело в
том что так проще редактировать картинки, при переносе doc, Word конвертируем эти картинки в jpg,
даже если они были в другом формате, png. Качество этого jpg мне не очень нравиться, картинки
немного размытые. Да и в целом у нас есть возможно менять что-то внутри, к примеру те же маркеры. Да
и этот формат более близок к Bookdesigner 'у чем doc (эта программа при конвертации какого либо
формата, конвертируем его всегда сначала в html)
Итак : в окне текст , выбираем HTML и жмем сохранить. Галка все страницы в один файл должна быть
включена.

Картинки

Итак у нас имеется готовый html файл с картинками, которые лежат рядом с ним. Картинки сейчас
огромного размера, мы их будем сжимать. В конечной картинке, разрешение у картинок должно быть не
больше 760 по высоте, и не больше 570 по ширине. Объясняется это тем, что сейчас очень многие
пользуются устройствами для чтения, втч и я — основанных на e-ink. В этих устройствах экран размером
6 дюймов, и поддерживает 800x600. Если картинка больше размером, тогда включается авто-
масштабирование, которое всегда будет делать это плохо (т.к. Важна скорость загрузки книги).
Повозившись с девайсами PocketBook и Lbook — разрешение при котором картинка отображается без
маcштабирования, это не больше 760 и 570. Да и в целом больше и не нужно, даже при чтении с
компьютера. Итак картинки должны весить как можно меньше.

Итак программа IrfanView должна быть установлена. При ее помощи можно обработать все картинки,
одним движением. Щелкаем по картинке, - картинка отображается в IrfanView, далее жмем английскую
букву B. Появилась форма. Жмем кнопку «Add All», добавились все файлы.
Слева есть чекбокс «Use Advanced Options» выбираем его и жмем кнопку Advanced.
Устанавливаем настройки как показано на скриншоте:
Основные моменты:
Custom Color — 8 — после экспериментов, это наиболее оптимальное значение для чернобелых
изображений — и размер файла небольшой и качество нормальное. Если картинка цветная тогда ставим
256 или больше цветом. Следует учесть что размер возрастет в разы.
Convert to Greyscale — для черно белых картинок.

Итак жмем Ок.

Если картинки PNG (предпочтительнее) — выбираем Output Png и жмем кнопку Options.
Compression Level — указываем 9

Если картинка jpg — Options — качество я обычно ставлю 55.


Еще раз хочу заметить чем меньше картинка, тем быстрее грузиться книга в девайсе. Это очень важно,
т.к. На с большой книгой, с кучей картинок книга будет грузиться минут 4-5..

Указываем ниже Output Directory и жмем Start Batch.


Далее, после конвертации теперь точно известно что максимальное разрешение для картинок у нас не
превышает 570 по ширине. Но т.к. конвертировали мы учитывая соотношение, то по высоте картинки
могут превышать 760. Было бы конечно хорошо, если б кто нибудь сделал скрипт, который отбирает
такие картинки, иначе их нужно отобрать вручную.
Я это делаю так:
Просматриваю в Irfan View, внизу отображается разрешение картинки. Если по высоте значение
превышает 760, копирую оригинальный (тот который большого размера) файл с этим именем в
отдельную папку. Далее после того как все отобрано, делаю то же самое, но в опциях, в поле Resize Width
все убираю, и ставлю значение 760 в поле Height.
После того как картинки пересжаты, копируем html файл к новым картинкам. Ту копию лучше пока не
удалять, она может понадобится.

Редактирование FB2

Первое что нужно сделать это отметить главы. Легче всего это сделать в BookdDesigner (BD).
Если нужно перевести doc, rtf, txt итд в fb2 это нужно делать сначала при помощи bd.

Итак открываем BD и переносим мышкой наш html (рядом с ним должны быть новые картинки, которые
мы перезжали). Часть форматирование проведет сама программа. Отметить главы итд. Все стили
сохраняться. Итак отмечаем главы как title.
Важно: Если заголовки идут часто, то их нужно отмечать как подзаголовки (subtitle).
К примеру идет Глава 1. Чуть ниже Основы цифровых расследований, через абзац Цифровые
расследования и улики еще через 2-3 абзаца Процесс анализа места цифрового преступления.

Объясняется это тем, что заголовки (title) в электронных девайсах, которые читают fb2 начинаются с
новой страницы. А подзаголовки (subtitle) идут на той же страницы. Поэтому становится напряжно читать
каждый новый абзац с новой страницы, если заголовки идут как title.

Для того чтобы отметить заголовок как title — выделяем слово — жмем правую кнопку и выбираем title.
Либо жмем горячую клавишу, которая написана в скобках этого пункта меню.
Для подзаголовков соответственно subtitle.
Части книги, отмеченные как Часть 1, 2 итд, также отмечаем как title.

Добавляем аннотацию и ставим название и автора книги ().


После того как все отмечено, нужно сделать вложенные секции. Например у нас есть Часть 1 в ней
должны быть глава 1 , два три итп. Это необходимо т.к. при загрузке книги на основе заголовков будет
сгенерировано содержание книги. Итого в электронном девайсе мы сможем выбрать Часть один, и
просмотреть все главы, которые принадлежать ей.
Итак если нужно сделать вложенные секции, это очень просто сделать в BD: делаем так: Меню Tools >>
FictionBook Section editor, Появится список всех title — заголовков. Выбираем те главы, которые должны
быть вложены в секцию (например в секцию Часть 1) и жмем стрелку вправо.
По окончании жмем Apply.

Эпиграфы лучше устанавливать в FBE (bd их как то криво ставит, потом проблема с валидацией)

Итак форматирование закончено. Переходим к чистке fb2. Сохраняем книгу в формате fb2, для этого
выбираем меню make eBooks и выбираем Fiction Book (fb2).

1. Выбираем обложку к книге. Кстати обложку лучше сохранить как цветной jpg (конвертировать в
Irfan View).
2. Включаем флаг Latin File name, Keep Pictures Size (обязательно!), устанавливаем любой жанр
(здесь это сделано неудобно, точный жанр поставим в FBE) в поле genre (в самом начале). Если
жанр не указать, книга может не загрузиться в FBE.
3. Все жмем make Book.
4. Книга будет находится в папке c:\Program Files\Book Designer 4.0\fb2\ , ну или где там установлена
программа у вас.

Чистка fb2, и финальный вариант fb2.

Открываем FictionBook Editor и переносим мышкой наш fb2. Т.к. Программа довольно часто крэшится,
нужно периодически сохраняться, т.к. нажимать Ctrl + S. Текст пока не просматриваем, это сделаем в
конце.

Меню скрипты:
1. Нормализовать заголовки
2. Генеральная уборка
3. Интерактивные разрывы (если текст распознавался, если нет, тогда не надо).
4. Слипшиеся слова (если текст распознавался)

Сноски в FBE.

Теперь сноски. Как вы помните, сноски мы добавляли в фигурные скобки. В FBE есть скрипт, которые
переводить в сноски предложения, которые заключены в фигурные скобки. Меню Скрипт >>
{примечания}. Очень часто эта фича не работает из-за того, что есть http ссылки. Чтобы их убрать, можно
сделать так — выделить весь текст (Ctrl + A), меню Стиль >> удалить ссылку. После этого попробовать
еще раз сделать сноски.
Если же опять не получается, тогда делаем так:
ищем фигурную скобку, - Ctrl + F- вводим { . Выделяем весь текст сноски, и вырезаем его (Ctrl +X). Далее
скрипт >> Примечания >> Вставка с вводом и вставляем этот текст, скобки убираем.

По окончании всего, быстро пробегаемся по всему документу. Исправляем мелкие неучеты, разрывы,
если они остались итп.
После этого, жмем кнопку синюю D, и заполняем точный жанр, имя автора, свое имя, версию 1.0 итп.
Далее проходим валидацию (кнопка «Проверить» с красной галочкой). Если не прошел валидацию то
здесь уже свои проблемы, если не разберетесь, задавайте на форуме либрусека, либо данный файл
можно передать кому то другому, попросив его поправить. Автовалидация также проходит при
сохранении.

Архивируем в Zip с нормальный (обычным) сжатием, при помощи например WinRar. Файл должен быть с
приставкой fb2 — те. FileName.fb2.zip Все, fb2 готов.

Пересжатие картинок с уже готового fb2

Иногда бывает так, что встречается книга fb2 с кучей картинок размер которых очень большой, из-за этого
книга грузиться довольно долго на портативных устройствах. Автор этого fb2 скорее не разобрался что к
чему. Это можно исправить, пересжав картинки, без визуальной потери качества.
Сделать это очень просто.

Берем BookDesigner и забрасываем туда наш fb2.


Далее заходим в папку c:\Program Files\Book Designer 4.0\Temp\tmp1\1 (или 2 смотря сколько до этого
было открыто книг).
В этой папке лежит html файл с текстом книги, и собственно картинки с именем Fb2toBdIm_x (x — номер).
Берем картинки и пересжимаем в png при помощи Irfan View, как описано выше, но Resize (смена высоты
и ширины ) следует отключить. Все остальные опции оставить. Если картинки были в jpg, а мы их
перевели в png, тогда нужно открыть html0 файл в блокноте, и заменить jpg на png при помощи
автозамены. Все, после этого опять Make eBook, создаем fb2 снова, но уже с новыми картинками. После
лучше забросить его опять в fbe и почистить.

Вам также может понравиться