Русский город
Архитектурно-краеведческая библиотека
Правила подготовки текстов для размещения в Архитектурно-краеведческой библиотеке Русского города
(черновой вариант)
Если у Вас есть текст, и Вы хотите представить его для размещения в библиотеке, мы будем Вам благодарны, и с радостью разместим этот текст. Для этого текст надо выслать любому из библиотекарей Русского города. Обещаем, что мы обязательно укажем кто прислал текст (заодно будет понятно к кому обращаться с благодарностями и негодованием по поводу ошибок и опечаток).
Вместе с тем просим Вас учесть, что мы стараемся следовать определенным правилам принципам и скорее всего Ваш текст потребуется дополнительно обработать, прежде чем выкладывать его в Библиотеке. Так что если во время OCR и последующей вычитке его и обработке Вы постараетесь учитывать эти правила и принципы, Вы существенно облегчите последующую работу. А значит и текст будет размещен быстрее.
Основные принципы и требования.
Архитектурно-краеведческая библиотека в первую очередь ориентирована на размещения электронных копий научной и научно-популярной архитектурной, исторической и краеведческой литературы. В первую очередь мы стремимся продублировать кажущиеся важными и интересными бумажные издания. Наши электронные копии способны облегчить (во всяком случае мы на это надеемся) доступ и работу с данной литературой. При таком подходе электронная версия книги рассматривается как вспомогательная, основой все равно остается бумажная публикация. А, значит, задача электронной версии - попытаться максимально приблизиться к бумажной версии и вместе с тем дать преимущества текстового файла, в первую очередь по поиску и копированию.
Требования и приемы.
Тематика размещаемых книг.
Основная тематика книг, размещаемых в Библиотеке - архитектура Древней Руси и краеведение России. Книги, статьи и любые другие публикации по этим темам будут рассматриваться в первую очередь. Но интересны также любые книги, посвященные истории России (в особенности источники), архитектуре и строительству (в том числе и архитектуре и краеведению городов других стран). Более того - в библиотеке могут быть размещены любые книги по истории (источники, исследования, научно-популярная литература) и другим гуманитарным наукам. Просто приоритетность работы над размещением книг неосновной тематики будет низкой. Поэтому желательно, чтобы книги присылались в форматах, требующих наименьшей обработки для выкладки их в Библиотеку.
В библиотеке не размещаются книги вышедшие в последние четыре года, но может быть сделано исключение для статей и переизданий.
Формат Библиотеки.
Книги в библиотеке размещаются в HTML-формате. Необходима крайне веская причина для размещения книг в других форматах.
Основные требования.
Для каждой публикации абсолютно необходимо указывать ее библиографические данные: автора, название со всеми подзаголовками, год и место выпуска, издательство, если требуется - автора комментариев, иллюстраций, фотографий и т. д. Для статей необходимо указывать название журнала, газеты или сборника, из которого взята статья и библиографические данные журнала или сборника (год, номер, место выпуска). Указывать переводчика для переводной научной и научно-популярной литературы желательно, для переводов источников - обязательно.
Страницы
При публикации на сайте сохраняется постраничное деление бумажного источника. Иллюстрации и тела сносок размещаются на тех же страницах, что и и в бумажном источнике (учитывайте, что возможны сноски на иллюстрацию или примечание расположенные “на странице такой-то” ).
Страницы на сайте разделяются чертой (тэгом <HR>), номера страниц обрамляются двумя дефисами (пример: -1-). Номера страниц ставятся и в том случае, когда номер соответствующей страницы в книге не проставлен. Все это делается для удобства пользования обычным текстовым поиском.
Тела сносок желательно отчеркнуть символами нижнего подчерка, даже если в книге или журнале такого отчеркивания нет: ____________
Если Вы не хотите связываться с тэгами HTML (не владеете ими или готовите одновременно материал для публикации в другом формате), пожалуйста размещайте номера страниц в скобках, желательно квадратных [1], фигурных {1} или любых других, которые не встречаются в тексте и у которых открывающаяся скобка отличается от закрывающей, чтобы можно было автоматически заменить их на тэги.
Сноски
Номера сносок оформляются тэгами <SUP>1)</SUP>. Тела сносок размещаются на той же странице, что и в книге. Иногда сноски размещаются в бумажных изданиях на нескольких страницах, что требуется сохранять в интернет-публикации. Делать ссылки со сноски в тексте на тело сноски и назад необязательно, но желательно для облегчения текстового поиска сноски добавлять к цифре или букве сноски скобку, или брать ее в скобки целиком (Либо: 1), либо [1]).
При нежелании связываться с тэгами HTML, просьба размещать номера сносок в тексте и теле сносок скобками (см раздел Страницы), при этом скобки сносок должны отличаться от скобок страниц.
Выделения в тексте.
Выделения в тексте курсивом, жирным шрифтом, подчеркиванием или разрядкой крайне желательно сохранять. При подготовкефайла для нашей библиотеки желательно помечать начало выделения: курсивом - тэгом <I>, жирным шрифтом - тэгом <B>, подчеркиванием - тэгом <U>разрядкой - тэгом <span style="letter-spacing: 2">. Окончание выделения помечаются тэгами: курсив - тэгом </I>, жирным шрифтом - тэгом </B>, подчеркиванием - тэгом </U>, разрядкой - тэгом </span>.
В настоящее время мы не можем автоматически превращать шрифтовое оформление редактора Word в тэги HTML. Будем благодарны за любую помощь в данном вопросе.
Иллюстрации
Каждая из иллюстраций должна быть представлена в отдельном файле. Название файла иллюстрации должно начинаться с названия файла основного текста (либо с первых 4 символов файла основного текста), после которого должна идти буква i и номер иилюстрации в тексте, либо номер страницы, на которой размещена иллюстрация.
В тексте на месте иллюстрации необходимо разместить ссылку на файл иллюстрации, к примеру тэг <IMG SRC=/bookil/b78il96.jpg BORDER=0> (иллюстрация на 96 странице в книге b78) или просто указание на файл b78il96.jpg. Рядом с указанием на файл надо разместить и подпись к иллюстрации, ежели таковая есть.
Желательно сканировать и иллюстрации имеющие скорее художественную, чем научную ценность. Для таких иллюстраций требуется указівать художника в віходніх данніх текста.
Предпочтительніе форматы иллюстраций - JPG или GIF. Желательно, чтобы размер файла с иллюстрацией находился в пределах 50-100 кб. Следует ориентироваться на размер экрана 800 х 600 точек. При этом следует учитывать также качество иллюстрации в источнике (к сожалению, очень часто оно весьма низкое, особенно в журнальных публикациях.) В общем случае вопросы размера и разрешения для иллюстраций остаются на усмотрение человека, выполняющего OCR. Так, для схем и карт желательно увеличивать размері и разрешение, чтобі біла возможность прочитать мелкие детали изображения.
Таблицы
В настоящее время нет общих правил для таблиц. Большинство таблиц, встречающихся в тексте делалось вручную. В общем случае представление таблицы в текстовом формате предпочтительнее представления таблицы в виде иллюстрации, так как текстовый формат позволяет пользоваться поиском.
Символы иностранных алфавитов
При появлении отдельных символов европейских алфавитов (французского, немецкого, польского и др., к примеру, в списках литературы) желательно изображать их с помощью буквенных и цифровых кодов.
Дело в том, что отдельный символ в HTML текст можно вставить с помощью специального кода. Начинаться такой код должен с амперсенда & и заканчиваться точкой с запятой.
Все символы (подчеркиваем - все, включая "ять" нашу любимую и даже китайские иероглифы) имеют свой цифровой код. А наиболее часто употребляемые (в основном французского и немецкого языков) - еще и буквенный.
Поэтому в HTML форматах, когда эти символы лишь изредка попадаются в списке литературы, целесообразно такие символы проставлять просто вручную.
ö - надо набирать ö
á - надо набирать á
à - надо набирать à и т д
Есть хорошая юникодная страничка Алана Вуда, которой мы рекомендуем воспользоваться как справочником. http://www.alanwood.net/unicode/index.html
Для изображения символов греческого алфавита возможно использовать стандартный шрифт SYMBOL. Для єтого надо перед началом греческого текста поставить тэг <>, набрать латинскими буквами греческий текст, а в завершении поставить тэг <>.
Книги в дореволюционной орфографии и со старославянскими символами
Пока в нашей библиотеке не выработан стандарт для представления таких книг. В основном использовалась замена букв - ять менялась на Ъ, и восьмиричное на i, омега на w, а фита на сочетание th. Это не очень удобно, поэтому мы приветствуем эксперименты в данном направлении. В идеале желательно использовать юникодные кодировки символов старой орфографии и разработать для этого специальный шрифт. Но работа в этом направлении еще только предстоит.
С Вашими замечаниями и предложениями можно зайти в Трактиръ или направить их по электронной почте.
Буду рад вашим откликам!