Описание системы оцифровки и хранения. В данной части отчета изложены концептуальные принципы оцифровки письменных источников, размещения информации на портале и в электронной базе данных историко-культурных памятников письменности, создающихся в рамках проекта.
источник бесперебойного питания;
3.1.2. Методика оперативной оцифровки. Оцифровка в полевых условиях производилась с использованием цифровой фотокамеры и искусственного освещения постоянного типа с холодными светодиодными лампами. Фотосъемка производилась с максимально возможным разрешением фотокамеры, в цветном режиме (исключения описаны выше) в формате RAW+TIFF.
Для представления реальных физических размеров подлинника документа и адекватной цветопередачи съемка объекта производится с цветовой мишенью.
При оцифровке документов заголовки изображениям даются автоматически. После переноса кадров с карты памяти на жесткий диск компьютера в графическом редакторе заголовки оцифрованных документов приводятся в соответствие с номерами листов подлинника. Постобработка изображений включает только кадрирование и поворот кадра, а также пересохранение в формат TIFF без сжатия.
3.1.3. Контроль качества электронных копий. Для контроля качества электронных копий применяется комбинация методов визуального контроля, перечисленных ниже:
полистный просмотр и сравнение подлинников документов с электронными копиями;
сверка соответствия количества электронных файлов количеству листов, проверка последовательности листов;
проверка наличия электронных копий оборотов листов документов;
анализ качества изображения на экране монитора с разрешением 1280х1024 точек, в том числе – цветопередача, резкость, контрастность;
проверка читаемости документа при 200% масштабировании;
оценка плотности изображения;
на этапе создания мастер-копии в процессе оцифровки;
после трансляции из программы сканирования в графический редактор
после записи на встроенный носитель информации;
Контроль качества электронных копий должен проводиться по каждому файлу.
3.1.4. Маркировка электронных мастер-копий
Каждый файл электронной мастер-копии получает уникальное имя шифр- маркировку. Разработка и внедрение унифицированной маркировки электронных копий имеет целью:
Однозначную идентификацию электронной копии;
Возможность соотнесения мастер-копии с подлинником документа;
Имена файлов содержат основные поисковые данные архивного документа, разделяемые знаком «_» (подчеркивания), которые включают в себя аббревиатуру района нахождения источника (например, OR – “Окинский район»), порядковый номер оцифрованного источника, номер листа, шифр лицевой стороны или оборота (R – лицевая сторона; V – оборотная сторона), расширение (формат) хранения.
3.1.5. Структура каталогов на встроенных носителях информации (хранение электронных мастер-копий)
Организация хранения электронных мастер-копий на сервере ФГБОУ ВПО «Бурятский государственный университет»:
Папка: No проекта
Папка: No района нахождения
Папка: No источника
Файлы располагаются в порядке возрастания номеров листов.
3.1.6. Запись электронных мастер-копий на внешние носители информации
По окончании создания электронных мастер-копий и размещении их в соответствующем разделе каталога на встроенном носителе будет произведена репликация электронных мастер копий на внешние носители информации, которые будут являться контрольным экземпляром мастер-копии и будут храниться в другом подразделении научной библиотеки ФГБОУ ВПО «Бурятский государственный университет».
Электронные копии на компакт или оптические диски реплицируется, исключая возможность последующей дозаписи информации на эти электронные носители. Процесс репликации будет актироваться.
Одновременно на основе актов ведется Журнал репликации электронных копий (мастер-копий).
3.2. Общее описание информационной системы.
В рамках проекта разрабатывается портал, на котором на следующих этапах реализации начнется размещение документов, книг, фотографий и других исторических источников информации. Предполагается, что портал будет иметь две части — публичную и закрытую. Публичная часть доступна любому пользователю сети Интернет, закрытая часть доступна ограниченному кругу людей.
В публичной части ресурса планируется размещение данных источников в виде изображений, оптимизированных для публикации в сети Интернет, также планируется размещать материалы в максимально возможном разрешении — это необходимо для сохранения всех особенностей источников для исследователей. Помимо изображений портал будет предоставлять различную метаинформацию о материале — тип, дата издания, аннотация, язык и т. д. В системе должна присутствовать функция настраиваемого поиска по приведённым метаданным.
Также в публичной части планируется разместить стандартные информационные разделы: новости, каталог публикаций и т.д.
Закрытая часть должна предоставлять возможность управления базой данных портала. Для реализации данного разделения потребуется реализовать механизмы авторизации и аутентификации. Учитывая потенциально большое количество экспертов необходимо предусмотреть гибкую систему авторизации — для доступа определенных пользователей к определенному функционалу проекта.
Кроме того, к порталу предъявляются следующие требования:
- работа на современных версиях браузеров (Mozilla, Opera, Chrome, Firefox, Safari);
- возможность удобного просмотра материала на мобильных устройствах (смартфоны, планшеты).
3.2. Пользователи системы
Посетитель ресурса может иметь два статуса: гость, авторизованный пользователь.
Гость — любой пользователь в сети Интернет, находящийся на портале. Гостю доступны все материалы и функции, размещенные в публичной части портала.
Авторизованный пользователь — пользователь, который прошел процедуру аутентификации. Авторизованные пользователи получают доступ к закрытой части ресурса и могут вносить изменения в базу данных.
Существуют различные варианты предоставления привилегий пользователям для доступа к редактированию материалов. На данный момент рассматриваются два варианта: доступ по статусам, назначение прав.
Доступ по статусам подразумевает создание нескольких статусов в системе и присвоение каждому пользователю определенного статуса. В зависимости от присвоенного статуса пользователям предоставляются права на различные операции в системе. При этом обычно создается статус (обычно это Администратор), который позволяет управлять (изменять) статусами пользователей в системе.
Назначение прав подразумевает выделение операций для всех объектов/групп объектов в системе (создание, редактирование, удаление), после чего для каждого пользователя производится настройка прав (задаются доступные операции для каждой группы объектов).
На данный момент можно выделить следующие роли пользователей (см. Таблица 4):
Таблица 4. Роли пользователей
| Роль | Права |
| Администратор | Создание новых учётных записей пользователей Управление (изменение информации, удаление) учётными записями пользователей |
| Модератор ресурса | Управление информацией на ресурсе, не связанной с базой данных материалов — новости, статические страницы, обратная связь и т.д. |
| Главный редактор базы данных материалов | Одобряет публикацию новых материалов в базе данных Имеет полный доступ ко всем материалам в базе данных |
| Исследователь | Вносит новые материалы в базу данных Может редактировать свои материалы Не может удалить размещенные материалы (даже свои) |
3.3. Архитектура системы
3.3.1. Модули системы
В соответствии с описанием выделим основные модули разрабатываемой системы.
3.3.2. Аутентификация и авторизация
Модуль аутентификации и авторизации необходим для осуществления операций аутентификации и авторизации.
Механизм Аутентификации реализует процедуру проверки легальности пользователя. Модуль реализован в виде стандартной формы авторизации (логин/пароль).
Механизм авторизации будет отвечать запредоставление пользователю прав на выполнение определенных действий.
3.3.3. Информационный ресурс
Данный модуль представляет собой часть портала реализующую стандартные функции веб-сайта:
а) предоставление информации о проекте — информационные страницы (контакты, о проекте, коллектив авторов и т.д.);
б) лента новостей;
в) обратная связь (в любом необходимом виде — форум, форма обратной связи и т. д.).
г) панель администратора — закрытый для неавторизованных пользователей механизм управления информацией, размещённой на веб-сайте.
3.3.4. База данных материалов.
Проект подразумевает создание открытой базы данных исторических материалов, для пользователей портала это фактически означает открытую публикацию материалов из базы данных на портале. При этом важно учитывать то, что разные виды материалов будут иметь разные наборы метаинформации, а следовательно будутразличаться шаблонами отображения.
Учитывая потенциально большое количество материалов необходимо предоставить её в удобном для пользователя виде. Стандартным способом является предоставление информации в виде древовидного каталога. В качестве категорий/подкатегорий каталога логично выбрать виды материалов. Таким образом, можно сформулировать требование к модулю: автоматическое формирование древовидного каталога материалов по заранее определённому параметру.
Некоторые виды материалов (например, книги) будут содержать набор изображений, а следовательно необходимо реализовать удобный способ просмотра этих изображений.
Отдельной задачей является реализация функции поиска по базе. При этом помимо обычного полнотекстового поиска необходимо реализовать расширенный поиск (потенциально по всем параметрам).
3.3.5. Наполнение базы данных материалов
Важнейшей задачей проекта является формирование базы данных материалов. При этом важно учитывать, что материал состоит из нескольких «частей»:
1) Отсканированное изображение/изображения в максимальном качестве. Планируется, что изображения изначально будут сканироваться в формате TIFF с максимально возможным качеством. Материалы в таком формате, по сути, не предназначены для отображения в сети Интернет, они будут размещены в виде ссылки на архив с файлами;
2) Обработанное для размещения в сети Интернет изображение/изображения. Для удобства пользователей необходимо разместить материалы для ознакомления. Для этого исходный материалы будет сконвертированы для размещения в сети Интернет (форматы jpeg, gif), существует возможность размещения этих материалов в базе данных, однако ввиду потенциального объёма и количества запросов целесообразнее будет размещать их на сервере и предоставлять по ссылке;
3) Мета информация — как уже отмечалось, каждый вид материалов обладает достаточным количеством описательных параметров, их необходимо хранить в базе данных.
Формирование (заполнение) базы данных возможно в двух основных технологических направлениях:
1) Реализация функционала загрузки данных на портале;
2) Реализация стороннего (десктопного) приложения загрузки.
Важным вопросом является загрузка файлов — исходные материалы будут достаточно объёмными (в среднем от 200 мб) для загрузки через стандартные механизмы веб-форм.
Данная проблема может быть решена несколькими способами:
1) применение асинхронной загрузки файлов — данный способ решает технические проблемы, но не решает проблемы в случае больших файлов (общий объём от 200 мб);
2) предварительная загрузка файлов при помощи приложений для работы с ftp, данный способ предпочтителен в виду того, что веб — сервер будет размещён в Бурятском государственном университете и существует возможность загрузки файлов из локальной сети, однако в данном случае необходимо строгое соблюдение именования каталогов и загружаемых файлов на сервере.
При разработке функционала базы данных материалов крайне важно учитывать возможность добавления новых видов/подвидов материалов, следовательно разработанная структура программных классов должна иметь возможность интеграции новых классов.
3.4. Структура базы данных
Структура базы данных должна позволить реализовать весь функционал, заложенный в описанных модулях. Функционал, описанный в модулях «Аутентификация и авторизация», «Информационный ресур»с является стандартным и будет реализован при помощи имеющейся структуры БД (стандартная база easy Yii и стандартная таблица пользователей/статусов).
Для модуля «База данных материалов» необходимо разработать структуру базы данных. При разработке базы данных необходимо учитывать, что в базе будет хранится большое количество материалов с разным набором полей-характеристик. Данную проблему предлагается решить следующим образом: выделить общие параметры для всех материалов (дата публикации, описание) и сформировать соответствующую таблицу. Информацию (общую) обо всех материалах хранить в этой таблице, специфическую информацию по каждому материалу вынести в отдельную таблицу и хранить в ней. Соответствующие записи связать при помощи внешнего ключа.