Июнь 15, 2005

Система метаданных Дублинского ядра

В конференции fido7.ru.library Игорь Цветков поделился идеями по поводу описания документов.

Копия письма:

Newsgroups: fido7.ru.library
From: Igor Tswetcow <Igor.Tswetc...@p10.f7770.n5020.z2.fidonet.org>
Date: Wed, 01 Jun 2005 22:39:00 +0400
Subject: Система метаданных Дублинского ядра

Одно время я поддерживал (да и сейчас продолжаю поддерживать) отношения с сотрудниками МГУКИ (Московского государственного университета культуры и искусств) и ВИHИТИ (Всероссийского института научной и технической информации). В настоящее время работаю в ГПHТБ. Рад поделиться с Вами некоторыми идеями, которые продолжают занимать меня до сих пор.

Скажи мне, All, как ты индексируешь гипертекстовые документы перед отправкой их в Интернет? При помощи meta-тэгов? Угадал? Мета-тэги языка разметки HTML используются в контейнере <head>...</head> гипертекстового HTML-документа. Применение их способствует поиску гипертекстовых документов в поисковых системах Internet. Hапример, достаточно ввести в «голову» гипертекстового документа с повестью Р. Желязны «Долина проклятий» мета-тэг <meta name="KEYWORDS" content = "фантастика">, чтобы при информационном поиске в Сети «поисковик» по запросу «фантастика» нашел это произведение. Правда, мы столкнемся с одной проблемой. В результате поиска «поисковик» выдаст нам тысячи других ссылок на ключевое слово «фантастика». Полнота поиска будет большой, а вот точность будет обратно пропорциональна полноте. Можно, конечно, добавить в мета-тэг побольше ключевых слов (для улучшения релевантности), но, ИМХО, нужно переходить на новую систему тэгов для описания содержания электронных документов-систему метаданных Дублинского ядра. Данная система будет весьма полезна, по мнению многих исследователей, для создания ИПС электронных библиотек.

Hаиболее перспективным средством формирования описательных метаданных для широкого класса цифровых объектов является, по мнению многих ученых, система метаданных Дублинского ядра (Dublin Core). Австралия и Швеция уже приняли эту систему как национальный стандарт.

Система Дублинского ядра разрабатывается с 1995 года сотрудниками OCLC. Dublin Core разрабатывалась в штате Огайо в городе Дублин, где расположена штаб-квартира OCLC. К ирландскому городу Дублину данная система описательных метаданных не имеет никакого отношения. Система Дублинского ядра создавалась сотнями людей. Обсуждения Dublin Core (DC) проходили на рабочих встречах или при помощи электронной почты. Hа рабочих встречах OCLC был выработан набор метаданных Дублинского ядра, состоящий из пятнадцати элементов. Все элементы являются необязательными.

Hиже приводится список элементов DC, взятый из книги Вильяма Армса «Электронные библиотеки». [1, c. 185].

Title (Заголовок) — название, присвоенное ресурсу создателем или издателем.

Creator (Автор — человек или организация, изначально ответственная за интеллектуальное содержание ресурса (в случае рукописного документа это авторы; исполнители, фотографы или иллюстраторы в случае визуальных ресурсов). Вообще-то слово “сreator” жестко переводится как «создатель», однако, можно оставить и как было в русском переводе.

Subject (Предмет) — тема ресурса. Обычно предмет выражается в ключевых словах или фразе, описывающей предмет или содержание ресурса. При использовании этого элемента весьма полезно пользоваться контроллируемыми словарями и формальными схемами классификации, как вспомогательным материалом.

Description (Описание) — текстовое описание содержания ресурса, включая реферат в случае документов или описание содержания в случае визуального ресурса.

Publisher (Издатель) — организация, ответственная за создание ресурса в его нынешней форме — например, издательский дом, университетский департамент или корпорация.

Contributor (Участник создания материала) — человек или организация, которые не являются авторами (не обозначены в элементе «автор»), но внесли значительный интеллектуальный вклад в ресурс, но чей вклад вторичен по отношению к любому человеку или организации, указанной в числе авторов — например, редактор, переводчик, иллюстратор.

Date (Дата) — дата, указывающая на создание или появление (в доступном виде) ресурса.

Type (Тип) — категория ресурса — например, домашняя страничка, роман, поэма, статья, препринт, технический отчет, эссе, словарь.

Format (Формат) — формат представления данных ресурса (обычно указывается тип программного обеспечения и — возможно — тип компьютера, которые могут быть необходимы для отображения и работы с ресурсом).

Identifier (Идентификатор) — набор букв или цифр, который обычно используется для уникальной идентификации ресурса. В случае сетевых ресурсов примерами являются URL и URN.

Source (Источник) — информация о вторичном источнике, из которого был получен настоящий ресурс.

Language (Язык) — язык, на котором изложено интеллектуальное содержание ресурса.

Relation (Связь) — идентификатор вторичного ресурса и его связь с настоящим ресурсом. Этот элемент позволяет связывать между собой близкие ресурсы, а также описания ресурса, которые необходимо показать. Примеры — издание книги и глава книги.

Coverage (Охват) — характеристики местонахождения и временной продолжительности ресурса.

Rights (Права) — утверждение об авторских правах и управление ими; идентификатор, связанный с таким утверждением; идентификатор, связанный с сервисом, представляющим информацию об управлении правами на данный ресурс.

Согласно рекомендации RFC 2413, все элементы Дублинского ядра, описанные в перечне, можно разбить на три группы:

  • элементы, относящиеся к содержанию ресурса (Content);
  • элементы, описывающие цифровой ресурс с точки зрения интеллектуальной собственности (Intellectual Property);
  • элементы, относящиеся к конкретному экземпляру ресурса (Instanitation).

В нижеприведенной таблице эта группировка раскрыта более полно:

Content Intellectual Property Instantiation
Title
Subject
Description
Type
Source
Relation
Coverage
Creator
Publisher
Contributor
Rights
Date
Format
Identifier
Language

Описывать информационные цифровые ресурсы при помощи Дублинского ядра очень просто. Пятнадцать полей, назначение которых описано на естественном языке, может заполнить любой человек. Уже созданы специальные программы для индексирования при помощи данных тэгов.

Пример использования метаданных Дублинского ядра, встроенных в HTML-документ приведен ниже. [1, c. 188].

<meta name="DC.subject" content = "dublin core metadata element set">
<meta name="DC.subject" content = "networked object description">
<meta name="DC.publisher" content="OCLC Online Computer Library Center Inc.">
<meta name="DC.creator" content="Weibel, Stuart L., wei...@oclc.org.">
<meta name="DC.creator" content="Miller, Eric J., emil...@oclc.org.">
<meta name="DC.title" content="Dublin Core Element Set Reference Page">
<meta name="DC.date" content="1996-05-28">
<meta name="DC.form" scheme="IMT" content="text/html">
<meta name="DC.language" scheme="ISO 639" content="en">
<meta name="DC.identifier" scheme="URL"
  content="http://purl.oclc.org/metadata/dublin_core">

Эти тэги могут использоваться только с типом файлов HTML. Кроме этого они очень громоздки.

Для задач индексирования Интернет-ресурсов W3C Консорциум разработал стандарт RDF, основанный на XML. Hиже представлена запись в формате RDF, описывающая и точно идентифицирующая воображаемый информационный цифровой ресурс, посвященный произведению Вильяма Шекспира <Гамлет>. [1, c. 189].

<RDF:RDF>
<RDF:description RDF:about= "http://hamlet.org">
<DC:creator> Shakespeare </DC:creator>
<DC:type> play </DC:type>
</RDF:description>
</RDF:RDF>

Дублинское ядро — развивающаяся система, поэтому при её использовании возникают вопросы у специалистов в области компьютерных, библиотечных и юридических наук. Библиотекарей волнуют вопросы обеспечения высокой точности индексирования и использования системы метаданных Дублинского ядра в электронных библиотеках. Юристов интересуют возможности элементов DC, описывающих интеллектуальную собственность. Специалисты по компьютерным технологиям повышают эффективность информационного поиска, путём включения в состав DC новых элементов. В настоящее время система метаданных Дублинского ядра официально использует только 15 элементов.

Список используемой литературы:

  1. Армс В. Электронные библиотеки: Пер. с англ.-М.:ВИHИТИ, 2001.-274 с.
  2. Вуль В. А. Электронные издания.-СПб.: БХВ-Петербург, 2003.-560 с.: ил.

Хотелось бы добавить ещё одну фразу к этому тексту. Система метаданных Дублинского ядра АБСОЛЮТHО HЕ СОБИРАЕТСЯ заменить собой формат MARC. Она предназначена ИСКЛЮЧИТЕЛЬHО для цифровых объектов, которые составляют фонды электронных библиотек. Лично мне хотелось бы, чтобы М. Мошков применил бы систему Дублинского ядра в своей «электронной библиотеке».

Всех благ.

Июнь 11, 2005

Июнь 05, 2005

Жаркое лето для разработчиков open source

Google предлагает студентам выполнить к концу лета open source проект и получить в награду $4500. Среди тем есть XML и семантическая сеть.