正如几周前报道的那样,OCLC建议它的成员图书馆采用开放数据共享归属许可(ODC-BY)当他们在线分享他们的图书馆目录数据时。建议使用像ODC-BY这样的开放许可证是OCLC向前迈出的积极一步,因为它有助于提前沟通图书馆目录书目元数据的潜在用户的权利和责任。但是OCLC决定推荐授权途径——而不是将书目元数据发布到公共领域——引起了人们的关注,值得进行更多的讨论。
OCLC说,使图书馆的数据来源于使用在像ODC-BY这样的开放许可下可用社会规范.然而,还有其他同样兼容的选项。哈佛大学图书馆例如,与OCLC达成了协议今年早些时候,它的元数据在CC0公共领域奉献.这意味着哈佛放弃了对这些数据的所有版权和相关权利,从而实现了最广泛的下游重用。尽管哈佛把这些信息公开了请求用户向源代码提供归因作为最佳实践,而无需通过许可使归因成为具有法律约束力的要求。
有很好的理由依赖社区规范来进行元数据的归属,而不是将其作为许可协议的条件。通过像ODC-BY这样的合同提供属性的要求并不适合来自多个来源的数据被组合和混合,并且受到各种许可和其他使用限制的世界。例如,图书馆社区正在试验新技术,如关联数据这是一种从数十年来在数据编目方面的集体投资中获得更多价值的手段。我们很高兴看到这一点OCLC已经发布了包含8000万个链接数据三元组的100万条WorldCat记录RDF.然而,我们认为将属性作为许可条件会带来复杂性,这将使用户在技术上难以(如果不是不可能的话)遵守。
接下来的问题是如何正确地将属性信息附加到一个离散的数据位(例如,单个字段、子字段或三重字段)。OCLC提供了有用的信息关于关联数据归因的指导方针,但是对于遵循OCLC建议采用ODC-BY许可证发布自己数据的成员图书馆来说,这些如何工作呢?库链接数据集合通常来自许多大型集合的小子集,并通过新的关系重新组合,可能需要为每个数据元素单独归因。在OCLC数据发布的情况下,假设一个用户下载了包含8000万个链接数据三元组的OCLC文件,提取出她感兴趣的三元组,然后将它们链接到她自己的目录数据,以创建一个新的链接数据集。WorldCat数据的指导方针包括考虑一个WorldCat URI作为充分的归因的选项,但是这对于图书馆自己的书目数据或来自非oclc来源的附加数据如何工作呢?指南不包括关于库应该如何实现自己的数据的建议,以使重用者能够遵守ODC-BY许可证强加的属性要求。重用库链接数据的社区规范和最佳实践还没有很好地定义,因此在具有法律约束力的许可证上下文中依赖它们是令人不安的。
另一个问题是关于ODC-BY许可证的范围,除了版权之外,它还关注欧洲的数据库权利——数据库权利不适用于美国,但涵盖了整个数据库不是它的内容这使得它能否应用于一个简单的书目数据文件还不确定。鉴于书目数据主要是事实性质,版权是否适用于书目数据的问题是值得怀疑的,而且根据法律管辖权的不同而有所不同。虽然OCLC将ODC-BY许可证应用于WorldCat本身可能很有意义,但对于希望以可下载文件的形式共享一些目录数据的美国图书馆来说,这是一个值得怀疑的选择。
此外,由于欧盟以外的大多数国家(包括美国)不为非创造性数据库提供保护,ODC-BY许可证不运作,充其量只能作为对直接从许可方网站下载的数据库的合同限制。因此,这种不基于任何底层专有产权的限制不太可能绑定不直接从原始数据提供者获得数据的重用者。缺乏有约束力的合同加上缺乏任何基础产权意味着许可方可能会惊讶地发现,他们没有强有力和有效的补救办法,如对下游用户提出侵权索赔。这是一个开放数据库许可证的已知问题, ODC-BY的姐妹许可证,具有相同的许可证+契约设计特性。因此,在许多情况下,许可证不会以他们所期望的方式保护共享数据的库(OCLC)。
使用许可证共享书目元数据的另一个更普遍的担忧与它的技术可行性有关。这在模式语言OCLC推荐的,包括链接到WCRR记录使用策略(WorldCat的权利和责任),社会规范和一个常见问题解答.通过这些链接,读者可以访问更多关于会员和非会员要求的信息。令人担忧的不是规则的不透明,而是它们可能与大量与OCLC无关的记录联系在一起。例如,许多成员可能最近才开始重用来自OCLC的记录,但是在模型语言中没有区分OCLC和非OCLC来源的记录,因为没有可行的技术解决方案来区分这些记录。结果是:整个数据库的归属(错误地)给了OCLC,大量的OCLC原理链接到图书馆数据库的完整内容。虽然ODC-BY和WCRR可能是出于善意的工具,把WorldCat的数据变成“公共资源池”对于OCLC成员来说,它当然缺乏界定其起点和终点的技术解决方案,这可能导致试图遵守的成员的混乱和过高的要求。从根本上说,这引出了一个问题,图书馆记录是否不应该只是公共品,被公开到公共领域。
由于上述原因,文化机构包括大英图书馆,Europeana,密歇根大学图书馆,哈佛大学和其他人已经采用了CC0公共领域奉献来在线发布他们的目录数据。由此,我们看到一个真正的规范图书馆社区的方法将是一个公共领域的奉献,如CC0,加上请求提供来源的归属(如OCLC)尽可能大的程度。这种方法将最大限度地利用编目数据进行实验和创新,符合图书馆界的使命和价值观,同时尊重OCLC和图书馆界在这一宝贵资源上的投资。
本文的贡献者:蒂莫西·沃尔默,麦肯齐·史密斯,保罗·凯勒,黛安·彼得斯。
书目数据在现实世界中有什么应用吗?我看到了很多人对这些项目的热情,但没有一个mashup服务、数据库或任何对我有用的东西。
这篇文章非常棒,非常详细,只是两个及时的提示:
OCLC在IFLA 2012上主持了一个关于关联数据的圆桌会议,由OCLC的Richard Wallis (Ex-Talis)主持,包括来自大英图书馆的Neil Wilson,来自巴黎蓬皮杜中心的Emmanuelle Bermès和来自瑞典皇家图书馆的Martin Malmsten。这四份报告都值得一看:
http://www.ifla.org/en/news/presentations-from-oclc-linked-data-round-table-available
Emmanelle Bermès在IFLA 2012上写博客,特别是关于链接开放数据。
http://figoblog.org/node/2010
她指出了OCLC数据归因指南,特别是特例5“URI引用”。她指出:(我的翻译)“考虑到简单使用OCLC URI作为充分的归因将链接开放数据的核心,在法律术语中,我们布道者一直宣扬的:链接开放数据应该“跟着鼻子走”,积极地在链接中导航;因此,让你的机构可见,它的URI有价值。”
http://www.oclc.org/data/attribution.html
必须包含CATALOG的属性是重新设计的。这不是真正的书/出版物。这是一个目录。我不是图书管理员,所以也许我不完全理解目录的艺术。
我开始思考如何用谷歌来比喻这种情况。但是一个谷歌的比喻实际上争论的是目录是授权的,而不是开源的。谷歌没有使它们的整个索引可下载。但是没有一个谷歌API允许人们访问他们的索引吗?哦,等一下。但是谷歌API是谷歌的属性。我不认为他们的API是开源开发的。人们可以用谷歌的API开发开源的东西,但API本身就是谷歌的。
如果有开发人员或图书管理员比我更了解这一点,请纠正我的错误。
也许我应该这么想。多个网站的所有者有机会通过站点地图将他们的网站提交到谷歌。图书馆可以选择将他们的记录提交到CC0公共领域奉献。这些图书馆记录可以通过这个公共域访问。就像提交到谷歌的网站可以通过谷歌的API访问一样。但谷歌的API不像CC0公共域专用那样开放,对吧?
我和托尔斯滕一样担心。我还没有看到任何实际使用书目数据的情况然而,.
我只是想提醒大家注意Klaus Tochtermann的博客文章“CC0用于图书馆数据—发布后消亡”,以及评论中关于使用CC0处理图书馆数据的利弊的讨论。看到http://www.zbw-mediatalk.eu/2012/08/thoughts-beyond-boundaries-cc0-for-library-data-publish-then-perish/.
书目元数据属于公共领域。许可只是把图书馆信息变成赚钱机器的一种尝试。