许多蒙娜丽莎?艺术——Creative Commons开源数据量化和评估卡塔尔vs葡萄牙分析

量化下议院

密歇根大学,学校的信息

项目目标和问题陈述

卡塔尔vs葡萄牙分析Creative Commons许可的作品(CC)已经超过十亿。然而,没有中央数据或组织CC许可的作品,使得它难以量化和分析工作许可证的数量是有用的或应该退休了。这个项目的目标是帮助CC员工识别冗余许可证和用定量数据营销的影响。它侧重于开放教育资源(OER)。

数据收集

收集的数据来自OER共用CC的,这是一个包含数字教育资源平台和一个图书馆。数据收集的第一步是识别哪些许可该数据源使用,有多少工作在每个许可OER内共享。OER共享使用许可证CC-BY、使用CC-BY-ND, CC-BY-NC, CC-BY-NC-SA,和CC-BY-NC-ND有助于“合理使用”和“商业用途”资产,分别。数据收集的下一步是查询许可的应用程序编程接口(API)。为了检索所有工作许可证,查询检索由最多50个批处理工作。重复这个过程,直到所有检索工作许可证。这些步骤为每个运行许可证。每个API调用的响应是XML解析功能,包括教育水平、学科领域、材料类型、媒体格式,语言,主要用户,和教育使用。结果输出到CSV文件。

探索性数据分析(EDA)

收集所有的数据之后,我们开始在我们dataframe探索不同的列。特别是,我们看着不同语言的分布,项目通过许可类型的分布,当项目被添加到在公共API。通过这种探索,我们可以进一步指定我们的分析和数据的深入挖掘不同的关系。

图# 1:

图# 1:项目的百分比/许可类型

图# 1显示了销售物品来自OER共用许可类型。很明显,CC-BY许可证类型是最受欢迎的,有43%的项目许可类型。使用cc许可也是相当受欢迎的,占27%的物品收集。

图2:

图2:2015年12月的月的项的数量

图2显示当项目被添加到在下议院API。几乎没有活动从2015年12月,到2023年初。然而,近30000项在2023年初被添加到API。

图# 3:

图# 3:语言项目的百分比

图3显示了语言项目的百分比。英语是最常用的语言,大约86%的项目在英语。其他语言都有少量的物品。

图# 4:

图# 4:百分比的物品用英语/许可类型

由于英语显然是最受欢迎的语言,我们决定看看许可分布用英语项目。图# 4显示了一个类似的分布饼图描绘整个许可证;这是可以预料到的,因为英文项目占所有项目的86%,所以执照的分布类似于总体布局。

图# 5:

图# 5:项目在法国的百分比/许可类型

我们继续看许可证由每个语言的分布。图# 5显示物品在法国,CC-BY许可证是最受欢迎的为49%,它背后使用是正确的为32%。

可视化

图# 6:

图# 6:许可类型故障的主要用户

图# 6显示项目的分布在下议院通过初级用户和分解许可类型。平台主要包含项目专为教师和学生,与其他家长,管理员,图书馆员。分解为每个主用户的许可是相对一致的整体崩溃的平台,从下面的图表(图# 7和图# 8)。

图# 7:

图# 7:比例的教师所使用的物品/许可类型

图# 8:

图# 8:每个许可类型比例的学生所使用的物品

图# 9:

图# 9:主题领域的许可证

另一个方面分析检查主题领域和他们持有的许可证图# 9所示。必须进行一些初步的数据清理平台上有太多的话题,虽然一些受试者数很低。团队分组相似的主题分成九个不同的类别,例如,社会科学、人类学、社会学、沟通、世界文化、心理学、女性研究,社会工作被分为社会科学。

它可以看到从图# 9,最受欢迎的主题领域平台健康科学,语言/艺术和其他科学。潜水深入这些主题领域,健康科学和艺术语言/有更高比例的项目与CC-BY-NC-SA许可证。

图# 10:

图# 10:材料类型分解由教育水平

最后,研究小组分析了材料项目的类型和分类的教育水平的项目。再次,一些数据清洗需要有太多的材料类型分析和一些也有非常小的数据项。图中所示的七种材料类型# 10是最受欢迎的,并代表总数的2/3左右。

排序按时间顺序教育水平后,出现了一个有趣的趋势是,物品数量的增加从学前教育水平,达到一个峰值在社区学院层面,然后降低。材料类型的转变也可以从图,作为课程计划代表了大部分的物品从幼儿园到高中,但从大学开始变得无关紧要。另一方面,这是取代了更高比例的读数。观察另一个值得注意的是,还有一个更高比例的项目在大学教科书。

键值

创建的见解通过这个项目的分析将有利于CC的营销努力。理解能力许可类型的分布在不同的上下文中如教育水平,将有助于CC是能更好地目标营销等关键人口对学前教育材料为例。另一个带走的键值是CC的长期保存。CC需要集中他们的合作者的内容到数据库仓库系统以来一直是一个确定的方向这个项目的开始。OER的原型数据库共享导致这些努力在小范围内实现以及会议数据库系统建模的范围。像其他CC组章贡献自己的数据库许可的作品,有一个充满希望的期待的合并收购将与其他CC在未来章节。

下一个步骤

CC扩大其成员,贡献给开源项目的授权工作,其他内部系统的数据保护和维护开始成为一个严重的利益点数据库开始成为一个集成的未来努力。运行我们的原型OER-Commons数据库的案例给了我们方向的见解CC当前数据库系统,这个系统将如何更好的适应进化成数据仓库中心作为一个长期的解决方案。当我们开始数据挖掘和数据分析的过程中,在我们两组使用Python3一直是主要的努力以及CC与Git的先前的协议。所以,补充这个框架与其他Python库,允许简单的数据库查询将是一个正确方向的一步,未来的CC贡献者来促进这个过程。这个库集成的一个例子是pandasql利用家庭熊猫方法以及SQL命令逻辑库,使数据库维护简单和易于管理。除了更新数据存储、未来的工作可以继续收集数据从其他来源与CC许可工作包括魅力和互联网档案馆。

确认

我们想表达我们的感激之情胆小Zehta机器人,我们的客户,为代表CC工作,以及OER共用对他们有价值的贡献对数字许可的发展和开源物品清单项目。没有他们,这个项目是不可能的。他们的努力一直在给我们的工具和资源来帮助发展开源倡议,允许我们促进思想的自由交流,知识,和资源在艺术、卫生和教育领域的非营利事业。开源项目很重要,因为它们让公众使用和工作项目没有限制或钥匙。因为这个项目是开源的,我们的努力可以添加到建立在,允许项目继续通过增加新的贡献者的新鲜视角。两人的承诺促进访问和包容的内容使个人和组织创建和分发数字资产没有面临任何世界各地的法律限制。已经绝对高兴与这些组织合作,成为他们的使命的一部分民主化访问信息。

CC开源博客

许多蒙娜丽莎?艺术数据量化和评估