CC开源博客

数据科学发现:量化下议院

加州大学伯克利分校,数据科学发现计划2022年秋季

项目目标

问题陈述

在前一年,从2014年到2017年,Creative Commons (CC)发布公卡塔尔vs葡萄牙分析开报告详细描述了该增长,大小,和使用Creative Commons,展示知识共享的意义和影响。然而,努力量在进行知识共享已经停止。卡塔尔vs葡萄牙分析这是我们目前的preincarnation开源项目:量化下议院

可视化例子从2017年以前的报告:2017年下议院数据图的状态

原因是之前努力生成使用报告遭受不可靠的数据检索方法;而容易发生故障的更新网站架构从数据源,这些数据提取方法并不是特别严格的性能和有显著较低(与现有方法相比,在规模或一个小时vs。5工作日)。

前进,继续的工作量化CC产品状态,学生研究人员委托可靠的数据检索过程的设计和实现CC在前期报告的数据被复制过去的努力下,这个项目的preincarnation,量化的规模和多样性CC产品使用在互联网上。

数据检索

如何检测县cc许可文件吗?

如果一个在线文档使用CC工具来保护它,那么它将被贴上许可下,工具或包含超链接到www.familygiver.com的网页,解释了许可证的规则(契约)。

因此,我们可以用以下的方法来识别和计数cc许可文件:

  1. 选择CC工具检查列表(CC)提供的。
  2. 使用api不同的在线平台来检测和计数的文档标记为许可通过平台和/或包含一个对CC许可网页超链接。
  3. 用表格的形式存储这些数据,包含文档保护的计数在每种类型的CC工具。

什么平台来收集计数?

这里是一个列表的在线平台,我们取样文档计数,以及代表团为平台的数据收集、可视化和建模在这个项目:

平台包含网页 平台包含照片 平台包含的视频
谷歌(Dun-Ming黄) DeviantArt (Dun-Ming黄) Vimeo (Dun-Ming黄)
互联网档案馆(Dun-Ming黄) Flickr (Shuran杨) YouTube (Dun-Ming黄)
MetMuseum (Dun-Ming黄)
开始(Dun-Ming黄)

探索性数据分析(EDA)

这里有一些重要的发现的缺陷在EDA在采样数据平台:

Flickr

谷歌自定义搜索API

YouTube数据API

扩展数据集

下面是数据集扩张的原因和努力获得更多的数据平台,即:

谷歌自定义搜索API

YouTube数据API

可视化

哲学和原则

量化的可视化下议院是交际和表示的。

我们采用了一些新的美学和原则(之前的反应增强工作)是:

展示的可视化

图1 c

趋势图的知识共享使用谷歌卡塔尔vs葡萄牙分析趋势图的知识共享使用谷歌卡塔尔vs葡萄牙分析

现在有超过27亿个网页Creative Commons的保护卡塔尔vs葡萄牙分析由谷歌索引!

图2

热图cc许可的密度谷歌索引网页在国家热图cc许可的密度谷歌索引网页在国家

特别是,西欧和美洲享受一个更健壮的使用知识共卡塔尔vs葡萄牙分析享文档的数量。应该鼓励发展在亚洲和非洲。

图3 c

Barplot网页保护了六个主要CC许可Barplot网页保护了六个主要CC许可

我们可以看到,归因()和Attribution-Nonderivative (BY-ND)是受欢迎的许可证在整个数据集采样的30亿文件。

图6

Barplot cc许可文件在自由文化和非自由文化许可证Barplot cc许可文件在自由文化和非自由文化许可证

45.3%的CC保护文档是由自由文化法律工具。

Flickr图

CC许可的使用Flickr上集中在澳大利亚,巴西,美国,美国,在亚洲国家是相当低。

注意:抽样框架这些可视化锁定在4000年第一个照片在每个搜索结果一般许可类型。

图7

Creative Com卡塔尔vs葡萄牙分析mons使用Flickr上的分析

CC冲锋队2.0许可使用在Flickr照片1962 - 2022

图7 b

Flickr照片最大的观点在所有许可证

在Flickr照片Attribution-NonCommercial-NoDerivs (BY-NC-ND)许可证已获得尽可能高的观点,而使用许可公有领域标志近年来最高增加的趋势。

图7 c

Flickr 2018 - 2022年度趋势的许可

图7 d

Flickr照片下CC-BY-NC-SA 2.0和2.0 CC通过数控:类别关键字

图8

跨平台的作品在创作共用的工具卡塔尔vs葡萄牙分析跨平台的作品在创作共用的工具卡塔尔vs葡萄牙分析

DeviantArt了最多的作品在创作共用许可证和工具,其次是维基百科和开始。卡塔尔vs葡萄牙分析YouTube上的视频数量的估计是低估的,作为显示在图11 b。

图9 b

各国Barplot C卡塔尔vs葡萄牙分析reative Commons保护文件各国Barplot C卡塔尔vs葡萄牙分析reative Commons保护文件

图10

Barplot Cre卡塔尔vs葡萄牙分析ative Commons保护文档的语言Barplot Cre卡塔尔vs葡萄牙分析ative Commons保护文档的语言

图11 b

趋势图的累积计数cc许可的YouTube视频每一两个月趋势图的累积计数cc许可的YouTube视频每一两个月

橙线代表新cc许可的YouTube视频数量的估算值基于线性回归,这是归责的决定方法,因为大多数媒体的增长cc许可文档计数也经历一个线性增长。

建模

(旁轨)

目标的建模

这个项目的模型旨在回答:“什么是网页/ web文档的许可类型的内容?”

个别研究人员尝试他们的解决方案通过不同的资源,指标,在不同的上下文建模:

谷歌网页模型(Dun-Ming黄)

Flickr照片模型(Shuran杨)

培训过程简介:谷歌模型

预处理管道

  1. 重复数据删除
  2. 删除非英语字符
  3. 网址,[s ^ \ w \]、Stopword移除
  4. 删除非英语单词
  5. 删除简短词语、内容
  6. TF-IDF +圣言
  7. 击杀

模型选择

物流回归(点球=“外语”,解算器=“liblinear”,class_weight=“平衡”,C=0.1,)
SVC(C=0.5,概率=真正的,内核=“聚”,degreee=1,class_weight=“平衡”,)
RandomClassifier(class_weight=“balanced_subsample”,n_estimators=One hundred.,random_state=1,)
GradientBoostingClassifier(n_estimators=5,random_state=1,)
NultinomialNB(fit_prior=真正的,α=10,)
  1. 文字:InputLayer
  2. 预处理:KerasLayer
  3. BERT_encoder: KerasLayer
  4. 辍学:辍学
  5. 分类器:密度

培训结果

性能测试由Top-k跨模型精度

培训过程简介:Flickr模型

预处理管道

  1. 重复数据删除
  2. 翻译
  3. Stopword移除,词元化
  4. TF-IDF

模型选择

SVC(C=1.0,内核=“线性”,γ=“汽车”,)

培训结果

66.87%的精度。

下一个步骤

从Preincarnation到现在

通过上面的努力解决中,我们不仅成功地将一个数据检索过程不稳定,未知的,和不可用的算法,确定过程可靠,记录,和可翻译的!和可视化表示的,专注于努力地提取更多的见解,看看Creative Commons进一步深度和广度更惊人。卡塔尔vs葡萄牙分析

与重大的重新设计政策,以量化的数据检索过程下议院,可视化可以容易,立即产生命令;和可视化的概念转换生产,Creative Commons将获得新的见解最终产品的发展和政策的轴以及提取数据。卡塔尔vs葡萄牙分析此外,我们预计的生产机器学习模型工作范围之外的产品,但是作为一个可能的推断能力对产品的使用。

这样的努力是一个短跳开始量化的长期转世下议院。

从转世到巴触摸

目前的团队将鼓励未来团队增加可用性和用户体验为我们的开源数据提取方法,通过自动化和通过批量数据提取方法,Dun-Ming写了设计的政策。建模,该小组还鼓励建筑干扰管道使用ELI5 Logistic回归模型,以及实验与损失函数梯度提高分类器的选择。对于Flickr,这张海报的作者建议一些数据提取方法对Flickr Flickr API,但访问媒体外,说谷歌自定义搜索API。

更多的阅读