数据科学发现:量化下议院,Creative Commons开源的卡塔尔vs葡萄牙分析

加州大学伯克利分校,数据科学发现计划2022年秋季

项目目标

问题陈述

在前一年,从2014年到2017年,Creative Commons (CC)发布公卡塔尔vs葡萄牙分析开报告详细描述了该增长,大小,和使用Creative Commons,展示知识共享的意义和影响。然而,努力量在进行知识共享已经停止。卡塔尔vs葡萄牙分析这是我们目前的preincarnation开源项目:量化下议院。

可视化例子从2017年以前的报告: 2017年下议院数据图的状态

原因是之前努力生成使用报告遭受不可靠的数据检索方法;而容易发生故障的更新网站架构从数据源,这些数据提取方法并不是特别严格的性能和有显著较低(与现有方法相比,在规模或一个小时vs。5工作日)。

前进,继续的工作量化CC产品状态,学生研究人员委托可靠的数据检索过程的设计和实现CC在前期报告的数据被复制过去的努力下,这个项目的preincarnation,量化的规模和多样性CC产品使用在互联网上。

数据检索

如何检测县cc许可文件吗?

如果一个在线文档使用CC工具来保护它,那么它将被贴上许可下,工具或包含超链接到www.familygiver.com的网页,解释了许可证的规则(契约)。

因此,我们可以用以下的方法来识别和计数cc许可文件:

选择CC工具检查列表(CC)提供的。
使用api不同的在线平台来检测和计数的文档标记为许可通过平台和/或包含一个对CC许可网页超链接。
用表格的形式存储这些数据,包含文档保护的计数在每种类型的CC工具。

什么平台来收集计数?

这里是一个列表的在线平台,我们取样文档计数,以及代表团为平台的数据收集、可视化和建模在这个项目:

平台包含网页	平台包含照片	平台包含的视频
谷歌(Dun-Ming黄)	DeviantArt (Dun-Ming黄)	Vimeo (Dun-Ming黄)
互联网档案馆(Dun-Ming黄)	Flickr (Shuran杨)	YouTube (Dun-Ming黄)
	MetMuseum (Dun-Ming黄)
	开始(Dun-Ming黄)

探索性数据分析(EDA)

这里有一些重要的发现的缺陷在EDA在采样数据平台:

Flickr

从这个数据集样本文档计数在35000% ~ 100000%的偏差从官方统计/ CC产品(许可证)调查。
抽样范围锁定在4000可用搜索照片从每个许可证。
显著的重复问题(解决)。

谷歌自定义搜索API

可编程搜索引擎只达到谷歌的网站的一个子集。影响不显著(然后,进一步解决通过抽样框架调整PSE)。
意外使用弃用操作符和参数,导致忠诚问题(解决)。

YouTube数据API

API有最大响应值总数的YouTube视频,导致严重的低估。
- 通过实现自定义解决粒度数据使诚实的反应,节约开发成本,并引入归罪在可视化。

扩展数据集

下面是数据集扩张的原因和努力获得更多的数据平台,即:

谷歌自定义搜索API

修改后的数据采样过程解决EDA-discovered不准确。
扩大视野的CC产品使用分析在过去的边界,在可视化只是进行比较跨产品的性能,我将进一步CC-product在整个时间轴的使用数据和地理人口统计数据。

YouTube数据API

修改后的数据采样过程解决EDA-discovered不准确。
对媒体相关执行前所未有的分析time-respective CC的发展选择在流行的平台上,YouTube的CC许可视频数在为期两个月的时间。
介绍了污名不肯舍弃缓解限制来自YouTube和响应降低发展成本,以应对YouTube API的限制行为。

可视化

哲学和原则

量化的可视化下议院是交际和表示的。

我们采用了一些新的美学和原则(之前的反应增强工作)是:

现在的长度的可理解性
分析产品开发除了license-wise比较
利用颜色呈现数据通过在大熊猫倾向,Seaborn, NumPy Geopandas,宽大的

展示的可视化

图1 c

趋势图的知识共享使用谷歌卡塔尔vs葡萄牙分析

现在有超过27亿个网页Creative Commons的保护卡塔尔vs葡萄牙分析由谷歌索引!

图2

热图cc许可的密度谷歌索引网页在国家

特别是,西欧和美洲享受一个更健壮的使用知识共卡塔尔vs葡萄牙分析享文档的数量。应该鼓励发展在亚洲和非洲。

图3 c

Barplot网页保护了六个主要CC许可

我们可以看到,归因()和Attribution-Nonderivative (BY-ND)是受欢迎的许可证在整个数据集采样的30亿文件。

图6

Barplot cc许可文件在自由文化和非自由文化许可证

约45.3%的CC保护文档是由自由文化法律工具。

Flickr图

CC许可的使用Flickr上集中在澳大利亚,巴西,美国,美国,在亚洲国家是相当低。

注意:抽样框架这些可视化锁定在4000年第一个照片在每个搜索结果一般许可类型。

图7

Creative Com卡塔尔vs葡萄牙分析mons使用Flickr上的分析

CC冲锋队2.0许可使用在Flickr照片1962 - 2022

图7 b

Flickr照片最大的观点在所有许可证

在Flickr照片Attribution-NonCommercial-NoDerivs (BY-NC-ND)许可证已获得尽可能高的观点,而使用许可公有领域标志近年来最高增加的趋势。

图7 c

Flickr 2018 - 2022年度趋势的许可

图7 d

Flickr照片下CC-BY-NC-SA 2.0和2.0 CC通过数控:类别关键字

图8

跨平台的作品在创作共用的工具卡塔尔vs葡萄牙分析

DeviantArt了最多的作品在创作共用许可证和工具,其次是维基百科和开始。卡塔尔vs葡萄牙分析YouTube上的视频数量的估计是低估的,作为显示在图11 b。

图9 b

各国Barplot C卡塔尔vs葡萄牙分析reative Commons保护文件

图10

Barplot Cre卡塔尔vs葡萄牙分析ative Commons保护文档的语言

图11 b

趋势图的累积计数cc许可的YouTube视频每一两个月

的橙线代表新cc许可的YouTube视频数量的估算值基于线性回归,这是归责的决定方法,因为大多数媒体的增长cc许可文档计数也经历一个线性增长。

建模

(旁轨)

目标的建模

这个项目的模型旨在回答:“什么是网页/ web文档的许可类型的内容?”

个别研究人员尝试他们的解决方案通过不同的资源,指标,在不同的上下文建模:

谷歌网页模型(Dun-Ming黄)

上下文建模:多级分类器(7类)。
模型训练集:文本网页内容从Google API获得收集网页(常见的爬行,最初的选择,标志着不可用是由于源代码腐败)。
主模型度量:Top-k准确性,这个模型被认为是许可推荐系统的后端接收网页内容和推荐2到3许可用户。

Flickr照片模型(Shuran杨)

上下文建模:二元分类器(通过与冲锋队)
模型训练集:文本从Flickr API获得的照片描述(可视化与抽样框架)
主模型度量:准确性

培训过程简介:谷歌模型

预处理管道

重复数据删除
删除非英语字符
网址,[s ^ \ w \]、Stopword移除
删除非英语单词
删除简短词语、内容
TF-IDF +圣言
击杀

模型选择

物流回归(点球=“外语”,解算器=“liblinear”,class_weight=“平衡”,C=0.1,)

SVC(C=0.5,概率=真正的,内核=“聚”,degreee=1,class_weight=“平衡”,)

RandomClassifier(class_weight=“balanced_subsample”,n_estimators=One hundred.,random_state=1,)

GradientBoostingClassifier(n_estimators=5,random_state=1,)

NultinomialNB(fit_prior=真正的,α=10,)

文字:InputLayer
预处理:KerasLayer
BERT_encoder: KerasLayer
辍学:辍学
分类器:密度

培训结果

性能测试由Top-k跨模型精度

培训过程简介:Flickr模型

预处理管道

重复数据删除
翻译
Stopword移除,词元化
TF-IDF

模型选择

SVC(C=1.0,内核=“线性”,γ=“汽车”,)

培训结果

66.87%的精度。

下一个步骤

从Preincarnation到现在

通过上面的努力解决中,我们不仅成功地将一个数据检索过程不稳定,未知的,和不可用的算法,确定过程可靠,记录,和可翻译的!和可视化表示的,专注于努力地提取更多的见解,看看Creative Commons进一步深度和广度更惊人。卡塔尔vs葡萄牙分析

与重大的重新设计政策,以量化的数据检索过程下议院,可视化可以容易,立即产生命令;和可视化的概念转换生产,Creative Commons将获得新的见解最终产品的发展和政策的轴以及提取数据。卡塔尔vs葡萄牙分析此外,我们预计的生产机器学习模型工作范围之外的产品,但是作为一个可能的推断能力对产品的使用。

这样的努力是一个短跳开始量化的长期转世下议院。

从转世到巴触摸

目前的团队将鼓励未来团队增加可用性和用户体验为我们的开源数据提取方法,通过自动化和通过批量数据提取方法,Dun-Ming写了设计的政策。建模,该小组还鼓励建筑干扰管道使用ELI5 Logistic回归模型,以及实验与损失函数梯度提高分类器的选择。对于Flickr,这张海报的作者建议一些数据提取方法对Flickr Flickr API,但访问媒体外,说谷歌自定义搜索API。

项目目标

问题陈述

数据检索

如何检测县cc许可文件吗?

什么平台来收集计数?

探索性数据分析(EDA)

Flickr

谷歌自定义搜索API

YouTube数据API

扩展数据集

谷歌自定义搜索API

YouTube数据API

可视化

哲学和原则

展示的可视化

图1 c

图2

图3 c

图6

Flickr图

图7

图7 b

图7 c

图7 d

图8

图9 b

图10

图11 b

建模

目标的建模

谷歌网页模型(Dun-Ming黄)

Flickr照片模型(Shuran杨)

培训过程简介:谷歌模型

预处理管道

模型选择

培训结果

培训过程简介:Flickr模型

预处理管道

模型选择

培训结果

下一个步骤

从Preincarnation到现在

从转世到巴触摸

更多的阅读