指标/许可证统计数据

从知识共享卡塔尔vs葡萄牙分析
跳转到:导航,搜索

警告

评估许可证是一种采用非常不精确的科学。没有权威来源,我们既不控制也有内部信息最全面建设和波动的主要来源——网络搜索引擎通过Yahoo !链接:查询(谷歌的链接:运营商获得非常不完整的结果)。

注意:目前最好的数据类似,下面讨论的分析(基于快照独立聚集在2007年1月,可能会发现在Giorgos奥蒂斯如是说,“介绍CC统计从2007年6月,。

原始数据

卡塔尔vs葡萄牙分析Creative Commons不规则地运行程序,收集估计总结果的搜索引擎链接:{license_uri}查询和查询过滤通过许可证属性(Yahoo !和谷歌高级Linkback数据

这个数据公共领域。阅读更多关于http://labs.www.familygiver.com/metrics/sql-dumps/CC——这包括所有收集的数据编程的日期。

一天数据可用以CSV格式http://labs.www.familygiver.com/metrics/csv-dumps/。这是一个指导文件中的列:

  1. 内部ID号为这一行(例如,5041)
  2. 许可证的URI(例如,//www.familygiver.com/licenses/by-nc/1.0/jp/)
  3. 搜索引擎(如网络)
  4. 支安打数(例如,4680)
  5. 这linkback查询运行开始日期和时间(例如,2004 - 4月- 04 0:00:00)
  6. 短形式的许可权限(例如,摩根大通(jp)
  7. 短形式的许可名称(例如,通过数控)
  8. 许可版本(例如,1)
  9. 长形式的许可权限(如日本)

警告:存在差距的数据和结果从任何给定的方法可能波动剧烈波动。把原始数据的保留地。

Flickr的数据

信息从Flickr也可以在生成数据库转储或以上在这里单日华禾投资,就像这一个2008年6月23日

也看到Flickr数据的分析达到100 CC许可的图片和约135 CC许可的图片,包括一个电子表格快照后者。

软件

数据收集

上面的代码用于收集数据是可用的统计数据模块从我们http://code.www.familygiver.com/svnroot/stats

  • cd数据
  • 配置数据库访问:

    • 重命名dbconfig_EXAMPLE。py dbconfig。py和您想要使用一个MySQL数据库和密码(注意,如果你想使用non-MySQL数据库,我们使用的大多数工具实际上是与数据库无关的,只需要微小变化)
    • mysql - hdbserver- u用户名- p数据库名< create_tables.sql

    检查依赖关系。请注意,在本地主机上运行的脚本期望Tor !

    • python sanity_check.py

    做一个统计爬!

    • python link_counts。py日志

    图表

    统计数据模块还包含了一些图表生成代码。运行这段代码:

    • 进口all.sql。广州到一个MySQL数据库
    • 在dbconfig.py配置数据库
    • 运行图表生成软件的数据/报告/目录中。
    • 警告:输出原始程序需要很长时间运行

    基线数据从特定的集合

    我们也可以知道工作许可在不同的数量 许可工作方面领先的存储库 存储库 2005 - 08年 2005 - 11 2005 - 12 2006 - 01 2006 - 04 2006 - 05 2006 - 07 2006 - 09 2006 - 12 2007 - 03 2007 - 06 2008 - 01 Flickr(照片) 4.1米 7.1米 10.8米 12.7米 19.7米 25.5米 32.5米 38.7米 57.9米 Soundclick(音频) 159 k 200 k 220 k 249 k 294 k 324 k 372 k 430 k 视频服务*(视频) na 0 19 k 119 k 214 k 296 k 417 k

    也看到老Jamendo统计数据Magnatune统计数据

    *视频服务是一个高估,可能上传总数,其中一些可能已经被删除或从未出版。

    许可证属性图表

    这些图表显示的部署和部署的属性类型的许可执照,根据雅虎2006-06-13查询。(如上所述的Google API现在优越的综合统计,但雅虎链接:搜索比测量的相对部署特定的许可,因此特定的许可类型。)

    许可证的分布部署。那些没有“通过”(属性)
    跨许可证许可属性分布部署,例如,3% non-by公共领域和non-by 1.0许可证。

    估计随着时间的推移

    2010 - 06 - 400 12月,2010年

    1.3亿- 2008-07-01总估计使用工作Ankit的实现乔治的扩展算法。

    6700万——2008-05-02授权在Flickr照片http://flickr.com/creativecommons

    2007-06-14——在iSummit多方面的指标[1]

    3300万- 2007-03-31在Flickr照片授权和增长超过1年[2]

    基于swivel.com的用户的数据收集http://flickr.com/creativecommons

    2006-06-13——1.4亿页的许可[3]

    基于谷歌查询。

    2005 - 12 - 4500万页的许可[4]

    基于谷歌查询。

    2005-08-09——5300万页的许可[5]

    再根据雅虎!查询,这个数字是夸大了雅虎调整他们的结果估计在增长指数。

    2005-06-13 - CC搜索查询分解[6]

    故障的搜索请求和所需的许可属性——至少人们寻找视频想要自由。

    2005-05-27 CC在雅虎高级搜索[7]

    雅虎查询说16 m页面链接到CC许可的。

    2005-03-23——雅虎!寻找知识共享卡塔尔vs葡萄牙分析[8]

    接近14 m页面链接到一个CC许可据雅虎查询。

    2005-03-07 - CC搜索索引崩溃[9]

    分解的(小)CC-nutch指数——音频出版商是最宽容的,视频出版商。

    2005-02-25——许可分布[10]

    根据雅虎查询现在有10米许可文件。饼图的这些许可证是什么。

    2005-02-18——多少页链接到一个CC许可?[11]

    根据雅虎查询,超过5米。At the end of 2003 it was 1m.

    2004-09-17——寻找Creative Commo卡塔尔vs葡萄牙分析ns在雅虎![12]

    4.7页链接CC许可据雅虎查询。

    2003 - 12

    1米

    问题

    固定

    • 直到2008-07-01,反向链接(如。[13][14]分别为2004-04-01,雅虎和谷歌)之间的2004-04-01和2004-04-01的产品标签都有问题。
      • 问题是糟糕的进口在2005年之间的数据格式。
      • 这个问题被完全纠正2008-07-01。

    确认

    • Google API查询现在不能正常工作(如2008-06-25)。