这是我最后一篇博文的延续对连铸数据目录的数据处理部分可视化项目。我建议你去读最后发表为更好的理解这里我会解释什么。
的数据
每个数据集都需要洁和预前处理操作分析。为了实现验证,我必须先知道什么样的矛盾我会处理。这里有一些有趣的见解关于数据集:
- 有几种情况下,provider_domain没有引用正确cc_license路径。我们可能会说,不是每个人都有一个明确的需要了解如何给CC许可正确归因。
- 我发现一个情况的链接json是畸形的。它有一个巨大的段落作为键(而不是域)。我不期待这样的呵呵。
- 有两种类型的条目,提供域小图像数量和大量的链接,和大量的图片但很少联系。一些领域的图像属于在线商店或新闻网站。
除了上述之外,我不得不面对几乎空行(即只有单个列的信息),列不好分离(不是单一而是多个标签之间的列),以及其他一些常见问题真正的和非完美的数据集。我已经验证这些矛盾。
数据聚合
需要通过provider_domain聚合数据,为了得到每个节点的完整信息。聚合图片列很简单,我只需要和该列中的值。现在的链接列有点棘手的聚合。我们必须记住这个字段包含字典,与域键和《纽约时报》被引用的值。对于本专栏聚集,我需要:
- 创建一个空的字典
- 遍历每个键并保存它
- 如果我的脸已经在字典里的一个关键,只是我目前持有的价值总和中的现有值字典。
然后,我必须从最后的链接提取creative commons字典,并把值到另一个列,称为_Licences_qty_。这是因为链接的数量www.familygiver.com可以告诉我们有多少provider_domains使用许可证。
我们还需要聚合许可证列。目标是一个数据结构,包含许可证类型provider_domain用途,并知道有多少每个每个许可证类型provider_domain许可证。为了达到这个目标,我:
- 创建一个空的字典的执照
- 对于每一个许可证,创建一个元组(license_name,版本),它将成为一个重要的字典
- 检查是否存在于词典的关键。关键是补充说,如果没有一个初始值为1,字典。
- 如果键存在,增量的价值1。
最后,我们将行如下:
行,数据聚合的例子。
注意事项和未来的挑战
我之前提到过,有供应商领域有很多的图片和一些链接,反之亦然。我仍然需要修剪和过滤数据,我可以制定一个规则来排除不相关的领域的图。这种相关性可以由图片和/或链接的数量。我认为规则如下:
- 排除域,但很少有很多图像链接(不到20链接)。
- 排除域几乎没有图片(小于100)和一些链接(小于20)
- 排除域没有链接(不是一个目标节点)。
- 排除域的社交网络(Instagram Facebook, Twitter),因为他们可能不给相关的见解。引用这些SN的大部分被发现,因为供应商领域为用户提供共享内容的选项。
阈值的图像和链接的数量是我的直觉从看到数据和手动检查一些提供者域。如果有可能我可以验证它与一些数据分析(检查平均,最大和最小值的列)。
即将到来的
- 提取独特的节点和链接。
- 可视化与数据。
- 开发或修改修剪/过滤规则。
您可以按照项目的发展Github回购。
CC数据目录可视化是我GSoC 2019项目的指导下Sophine Clachar一直以来大大有帮助和体贴GSoC应用时期。同时,我的备份的导师,Breno费雷拉和工程总监克里特岛殖民地已经非常支持。
祝你有美好的一周!
玛丽亚