可视化CC目录数据-数据处理第2部分Creative Commons开源的卡塔尔vs葡萄牙分析

这是我最后一篇博文的延续对连铸数据目录的数据处理部分可视化项目。我建议你去读最后发表为更好的理解这里我会解释什么。

每个数据集都需要洁和预前处理操作分析。为了实现验证,我必须先知道什么样的矛盾我会处理。这里有一些有趣的见解关于数据集:

除了上述之外,我不得不面对几乎空行(即只有单个列的信息),列不好分离(不是单一而是多个标签之间的列),以及其他一些常见问题真正的和非完美的数据集。我已经验证这些矛盾。

需要通过provider_domain聚合数据,为了得到每个节点的完整信息。聚合图片列很简单,我只需要和该列中的值。现在的链接列有点棘手的聚合。我们必须记住这个字段包含字典,与域键和《纽约时报》被引用的值。对于本专栏聚集,我需要:

然后,我必须从最后的链接提取creative commons字典,并把值到另一个列,称为_Licences_qty_。这是因为链接的数量www.familygiver.com可以告诉我们有多少provider_domains使用许可证。

我们还需要聚合许可证列。目标是一个数据结构,包含许可证类型provider_domain用途,并知道有多少每个每个许可证类型provider_domain许可证。为了达到这个目标,我:

最后,我们将行如下:

行,数据聚合的例子。

我之前提到过,有供应商领域有很多的图片和一些链接,反之亦然。我仍然需要修剪和过滤数据,我可以制定一个规则来排除不相关的领域的图。这种相关性可以由图片和/或链接的数量。我认为规则如下:

排除域,但很少有很多图像链接(不到20链接)。
排除域几乎没有图片(小于100)和一些链接(小于20)
排除域没有链接(不是一个目标节点)。
排除域的社交网络(Instagram Facebook, Twitter),因为他们可能不给相关的见解。引用这些SN的大部分被发现,因为供应商领域为用户提供共享内容的选项。

阈值的图像和链接的数量是我的直觉从看到数据和手动检查一些提供者域。如果有可能我可以验证它与一些数据分析(检查平均,最大和最小值的列)。

您可以按照项目的发展Github回购。

CC数据目录可视化是我GSoC 2019项目的指导下Sophine Clachar一直以来大大有帮助和体贴GSoC应用时期。同时,我的备份的导师,Breno费雷拉和工程总监克里特岛殖民地已经非常支持。

祝你有美好的一周!

玛丽亚

可视化CC目录数据-数据处理部分2