CC开源博客

可视化CC目录数据——数据处理第3部分

功能

通过Maria Belen Guaranda自己在2019-08-12

这个博客是系列的一部分: GSoC 2019:链接的共享

这是我最后的一个延续博客文章的第2部分数据处理连铸数据目录可视化项目。我建议你去读最后发表为更好的理解这里我会解释什么。

你好!在这篇文章里,我将谈论你独特的提取节点,和链接,并指定图形的可视化处理数据。

节点和链接将可视化使用force-graph。我谈到这个图书馆在我的博客:可视化CC目录数据。我的第一步是使用数据生成json文件的需求。Force-graph需要一个json文件通过两个列表:一个包含的信息节点,另一个包含链接。他们都是数组的字典。我有巨大的输入文件(总共1亿多个独特的领域)。在熊猫我需要建立一个DataFrame tsv输入文件使用的块。我现在面临的挑战是创造一个独特的节点列表。这就是为什么这是一个挑战:

所以你可以看到,处理重复不是微不足道的,当你有大量的数据。接下来我试着分析小文件,为了能够保持在一个DataFrame内存中的数据。所以对于每个TSV文件我之前,现在我有几个小TSV文件。这可能扩展数据分析,但它可以顺利的编码复杂度。

我刚开始通过格式化数据为源和目标列生成独特的节点图。我遍历当前DataFrame我每一行(有provider_domain cc_licences,链接列,等等),并通过阅读链接每一行的专栏中,我加载json。每个键的json,我创建了一个新行与provider_domain来源,关键目标,关键的价值价值特性。我添加新行新DataFrame。我建立一个新的行我每次读取一行,所以我有一个单个provider_domain DataFrame所有的链接。当我完成遍历行,我把DataFrames列出并保存输出。这就是我得到一个新的DataFrame包含所有现有的图的链接,与源、目标和价值列。是啊!

可视化得到如下:

指定与真正的数据图
指定与真正的数据图。

指定与真正的数据图
指定与真正的数据图。

即将到来的

你可以想象过,有很多孤独的节点(没有邻居节点)。我的想法是过滤掉没有最小数量的provider_domains授权内容。我将试着用不同的价值观,从100年到1000年,并查看图形的变化。我相信很多这些节点没有相关授权内容,所以这个过滤规则将被删除。剩下其他任务要做的是:

您可以按照项目的发展Github回购

CC数据目录可视化是我GSoC 2019项目的指导下Sophine Clachar一直以来大大有帮助和体贴GSoC应用时期。同时,我的备份的导师,Breno费雷拉和工程总监克里特岛殖民地已经非常支持。

祝你有美好的一周!

玛丽亚