CC开源博客

链接共享图:最后的活力

功能

通过Maria Belen Guaranda自己在2019-09-03

这个博客是系列的一部分: GSoC 2019:链接的共享

这是我最后一篇博文的延续的第3部分数据处理连铸数据目录可视化项目。我建议你去读最后发表为更好的理解这里我会解释什么。

你好!在这最后一篇文章中,我将谈论你最后的可视化。首先,我想谈谈数据和分享我的建议。

创建一个数据驱动的图

+ 2.5亿授权内容是一个很大的数字。这是我必须的数据量可视化GSoC项目。图像的数据量非常敏感。让我们谈谈敏感的属性,一个可视化结构良好的或紧密聚集像毛团。图不太敏感的数据如果有几百或几千个节点,但随着数据量的增加开始看起来越来越像一个毛团。看看下面的例子:

图20 k节点
链接共享gaph 20 k节点和链接。

与100 k节点图
链接共享gaph与100 k节点和链接。

此外,任何可视化库慢开始渲染元素,并一度冻结。100 k节点图的可视化年龄出现,有相同的集群出现。这是我的主要关注。这就是为什么我决定选择前500名域的处理数据,以及所有其他领域的500个节点相连。这也更加用户友好,因为在整个数据集将导航图很晕。即使采取了更小的数据集,我们可以从图中获得有价值的见解。我们能够找到社区如下:

图书馆社区
教育社区,包括图书馆和大学。

对知识共享这样的见解是有价值的,因为他们可以帮助与外联工作,有针对性的沟卡塔尔vs葡萄牙分析通和CC搜索团队选择域包括CC搜索工具。

最后的图是互动的。用户可以平移,放大和缩小,徘徊在一个节点邻居和邻居的邻国,并单击节点显示饼图。

饼图可视化

饼图是使用Highcarts图书馆。这个图表的目的是向公众展示每个域使用CC许可。我在我的博客:可视化CC目录数据。这是一个图片来说明上面的:

cc_licenses字典
ask.openstack.org的饼图

有一些节点,我们没有信息CC许可(和他们可能没有授权内容)。对于这些节点,一条消息说“CC许可的信息domain_name不可用”而不是显示饼图。我们没有想要禁用的饼图,因为我们想要符合节点的行为。做一些不能点击节点会迷惑大家,也更复杂的实现可视化。

调整图

Force-graph有一个很好的API,为自定义可视化提供了很多可能性。建筑图的是数据驱动的,我们可以使用数据,以改变节点和边的外观。

我实现了以下:

这是最后的可视化,使用一个常见的示例数据从一个月爬数据:

指定与真正的数据图
指定图”,与公地”。

指定与真正的数据图
指定图”,与公地”。域的邻居svgsilhhihglighted。

你可以检查整个项目的源代码Github回购

最后的评论和未来的工作

这是我第一次经历大数据可视化,我真的很喜欢它!

有特性,可以实现在未来为了减少的数据量呈现在图:

检查现场演示!

(2 d版)(http://ec2 - 3 - 80 - 82 - 250. -计算- 1. amazonaws.com/)

(3 d版)(http://ec2 - 3 - 80 - 82 - 250. -计算- 1. amazonaws.com/visualization_3d.html)
与我的导师Sophine *是的,,我们认为这可能是一个伟大的想法尝试使用3 d版本的图:)。你可以以同样的方式与图形交互与2 d版本。

CC数据目录可视化是我GSoC 2019项目的指导下Sophine Clachar一直以来大大有帮助和体贴GSoC应用时期。同时,我的备份的导师,Breno费雷拉和工程总监克里特岛殖民地已经非常支持。

我有一个伟大的时间与知识共享合作。卡塔尔vs葡萄牙分析我希望你像我一样像最终产品。谢谢你在这个项目的发展。

祝你有美好的一周!

玛丽亚