CC开源博客

可视化CC目录数据

功能

通过Maria Belen Guaranda自己在2019-06-17

这个博客是系列的一部分: GSoC 2019:链接的共享

“通过可视化信息,我们把它变成一个风景,你可以探索与你的眼睛。”——大卫·麦。

许可内容广泛多样的景观。我们有域名链接到其他领域,不同的许可类型,和一些元数据。每月提取这些信息从互联网上常见的爬行。它是公平地说,我们有2.5亿件和成长!如果你不知道我们有那么多的授权内容,那么,这是这个项目的一个目标:显示用户许可人是如何连接的,他们的授权内容,显示许可波正在扩大。

手工作!

目前,有大量的图形和可视化的概念已被证明与某些数据更好地工作。此外,因为我们拥有大量的数据,要牢记一个关键一点是图必须是有意义的(例如,使用经典的node-link方法,你可以最终拥有一个令人困惑的毛团)。因此,可视化必须是可伸缩的。发现与CC可视化将工作最好的目录数据集是我的第一个任务。我回顾了在图形可视化技术发展水平,但在这篇文章中我不会深入。本文的亮点和结论如下:

结论:无论是CC-Catalog可视化解决方案的审查似乎可行的项目,因为他们并没有显示巨大的改善可伸缩性。此外,他们不适合我们的案例研究。

这个图

现在我知道画什么,下一步是找到如何绘制图表。有一个广泛的可视化库可供选择的地方,你可能会感到不知所措。提示:定义优先级/关键方面根据你想想象。性能与大数据、社区支持和一个平滑的学习曲线是我检查的方面作出决定。我们最终选择了force-d3,一个开源库,使用d3-force模块作为底层的物理引擎。它有一个友好、简单的API,以及文档和示例。

一个具有挑战性的任务是绘制节点。这里的想法是指节点内的域的名称,让节点大小数据驱动。有趣的事实:我花了几小时前发现我收到节点作为画布对象的API。一旦你知道如何绘制节点,边缘的样式是一程,因为在force-d3他们以同样的方式处理节点对象。边缘突出显示和宽度的增加,当用户将鼠标悬停于他们。我另一个没那么容易特性实现是突出一个节点及其邻居。在这里我要感谢Vasturiano先生库的作者,他指示我一个例子开发一个非常类似的功能。他不断检查和修复开放问题回购。伟大的图书馆!我建议你检查一下。

许可内容类型的CC许可

卡塔尔vs葡萄牙分析知识共享有6许可证类型。我们知道每个域许可证使用他们的内容,所以这将是伟大的如果我们可以向公众展示,例如,最受欢迎的许可证。我们的想法是,显示在一个简单的图像一个饼图,每个域的授权内容,分类的类型。将被放置在一个模态的饼状图。模态将会被激发,用户点击后显示图表中的一个节点。对于这个可视化,我们使用Highcharts

最后的前端是:

CC数据目录可视化
当前的样品图,与force-d3发达。

CC数据目录可视化
节点与样本域名。当用户将鼠标悬停于一个节点,其邻国突出显示。节点的大小是数据驱动的。

饼图许可证类型
饼图显示一个域的授权内容的比例,由CC许可类型分类。

帕金森病:如果节点标签都熟悉你,是的,他们是《悲惨世界》的人物的真实姓名。我处理样本数据!

即将到来的

前端是完整的,我要把我的手弄脏数据。未来对未来两周的里程碑包括:

您可以按照项目的发展Github回购

CC数据目录可视化是我GSoC 2019项目的指导下Sophine Clachar一直以来大大有帮助和体贴GSoC应用时期。同时,我的备份的导师,Breno费雷拉和工程总监克里特岛殖民地已经非常支持。

祝你有美好的一周!

玛丽亚