进入21世纪,面对科学知识呈爆炸式增长的大数据挑战,一种有效获取知识和探测知识前沿的新领域与新手段——科学知识图谱和知识可视化方法,正在蓬勃兴起。
科学知识图谱是以科学知识为对象,显示科学知识的发展进程与结构关系的一种图形。它具有“图”和“谱”的双重性质与特征:既是可视化的知识图形,又是序列化的知识谱系,显示了知识单元或知识群之间网络、结构、互动、交叉、演化或衍生等诸多复杂的关系。科学知识图谱研究,以科学研究范式为基础,以引文分析方法和信息可视化技术为手段,涉及数学、图形学、信息科学、认知科学和计算机科学诸学科交叉的领域,是科学计量学的新发展。
科学文献是通过一代又一代引文,即一代接一代不断引用参考文献,在继承前代科学家的研究基础上,而不断创新、突破和发展起来的。这是科学知识区别于非科学文化而发生性变革,并引领技术创新及其驱动发展的强大内在动力。科学引文索引(SCI),就是以此为原理而建立的科学文献数据库。我们可以在SCI数据库中检索一个学科或知识领域的全部文献数据,运用引文分析方法和知识可视化技术,构建该学科或知识领城的引文网络知识图谱,展现出该领域的来龙去脉、知识基础与研究前沿。目前,各种信息及知识可视化软件与技术,异军突起,群雄逐鹿,由是绘制的知识图谱千姿百态,精彩纷呈。
在科学知识图谱领域中,最令人注目的学者,是国际著名的信息可视化领军人物、美籍华人学者陈超美博士。他在信息可视化和科学知识图谱领域在知名的Springer出版社首先出版了两部学术专著《信息可视化》(1999)和《科学前沿图谱》(2002)。由他开发的基于引文空间分析的CiteSpace知识可视化软件,是目前最为流行、国际领先世界的知识图谱绘制工具之一。用CiteSpace绘制的知识图谱最突出特点,是能够将一个知识领域的演进历程集中展现在一幅引文网络图谱上,并在图谱上把作为知识基础的引文节点文献和共引聚类所表征的研究前沿自动标识出来。
CiteSpace软件可以绘制多种形式的知识图谱,其中主要是两种:一种为默认的常规聚类视图,它侧重于体现文献或作者共被引聚类之间的结构特征与各个聚类标征的研究前沿及其演进历程,突出关键节点文献的基础作用;另一种时间线视图,侧重于勾画各个聚类中文献的历史跨度和聚类之间的关系,以及各个聚类反映的研究前沿。
常规聚类的知识图谱一般为文献共被引聚类图谱,以陈超美等人于2012年5月发表的基于CiteSpace的再生医学领域综述一文中的文献共被引图谱为例:各个节点圆形年轮的大小代表节点文献被引频次多少,其由内到外的色调变化和各个聚类的色调变化,代表了2000年至2011年的时间变化。图谱左下角箭头所指聚类7,为“多能干细胞(induced pluripotent stem cell,iPSC)”的前沿聚类,其中日本生物学家山中伸弥(Shinya Yamanaka)首创“iPSCs”的高被引、高突现性论文起关键的基础作用,预言该领域这一研究前沿将会摘取诺贝尔。果然,山中伸弥和英国科学家格登(John Gurdon)因在此方面的贡献而获得2012年度此项殊荣。
常规聚类图谱另一种形式为作者共被引聚类图谱,可以显示研究前沿的作者基础, 特别是能够反映高影响力作者对科学研究前沿的基础地位与作用。
借助知识图谱人们可以透视庞大的人类知识体系中各个领域的结构,理顺当代知识大爆炸形成的复杂知识网络,预测科学技术知识前沿发展的最新态势。目前,CiteSpace及相关知识可视化技术与知识图谱方法已广泛地应用于管理学、教育学、社会学、体育学及其他人文社科领域,在基础医学和生物学等自然科学领域的应用方兴未艾,并且通过专利文献的计量和可视化分析而在工程技术领域开拓了越来越广阔的应用空间。