当前位置:首页 >头条新闻

知识图谱为科学研究和技术创新助力

目录

            参会专家简介:

孙成权:主持人,中国科学院兰州文献情报中心前主任、研究员,中科院老科协文献情报分会理事长,专业:情报研究。

黄向阳:中科院图书情报中心主任、研究员。

周宁丽:中国科学院文献情报中心研究馆员,中科院老科协文先情报分会秘书长,专业:学科情报研究/参考咨询,近年来主持完成了北京市科委项目《国际脑计划&脑科学研究进展》、《世界各国类脑计算研究热点及其内容概况》、《国际脑科学、脑计算发展趋势》、《大数据技术发展态势与策略》、《第三代半导体国内外产业概况》、《固态锂电池国内外发展报告》、《中国石墨烯产业发展分析》、《国内/国外智能驾驶技术发展趋势》等情报研究工作。

吕晓蓉:中国科学院文献情报中心副研究员,专业:情报研究,主持完成了中科院先导科技项目的 “纳米药物研究国际发展态势”,纳米科技路线图项目“纳米等离子领域研究前沿及演变”、“纳米科技研究发展前沿和演变”和“专利技术价值评价”等。

赵亚娟:中国科学院文献情报中心副研究员,专业:情报研究,主持完了多项院内外专利技术、企业发展分析等项目。

王小梅:中国科学院科技战略咨询研究院研究馆员,专业:软件开发,自主研发了科学结构地图可视化软件,用此系统研究分析出版了《科学结构地图2009/2012/2015》报告。

杨立英:中国科学院文献情报中心研究员,专业:文献定量分析,主持完成了中科院发展规划局、中科院科技战略咨询研究院等开展的学科结构、重要成果及国际合作竞争力等定量分析研究。

岳 婷:中科院文献情报中心副研究馆员, 文献定量分析

马亚鹏:汤森路透知识产权、科技产品与解决方案专家

桂文庄:中科院原高技术局局长、研究员

王永吉:中科院软件所,研究员,软件开发

李致洁:中科院老科协副理事长,研究员

孟广均:中科院老科协文献情报分会,研究馆员,图书馆学情报学

王柏懿:中科院力学所老科协分会理事长,研究员

文榕生:中科院老科协文献情报分会,研究馆员,环境地理动物

何 林:中科院文献情报中心党委书记

何远光:中科院老科协,副理事长兼秘书长

黄 群:中科院老科协文情分会,副研究馆员

丁洁兰:中科院文献情报中心助理馆员

刘俊明:中科院文献中心综合办处长

麻莉雯:中科院老科协办公室主任

赵树宜:中科院文献情报中心专业图书馆学会,副研究员/副秘书长

徐引篪:中科院老科协文献情报分会,研究馆员,文献情报中心前馆长

曾 燕:中科院文献中心业务处处长

张志林:中科院老科协顾问,前副理事长

张自兵:中科院力学所信息中心主任

  展开  

【简介】

科学知识图谱是一种先进的集文献计量学、数学、统计学、计算机科学以及现代数据挖掘、复杂网络和可视化技术为一体的科学发展及其研究前沿知识发现与分析方法与技术。它利用引文分析和图谱技术把抽象数据映射到2D或3D图形中,从宏观、中观、微观等层面揭示学科领域及其结构、研究主题及其热点、学科进展及其发展趋势、研究团队及其合作关系等。使研究者能概貌与深入了解和发现科技发展概况,研究其蕴含的重要信息。通过科学知识图谱分析可以帮助科研人员和科技管理工作者判断研究前沿、揭示科技热点、发现新兴领域、跟踪研究进展、探测发展趋势和分析科技竞争力。由于知识图谱更符合人的认知习惯,因此这一分析方法越来越为各领域研究者关注和使用。

【主持人致辞】

孙成权:“工欲善其事,必先利其器”。当今,数据、信息、知识可视化等新技术、新方法、新工具、新平台、新模式、新系统等促进信息分析和情报研究定量、模型、实时、自动、智能化的发展,不仅大大提高情报研究工作的深度和效率,同时有助于科技发展和战略决策研究和推进。科学知识图谱应用前景宽广深远,有待科技、信息等界学者做更深入、广泛、持久的研究和探索。今天我们请中科院文献情报中心研究员周丽宁作主旨报告,介绍科学知识图谱技术的最新发展及其应用情况;另外邀请了五位专家从不同侧面介绍和讨论知识图谱的相关技术和应用。最后,请大家围绕主题进行讨论。请黄主任致辞。

黄向阳:今天这个学术沙龙讨论的主题是图书情报领域十分重要的问题,科学知识图谱目前正引起国内外科学学、信息和科研领域等界学者的密切关注和倾力研究,进一步加强科学知识图谱研究与应用将有力地促进科技创新和战略决策工作的发展。希望通过这次沙龙,一方面宣传这项十分重要的技术,另一方面也为我院图书情报工作提供宝贵的意见和建议。

【主旨报告】

周宁丽:知识图谱为科学研究和技术创新助力

科学知识图谱的发展历经了知识图谱、共词相似性等概念的提出,引文分析及引文数据库的创建;自组织映射图谱、寻径网络图谱PFNET、PNAS主题爆炸图谱等知识图谱绘制的发展,科学演变关键点的中间中性测度、识别新兴研究前沿的突变检测算法、可视化计量分析、“mapping–knowledge–domain”三大科学分析模式、文献计量图谱数学方法及自组织结构方法论等研究,以及基于三维虚拟技术的多元、分时、动态复杂网络可视化知识分析工具的创新等一系列里程碑式的发展历程。

科学知识图谱是一种先进的集文献计量学、数学、统计学、计算机科学以及现代数据挖掘、复杂网络和可视化技术为一体的科学发展及其研究前沿知识发现与分析方法与技术。它利用引文分析和图谱技术把抽象数据映射到2D或3D图形中,从宏观、中观、微观等层面揭示学科领域及其结构、研究主题及其热点、学科进展及其发展趋势、研究团队及其合作关系等。使研究者能概貌与深入了解和发现科技发展概况、研究前沿及其新兴、热点领域、重大转变关键节点、科技合作与竞争、学术水平和核心资源等重要信息。由于知识图谱图形直观、绚丽等特点更符合人的认知习惯和更利于人脑处理,因此科学知识图谱分析方法越来越为各领域研究者关注和使用。借助科学知识图谱,人们可以透视庞大的人类各个领域中的知识体系结构、关联与演变,理顺当代知识大爆炸形成的复杂知识网络,探测科学技术知识前沿与发展、活动分布与竞争的最新态势与趋势。

科学知识图谱基础理论主要由知识计量研究对象、数据挖掘处理数学方法、基于图论的知识图谱绘制、可视化揭示技术和科学知识及其活动规律、知识结构关系与演进规律的研究结果等构成。其研究方法主要包括:引文分析、共被引分析、多元统计分析、词频分析、社会网络和专利计量等分析理论与方法。目前,用不同技术、方法绘制的科学知识图谱主要有:传统的科学计量图谱(Two Dimensional Scientometric Map,2DSM)、三维构型图谱(Three Dimension Configuration Map, 3DCM)、社会网络分析图谱(Social Network Analysis Map, SNAM)、自组织映射图谱(Self-Organizing Map, SOM)和寻径网络图谱(Pathfinder Network Scaling Map, PFNET)。科学知识图谱软件工具主要有:Bibexce科学计量学研究软件、SPSS统计软件、Pajek大型复杂网络分析工具、Origin数据分析与绘图工具、UCINET矩阵网络分析软件、HistCite绘制学科发展以及定位重要文献软件、VOSviewer大规模数据处理及共引-共现关系图绘制软件、CiteSpaceII第二代信息可视化分析系统和exCITEr、TDA、Aureka等专利数据处理和分析工具等。科学知识图谱分析采用的数据来源主要有:中外文科技文献、引用(被引)文献、专利、基金项目、天文观测等类型文献信息数据。

作者在应用研究探索过程中体会到,目前,国内外应用较多的是用科学知识图谱方法来帮助科技人员从科技文献发展新趋势和突变中获得科技新发现和重大突破点,从引文(共引)及聚类分析中了解研究前沿分布,从高词频统计或关键节点计算分析中得到关键或转折性研究领域,从引文(共引)随时空变化分析中观测科技发展与演变,从高被引文献分析中探测科技发展趋势等;利用可视化专利分析工具及其专利计量分析以及3D专利地图技术与方法帮助企业技术研发和管理人员宏观了解行业技术发展趋势和竞争对手专利布局,发现核心技术、合作伙伴和竞争对手,利用技术矩阵图可以直观了解技术方案分布,发现技术雷区和空白点,以利专利分析决策和战略规划等;利用科学知识图谱方法可为科技管理决策和战略规划提供量化、直观、有效的参考依据。目前,国内外管理界较成熟地采用科学知识图谱对学科结构布局、科研成果、科学家及科研团队、合作关系、学术水平等科技竞争力方面进行分析研究;在科学文献数据剧增、爆炸时代,科学知识图谱方法还可用来识别和判断核心文献和重点出版物;科学知识图谱技术可大大促进信息分析和情报研究定量、模型、实时、自动、智能化的发展,提高情报研究工作的深度和效率。

科学知识图谱作为多学科、方法和先进技术融合的前沿研究领域,应用前景宽广深远。在知识图谱理论方法方面,科学知识图谱将逐渐形成和建立本学科的理论基础及其内容范围。同时,进一步研究发展或引入更多更新的专业理论,如:信息、知识计量学、认知学习理论、本体知识地图等。在技术工具完善与开发方面,多种知识图谱分析工具及其分析方法的综合和参照使用是未来的研究重点之一。在实际应用发展方面,可探索应用于企业发展与管理,如:行业战略设计、前沿(共性、关键)工程技术、技术评估与技术预见等分析研究。在知识管理方面更有广阔天地,如:科学传播研究、区域创新系统研究、卓越机构与人才资源研究、金融市场、经济生态环境研究等。在文献情报领域可用以深入地开展全球竞争情报研究、文献分析等。

鉴于目前的科学知识图谱新兴不久,尚未形成完整、系统的本学科理论体系,其研究方法尚存局限性,其分析技术与工具尚在提升与完善,其分析数据有待类型扩展和规范等,所以在使用科学知识图谱方法时须采用多种信息分析方法和技术,同时结合相关专家论证等综合措施来提高其预期精度以及参考使用价值。

【特邀报告】

[报告一]

吕晓蓉:科学研究前沿的识别和预见

CiteSpace是一个可视化识别新兴研究前沿和科学发展新态势的知识图谱系统,它具有两大功能:科学领域发展现状的解释和科学发展趋势的探测功能。运用先进的CiteSpace II知识图谱分析系统,采用突变测探算法、中间中心性测度、寻径网络算法、聚类视图和时区视图等技术,中科院文献情报中心项目组与有关科研院所及院战略规划部门合作,对学科研究前沿及其发展演变趋势,对科技研究热点与新兴领域科进行分析了研究和发现揭示,取得了系列成果。如:院纳米研究所的“自旋电子学研究前沿回顾与展望”、纳米绿线战略图情报研究项目“纳米等离子体领域研究前沿及演变”和“纳米科技研究前沿及演化趋势”;配合中科院纳米先导专项纳米药物项目申请的“纳米药物领域研究前沿”研究;配合中科院A类战略性先导科技项目的“变革性纳米产业制造技术聚焦”;以及科技路线图研究项目“纳米药物研究国际发展态势”和专利技术价值评价等。

[报告二]

赵亚娟:技术交叉背景下我国战略性新兴产业发展

中科院文献情报中心专利分析项目组,利用可视化专利分析工具研究揭示了2002-2011年中、美、日、欧四方核心专利在节能环保、新一代信息技术、生物、高端设备制造、新能源、新材料、新能源汽车七大新兴产业领域的分布情况,分析得出技术交叉整体结构特征是:新一代信息技术产业最明显,新能源汽车产业最弱;战略新兴产业/子产业及其技术是:新能源汽车、节能环保产业、新材料产业等;四个国家优先发展的产业及其技术,对中国而言,是节能环保产业、生物产业、新一代信息技术产业等;国家产业控制实力以及吸收技术速度。同时,分析还得出了在技术交叉融合趋势下,我国战略性新兴产业的发展状况及核心技术储备概况是:战略性新兴产业与全球技术交叉融合方向总体吻合,但是战略性新兴产业重要技术拥有量与美国、日本差距较大,在研究的目标国中我国吸收先技术的速度位居第一、日本第二、法国位居最后等。

[报告三]

王小梅:科学结构地图及其应用

科学地图理论与方法近年来已经成为科学计量学研究的前沿领域。科学计量学家们将应用数学、图形学、信息可视化技术及计算机科学等学科的理论与方法与传统的科学计量学引文分析方法结合起来,用可视化的图谱,形象地展示科学学科的结构与发展。通过对科学地图的读取和理解,人们可以从中找到感兴趣的科学领域、最优秀的专家学者、最著名的科学机构、基金的投入和论文产出的状况。科学地图还能帮助人们分析各个学科领域的共性和差异,揭示成因和结果,追踪科学学科的产生、发展、演替的过程,标示某一时段最热门、最具前景的研究领域,或是具有较高的应用价值与广泛的应用空间的领域。

科技战略咨询研究院的科学结构地图研究组研制开发的科学结构地图系统采用可视化技术,能够以直观形象的图谱形式展现高度抽象的科学,特别是自然科学基础研究的宏观结构,揭示其科学热点前沿间的关联关系与发展进程。同时,还可以应用图示的方法揭示出潜在的学科结构,以便快速、全面和形象地把握科学总体态势。

科学地图研究组自2007年利用该系统开展了相关研究,周期性(2年)监测科学研究结构及其演变规律。先后出版了《科学结构地图2009》、《科学结构地图2012》、《科学结构地图2015》,报告中绘制并揭示了国际科学研究的宏观结构、热点研究领域、四个时期科学研究领域演变以及中国在世界热点前沿中的覆盖和引领程度等。

[报告四]

岳婷:定量分析方法与科研评价

《中国基础研究国际竞争力蓝皮书2015》是由中科院文献情报中心、中科院发展规划局和中科院战略研究院联合开展的我国2009-2013年间基础、学科结构、重要成果及国际合作竞争力可视化定量分析研究的成果。

在《蓝皮书》中,中国基础研究竞争力研究围绕分析维度、分析内容和分析指标三个方面展开,分析维度主要包括:基础、学科结构、重要成果、国际合作竞争力;分析内容主要有:科研规模、学术影响、学科布局、学科贡献、卓越水平、合作程度、网络地位等;分析指标主要包括:规模、影响力、布局、交叉、凝聚、等指数,贡献、卓越、合作率。

研究结果表明:从论文来看,2009-2013年期间中国SCI论文数量与规模指数进步迅猛,始终居于世界第2位。从中国在全球学术影响力网络的地位看,2012年中国引领指数的世界排名从2008年的第13位上升至第9位。从学科发展看,2008-2012年,纳米技术的影响力涨幅列22个学科之首。中国在该学科的引文增长率高达62%。从学科布局看,中国的生命科学领域的布局指数高于其他学科。纳米技术、材料工程、化学等物质科学领域具有较高的布局指数等。从学科交叉看,2012年,中国的学科交叉主要体现在同领域学科群内部的知识融汇。从学科贡献看,2013年中国的重要成果主要来自环境生物技术、化学工程、环境工程、机械工程等学科,而在基础医学、临床医学、生物学等生命科学领域,中国重要成果的产出相对薄弱。从学科贡献看,中国2013年在环境生物技术领域重要成果数量位于世界第一。从合作网络地位看,2013年,中国的国际合作网络地位在不同学科之间的差距较大:在工程领域相关学科,如电器与电子工程、纳米技术等学科接近国际合作网络的中心位置;但在生命科学领域的相关学科,如兽医学、健康医学等则位于国际合作网络相对边缘位置。

研究结论认为:须辨析新兴国家的科研竞争力特征、关注中国科研增长的极限问题、调整学科结构的不均衡状态、持续加强对生命科学领域的支和提升国际合作的效率。

[报告五]

马亚鹏:汤森路透可视化及应用

汤森路透集团在 Web of Science引证关系图、InCites科研表现分析和Thomson Innovation专利布局分析等方面做了很多系统研制和应用研究工作。主要有:利用引证关系图辅助进行脉络追踪,如其他公司通过引用的专利文献对马自达技术进行借鉴与改进;用可视化图表多维展示研究绩效,如开发了InCites综合性平台对全球论文整体、国家/地区、机构、院系、学者、论文等进行科研表现分析;通过专利的可视化分析,了解全球集中在哪些国家/地区申请专利;用专利地图分析专利和专利权人布局等;利用文本挖掘可视化技术揭示全球技术和研究热点及其分布等。

【讨论】

桂文庄:情报学及文献情报分析本身就是一个重要领域,特别是科学知识图谱这么好的分析工具,确实是值得发展的重要方向,这方面研究和应用工作非常重要。

用知识图谱做预测是不是提得大了些?做这方面的研究要特别注意:这些工作基本依据文献,对于创新性的、刚露苗头的、非共识的事物,光用文献是分析不出来的。文献分析方法可以发现并验证过去已发生的研究。发现一些热点、发现历史规律、趋势是有意义的,但预测就十分困难了。另外,文献信息中的垃圾又如何区分?情报分析确实能提出很多参考信息,但这些信息导致的结果将会怎样呢?值得分析!因为,对这些分析工作最感兴趣的是决策部门,一旦误导将会非常危险。

刚才关于分析世界一流大学的例子值得斟酌,有很多情况是很复杂的,如光从文献分析来评价世界一流大学会有偏差,因与世界一流大学的差距最重要的是要看是否有大师和最好的学生,而这些光靠文献是发现不了的。

中国基础研究国际竞争力蓝皮书工作做得很好!

王永吉:知识图谱分析的前端数据采用什么处理技术?不能完全靠引文分析,后端的科学工具很重要。另外,光靠人工处理和分析数据有问题,需要整合不同类型的数据。我们已试用字词典系统来解决。应该由技术人员与情报人员联合做工具,用计量学方法论自动揭示科学问题。

周宁丽:什么样的数据和分析方法能够预测趋势?这一直是情报界研究的一个焦点。现在,据引文分析理论认为可从被引文献数据分析中探测趋势前景。但目前能够做被引文献数据分析的系统很少,更谈不上可视化的知识分析工具!

目前,几乎所有的文献分析系统都具有各自的前端数据处理技术,但有数据清理功能的系统不多,而且也是通过系统判断和聚集同形词后由专家再做删选、合并等人工处理。

李致洁:此次学到了很多东西,得益于文献中心的大量工作。这是宏观工作,在微观领域也会有更大的影响。问题是文献发表情况与具体的科研成果是不对应的,一个学科不是文章发表的越多其学术成果就越大。例如,早年的电绝缘问题国外学者发表了很多论文,中国也跟风发了大量文章。然而,在一次国外专家参观我们实验室时被问及明知没有科学前景为什么还要发表大量文章时,他们答道那是为了有饭吃!科技发展是由人以及不同国家推进的,人工大数据以及挖掘研究有局限性。

孙成权:我们曾于2004年前后请兰州文献情报中心马建霞研究员做过一个有关沙漠干旱方面的知识地图,后经征询专业人员意见,认为对科研作用不大,但对管理人员和研究生有用,尤其在跨学科以及交叉研究时会相互有新发现。对于战略研究一定要和科学家结合,与科研人员一起从事文献情报分析会更有前景。网络发展催生了大量科研方法和情报分析方法,再加上与科研人员结合,并切入科研项目,由此做出的情报分析工作会更有把握。

王伯懿:科学技术是人做的,光凭数字化分析不可能全面反映真实。过去的科技界拿了很多钱,化了很多时间,但很多没出成果,没形成技术上市。国内外有些科研人员发文,让世界跟着,为的是吃饭。

今天的几个报告很好,从一个方面给决策工作提出了知识图谱等情报分析工作的重要性以及应该注意些什么,如:从文献怎么看热点?热点文章和前沿文章的差距?热点事物中会有什么问题等。情报分析只是一种参考,真正的决策者应该知道这只是一个方面,搞科研的都知道科学发现是偶然的,爱因斯坦广义相对论不是靠热点而就是这么发现的。但这项工作肯定有意义。因此我建议:将已做出的各类情报分析报告形成建议资料,向中央、相关的政府部门,如科学院、科协等机构、部门建言献策,或通过科学传播机构向社会广为宣传。情报研究与技术人员合作开发出更先进的分析工具,以便能甄别出决策者最需要的信息,能得出更真实、更准确的信息,这是今后要做的方向。

文榕生:我研究的是历史动物地理,已写有400多万字的文稿,其中插图有100多幅。图很有作用,看图一目了然,不清楚时再看文章解释。

另外,“图谱”一词是否要规范?在知识图谱概念中用“地图”一词似乎不太合适!

孙成权:网络环境下的信息分析与情报研究是个快速发展的前沿领域。当今,数据、信息、知识可视化等新技术、新方法、新工具、新平台、新模式、新系统等促进信息分析和情报研究定量、模型、实时、自动、智能化的发展,大大提高了情报研究工作的深度和效率。因此,了解、学习、关注与应用科学知识图谱这类先进技术将有助于科技、管理和信息等界拓展新知识,掌握最新手段,提高研究分析能力和判断水平。科学知识图谱应用前景宽广深远,除现已研究应用领域外,还有全球竞争情报研究、技术评估与技术预见、科学传播研究、区域创新系统研究、卓越机构与人才资源研究、文献分析与知识管理等研究,甚至用于金融市场、经济生态环境研究等。同时,科学知识图谱分析研究还可在企业发展、战略设计、前沿、共性、关键、工程技术等方面大有探索与应用前景。另一方面,再先进的方法与技术都有其局限性,所以在使用科学知识图谱分析方法时须综合采用多种方法、技术和与相关专家论证结合等措施来提高其预期精度以及参考使用价值。沙龙活动到此结束。

【结论和建议】

与会专家们通过热烈讨论后一致认为,开展科技情报分析须特别注意相关问题:

(1)单用文献情报分析方法探知科技发现、新生事物、未知领域以及评价科技竞争力等,会出现盲点和偏差,但可从热点研究中获取重大发现;

(2)除军工保密项目信息外,政府的大数据资源(如项目信息)要开放共享,以方便在文献信息数据基础上集成更多其他类型数据;

(3)情报分析可为战略决策提供重要的参考依据信息,但决策部门须加以全面考量和慎重采用;

(4)情报研究人员应与技术人员合作开发更先进的分析工具;

(5)应将已做出的各类科技前沿、结构、发展、竞争力等文献、专利情报分析报告形成建议资料,向相关的政府部门建言献策,或通过科学传播机构向社会广为宣传。

与会专家还建议:我院科学工作者应该深入研究造成雾霾天气的因素究竟有哪些?并定量化它们各自的贡献有多大?只有弄清楚原因,才能制定科学的治理方案。

猜你喜欢