
科情智库
张子婷,郑彦宁,袁 芳
(中国科学技术信息研究所,北京 100038)
摘 要:本文基于WoS核心合集检索得到DNA计算领域的2373篇论文,以关键词为分析单元,通过划分研究时间区间,使用共词分析法和聚类分析法,利用SciMAT软件绘制关键词覆盖图、主题战略图、主题路径演化图,识别不同研究时期的研究主题及其演化路径。DNA计算领域的研究始于1994年,早期发展较为迟缓,后期关键词增多,研究热度高。各时期研究主题变化不大,演化关系较为简单,在2个研究方向上呈现4条演化路径。分子计算和逻辑门的构建是主要研究主题,将持续成为研究热点。
1994年,美国加利福尼亚大学的Adleman博士首次通过生化方法求解了7个顶点的哈密顿回路问题,显示了用DNA进行特定目的计算的可行性。DNA计算机模型克服了电子计算机存储量小和运算速度慢这两个严重的不足,具有并行性高、运算速度快、贮存容量大、耗能低、DNA分子资源丰富等优点。此外,基于生化机理的DNA计算在解决图与组合优化这类电子计算机几乎无法解决的问题上有一种“天然”的优势。关于DNA计算的研究目前已经取得了不少成果,越来越多的学者和专家投入到该领域的研究中来。未来,DNA计算机将应用于逻辑研究、密码破译、基因编程、疾病防治及航空航天等领域。通过对DNA计算领域的研究主题演化路径进行梳理,可以厘清各主题的发展脉络,便于相关研究学者全面了解领域发展现状并科学预测未来研究方向。
最早人们使用TRIZ法、德尔菲法等定性方法进行知识演化状况的研究,此类方法主要依赖专家知识与经验判断,具有较强的主观性。但随后科技快速发展,且信息传播快捷,研究人员难以全局、系统地把握学科领域的宏观发展状况,很难对某个学科领域的知识结构进行全面客观的描述。随着科学计量学的发展,学者们利用词频分析法、共词分析法、引文分析法等方法描述研究主题的演化路径,实现了定性与定量的结合。共词聚类分析是利用词与词之间的关联程度对关键词进行聚类,得到多个主题,展示某一学科或领域的研究结构。目前已有多种成熟的分析工具被用于共词聚类分析中,例如Ucinet、Pajek、CiteSpace等。张敏等采用Ucinet的社会化网络分析功能得到国际大数据领域的研究热点分布,结合CiteSpace提取高被引文献分析其演化路径。陈建龙等利用Pajek等分析工具对现代大学制度领域进行聚类分析、分类分析及历时分析,并总结了该领域的研究热点与发展态势。任晓松等利用CiteSpace软件绘制中国碳排放研究的知识基础和热点演化知识图谱。但利用CiteSpace软件得到的演化图只能大致看出不同研究时期领域研究热点的演化,关于某一领域研究热点在各个时期如何演化无法得知。同时也出现了新的分析与可视化工具,如ThemeRiver,TextFlow,SciMAT等。其中SciMAT软件在展示学科演化方面有特有的优势:具备数据预处理、分析方法选取、计量指标选取等功能,可根据分析需求进行选择与组合;利用关键词覆盖图、战略坐标图、主题演化图,由点及面进行全方位分析,准确掌握各时间段主题的发展状况与全时期的演变情况。鉴于此,本文利用SciMAT软件,以DNA计算领域论文产出为对象,以关键词为分析单元,描述不同时期DNA计算领域的研究主题与演化路径,揭示该领域的主题演化关系、发展状况及发展脉络,以期为制定科学研究政策和开展研究活动提供参考依据。
01
数据来源及分析方法
1.1 数据来源
本文以Web of Science核心合集数据库(以下简称WoS数据库)中收录的关于DNA计算机的论文为数据来源进行分析。由于2019年数据不完整,故将检索年限设置为1994年至2018年,通过检索得到2373篇论文。
1.2 分析方法
本文采用SciMAT软件对数据进行清洗、处理与分析。以目标文献集的关键词集合——WoS数据库中的关键词字段(Keywords & Keyword Plus)——为分析单元,首先利用关键词覆盖图直观表示关键词变化;接着通过对目标文献关键词集构建共现矩阵并进行聚类分析,绘制研究领域的聚类主题战略图,以把握各研究主题在该研究区间内的发展状况;最后根据各主题之间的关联关系,制作主题演化路径图,以识别研究主题演化路径。
1.2.1 关键词覆盖图
关键词覆盖图从数量上直观表示关键词新生、继承与消亡的情况。如图1所示,每个圆圈代表设定的时期,圈内数字代表该研究区间出现的关键词数量;向上的箭头代表消亡关键词的数量,向下的箭头代表新生关键词的数量,水平箭头表示从上个时期延续到下个时期的关键词数量及稳定性指数(研究区间A延续到研究区间B的关键词数量占研究区间A全部关键词数量的比例)。如示意图中,研究区间一的关键词数量为60,研究区间二的关键词数量为90。研究区间一向研究区间二的演化过程中,有20个消亡关键词,有50个新生关键词,有40个关键词保留至研究区间二,稳定指数0.67(40/60)。

1.2.2 主题战略图
主题战略坐标图在共词和聚类的基础上,描述特定研究领域内研究主题的自身发展情况和主题间相互影响情况。通过战略坐标图,可以把握各主题在各研究区间的发展状况,同时结合上下时期聚类所处位置的变化判断其演变方向。如图2所示,主题坐标战略图从中心度(Centrality)和密度(Density)两个维度表示研究主题在该时期的发展状况。中心度表示聚类与其他主题的互相影响程度,代表聚类的重要程度;密度表示聚类内部关键词联系强度,代表聚类在研究领域中的发展程度。节点表示聚类,其大小表示分析时选择的聚类的影响指标,本文中的战略图聚类大小表示h指数。不同象限代表不同的发展状况:右上象限所包含的聚类为引擎类聚类,中心性高且密度大,代表发展较好且重要的主题;右下象限所包含的聚类为基本的横向的聚类,与其他主题联系较强但本身发展不足或已经到达趋于平稳的水平;左下象限所包含的聚类为新兴的或衰退的聚类,中心性低且密度小;左上象限所包含的聚类为发展较好但较孤立的聚类,主题本身发展较好但与其他主题联系不紧密。

1.2.3 主题演化路径图
主题演化路径图在主题战略图的基础上,采用相邻区间聚类间的主题相似度进行关联,通过主题的出现、分化、合并等关系可以大致确定研究主题演化路径,同时依据各时期各主题在主题战略图中的位置变化确定主题演化方向。如图3所示,每个圆圈代表该列所在的研究区间内的关键词聚类,与各时期主题战略图一一对应。连线代表研究的连续性,线条粗细及颜色深浅与主题关联度成正比,主题关联度越大,线条越粗且颜色越深,相邻聚类越相似,研究连续性越强。其中实线表示两个聚类之间共享的是核心关键词,代表主流的演化方向,虚线表示两个聚类之间共享的是次要关键词,代表支流的演化方向。孤立点表示在其所在研究时期单独出现的研究主题,与前后时期关联性不强。

1.3 参数设置
首先将25年数据以5年为周期分为5个研究区间:1994—1998年、1999—2003年、2004—2008年、2009—2013年、2014—2018年。5个研究区间的发文量依次为103篇、311篇、635篇、611篇、713篇。
在分析参数选择上,以关键词为分析单元,考虑到各研究区间的论文数量,5个时间段的数据精简阈值分别为1、2、3、3、3。构建关键词共现网络,分别设置网络精简阈值1、1、2、2、2,网络标准化的相似性度量指标为等价指数(Equivalence Index)。聚类算法为简单中心算法(Simple Centers Algorithm),经过多次尝试后设置网络最大值为20,最小值为3,聚类的影响指标为文献总数和h指数。演化图的相似度指标选择Jaccard系数,关键词覆盖图的相似度指标选择包容指数(Inclussion Index)。
02
结果与分析
2.1 发文量统计分析
论文的逐年产出情况如图4所示。1994年,Adleman首次提出利用DNA分子算法求解特定的NP完全问题,从而开创了DNA计算研究的新纪元。在此之后,DNA计算机领域文献发表量呈现缓慢上升趋势。2002年之后发展迅猛,保持在一定的发展水平,于2017年达到最高发文量,有171篇文献。通过各研究区间的发文总量可以看出,从第3个研究区间开始,DNA计算领域的文献保持在比较稳定的水平。

2.2 关键词数量变化分析
图5为1994—2018年25年间5个研究区间关键词新生与消亡的情况。由于1994—1998年处于研究的起步阶段,关键词数量较少。每个时期关键词增长量都保持在一定水平(92、84、90、56),各时期新生关键词大于都消亡关键词,说明学科正处于蓬勃发展阶段。从上一阶段延续至下一时期的关键词数量远大于消亡的关键词数量,说明学科继承性较强。后3个研究时期的发文量差别不大(635、611、713),但关键词数量均增加较多,说明这期间研究人员从不同方向对DNA计算领域开展探索性研究。稳定指数持续上升,说明研究人员对DNA领域的多数研究方向进行了深入性研究。

2.3 主题发展分析
(1) 1994—1998年期间生成7个聚类,见图6,其各项指标见表1:算法(Algorithm)、基因(Gene)、序列(Sequences)、DNA计算机(DNA-Computer)、H系统(H-Systems)、分子计算机(Molecular-Computer)、DNA结合位点(DNA-Binding-Site)。此阶段正处于起步期,各聚类核心文献数量及关键词均较少。位于右上象限的聚类有算法、基因和DNA结合位点,受关注程度较高,是发展较好且重要的主题。位于右下象限的聚类为序列,是基本的主题。位于左下象限的聚类有H系统、分子计算机,是新兴研究主题。位于左上聚类为DNA计算机,是发展较好但较为孤立的主题。


(2) 1999—2003年期间生成5个聚类,见图7,其各项指标见表2:分子计算(Molecular-Computation)、算法(Algorithm)、系统(Systems)、核酸(Nucleic-Acids)、NP完全问题(NP-Complete -problem)。在此期间,文献数量急剧增加,但研究主题更为集中。位于右上象限的聚类有分子计算、算法、系统,受关注程度较高,是发展较好且重要的主题。分子计算聚类继承了上一时期DNA计算机的部分关键词,同时出现了许多新的关键词,代表该主题出现较多新的研究方向,例如为了克服试管型的DNA计算的缺点提出了表面与芯片DNA计算模型。在分子计算聚类中,有两篇关于逻辑门的文章 被引量分别为336次和209次,对后期研究影响很大。但由于关键词标引的原因,两篇文章皆没有作者关键词,只有WoS数据库根据施引文献标题自动生成的扩展关键词,对结果造成了一定影响。算法聚类继承了上一时期算法聚类的主要关键词和基因聚类的次要关键词,密度有所提升,说明研究人员对该领域的研究深入。系统聚类继承了上一时期DNA计算机聚类分子计算机聚类和H系统的部分关键词。位于左下象限的聚类有核酸、NP完全问题,是新兴研究主题。DNA计算的兴起为解决NP完全问题提供了可能。


(3) 2004—2008年期间生成6个聚类,见图8,其各项指标见表3:分子计算(Molecular-Computation)、算法(Algorithm)、逻辑门(Logic-Gates)、纳米结构(Nanostructures)、剪接系统(Splicing-Systems)、二级结构(Secondary-Structure)。位于右上象限的聚类有纳米结构,是发展较好且重要的主题。DNA纳米技术因其可编程的优势对DNA计算机产生了巨大的影响。分子计算聚类位于中心度轴上,较上一时期稍有下移。分子计算聚类继承了上一时期分子算法聚类的主要关键词,同时也增加了一些关键词,结合相关文献发现DNA计算在本研究期间主要有建立在链置换基础上的、建立在瓦片基础上的以及建立在纳米颗粒基础上的DNA计算模型。位于右下象限的聚类是算法,是本时期内基本的研究主题。位于密度轴上的逻辑门首次作为一个聚类出现,说明这段时间研究人员对逻辑门的研究力度加大且取得了一定的研究成果。位于左下象限的聚类为剪接系统,是上一时期中系统聚类的关键词,在本时期作为一个聚类出现,故认为其是新兴研究主题。位于左上象限的聚类为二级结构,是发展较好但较为孤立的主题。


(4) 2009—2013年期间生成6个聚类,见图9,其各项指标见表4:逻辑门(Logic-Gates)、分子计算(Molecular-Computation)、算法(Algorithm)、纳米结构(Nanostructures)、DNA词汇(DNA-Words)、程序(Program)。位于右上象限的聚类是逻辑门,具有高中心度和高密度,核心文献数量与h指数都显著增加,是发展较好且重要的主题。分子计算聚类仍旧位于向心度轴上,继承了上一时期分子计算聚类和剪接系统聚类的主要关键词。该聚类在战略图中所处的位置虽与上时期相差无几,但中心度和密度均有所提高,核心文献数量、h指数及关键词数量均明显增加,是领域中自身发展良好且与其他主题联系十分密切的主题。位于右下象限的聚类是纳米结构,是本研究时期内基本的研究主题。算法聚类位于密度轴上,密度较低,中心度一般。算法聚类从第一个时期开始一直持续到此阶段,从右上象限往左下转移,且下一阶段不再以单独聚类出现,而是作为分子计算聚类的关键词出现。位于左上象限的聚类有DNA词汇、程序,是发展较好但较为孤立的主题。


(5) 2014—2018年期间生成6个聚类,见图10,其各项指标见表5 :逻辑门(Logic-Gates)、分子计算(Molecular-Computation)、纳米颗粒(Nanoparticles)、DNA序列(DNA-Sequences)、DNA计算(DNA-Computation)、可能性(Probability)。位于中心度轴上的逻辑门聚类,其h指数首次超过分子计算聚类,是领域内的重要研究领域。位于右下象限的聚类有分子计算、纳米颗粒,是本研究时期内基本的研究主题。分子计算聚类吸收了上一时期分子计算聚类和算法聚类的主要关键词,并出现了许多新的关键词,说明关于分子计算的研究呈现多样化。纳米颗粒聚类吸收了逻辑门聚类的主要关键词和分子计算聚类的次要关键词。DNA计算聚类位于密度轴上,主要关注图与优化问题。位于左上象限的聚类有DNA序列、可能性,是发展较好但较为孤立的主题。


03
DNA计算领域研究主题演化路径分析
通过历年发文量统计分析、各时期关键词覆盖图分析、各时期主题战略图分析,大致了解DNA计算领域的发展情况。在此基础上,计算相邻区间研究主题的关联度,绘制主题演化路径图,识别DNA计算领域研究主题演化路径。同时,利用主题在各时期主题战略图中的位置变化,判断演化方向。本文利用颜色对各主题在战略图中的象限位置进行区分。
图11为1994—2018年间DNA计算领域研究主题的演化路径图。从主题动态演化路径图可以看出,研究主题随着研究的深入呈现多样化的情况,研究内容不断丰富,节点增大,文献数量持续增长。1994—1998年处于DNA计算领域的萌芽阶段,受到Adleman的影响与启发,研究主题分布广泛。1999—2003年的研究主题聚类数量减少,研究主题更为集中,出现了一个孤立节点“NP完全问题”。2004—2008年间的研究主题增多,出现了新的聚类“逻辑门”,分子计算和算法持续成为研究热点。2009—2013年该领域研究热度升高,上一时期新出现的研究主题成为新的主流研究方向,原来的主流研究方向热度持续不减。2014—2018年各研究主题继承性强,主流演化方向稳定发展且研究更为深入。总体来说,DNA计算领域的研究正处于发展阶段,取得了阶段性的研究成果,但并未成熟,各时期的主流研究主题继承性强,演化关系较为简单。研究发展至今,大致在分子计算、逻辑门2个方向上呈现4条演化路径。

3.1 分子计算
(1)分子计算:算法、基因、序列→分子计算→分子计算→分子计算、序列→分子计算。这条演化路径由早先的序列主题的主流和算法主题的支流演化而来,继承性强,关注分子计算主题。这条演化路径上的主题一直处于右上和右下象限,具有高向心度,是领域中的核心研究领域。通过分析各阶段聚类关键词可以发现,不断有新的研究内容涌现,大致可归纳为以下几个方面:一是关于DNA计算模型构建的研究。DNA计算模型一直是DNA计算领域研究的热点问题,结合各阶段关键词和相关文献可以发现有剪接系统模型、粘贴系统模型、双链DNA计算模型、单链DNA或RNA模型、表面DNA计算模型、芯片DNA计算模型、DNA Tile自组装模型等。二是关于编码问题的研究。在DNA计算中,信息总是通过特定的DNA序列来表示。DNA计算中序列的编码问题为解决图与组合优化的某些问题提供了可能,图论问题、NP完全问题、NP难题等关键词反映了研究人员在此方向的努力。三是微流控制系统在DNA计算机中的应用研究。微流控制系统可以将DNA计算机中的基本操作单位集合在一张芯片上,为实现真正意义上的DNA计算机提供可能。
(2)DNA计算模型的构建:算法、DNA计算机、分子计算机、H系统→系统→剪接系统、支持→分子计算→分子计算、DNA计算、可能性。这条演化路径由早些算法的主流、DNA计算机与分子计算机的主流及H系统的支流演化而来,是分子计算演化路径的重要分支,主要关注DNA计算模型和DNA计算机模型的构建及其应用于基因分析与疾病诊断的研究。
(3)DNA计算序列编码问题:算法→算法、核酸→算法、二级结构→基因比对、序列、工具→基因。这条演化路径由早期的算法的支流、序列的支流演化而来,继承性很强。在前三个研究区间内,算法聚类从右上象限转移到右下象限,成为领域中的基本研究主题。在2004—2008年到2009—2013演化时,算法聚类演化为分子计算聚类、算法聚类和序列聚类,算法聚类消失,原先算法聚类中的基因比对、DNA序列等关键词演化成为新的聚类。主要关注图与组合优化问题的解决。
3.2 逻辑门
序列→分子计算、核酸→逻辑门、纳米结构、分子计算→逻辑门、机器→逻辑门、纳米颗粒、分子计算。这条演化路径由早期的序列、分子计算、核酸演化而来,早期继承性一般,后期继承性强。在1999—2003年期间虽然没有出现逻辑门的聚类,但是在分子计算聚类中出现了关于逻辑门的文献,被引频次分别为336和209,说明此时逻辑门已经受到人们的关注并取得了具备一定影响力的研究成果。从第三个研究区间(2004—2008年)以来,逻辑门聚类作为独立节点出现,均处于右上象限。2014—2018年期间出现在纵轴右部分,仍具有高中心度,与其他主题联系紧密,存在从右上象限向右下象限移动的趋势,说明逻辑门研究方向呈现多元化趋势。随着研究数量的增多和研究内容的深入,逻辑门迅速演化为研究的重点领域。布尔逻辑电路的模拟是DNA计算研究中非常具有实际应用意义的研究主题。传统电子计算机的硬件电路是由不同类型的逻辑门,诸如OR、AND、XOR、NAND等构成。同样地,DNA计算机体系结构的产生基础和DNA计算机实现技术的硬件基础也是由基于DNA的逻辑电路构成的。逻辑门研究的深入为DNA计算机的发展与实现奠定了基础。
04
结语
总体来说,DNA计算领域的早期研究较为迟缓,研究主题少,作为一个新领域具备一定热度;随后主题关键词数量逐渐增多,新的研究内容不断涌现,研究深度不断拓展;目前领域发展未到达成熟期,各时期的研究主题变化不大,主题演化关系较为简单。演化过程稳定,聚类间继承性强。分子计算和逻辑门的构建是DNA计算领域的主要研究脉络,预计将持续成为研究热点。DNA计算机的具体实现是未来需要突破的研究方向。
本研究通过划分连续的研究区间,对各时期文献的关键词进行聚类,对其进行主题战略分析和演化路径展示,在一定程度上实现了DNA计算领域的研究主题演化路径识别,但是仍存在粗粒度的缺点,关于主题演化的更多细节问题需要深入挖掘,这也是今后进一步研究的方向。另外,由于本文是基于关键词进行聚类及关联计算,故关键词对于结果的影响比较大。而部分论文没有作者标引的关键词,只有数据库根据其施引文献标题进行自动标引的关键词,此类关键词存在泛化冗余、专指性不强的缺点,尤其当一个主题首次出现时无法快速识别。在今后的研究中,将进一步克服关键词标引不准确的问题,提升主题演化的准确度与深度。
来源:《全球科技经济瞭望》2019年11-12月第34卷第11-12期(总第407-408期)
推荐阅读 >
识别下方二维码,关注「科情智库」
持续关注产业动态及科技领域报告

