tags: [] parent: ‘A methodology for identifying breakthrough topics using structural entropy’ collections: - BreakthroughPrediction version: 7029 libraryID: 1 itemKey: EF7LFVRH
[READNOTE]
A methodology for identifying breakthrough topics using structural entropy
💡 MetaData
| Title | A methodology for identifying breakthrough topics using structural entropy |
|---|---|
| Journal | Information Processing & Management |
| Authors | Haiyun Xu; Rui Luo; Jos Winnink; Chao Wang; Ehsan Elahi |
| Pub. date | 2022-03-01 |
| DOI | 10.1016/j.ipm.2021.102862 |
| JINFO | JCR分区: Q1 中科院分区升级版: 计算机科学1区 影响因子: 7.47 5年影响因子: 7.036 EI: 是 SSCI: Q1 AJG: 2 CCF: B FMS: B JCI: 2.16 |
| **Abstract | **This research uses link prediction and structural-entropy methods to predict scientific breakthrough topics. Temporal changes in the structural entropy of a knowledge network can be used to identify potential breakthrough topics. This has been done by tracking and monitoring a network’s critical transition points, also known as tipping points. The moment at which a significant change in the structural entropy of a knowledge network occurs may denote the points in time when breakthrough topics emerge. The method was validated by domain experts and was demonstrated to be a feasible tool for identifying scientific breakthroughs early. This method can play a role in identifying scientific breakthroughs and could aid in realizing forward-looking predictions to provide support for policy formulation and direct scientific research. |
📜 研究概况
问题:
利用结构熵,识别对知识网络结构产生较大影响的新主题,将其视为突破。实现科学突破的早期预测
现状:
- 突破式创新(breakthrough)比渐进式创新(incremental)更难识别;突破的偶然性
- 现有研究大多做热度预测/从回顾性视角(retrospective view)研究
- 可供早期预测的信息(early signal)较少
路径:
- 基于结构熵和链路预测构建突破预测模型
- 专家评估,验证分析
贡献:
- 实现科学突破的早期预测;区分于当前大多数考虑热度(hotness)
- 结构熵将知识网络看作复杂系统,考虑其演化,可全面表示网络结构特征,有助于预测
📊 研究细节
-
数据:基因工程疫苗领域论文@WOS,1940-2018,#4196
-
方法:
- NLP抽主题词,构建共词网络
- 基于链路预测的语义增强
- 根据结构熵变更识别重要变更时刻
- 根据社区检测确定突破性主题
- 有效性检验(奖项、专家)
-
实证:
-
积累式时间切片(1940-2000,1940-2001,….)
-
Clarivate’s Derwent Data Analyzer 获取词-清洗-筛选,主题词数 #578
-
构建共词网络,Gephi-Louvain社区识别,保留包含 1% 节点的社区
- 早期链接主要在大节点(主题)之间,主题交叉较少;后期主题数量增多,交叉广泛;说明知识积累,研究发展。
-
链路预测:9/1拆训测,预测出潜在链接(边#129937),设定相似度阈值留下889边与原网络结合;使用预测的相似值代表边权重
-
计算结构熵
- 规律:随时间整体呈上升趋势,说明知识连接较为无序、均匀(非中心性),研究多元化
- 根据变化率识别重要节点;table8记录描述
-
Fluid C算法社区分割:分为19个社区;根据主题对结构变化贡献程度,选出前10主题用于后续分析,其中5个专家认为是突破性主题
-
评估:期刊权威性、奖项情况、半结构化专家咨询(2人)
-
🚩 主要结论
- 利用结构熵特性实现了科学突破的早期识别
- 结构熵表征了知识复杂网络的非线性特征,能识别出知识演化中转换的关键时间点,可以视为突破时间点
📌 创新启示
- 用链路预测获取弱联系
- 用结构熵的变化代替知识网络结构的变化,从而有新发现
🔬 展望思考
- 还有什么方法可以把弱信号识别利用起来?
- 对研究突破形成过程的解释
📜 原文摘录
-
科学变革状态和科学突破的关系:🔤科学领域中的革命概念与当前关于科学研究发展的主导理论框架不相容。本研究以突破性进展作为革命性科学发展的信号。🔤
-
🔤根据陈(2012)的研究,新知识对原有知识结构的影响可以通过结构变化的程度来衡量。🔤
- citation
-
🔤结构熵方法考虑孕育、传播、发展和突变等演化过程,是一种动态的视角。因此,结构熵的变化可以归因于网络的演化,可以用于识别对相关知识网络结构产生显著影响的新兴主题。🔤
-
链路预测可以加强网络中主题术语的语义关联,并在预测未来主题时提高准确性。