[READNOTE]
Hotness prediction of scientific topics based on a bibliographic knowledge graph
💡 MetaData
| Title | Hotness prediction of scientific topics based on a bibliographic knowledge graph |
|---|---|
| Journal | Information Processing & Management |
| Authors | Chaoguang Huo; Shutian Ma; Xiaozhong Liu |
| Pub. date | 2022-07-01 |
| DOI | 10.1016/j.ipm.2022.102980 |
| JINFO | JCR分区: Q1 中科院分区升级版: 计算机科学1区 影响因子: 7.47 5年影响因子: 7.036 EI: 是 SSCI: Q1 AJG: 2 CCF: B FMS: B JCI: 2.16 |
| **Abstract | **As a part of innovation in forecasting, scientific topic hotness prediction plays an essential role in dynamic scientific topic assessment and domain knowledge transformation modeling. To improve the topic hotness prediction performance, we propose an innovative model to estimate the co-evolution of scientific topic and bibliographic entities, which leverages a novel dynamic Bibliographic Knowledge Graph (BKG). Then, one can predict the topic hotness by using various kinds of topological entity information, i.e., TopicRank, PaperRank, AuthorRank, and VenueRank, along with pre-trained node embedding, i.e., node2vec embedding, and different pooling techniques. To validate the proposed method, we constructed a new BKG by using 4.5 million PubMed Central publications plus MeSH (Medical Subject Heading) thesaurus and witnessed the essential prediction improvement with extensive experiment outcomes over 10 years observations. |
📜 研究概况
问题:
预测学术研究主题的热门程度
现状:
-
目前的主题识别研究角度:
- 显性/隐形主题挖掘
- 基于共词网络
-
研究趋势:同质网络→异质网络;现有主题热度预测研究多见于社交媒体,学术较少,且未考虑学术实体共同演化特性
路径:
融合MeSH中各主题的关系、融合论文的引用关系、运用元路径网络表示学习等预测主题热度
贡献:
- 同时考虑文献联系与知识联系
- 构建了一个大型学术知识图谱BKG
- 基于BKG对主题热度进行预测
📊 研究细节
-
知识图谱构建:
- 数据集:1985-2018的PMC全文、题录(#12 275 786)、引用(#55 853 512);MeSH所有词(含concept term qualifier等)
- Lucene建立螺纹文本索引,搜索MeSH词
- 将节点、关系按年切分
-
主题热度计算:
- 利用学术实体-论文-引用(元路径&引用)关系(T-P-P-T/A-P-P-A/V-P-P-V)和pagerank计算
- 因为主题实际上是随着其他学术实体共同演化的(如作者变权威,其研究主题热度也会受影响),所以将每个主题最相关的学术实体和热度作为特征,预测主题热度
- 操作上,使用node2vec表示每个节点,选出和主题最相似的5主题、10论文、10期刊、10作者共35特征作为输入,使用SVR预测该主题后续热度
-
实验结果:
-
Baseline
- 所有特征+1年历史数据预测
- 主题特征+所有历史数据预测
-
基于最大池化、最小池化、平均池化采样分别实验:
- Max:特征越多,时间越长,误差越小;时间过长则误差上升(过久历史信息对热度预测无贡献)
- Min:效果较最大池化上升;不含期刊的特征组合误差最低:主题和不热门期刊关联不意味着主题不热门
- Avg:结果相对最大/最小池化,初始下降幅度大;观测时间超5年时,作者特征贡献了更大偏差
-
🚩 主要结论
- 本文构建了一个异质、考虑间接关联的知识图谱,能较好利用学术实体共同演化特点预测主题热度
- 实验结果证明,加入异质实体特征、加入时间序列信息能有效降低误差
- 最小池化误差最小:短板理论(更多受最短特征影响)
- 误差值均收敛在10年附近:10年特征是最足够预测主题热度的时长
📌 创新启示
- 可以基于此类关联数据集纳入更多实体及关联信息,做更广泛更精准的研究
🔬 展望思考
- 实体多能为模型提供更多信息,但是应当考虑解释性和后续分析,这里的分析没有带来太多启示,更多贡献主要还是在前面数据集的构建上