Title机器学习方法对不明归属二程文献的判断
Other TitlesA Machine Learning Approach to the Judgment of Unidentified Attribution of Ercheng Sayings
Authors毕梦曦
张力元
Affiliation北京大学哲学系
北京大学信息管理系
Keywords二程语录
二程
程颐
程颢
BERT
机器学习
文本分类
Ercheng Sayings
Ercheng
Cheng Hao
Cheng Yi
BERT
Machine Learning
Text Classification
Issue Date8-May-2021
Publisher数字人文研究
Abstract以数字人文的新视角审视二程语录归属这一传统问题,运用机器学习的方法,将二程语录归属判断的问题转化为有监督的文本分类问题,构造BERT预训练语言模型加sigmoid激活函数的深度学习模型。以二程材料当中已知归属的文字作为模型的训练语料,对不明归属的二程语录之归属进行预测,准确率最高可达88%,证明了深度学习在小规模古汉语文本研究上的潜力。实验利用该训练后的模型,尝试对二程语录中不明归属的语录进行判断,发表了部分判断结果:《程氏遗书》中有30%、《程氏外书》中有20%是程颢语录,尤其值得关注的是对一些长久以来归属不明的著作文字比如《粹言》《经说》的作者进行了初步判断。
以数字人文的新视角审视二程语录归属这一传统问题,运用机器学习的方法,将二程语录归属判断的问题转化为有监督的文本分类问题,构造BERT预训练语言模型加sigmoid激活函数的深度学习模型。以二程材料当中已知归属的文字作为模型的训练语料,对不明归属的二程语录之归属进行预测,准确率最高可达88%,证明了深度学习在小规模古汉语文本研究上的潜力。实验利用该训练后的模型,尝试对二程语录中不明归属的语录进行判断,发表了部分判断结果:《程氏遗书》中有30%、《程氏外书》中有20%是程颢语录,尤其值得关注的是对一些长久以来归属不明的著作文字比如《粹言》《经说》的作者进行了初步判断。
URIhttp://hdl.handle.net/20.500.11897/635617
ISSN2096-9155
Appears in Collections:哲学系(宗教学系)
信息管理系

Files in This Work
There are no files associated with this item.

Web of Science®



Checked on Last Week

百度学术™



Checked on Current Time




License: See PKU IR operational policies.