Title | 机器学习方法对不明归属二程文献的判断 |
Other Titles | A Machine Learning Approach to the Judgment of Unidentified Attribution of Ercheng Sayings |
Authors | 毕梦曦 张力元 |
Affiliation | 北京大学哲学系 北京大学信息管理系 |
Keywords | 二程语录 二程 程颐 程颢 BERT 机器学习 文本分类 Ercheng Sayings Ercheng Cheng Hao Cheng Yi BERT Machine Learning Text Classification |
Issue Date | 8-May-2021 |
Publisher | 数字人文研究 |
Abstract | 以数字人文的新视角审视二程语录归属这一传统问题,运用机器学习的方法,将二程语录归属判断的问题转化为有监督的文本分类问题,构造BERT预训练语言模型加sigmoid激活函数的深度学习模型。以二程材料当中已知归属的文字作为模型的训练语料,对不明归属的二程语录之归属进行预测,准确率最高可达88%,证明了深度学习在小规模古汉语文本研究上的潜力。实验利用该训练后的模型,尝试对二程语录中不明归属的语录进行判断,发表了部分判断结果:《程氏遗书》中有30%、《程氏外书》中有20%是程颢语录,尤其值得关注的是对一些长久以来归属不明的著作文字比如《粹言》《经说》的作者进行了初步判断。 以数字人文的新视角审视二程语录归属这一传统问题,运用机器学习的方法,将二程语录归属判断的问题转化为有监督的文本分类问题,构造BERT预训练语言模型加sigmoid激活函数的深度学习模型。以二程材料当中已知归属的文字作为模型的训练语料,对不明归属的二程语录之归属进行预测,准确率最高可达88%,证明了深度学习在小规模古汉语文本研究上的潜力。实验利用该训练后的模型,尝试对二程语录中不明归属的语录进行判断,发表了部分判断结果:《程氏遗书》中有30%、《程氏外书》中有20%是程颢语录,尤其值得关注的是对一些长久以来归属不明的著作文字比如《粹言》《经说》的作者进行了初步判断。 |
URI | http://hdl.handle.net/20.500.11897/635617 |
ISSN | 2096-9155 |
Appears in Collections: | 哲学系(宗教学系) 信息管理系 |