SCI论文(www.lunwensci.com)
摘 要:随着学科交叉融合的不断深入,作为 自然科学基 础的数学向文科的渗透趋势也越发明显, 许多文科类别如教 育学、 法学、 历史学等在科研中都对数学有着不同程度的依 赖 。文科类科研人员越来越需要数学知识模型作为学习、科研 中信息判读的支撑, 但他们缺乏相关方面的知识结构和获取 途径, 而关于建立服务于文科类科研人员的数学知识模型实 用 版 网 站 的尝 试 也 引 起 了 越 来 越 多 人 的关 注 。 文 章 通 过 CART 决策树算法探究了不同类型文科类科研人员对数学知 识模型的需求情况并进一步探究了文科类科研人员对上述网 站的受益程度的期望, 对所得结果做出了解读并提出了相关 思考。
关键词: 文科类科研人员,数学知识模型,CART决策树算法,需求情况
一、引言
现代科学一体化的趋势使得数学知识模型应用的领域更 加广泛,数学知识模型不仅是处理自然科学的重要手段,也成 为了文科类科研人员学习、科研中普遍需要的方法,其在处理 文科类问题中已经得到了充分的运用。如查志杰等[1]根据现有 具备一定代表性的教学质量评价指标,运用“遗传算法优化后 的 BP 神经网络”建立了考察教学质量的综合评价模型对教学 质量进行综合评估和排名, 这一研究有助于教育工作者的反 思和总结;杜德斌等[2] 在研究法学中“城市犯罪的空间分布和 过程”这一 问题时,用数学中动态规划的方法建立了区位选择 的微观模型来模拟罪犯在城市内选择犯罪区位的规律, 这一 方法的应用将极大提升对“不同区域犯罪”的针对性打击力 度。续建宜等[3]在《历史研究中的数学方法——数量史学评介》 中提出数学知识模型与历史学的结合越来越紧密,“数量史 学”这门新学科的兴起正是两者结合的一个重要产物,该学科 中一个重要部分就是制作各种数理模型来促进对历史现象与 过程的数量化研究 。而作为人工智能算法之一的决策树算法 在文科类中的运用也愈加广泛。CART 决策树算法是 Breiman[4] 于 1984 年提出的一种构建决策树的方法,该算法采用基尼分 割系数作为属性选择的判别度量 。易俗等[5]运用 CART 决策树 算法构建了高校教师亚健康决策模型, 有利于客观高效地对 教师亚健康程度进行评估 。蓝传锜等[6]首次把 CART 决策树算 法应用在关键词抽取工作中, 对网络新闻的数据信息进行了 有效提取和开发 。这些相关文献中对文科类科研人员数学知 识模型需求的探究较少, 而本文主要通过 CART 决策树算法 探究了主修专业、科研所在城市、对数学量化方法普及性认可 度等差异下的文科类科研人员对数学知识模型的个性化需求 情况,并结合已有数据对文科类科研人员从“提供数学知识模 型的科研辅助网站”中获益程度的期望进行了分析,综合上述 结果为未来数学知识模型如何更好的辅助文科类科研人员提 出了展望。
二、CART 决策树算法
( 一) CART 决策树算法步骤
CART 决策树算法是一种常用的非参数分类和回归方法, 本文主要运用其中的分类方法, 以下将介绍该方法中的选择 特征、递归、剪枝三个重要步骤[7]。
1.选择特征。本文中所用的 CART 决策树使用基尼分割系 数作为划分属性的判据, 基尼分割系数数值越低则不纯度越 低,特征越好,属性划分越有效 。若整个训练样本集共包含n 个属性,则基尼系数可以定义如下[5]:
n)Gini( Dx)=1- Σ tP2t = 1
其中 Pt 为决策属性值 t 在训练样本 DX 中的相对概率,如 果集合 DX 中共有 x 条训练数据,在给定条件下分成 DX1 和 DX2 两部分,数据条数分别为x1 和 x2.则基尼分割系数可以表述如 下[5]:
Ginis (Dx ) =i *Gini(Dxi)+C (2)
其中 C 为本文定义的扰动常量。一般地,我们可以写出其 通项表达式:
Ginis (Dx ) = Σ*Gini(Dxi)+C (3)
2.递归。在 CART 决策树算法的递归过程中需要将输入设 置为训练集 、基尼分割系数的阈值和切分的最少样本个数阈 值;将输出设置为分类树 。本文所进行的两个板块分析,算法 分别从根节点“您在文科类科研、学习过程中对数学知识 、模 型需求量大吗”、“如果有这样一个能够将数学知识 、方法、模 型按照文科类科研、学习需求板块化分类的网站,您认为这样 的网站能多大程度提高您的科研、学习效率? ”开始,用训练集 递归建立 CART 分类树。
3.剪枝 。在运用 CART 决策树算法构建决策树的过程中, 容易出现由于节点划分太细而产生过拟合的情况 。当遇到此 种情况时,可通过剪枝解决 。本文在构建决策树过程中主要采 用了“后剪枝”的方法进行修剪使得“文科类科研人员对数学 知识模型需求”与“从网站中获益提高科研学习效率”相关参 量能够得到有效利用的同时又不至于信息冗杂。
(二) CART 决策树算法特点
决策树 (decision tree) 算法是一种基于树结构来进行决策 的算法,典型决策树算法有 ID3、C4. 5 和 CART 算法,本文所 使用的 CART 算法采用基尼系数替代熵模型作为划分子树的 依据,使得整体运算量较低,极大地提高了运算效率 。 同时该 算法将多叉树改为二叉树 (如本文所构建第一个二叉树的分 类变量为“您所在的主修专业或科研方向”),因此,其对于子 树拆分的次数没有限制 。另外,值得提出的一点是,在 CART 算法之中所提取的特征可以重复使用, 这一点使得该算法对 于信息的利用率更高。CART 决策树算法包含分类决策树和回 归决策树, 本文主要应用其中的分类决策树进行文科类科研人员对数学知识模型的需求分析,并进一步对他们从“提供数 学知识模型帮助的网站中获益程度的期望”进行探究。
三、基于决策树算法的分析
( 一)不同类型文科类科研人员对数学知识模型的需求情 况决策树结果及解读
基于对“文科类科研人员的数学知识模型需求”这一 主题 进行探究的目的,我们展开了抽样调查 。本次抽样调查采用多 阶段抽样方法、PPS 抽样 、分层随机抽样和系统抽样相结合的 概率抽样调查方式, 对不同层次城市的文科类科研人员进行 抽样调查,调查为期 16 天,采用线上线下调研相结合的模式 共发放问卷 1164 份,其中 806 份来自线下调研,其中 358 份来 自 网络调查 。通过对无效问卷的剔除, 最终回收有效问卷 1001 份,总有效回收率为 86.0%,问卷回收的具体情况如表 1 所示。
我们以有效问卷中的“文科类科研人员在文科类科研、学 习过程中对数学相关知识、模型需求情况”内容为核心进行探 究, 可以直观观察到仅有 13%的文科科研人员对数学知识模 型的需求量较小或几乎不需要; 而 13%的受调查者表示对数 学模型的需求一般;74%的受调查者对数学模型的需求量较大 或很大 。这表明大部分文科科研工作者在学习科研中存在对 数学知识模型的依赖, 但他们自身又缺乏相关的知识结构和 获取途径 。因此,对数学知识、模型进行系统整理和分类,将简 化后实用易懂的数学知识模型提供给文科类科研人员这一尝 试很有必要, 且能够很大程度地提高文科类科研人员的工作 效率。
我们对抽样所得到的数据进行预处理剔除无效数据后, 基于不同类型文科类科研人员的情况构建了 CART 决策树探 究了其对数学知识模型的需求 。针对这一 问题的决策树共有 四层,根节点共包含 866 个样本,其中倾向类别 1(几乎不需要 数学知识模型)的有 110 人,倾向类别 2(需求量 一 般)的有 317 人,而倾向类别 3~5(有较大或很大需求量的)有 439 人, 分别占比 12.7%、36.6%、50.7%, 这一数据表明有很大一部分 文科类科研人员在进行学术科研和工作的过程中都需要数学 知识模型的辅助,因此,对数学知识模型进行整理、分类和简 化处理这一尝试具有很大的发展前景 。在选择的变量里,决策 树的第一最佳分组变量为“您所在的主修专业或科研方向”, 并以此形成二叉树,最终得出结论和建议如下:
选择主修专业或科研方向为文学、管理类、教育学、法学 、 哲学(编号为 6.0、8.0、3.0、5.0、1.0)的占比 97.0%,作为重点探 究对象,下一级分组变量是从事学术科研所在的城市,选择三 线城市和其他(编号分别为 4.0、5.0)的占总比重的 70.2%,这 可能是由于三线城市和其他层次城市科研压力相对较小所导 致的 。而选择二线城市、新一线城市、一线城市的占总比重的 26.8%, 这部分文科类科研人员在下一级分组变量——“您认 为数学量化的方法已经是人文科研中普遍需要的方法了吗的选择中差异化较明显(选择“不是”或“不清楚”的占总比重 的 20%,选择“是”的占总比重的 6.8%),而在选择“是”的科研 人员当中选择“对数学知识模型需求量较大”的占比最高,可 以看出这类人群在学术科研中所需要数学知识模型支撑较 多,且对数学量化的方法在文科科研的广泛应用持肯定态度。 而选择“不是”或“不清楚”的文科类科研人员多从事教育学或 文学相关工作,且选择对数学知识、模型需求量较少的占大多 数 。对于这类人群我们可以对他们进行数学知识模型成功辅 助文科类科研案例的宣传, 并针对他们的理解能力提供相应 的数学知识、模型支撑。
重新聚焦第二级分组变量, 选择三线城市和其他层次城 市的文科类科研人员在“所在的专业或科研方向”上选择差异 较大, 其中从事文学或管理类学术科研的人员占总比例的 56.9%,值得重点关注 。这部分文科类科研人员在下一级分组 变量——“您认为数学量化的方法已经是人文科研中普遍需 要的方法了吗”的选择中差异较明显(选择不清楚”的占总比 重的 24.7%), 这类科研人员对数学量化方法的应用广泛程度 不太清晰, 可能是由于他们在平时的学习科研中对数学量化 方法的应用信息接触较少所导致的 。当然,从决策树数据不难 看出这类人群对数学知识模型的需求也相对较低 。而从事哲 学、教育学、法学的科研人员对数学量化的方法在文科类科研 的广泛应用持肯定态度,且其中从事哲学、法学的科研人员选 择对数学知识模型需求量为较高及以上的达到 55.9%,对于这 类人群我们应当在未来多提供相关数学知识模型的帮助,也 可以为他们建立满足个性化需求的数学知识模型简化版辅助 网站根据对决策树数据中根节点和叶子节点信息的综合分析, 我们不难发现文科类科研人员对于数学知识模型是有一 定需求量的, 且他们也希望能够有一些辅助类网站或者其它 辅助方案为他们提供满足个性化需求的数学知识模型 。综上 所述,未来的文科类学术科研将进一步融合数学理论方法,进 一步提升其工作的创新性。
(二)文科类科研人员对提供数学知识模型帮助网站的受 益程度期望认知情况
我们以有效问卷中的“文科类科研人员对提供数学知识 模型帮助的网站的受益认知期望情况”内容为核心进行探究, 发现仅有 8%的文科类科研人员认为从提供数学知识、模型的 网站中获益较小, 而有超过 60%的受调查者认为从此类网站 受益较大或对此种辅助类网站对其非常有帮助 。可见针对他 们的个性化需求搭建和完善提供数学知识 、模型的辅助类网 站是一个有较广阔前景的研究方向。
在此分析基础上,本文进一步构建了 CART 决策树探究了 文科类科研人员对提供数学知识模型帮助的网站的获益程度 期望,此决策树一共有四层,根节点共包含 784 个样本,其中 倾向类别 1(受益程度较小)的有 67 人,倾向类别 2(受益程度 一般)的有 242 人,而倾向类别 3 和 4(受益程度较大及以上) 有 475 人,分别占比 10.3%、30.2%、59.5%,表明有很大一部分 文科类科研人员对提供数学知识模型帮助网站的受益程度较 高, 也说明对数学知识模型进行分类和简化处理后并发布到 网站上这一尝试受到很大认可 。在选择的变量里,决策树的第 一最佳分组变量为“您认为数学量化的方法已经是人文科研 中普遍需要的方法了吗”,并以此形成二叉树,最终得出结论 和建议如下:
对第一级分组变量所对应的问题持“不清楚”态度的占比 37.9%,在这类人群中以在“新一线城市”“二线城市”“三线城市” 中从事学术科研的居多,占总比例的 28.8%。而)对于第一级分组变量所对应问题持清晰态度 “是”或“不是”的占比 62. 1%,其所对应的第二级分组变量“您 所在的主修专业或科研方向”选择差异性较大,其中选择“经 济学”“管理学”的具有较高的一致性, 占总比例的 12.2%,对 于这类人群,其对应的下一级分类变量为“您从事文科类学术 科研所在的城市”,在这一级分类下,在“三线城市”从事学术 科研的科研人员较多, 且这类人群对提供数学知识模型帮助 网站的受益程度期望较高及以上达到 50%,由此可见,我们可 以针对该类主要位于三线城市人群进行“经济学”“管理学”所 涉及的数学知识模型运用引导, 尽可能给他们提供一些去一 线城市交流学习的机会, 并针对他们的个性化需求不断完善 现有辅助网站或努力打造更加智能化的辅助网站。
进一步分析发现,选择“哲学”“教育学”“法学”“文学”的 科研人员具有较高的一致性,占总比例的 49.9%,对于这类人 群,在“一线城市”“二线城市”“三线城市”从事学术科研的人 群后续信息具有较高的一致性,占总比例的 27.8%,选择“新一 线城市”“其他层次城市”的人群后续信息具有较高的一致性, 且这一分类下对应的下一级分类变量“您所在的主修专业或 科研方向”特征上具有差异性,其中选择“教育学”和“文学”的 人员比例较高, 这类人群中对提供数学知识模型帮助网站的 受益程度期望较高及以上达到 57.2% 。 由此可见,对于该类人 群我们可以进行其所涉及的数学知识模型运用引导, 同时基 于在不同城市从事学术科研人群的需求进行数学知识模型的 普及和辅助网站的更新。
大多数的文科类科研人员认可数学知识模型对于其所从 事的科研发展具有重要意义, 但他们自身对数学知识模型的 需求存在差异, 主要是由工作地为不同层次城市以及从事的 文科科研方向不同所导致的差异 。因此,根据不同类型科研人 员的差异化需求整理出针对他们需求的简化版本数学知识模 型并在辅助类网站中进行展示是很有意义的一项工作。
(三)结论
首先,在学科融合、学科交叉的时代背景下,数学与文科 实现进一步的交流融合是历史发展的潮流, 对于文科进一步 的研究提供数学模型是推动两者交融发展的重要一步 。其次, 文科科研需要注入新活力,在数字信息时代,大多数的文科科研人员以及相关学生对于数学知识具有需求 。最后,面对社会 文科发展的差异性,区别具体化信息服务尤为重要,搭建平台 提供数学模型, 满足各个层面各个阶段文科研究具有现实意 义。
四、结语
基于学科交叉应用逐渐加强, 文科类科研人员存在对数 学知识、模型需求的现状,本文通过 CART 决策树算法分析了 不同类型 、不同需求文科类科研人员对数学量化方法影响度 及数学知识模型的需求, 并结合调研数据进行了文科类科研 人员对提供整理封装好的数学知识模型的辅助类网站的获益 程度分析, 综合上述结果为未来数学知识模型如何更好地为 文科类科研人员提供帮助提出了建议。
[基金项目:2021 年四川省大学生创新创业训练计划项目 (项目编号:S202110615131);2021 年西南石油大学课外开放 实验重点项目(项目编号:2021KSZ09005)]
参考文献:
[ 1] 查志杰,成朴之,杨程钦,等 .基于BP 神经网络的区域本科教育 质量评估研究[J]. 医学教育研究与实践,2019 (2):5 .
[2] 杜德斌 , 汤建中 .城市犯罪区位选择的数学模拟[J]. 地理研究 , 1995. 14 (3):7 .
[3] 续建宜,王继光 .历史研究中的数学方法——数量史学评介[J]. 史学史研究, 1985(4):5 .
[4] Breiman L , Friedman J H , Olshen R A , et al . Classification and Regression Trees (CART)[J]. Biometrics, 1984. 40 (3):358 .
[5] 易俗 , 张 一 川 ,殷慧文 .基于 CART 的高校教师亚健康决策模 型构建[J]. 实验室研究与探索 ,2019.38(8):6.
[6] 蓝传锜 , 于洪志 ,徐涛 .基于 CART 算法的网络新闻关键词抽 取模型研究[J]. 西北民族大学学报:自然科学版,2017.38(3):6.
[7] 张亮, 宁芊 .CART 决策树的两种改进及应用[J].计算机工程与 设计,2015.36 (5):5 .
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jingjilunwen/54226.html