Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 教育论文 > 正文

logistic 回归在学生发展方向中的方法与应用论文

发布时间:2021-07-20 11:17:57 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com):

摘 要:本文对本科院校毕业生在校状况与所选发展方向进行了研究。提炼出显著因素后,运用无序多分类logistics 回归模型进行分析,深入剖析自变量对因变量的影响程度与方向,并验证了 logistic 回归对大学生发展方向的预测有较高准确率。研究毕业大学生的在校状况与个人发展方向的关系不仅有利于国家和社会制定更符合国情的政策,而且有利于在校大学生选择发展方向、清楚自己的定位。

关键词:本科院校毕业生;发展方向;logistic 回归

本文引用格 式: 但诗瑶 , 黄文杰 , 石凯 .logistic 回归在学生发展方向中的方法与应用 [J]. 教育现代化 ,2020,7(105):125-129,133.

methods and applications of Logistic regression in student Development Direction

DAN Shiyao, HUANG Wenjie, SHI Kai

(College of Mathematics and Physics, Leshan Normal University, Leshan Sichuan)

     Abstract: In this essay, the status and development direction of  college graduates are studied. After the significant factors  were extracted, the disorganized multi-classification logistics regression model was used for analysis to  deeply analyze   the influence degree and direction of independent variables on dependent variables and verify the high accuracy of logistic regression in predicting the development direction of college students. The study on the relationship between the status of college graduates and their personal development direction is not  only conducive to the state and society to make policies more in line with the national conditions, but also conducive to  college students to  choose the development direction and clear their own positioning.

      Key word: undergraduate college graduate;the development direction;logistic regression

一 文献综述

       现今,随着信息社会的飞速发展,工作的类型也越来越多样化,在招生人数不停增加、社会就业竞争激烈的情况下,传统的培养模式会导致学生的就业品质不高,职业的稳定性也不好。这一现象引起了一些学者的注意。在大数据与机器学习飞速发展的时代,已有学者利用了不同方法探寻学生发展方向与各种因素之间的关系。尉建文 [1] 研究了父母的社会地位与社会资本对大学生求职意愿的影响, 发现这两个方面对大学生就业的影响存在很大差异。张杨和王琴 [2] 发现家庭禀赋和人力资本对大学生出国意愿产生了不同程度的影响。丁彤 [3] 探究了影响考研的客观因素。陈迎明 [4] 回顾了大学生就业影响因素十年研究,并将这些因素划分为内部因素和外部因素、单因素和多因素,并指出已有研究对于解决大学生就业问题的期望仍有一定差距。孙笑飞 [5] 在基于数据分析的高职学生发展趋势预测算法实践中利用了 K-Means 算法作为学生预测的核心算法, 引入判别函数等来对 K-Means 算法进行改进,开展了对高职学生的发展趋势预测。孙怡帆 [6] 等人在大学生毕业方向预测中使用机器学习领域的 Lasso- Logistic 算法, 构建了精准度高达 70% 以上毕业生去向的预测模型。纵观对大学生发展方向的研究, 其中对于影响因素的探究较多,而对于预测算法的研究则较少。

       本文在基于已有的对大学生发展方向的研究结果中客观选择影响因素,利用机器学习中的 logistic 回归算法建立并不断训练模型,找寻其中关联度最高的影响因素来建立预测模型,并保证较高的预测精确度。旨在为高校研究大学生发展方向提供一定的参考,为学校和社会寻觅到更适合学生发展的培养方案提供帮助,让高校学生可以正确定位自己。本文所提供的理论参考和预测模型能使院校工作者在进行人才培养工作时有据可依,有利于完成人才培养的目标,提升资源的利用率和办学质量。同时也能为社会制定大学生相关政策提供建议,促进社会发展。

\

二 logistic 回归

(一) 回归分析


       回归分析 (regression analysis) 是一种运用十分广泛的数理统计方法。它主要用于确定两种或两种以上变量间相互影响程度,该方法侧重考查变量之间的数量变化规律。回归分析通过建立回归方程研究变量之间的密切程度,帮助人们寻找隐藏在数据中的统计规律性,明确变量受一个或多个变量的具体影响程度,使得人们对变量间的关系了解得更直观、透彻,并能高效提取出有效信息。对变量进行合理的回归分析,还能为今后的预测提供科学的依据。回归分析预测法是回归分析在变量预测方向上的一个推广,它将建立在变量之间的回归方程作为预测模型,筛选出对因变量产生影响的主要因素, 并根据自变量在预测范围内的数量变化来预测因变量在该范围内的结果。

(二) logistic 回归模型

       回归分析是剖析数据和建模的重要工具,回归模型就是基于回归分析所建立的。当因变量是二分类或多分类型变量时,无法借助一般线性回归模型进行研究。因为它不能满足一般线性回归模型对因变量取值的要求,且违反了回归模型的前提假定, 如不再满足同方差。因此,当因变量为定性变量时, 采用 logistic 回模型。当因变量为二分类变量时,采用二项 logistic 回归模型;当因变量为多分类变量时, 采用多项 logistic 回归模型。

1、二项 logistic 回归模型

当因变量为二分类变量时,无法采用一般线性回归模型进行分析。可以对因变量做一些变换,使它满足一般线性回归模型建模的要求。一元线性回归模型的可表示为 \\ ,后者是对当自变量为 \  时因变量均值的预测。对于二分类因变量来说,就是当自变量为 \ 时因变量为 1 的概率的预测。此时,一元线性回归方程的一般形式可写为:

     \

      概率 P 在此处并不满足一般线性回归模型对因变量取值的要求,需要对 P 采取合理的变换。变换后的 P 需要同时满足实际取值范围在 \ 之间且与自变量之间的关系是非线性,即回归函数应该是限制在区间[0,1] 内的连续曲线。常常采用 Logit 变换对 P 进行处理来解决该问题。

      首先引入逻辑斯蒂函数 (logistic distribution) 概念 [7] 。

      逻辑斯蒂函数取值范围为(0,1),它由下列公式定义:

      \

       对 x 求导可得:

       \

       其中,\\ 分别为位置参数和形状参数\

       逻辑斯蒂函数的图像形如 S 形曲线,所以又称为 sigmoid 函数。二项 logistic 回归模型是一种分类模型,由条件概率分布 P( x | y ) 表示,形式即为参数化的逻辑斯蒂分布。

\

\
 
       可以看出,在线性回归模型中引入逻辑斯蒂函数可以使概率 P 满足一般线性回归模型对因变量的取值要求。引入 Logit 变换 :

        一件事件的几率(Odds,也称为优势)是指该事件发生的概率与改时间不发生的概率的比值 [2]。如果事件发生的概率是 P,那么该事件的几率是\,该事件的对数几率(log odds)或 logit 函数是

       \

       以上对 P 作的两步变换即为 Logit 变换,并且logit( p) 往往和自变量呈线性关系。我们可利用一元线性回归模型写出 logit( p) 与自变量的多元分析模型:

      \

其中 \表示第 \ 个自变量, \表示第 \个自变量对应的第 i 个观测值, \ 则为第 \ 个自变量所对应的回归系数。以上即为二项 logistic 回归模型。

2、多项 logistic 回归模型

      当因变量为多分类变量时,采用多项 logistic 回归模型。多项 logistic 回归模型又分有序和无序。

      以包含 3 个水平的因变量为例介绍有序多项 logistic 回归模型。假设因变量取值分别为 1、2、3,所对应的概率分别为 p1 、 p2 、 p3 ,且 p1 +p2 +p3 =1 。按照拟合二项 logistic 回归模型的步骤,对自变量拟合 2 个模型:

          \

       易知模型中自变量所对应的系数 \ 并不改变, 改变的只是常数项\

       同理可写出无序多项 logistic 回归模型:

        \

       模型中 \ 表示第 \ 个模型中第 \个自变量所对应的回归系数。大量研究表明,分类数据利用该模型建模效果很好。

(三) 参数估计

       以二项 logistic 回归方程为例介绍 logistic 回归方程的参数估计。logistic 回归方程的参数求解采用极大似然估计法,下面简述极大似然估计法。

       总体X 具有连续的概率密度 \\ 为待估参数,\且形式已知。已知\ 是来自总体 X 的 n 个样本容量为 n 的样本,则\的联合概率密度为\,设\\的一组观测值,取到该组观测值的概率近似为\,极大似然估计的基本思想就是找寻
\ 的估计值\ 使概率达到最大。形如

        \ 
        的函数称为样本的似然函数。若
 
        \
        则称\ 为\ 的最大似然估计值,称\ 为 \ 的最大似然估计量 [8]。

        \ 在很多情况下关于 \ 可微,常常将似然函数转化为对数似然函数 \ 后,对 \ 求导建立方程,再对方程求解得出参数估计值。即利用微分学求最大值的知识,将似然函数转化为对数似然方程

\  进行求解,该方程也称为对数似然方程。

         引入二项 logistic 回归对数似然函数。假设从总体中抽取 n 个样本,对应 n 个观测值集合为

\,设:

\

         其中\表示第 \ 个样本,对应对数似然函数为

          \

         一阶条件的对数似然方程为

         \

          为方便求解,将二项 logistic 回归对数似然函数的变量用向量表示,令 \ ,
 
\ 对应的对数似然函数可化为:

          \

          对 logistic 回归对数似然方程的求解,常采用梯度下降法。

三 研究设计

(一) 数据来源


        本研究以四川乐山某高校本科院校毕业大学生为研究对象,旨在探索毕业大学生的在校状况与个人发展方向的关系,建立模型,为在校大学生选择发展个人方向提供参考。数据主要由学校各学院、各部门的负责人所提供。数据包括毕业生的性别、籍贯、政治面貌、家庭户口、家庭月收入、进出图书馆次数、学分加权平均分、是否师范类、是否贫困生。

        所调查的院校是一所师范类本科院校,调查对象主要是该院校刚毕业的大学生,通过数据整理分析可得出:毕业后选择做教师的学生则占总体学生的 52.8%,选择就业的学生占总体学生的 28.0%,而选择读研的学生占总体学生的 19.2%。样本中女生占了总体的 77.6%,男生则有 22.4%;女生中毕业后选择教师的占 55.2%,选择就业的占 23.2%,选择读研的则占 21.6%;男生中毕业后选择教师的占 44.4%, 选择就业的占 44.4%,选择读研的则占 11.1%。样本中专业是师范类的占总体的 74.5%,非师范类的则占 25.5%;师范类中选择教师的占 68.4%,选择读研的占 23.3%,选择就业的占 8.3%;非师范类中选择就业的占 85.4%,选择读研的占 7.3%,选择教师的占7.3%。对数据进行简单分析可得出,女性比男性更愿意选择继续深造;师范类专业的毕业生近七成会选择做教师工作,而非师范类专业的毕业生八成选择毕业后直接就业;可见,是否师范类对毕业生选择发展方向影响显著。

 
\
 
(二) 变量说明

        本文在归纳和整理研究大学生发展方向影响因素的相关文献后,结合调查院校的实际情况,对学生的综合素质、家庭情况、学业水平进行了分析。最终选取了 3 个显著的自变量拟合模型。其中是否师范类为定性变量,学分加权平均分、图书馆进出次数为定量变量。因变量是毕业大学生所选发展方向,为定性变量,取值为就业、教师、研究生。
 
\
 
(三) 模型分析

         根据所取得的数据,建立无序多项 logistic 回归模型进行分析。假设模型如下:

          \

       其中  \表示第 \个自变量对应的第 \个观测值 ,\\为方程对应的常数项,\ 则为第 \个自变量所对应的回归系数。

      本文运用 SPSS 23.0 软件进行 logistic 回归分析。利用这三个自变量建立与毕业去向的无序多项logistic 回归模型:
 
\
 
       表 3 是对模型进行似然比检验的结果,检验的原假设是所有自变量偏回归系数全为 0,从反馈结果可看出,自由度为 6,显著性 \ , 则应该拒绝原假设,表明至少有一个偏回归系数不为 0。
 
\
 
       从表 4 中的检验结果可以看出,自变量显著性p 均小于 0.05,则偏回归系数不为 0,说明模型中引入的自变量是有统计学意义的,对模型的贡献均为显著的,引入合理。拟合出的模型分别为:

       \

       其中 \ 表示当学生专业不是师范类时取值为 1,反之则为 0。

       对于 logistic 模型拟合优度的测量,崔党群 [9] 曾在相关文献中提出一种方法,他阐述了 logistic 曲线回归方程因含有回归参数 a、b 和常量 K, 不适宜用一般曲线回归的假设测验方法进行拟合优度检验, 并提出可以利用实际值和预测值 , 运用适合性 \测验 , 进行拟合优度检验。

       将模型预测值与实际值进行 \ 检验:
 
\
 
       从表 5 中可以看出,仅有一个单元格的期望频数小于 5,并不超过整个单元格数量的百分之二十, 可以使用卡方检验进行分析。

       表 6 返回卡方检验结果,可以看出显著性\,即\,说明方程拟合得好,预测值与实际值存在相关性,即基本吻合。可以利用所拟合的 logistic 方程对学生未来所选发展方向进行预测。
 
\
 
       从表 7 返回的预测结果得出,拟合的模型对样本预测的正确率为 77.6%,效果较好。

(四) 模型预测

       本文使用 R 语言中的 nnet 包对模型的预测效果进行分析。对样本进行 500 次随机抽样,每一次按照 7:3 的比例划分为训练集和测试集。利用训练集拟合无序多项 logistic 回归模型,将测试集数据代入模型并计算出模型的预测正确率。对每次计算出的预测正确率求和取均值,得到模型的平均预测正确率为 76.7%。结果表明无序多项 logistic 回归模型对大学生发展方向的预测具有较高准确率。

四 研究结论与对策建议

       从调查结果可以看出,学生的籍贯、政治面貌、家庭户口、家庭月收入以及是否贫困生对学生选择个人发展方向并无显著影响。在普通师范类本科院校中,学生的考研率并不高,只占了总体学生的两成。其中学分加权平均分与进出图书馆次数对学生发展方向有着正向影响。即分数越高、进出图书馆次数越多的学生更倾向选择继续深造。非师范类的学生在选择继续深造与直接就业中更倾向于毕业直接就业,师范类的学生在这两者中更倾向于选择继续深造。Logistic 回归模型在对大学生发展方向的研究中拟合效果显著,预测正确率较高,本文可为相关研究提供一定参考。

       对于本科学生来说,在师范类院校选择当教师的学生较多,在该环境下一些非师范类的学生也会选择当教师,这时就需要同学认真思考自己,结合自身兴趣、家庭等因素考虑发展方向,通过网络数据库可以得到研究生的平均薪资会高一些,因此大部分同学可以继续深造,提高生活水平和自身专业素质。对于本科院校来说,本科专业为师范类的同学毕业去向大多是当老师,选择深造的同学较少, 在当今社会,本科出身达不到一些中学当教师的要求,院校在早期培养学生时,要多注重学生专业基础, 提高学生的学习自主性。并可适当鼓动同学继续深造,提高学历、丰富自身涵养。考研率增加也会使得院校口碑变好,引进更优秀的学生团队与教师团队。在利用本文分析各学生的自身定位后,可以根据学生定位进行资源的分配,提高资源的利用率。对于社会来说,提高国民专业素质是有利于社会发展的,国民素质越高,社会发展越有利,可适当讨论扩招方面的政策,提高国民专业素质,但同时还要考虑社会竞争关系,扩招幅度应循序渐进,不宜过大导致研究生综合水平降低。

参考文献

[1]尉建文 . 父母的社会地位与社会资本——家庭因素对大学生就业意愿的影响 [J]. 青年研究 ,2009(02):11-17+94.
[2]张杨 , 王琴 . 家庭禀赋、人力资本对大学生出国留学意愿的影响研究——以人文社科类本科生为例 [J]. 农业教育研究 ,2016(02):20-23.
[3]丁彤 . 影响大学生考研选择的客观因素研究——基于上海市521 个样本的实证分析 [J]. 高等教育研究学报 ,2016,39(02):30- 37.
[4]陈迎明 . 影响大学生就业因素研究十年回顾 :2003-2013——基于CNKI 核心期刊文献的分析[J]. 现代大学教育,2013(04):35-44.
[5]孙笑飞 . 基于数据分析的高职学生发展趋势预测算法实践 [D]. 广东工业大学 ,2019.
[6]孙怡帆 , 潘昆峰 , 孙正阳 , 等 . 大学生毕业去向预测的思路与方法——基于机器学习算法的尝试 [J]. 教育学术月刊 ,2019(01):25-35.
[7]李航著 . 统计学习方法 [M]. 北京 : 清华大学出版社 .2012.
[8]盛骤 , 谢式千 , 潘承毅 . 概率论与数理统计 [M]. 第 4 版 . 北京 : 高等教育出版社 , 2008.
[9]崔党群 .Logistic 曲线方程的解析与拟合优度测验 [J]. 数理统计与管理 ,2005(01):112-115.
 
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jiaoyulunwen/32094.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml