摘要:探索将国产大模型App用于机械工厂品管的优劣势和潜在发展方向。通过对比人类专家和国产大模型App回答的方式建立应用评价指标,对大模型应用于机械工厂品管工作的表现进行了评分。基于大模型的得分以及有无关键失误,评估其用于机械厂品管的可行性,验证了国产大模型的当前应用发展进度。结果表明不同公司的模型在同类任务中表现未见明显区别,在辅助快速入门方面大模型有一定优势,但是深度上代替不了行业专家,相比宣传中的大模型是生产力提升工具的说法,实际是目前还有较大进步空间。归纳了国产大模型在品管领域应用的优劣势,并指出可能发展方向,对国产大模型的应用和发展有一定参考意义。
关键词:国产大模型,App,品管
0引言
制造业是国民经济的主要组成部分,是国家竞争力的重要体现,探索新的生产力工具用于提升制造业效率有其现实意义。随着ChatGPT的推出并在某些领域的成功[1-3],有研究者探索将其用于制造业的可行性[4],比如G代码编程[5-6],有论文提及编程之外的工业领域应用效果不佳[7],或仅提及理论上可用于工业领域[8-10]。
2023年国内多家公司都推出了自己的大模型App[11-13],研究者在探索国产大模型的应用落地[14]时普遍只是简单提及可应用而无具体详细案例,带细节的制造业应用案例更少[15],目前应用试验主要是制造业之外的探索[16-20],国产大模型在制造业应用落地和推广还存在一定问题。
本文旨在探索将国产大模型App用于制造业中机械工厂的应用,机械工厂产品普遍同质化严重,市场竞争激烈,其产品竞争力中品质是重要的组成部分,品质管理岗位是机械工厂的核心岗位之一,广东省在《中共广东省委,广东省人民政府关于实施质量强省战略的决定》(粤发[2016]9号)中将质量强省上升为经济社会发展基本战略,故本文将研究领域限定于机械工厂品管,通过对比人类专家和国产大模型App回答的方式建立应用评价指标,基于大模型在实际生产中遇到的问题上的得分,以及有无关键失误,归纳国产大模型的优劣势,并指出可能发展方向,对国产大模型的应用和发展有一定参考意义。
1试验设计
1.1大模型App选择
在华为鸿蒙系统4.0.0自带应用市场中搜索大模型App,根据安装次数(采用2023年10月31日数据)选择表1中前2款,即讯飞星火和文心一言,并选择与国外OpenAI公司的ChatGPT作对照,以更好地评估国产大模型App当前水平。
1.2机械工厂品管工作内容
机械工厂品管工作中包括管理岗位和一线岗位。管理岗位可通过大模型得到ppt编制上的支持,这种应用讨论较充分,本文不继续研究,而其他的工作比如产品质量法的法务支持可以测试一下。一线岗位包括检测检验员和品质工程师,前者主要是操作检具量具进行实测,后者主要是对遇到的品质问题进行应对,这里只讨论工程师不讨论检验员,选大模型可以支持工程师的部分项目进行试验,对于目前还不具备可行性的任务不做讨论,比如对机械图纸进行评估,对于讨论较充分的G代码编程部分,本文也不继续研究。品管工作信息如表2所示。
1.3评价标准
将大模型App回答与人类专家经验(具备中级及以上职称,或经过培训并具备至少3年相关行业经验)相比较:(1)完全没辅助作用的取0分;(2)和人类专家一致的取1分;(2)回答有帮助的,比如异常分析中回答条目包括真正原因的,计0.5分;(3)回答有明显支持作用的,比如异常分析回答条目中前2条就发现原因的,计1分;(4)在此过程中留意有无关键失误;(5)得分保留小数点后1位。
2试验数据
2.1法务支持
品管工作可能牵涉产品质量法和消费者权益保护法的法务问题。如表3所示的问题和答案都来自市场监督管理局组织的2023年广东省企业首席质量官培训中的练习题,首席质量官要求之一是中级职称,故选这些题目。
2款国产App平均得分都为0.8,但存在关键失误,当单独问产品质量法赔偿诉讼年限时,都能答出是2年,但是以具体案例问时,则都答1年,且都从购买而非受伤时间开始计算有效时段,而ChatGPT则可正确回答诉讼时间,得分1.0,认为大模型在快速理解问题并查询相应法律条款上有优势,但是解读条款并用于具体案例时可能会误解,此方面具备发展潜力,也可作为律师文本助手或普通民众的快速法律援助。
2.2调研
作者所在公司产品包括大功率电主轴,研发质量管理工作要求:对大功率电主轴用于新能源车加工的应用需求进行调研。如表4所示,针对此需求,使用百度搜索引擎,查找大功率电主轴用于新能源车加工的应用需求,在搜索结果第一页中剔除各种主轴广告后,发现有机床商务网的链接页面提及CIMT2023(第十八届中国国际机床展览会)展出了新能源车加工所需机床,包括龙门移动式加工中心可加工汽车副车架,电池托盘等结构件,主轴选配16 000 r/min,以及卧式加工中心,搭配主轴最大扭矩623 N·m,还有五轴机也可用于复杂结构件加工。讯飞星火出现关键失误,其提到的高速小功率电主轴主要用于3c行业加工应用,不排除特定场景可用于汽车行业某些小孔的加工。然而,人类专家在和客户沟通后可以确认,新能源车结构件加工所需电主轴功率普遍数十千瓦,主轴负载可达30%以上,转速一般在20 000 r/min以内。文心一言出现失误,未确认新能源车发动机变速箱是混动车专用,而纯电车型并无此结构。ChatGPT可以提供更具体的主轴参数需求。2款App和ChatGPT都无法就相关加工提供工艺参数作为参考。讯飞星火得分0,文心一言得分0.5,ChatGPT得分0.8。
大模型可能在人文社科方面得益于网络资讯发达而更有调研方面的优势,但在理工科技术特别是机械应用方面进行调研则有困难,无法自行判断信息的对错。
2.3方案设计
大功率电主轴受新能源车行情火热影响,市场需求持续提升,除了数量增加,所需开发型号也在增多。研发质量管理要求进行客户关注的铣削性能试验验证,需要搭建相应试验平台。先问App是否了解铣床,2款都能答出基本概念,进一步问需要试验286 kg,最高转速10 000 r/min,s1额定功率25 kW,s1额定扭矩300 N·m的主轴,而预算只有20万元,讯飞星火建议采购老式手动机床,并提供了型号和价格作为参考,但是在措辞中一再出现把型号为铣床的机床称为车床的问题(此问题不计入关键失误),文心一言建议选择二手机床,也提供了不同机床价格和对应主轴重量的大概范围作为参考,ChatGPT建议选择二手机床或者咨询DMG或哈斯等机床企业,人类专家的解决方案是采购手动平铣床,投产新箱体后把原来的齿轮驱动主轴更换为大功率电主轴进行试验,如图1所示。整体而言2款App和ChatGPT在此任务中可以提供一定辅助但达不到替代人类专家的水平,都计0.5分。此部分其实和上面的调研应用场景类似,在App提供辅助的情况下人类专家可以更快更好地完成任务,但是单独App本身难以评估网上找到的信息的对错,容易出问题。
2.4计算
机械工厂每天生产工件的同时也生产了品质数据,比如工件尺寸精度数据,品管需要持续的对产品关键控制数据进行观察以评估生产过程质量。本文不采取实际工件数据而选择书本算例作为App评估,表5所示算例来自品管培训教材《六西格玛管理统计指南-minitab使用指导》,为黑带注册考试参考用书,是品管工程师的关键参考书之一,选前面章节相对简单的部分例题用作评估。
书本靠后的难度更大的题目计算结果差别明显,2款国产App存在关键失误,下限低使得未受训的普通工作者无法直接使用大模型进行有效地概率计算,而ChatGPT则表现更好。
2.5规划与审查
根据IS O9001建设品质管理体系并维持体系运行是品管重要工作之一,对3款大模型求问如何根据ISO9001规划公司品质管理体系建设,全部都能给出系统性回答,人类专家审核其回答也表示认同,3者得分计1。
对3款大模型求问针对内审或供应商审厂列出关键项,全部都能给出系统性回答,人类专家审核其回答也表示认同,但是过程中发现一个问题,如果直接询问没有收集客户满意度是否符合体系要求,都能得到确定的回答“不符合”,但如果只是列出营销部分职责(缺失了收集客户满意度)则App无法判断是否有问题,3者得分计0.5。
取2次平均分0.8。本文只试验了问答功能,如果可以基于大模型开发批量文件读取和判断是否符合体系的功能,对相关工作将是革命性的改变,目前的审查工作是行业专家在1~2天时间内抽查体系对应个别制度的个别执行记录,而无法对全部记录或者全部制度进行审查,具备局限性。
此外,也尝试用3款大模型辅助规划质量文化宣传活动,或者规划fmea分析流程,都可以得到较好的效果,认为App在此类文本交互任务中优势更明显。
2.6异常原因分析
对生产过程中遇到的异常进行原因分析并组织改善是品管的重要工作之一,选部分工作中遇到的实际案例来对比人类专家和3款大模型的回答,根据对比结果打分(此处的原因是经过实际验证的,人类专家在寻找到此原因前需要花费一定的时间,并使用一定的经费进行试验)。在这里先后发问了两次,第一次直接针对异常现象求问原因,如表6所示,3款大模型平均得分0.4。
第二次发问附上人类专家现场调查时收集到的更多信息,如表7所示,3款大模型的平均得分0.9,得分上升明显,有可能是大模型被人类筛选出新信息引导注意力所致,认为此得分虚高,取2次平均0.7,认为大模型在此类工作中可以有效地辅助人类进行原因排查,很大程度是得益于大模型可以从网络上丰富资讯快速得到跨领域的知识。
2.7数据分析
本文采用对比人类专家答案和国产大模型App以及ChatGPT答案的方式,建立了大模型应用表现评价指标,对大模型应用于机械工厂品管工作的表现进行了评分,结果如表8所示。
根据结果分析如下:(1)国产大模型的法务支持得分较高但是有关键失误,使用时要注意让App同时列出法律条款并自行核对一遍;(2)专业性调研和方案设计方面具备一定参考意义但不能代替行业专家的意见;(3)国产大模型在计算方面得分较低且存在关键失误,表现不如ChatGPT,专业领域计算建议还是使用Minitab作为工具;(4)在体系规划和审查方面得分较高,也没有关键失误,可以辅助日常工作,包括质量文化宣传活动策划等任务,App都可以较好地完成,如果大模型发展到可以批量审查文件是否符合体系,将对审查工作有革命性改变;(5)异常原因分析功能可以支持品管快速入门并跨领域调查,可以辅助日常工作,但需要足够的现场调查信息支撑。
3结束语
通过上述实际案例对比人类专家和大模型的回答,本文验证了国产大模型的当前应用发展进度,整体而言2款国产大模型在偏向文本方面的任务中如意料之中般表现更好,而且2款App得分差距不大,不同公司的模型在同类任务中表现未见明显区别,但计算表现不如ChatGPT,相比宣传中的大模型是生产力提升工具的说法,目前还有较大进步潜力,在辅助快速入门方面大模型有一定优势,但是深度上代替不了行业专家,事实上行业专家才能更好地使用这种工具,因为行业专家更容易发现App回答中的潜在失误特别是关键失误,而且需要搭配一定的使用技巧才能更好地得到想要的回答,未来普遍收费后的应用效果可能会更成熟。
参考文献:
[1]Abdullah Ulku.chatgpt-4 for hospitality:implications[DB/OL].https://www.researchgate.net/publication/374420608.2023-09.
[2]Abdo Hasan Al-Qadri,Salah Ahmed.Assessing the ChatGPT Accuracy Through Principles of Statistics Exam:A Performance and Implications[DB/OL].
[3]Nitin Rane.Multidisciplinary collaboration:key players in successful implementation of ChatGPT and similar generative artificial intelligence in manufacturing,finance,retail,transportation,and construction industry[DB/OL].
[4]Ashoka Seetharamapura.An exploratory interview with ChatGPT on Industry 4.0[DB/OL].https://www.researchgate.net/publication/367361473.2023-01.
[5]Silvia Badini,Stefano Regondi,Emanuele Frontoni.assessing the capabilities of chatgpt to improve additive manufacturing troubleshooting[J].Advanced Industrial and Engineering Polymer Research,2023-03.
[6]汪志能.ChatGPT在数控编程加工中的应用探析[J].机械工程与技术,2023,12(4):347-355.
[7]Xingzhi Wang,Nabil Anwer,Yun Dai,Ang Liu.chatgpt for design,manufacturing,and education[J].Procedia CIRP 119(7947),2023(4).
[8]Habib Ouadi,Carrie Christianson,Lonny Jacobson.What we know chatgpt can do for the petroleum industry,so far[J].Journal of Petroleum Technology 75(5),2023(4).
[9]Siqi Li,Zheng Guo,Xuehui Zang.Advancing the production of clinical medical devices through chatgpt[J].Annals of Biomedical Engineering,2023(6).
[10]Kingsley O.Iwuozor,Bashir Olaniyi,Valentine Ugochukwu Anyanwu.the effect of chatgpt on sugar industry research[J].Sugar Tech,2023(7).
[11]澎湃新闻.国产chatgpt快了吗?大模型百花齐放,底层技术有代差[EB/OL].https://finance.sina.com.cn/jjxw/2023-02-08/doc-imyeytfs3204053.shtml.2023-2-8.
[12]陈佳岚.讯飞星火大模型加大投入明年上半年对标GPT 4[N].中国经营报,2023-10-30.
[13]袁传玺.百度发布文心大模型4.0文心一言用户已达4500万[N].证券日报,2023-10-18.
[14]中国产业经济信息网.国产大模型极速刷新应用“进度条”[EB/OL].
[15]上海依阳热分析.国产chatgpt百度文心一言在超高真空度控制装置研发中的应用探索[EB/OL].
[16]王超,孔祥辉.大型预训练语言模型在网络健康信息鉴别中的应用探讨[J].农业图书情报学报,2023,35(6):51-59.
[17]闫白洋,佘建云.生成式人工智能在高中生物学教学领域中的问答测试与使用建议[J].生物学教学,2023,48(9):34-36.
[18]肖峰.生成式人工智能介入知识生产的功用探析———借助ChatGPT和“文心一言”探究数字劳动的体验[J].重庆邮电大学学报(社会科学版),2023,35(4):1-10.
[19]褚连凯,张凤.人工智能知识增强大语言模型ERNIE Bot(文心一言)在医院药学实践中的应用初探[J].现代养生,2023,23(18):1430-1436.
[20]郑飞,夏晨斌.生成式人工智能的著作权困境与制度应对———以ChatGPT和文心一言为例[J].科技与法律(中英文),2023(5):86-96.
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/ligonglunwen/79168.html