Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 经济论文 > 正文

数据挖掘技术在发掘审计规律中的应用研究论文

发布时间:2022-04-27 13:34:31 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com)

摘    要:  习近平总书记在中央审计委员会第一 次会议上指出:要坚持科技强审,加强审计信息化建设。为探索实现审计方法由“数据验证型”向“数据挖 掘型”转变,审计 目标从“查纠错弊”向 “风险控制”转变,文章以主题网络爬虫和数据可视化分析技术为基础,设计了 审计大数据采集分析框架,而后以军队采购网为对象进行实例分析,挖掘军队 招标采购中易发 、  频发问题的规律,为 今后审计工作实现“精确制导”提供有力支撑,充分展示大数据信息技术在提升审计效率,助力审计高质量创新发展 具有重要意义。

关键词:  大数据审计   网络爬虫 数据可视化   审计规律

大数据审计的总体思路是“总体分 析 、系统研究 、发现疑点 、分散核实 、精 确打击”,目前,利用大数据技术搜寻审计证据、确定审计事实的“分散核实”研 究较多,但是利用大数据技术发掘审计 问题规律,提供方向指引的“总体分析、 系统研究”却很少,实例应用研究更是少见 。  因此,研究运用大数据信息技术 打破“信息孤岛 、数据茧房”桎梏,推动大数据审计由“数据验证型”向“数据挖 掘型”转变具有重要研究意义和现实意 义。

一、技术背景

1 .主题网络爬虫 。  网络爬虫技术是 一种面向万维网,通过运行预设的程序或脚本,实现客户端(浏览器)和服务端 (服务器)之间自动交互,完成对万维网 特定网页特定内容自动 、精准 、大范围 抓取的一种技术 。  网络爬虫主要有通用型、主题(聚集)型 、优先型 、增量型 、深层型等不同类型 。  有别于通用网络爬 虫,主题网络爬虫不是漫无目的地在网络上爬取足够多的页面,而是根据设定 目标,根据网页中标题、关键词、文本内容等具有代表性的信息,结合适当的网页筛选策略,  过滤掉与主题无关的网 页,将与主题相关的链接存入待爬取的 URL 队列进行爬取 。  运用 Page R ank、 HillTop 等搜索策略,使爬虫有次序、有目的地搜索,保证主题爬虫选择更合理的爬行路径,   高效地完成网页爬取任 务 。  获取到网页源文件后,根据需求筛选网页上有效数据,结合数据处理的难易程序,  选择适当的格式存储数据,常 见的存储格式有 CSV、Excel、Html 等 。 实现网络爬虫的工具主要有 两类:可编程的工具,如 R、Python 等;另一类是现成的爬虫工具,如:八爪鱼。

2 .数据可视化 。  象形文字的出现表明:通过图形图像获取信息是人类获取 信息最原始、最直观、最高效的方式,常 言道:一 图胜千言 。  大数据可视化分析技术是从人作为分析主体和需求的视 角 出发,强调基于人机交互的 、符合人 的认知规律的分析方法,目 的是将人所具备的、机器并不擅长的认知能力融入数据分析过程中 。大数据可视化分析技 术包括文本可视化技术、多维数据可视 化技术 、网络可视化技术 、时空可视化 技术等,  其主要表现方式有标签云、柱 状图、折线图、散点图、气泡图、热力图、 雷达图等 。常用的大数据可视化分析工具主要有两类:一 类是开源的 、可编程的工具,如 R、Python 等;另一类是商业 化软件分析工具,如 Tableau、SAS 等。

\


二、审计数据采集分析框架构建

审计数据采集分析框架主要包含: 审计数据采集模块、审计数据可视化展 示、审计规律分析三个模块。

1 . 审计数据采集模块 。  审计数据采 集前,需要以审计计划 、审计 目 标需求 为牵引,对需要采集的目标数据进行预 定义,确定采集方向,以确保采集数据 准确有效,避免浪费人力物力 。比如,在 审计中需要核实参与军队采购投标人的资质是否符合要求,  就需要从工商、 税务 、  行政处罚等数据为 目 标进行采 集 。  在确定了采集的目标后,需寻找能够完成审计目标的可靠数据来源,  如: 官方发布的可靠数据,军队、政府部门 的公开网站(如:工商、税务、政府、军队 行政处罚等),   民间有公信力的数据提 供方(如:天眼查、企查查),企业的官方 网站等 。  确定了数据来源之后,需要对 目标网站的结构特征进行分析,根据网 站的个性,编写爬虫程序,然后根据网 页的特点,结合审计需求,抓取有效数据 。  最后,将所获取的数据根据下步使用需要,采取不同的方式进行存储。

2 . 审计数据可视化展示模块 。  大数 据环境下,采集来的审计数据在数量和复杂程度上都对审计数据分析带来 巨 大挑战,如何从包含大量干扰因素的数 据中提炼有效信息,揭示未知的或验证已知的规律,为审计人员做出审计决策 提供数据支持,实现“精确制导”下的 “精确打击”,是大数据时代背景下审计 工作必须解决的问题。数据可视化技术 助于审计人员探索分析和解释复杂的 海量数据,将采集到的审计数据转化为 图形和图像后,审计人员可结合自身的审计知识和实践经验,  通过直观感知, 进而从总体上系统理解和分析所获取的审计数据的内涵特征 。  此外,审计人 员还可交互地改变可视化软件的设置, 输出不同类别的图形 、图像,多角度地分析审计数据。

3 . 审计规律分析模块 。  在经过采集 数据的可视化展示后,根据数据分析展 示的结果的直观感受结合 自 身的审计 知识与审计实践经验,从中分析出数据 所蕴含其中的规律,从而根据发现的规律把握今后审计工作的方向,有力提升 审计效率,指导审计实践。

三、基于军队采购网实例运用

“军队采购网”是中央军委后勤保 障部针对部队集中采购量大、采购需求分散等难题,  专 门建立的网上采购平台,该平台坚持“公正公开,阳光透明, 服务部队,保障打赢”的原则,为提升部 队战斗力发挥积极作用,通过几年的运 行,  军队采购网积累了相当数量的数 据,具备了大数据分析基础 。  在实际运行中,少部分无良供应商采用违规手段 非法获取订单,给部队战斗力提升带来 不利影响,  为此主管部门主动作为,惩处了采购活动中的违法失信行为,并在 “军队采购失信名单”栏 目公示了近几年来所有的违法失信行为查处情况 。若 能对近几年所有违法失信行为进行“总体分析、系统研究”,发掘具有倾向性的高发 、频发违法失信行为,并以分析结果为锚定问题线索,将为“精确打击”提 供有效指引 。  下面以 Python 语言为工 具,运用审计数据采集分析框架来实现
预期目标。

1 . 审计数据采集。根据审计目标需求,以军队采购网为目标网站,以“军队采购失信名单”网 页数据为目标数据, 分析违法失信行为,发掘具有倾向性的 问 题 规 律,确定初始URL 为:https://www.plap.cn/supplierCr/common/list.   html 。通过对该网页进行分析发现该网 页设置了反爬措施,无法直接获取相关 数据,本次数据获取需采用伪装成真实 用户访问网页的方式获取数据 。通过调用 request.post 方法获取网页源文本并实现自动翻页, 而后调用 BeatifulSoup 来解析获取到的源文本,根据网页数据 排列特征,筛选出 <tr> 标签下的信息, 最后将获取数据按 Excel 格式存储。

2 . 审计数据可视化分析展示。(1)文   本可视化 。  经综合考量,本次实例分析采用文本可视化技术最为合适 。大数据环境下,大量的文本数据使审计人员进行分析的难度越来越大,传统的浏览和筛选等方法无法满足大数据环境下非结构化数据审计的需要。将文本的内容或规律以视觉符号的形式展 示给审计人员,有助于审计人员利用视觉感知的优势来快速获取大数据中蕴含的重要信息,从而发现审计线索。文本可视化技术的意义在于能够将文中中蕴含的语义特征(如词频、重要程度、动态演化 规律、逻辑结构等)直观地展示出来。标   签云(tag    cloud)是 一 种典型的文本可视化技术,可以将关键词根据词频或其他规则进行排序,按照一 定的规律进行布局排列,用字体大小 、颜色深浅等易于视觉感知的图形属性对关键词进行可视化展示,进而快速直观地掌握文本的要点,发现审计线索。(2)设置停用词   库 。  在实际的分析展示中发现,直接以   源文本生成标签云词图,  部分词频较高,却无法体现具体的违法失信行为的   无效词会出现在云词图中,干扰标签云词图展示效果,致使真正违法失信具体   行为被掩盖,  如:“根据”“公司”“依据”“违规违纪”“相互”“提供”等词。为此, 为实现分析 目 的,本次分析建立了无效 词集合的停用词库,在分析中统计词频 时屏蔽停用词库内的词语,排除无效词 干扰,  得到更加精准有效的展示效果, 实现预期分析目标。(3)生成标签去词 图 。  以获取到的“严重违法失信行为的 具体情形”为源文本,调用 jieba 分词库, 把源文本的句子全部切分为单独的词 语,形成 一 个由词语组成的文件,而后 统计词频。根据分词及词频统计结果, 调用 wordcloud 库生成标签云词图。

3 . 审计规律分析。(1)通过爬虫得到采集数据结果,可以看出,主题爬虫脚本成功实现了目标数据获取,得到军队采购失信名单栏目数据,  为下步分析, 提供数据支撑 。  同时,获取的失信公司 名称,处罚结果等数据对于审计工作也 有较大现实意义,比如:在审计中若对参加的投标人、投标公司是否因曾经受 过处理或在处罚影响期内 违规参加采 购招标活动有疑问,可快速检索比对实现,进而发现是否违规。(2)通过生成的 标签云词图,可以直观明了地发现:“虚 假”“串通”“围标”“串标”这几个词语明 显大于其他词语,色彩鲜艳,对比度高, 直入眼帘,表明:在军队招投标采购中 使用虚假文件,投标人之间围标、串标, 招标人与投标人相互串通是最主要、最普遍、最易发、高发的违规失信行为,在 今后的招标采购审计中可以上述 几个 问题重要锚点进行审计,重点关注此类的问题 。  其次,“核减”“工程造价”“上 限”“转包”“虚高”等词语也较为突出, 表明在工程造价超上限,  违规转包,价 格虚高等问题还一 定程度存在,在今后 的审计中也应该关注此类情形。(3)通 过数据分析展示,  得到了可靠的结果, 较好地贯彻了大数据审计 “总体分析、 系统研究、发现疑点、分散核实、精确打 击”的思路 。  实现了审计方向从依靠审计人员依靠长期审计实践小样 本经验的“经验导向型”审计向依托大数据分 析发掘规律的“数据支撑型”审计的转 变,拓宽了大数据信息技术的在审计实践中的应用边界,有力验证了审计数据采集分析框架的有效性。

\

四、总结与展望

随着大数据时代的深入发展,审计必将从“查纠错弊式的回头看”向“风险 预警式的提前管”发展,这些发展必将 以高质量的数据采集分析为基础 。“工 欲善其事,必先利其器”,大数据信息技术就是这样一把“利器”。面对现实中更加复杂的审计实践,还需大力推进人工 智能、5G、物联网、量子科技、区块链、高 性能计算等信息技术与审计深度融合赋能,  向前沿信息技术要审计战斗力, 解决当前审计面临的矛盾和痛点,开创智能化主导 、融合式聚变新局面,不断推进新时代审计高质量发展。

参考文献:

[ 1]  徐超 . 大数据背景下审计数据采集技 术 与方 法 研 究  [J].  会 计 之 友,2020(19):114-119 .
[2]  吴则建 .主题网络爬虫在商业银行内 部审计中的应用  [J].  中 国 内 部 审 计,2019 (11):50-53 .
[3]  陈伟 .基于大数据可视化技术的信息 系 统 AC  审 计   [J].  会 计 之 友,2020(1):120-121 .
[4]  陈伟,居江宁 .基于大数据可视化技 术的审计线索特征挖掘方法研究[J].审计研 究,2018(1):16-21 .
[5]  孟兵,  李杰 臣 .  零基础学 Python 爬 虫、数据分析与可视化从入门到精通[M].机 械工业出版社,2020:1-200 .
[6]  张宝刚 .基于 Python 的 网络爬虫与 反爬虫技术的研究  [J].  电子世界,2021(4):86-87 .

关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jingjilunwen/37396.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml