Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 教育论文 > 正文

基于python的电商数据可视化教学实践论文

发布时间:2021-08-13 09:49:32 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com):

摘 要:为了提高数据可视化的教学质量,以 python 语言为工具,以某电商平台数据项目案例为背景, 使用自主学习、学生知识讲授、指导建模等教学模式展示了数据可视分析和可视化的过程:读入数据、提取数据、清洗数据、数据分析。同时对电商数据从销售额、复购率、下单时间、用户来源、用户分类方面进行可视化展示,提高了学生在数据可视化分析中提出问题、分析问题、展示问题的能力,效果良好。

关键词:数据可视化;python;电商平台

本文引用格式:马翩翩 . 基于 python 的电商数据可视化教学实践 [J]. 教育现代化 ,2020,7(95):42-46,64.

Teaching Practice of Python Data Visualization Based on e-commerceMa Pianpian(School of Computer and Information Technology, nanyang norma university, nanyang Henan)

Abstract: In order to improve the teaching quality of data visualization, autonomous learning, student knowledge sharing and guided modeling are used to demonstrate the process of data visualization: reading, extracting, cleaning and analyzing data using Python language as a tool and taking a project case of an e-commerce as the background.At the same time, the visual process of e-commerce data from the aspects of  sales volume, repurchase rate, ordering time, user source  and user classification improves students’ ability to raise, analyze and display in data visualization analysis with good results.

Key words: data visualization; python; E-commerce; experiment teaching

一 引 言

随着互联网和云计算的发展,我们进入了数据量大、数据结构多元的大数据时代。如何对现有的数据进行提取、分析并以有效的方式展现出来已经成为一个新的时代命题,数据可视化应运而生。做为数据分析和展示的工具,已经被应用在各个领域中 [1]。

数据可视化是依据数据的特性,借助于可视化方式,如直方图、饼图、柱状图、折线图、热图等将数据直观地展现出来,找出包含在数据中的规则和知识,帮助人们做出相关的决策。数据可视化的工具多种多样,日常的可以处理小数 量 的 Microsoft Excel 、 操 作 方 便 的 Tableau 、MicrosoftPowerBI、网页的 ECharts 及含数据科学语言 python 等 [2]。

结合数据可视化课程特点,将借助于数据可视化工具 python 语言,以电商行业为背景,研究基于 python 的可视化分析和表达,挖掘电商行业中隐藏的信息和规则 [3]。为了提高数据可视化课程教学质量,需分析数据可视化教学中存在的问题, 找出解决方案,然后有针对性的贯穿于数据可视化实践教学中,不仅能够提高课堂教学质量,同时也能够增强学生数据分析和可视化的实践能力。

二 数据可视化教学问题

数据可视化是一门要求实践性很强的课程, 但是前期中需要掌握 python 语言中的三个基本库numpy、pandas、matplotlib 的基础知识,这些知识点是零散的、繁多的 [4]。原有的数据可视化总是按照教学内容进行准备的,和实际有所脱钩,不能够很好调动学生的积极性,同时在学习过程中,有些学生积极性差,拷贝别人代码,不进行独立思考等。

三 教学改革

针对知识点零散抽象的问题,需要借助于项目,把知识和项目结合起来,激发学生的兴趣, 深刻理解知识点之间的联系及应用场景。

针对教学和实际脱钩的问题,应该借助于现有的 python 爬虫技术,爬取相关行业的数据集, 对实际生活生产中的数据进行分析、展示和指导。

针对学生积极性低的问题,以学生动手能力和创新能力为导向,采用学生自主学习与教师讲授相结合、学生为主教师为辅的“赋能教育”的混合教学模式。如自主学习、学生知识讲授、指导建模等,用以实现教学合理有序、逐层递进,也能将抽象理论通过运用到实际生活。首先将该章节的内容以问题的形式抛出给学生,然后需学生自己可以借助线上、线下教学资料来进行查阅找思路;课后对学生提交的作业进行检查,选出好的解决方案,然后在课堂上让学生对提交的解决方案进行讲解,同时进行点评;课后为了巩固进行分组不同练习。

四 案例预备

该教学案例为综合案例,所以学生已学习numpy、Pandas、Matplotlib 的基础知识。为更好进行具体案例分析,需先对这三部分的库进行概要性的总结,同时案例选取和预处理。

(一) numpy
numPy 是数据分析中的基础包,它提供多维数组对象、矩阵等,以及用于数组便捷操作的基本统计函数、随机模拟、索引、选择等。

(二) pandas
Pandas 功能广泛,包含大量处理数据的函数和方法,是数据分析的核心工具。在 pandas 中包含带有索引的一维和二维数组 Series 与 Dataframe数据结构,函数 aPI 有加载函数、数据缺失处理函数、汇总函数、分组函数、时间序列函数、字符串处理函数等。

(三) matplotlib
matplotlib 是 python 中目前使用最广泛的 2D 绘图库。它提供了绘图的基本框架有:画布(figure)、axe(s  子图)、图标元素(如坐标轴、刻度、图例)等,让用户可以轻松地将通过多种图形进行可视化地展示。

(四) 案例背景
在综合案例中,选择电商行业的数据进行数据可视化分析系。因为电商行业蓬勃发展,电子商务已经渗透到我们生活的各个方面,如日常购物有天猫、京东等;外卖平台有美团、饿了么; 租赁行业有神州租车等;成为我们生活的必不可少的组成部分,也更能激发学生的学习兴趣。

为了更好地了解电商,现在使用来自第三方的电商平台的脱敏数据来进行分析和展示某电商平台 2019 年的运营情况。在分析过程中,并不急于对数据过早进行处理,首页引导学生分析需要结合具体场景,需要了解电商平台的商业画布,然后提取出分析重点即用户、平台两方面的指标,然后利用建模的方式来进行可视化的分析和展示:读取数据、提取数据、清洗数据、分析数据四个步骤。

\
(五) 读取数据
数据集来源于电商商家提供的脱敏数据集, 使用 pandas 中的函数 read_excel 方法来加载数据集。加载数据集后观察改数据集的字段有 orderID( 订 单 ID)、userID( 用 户 ID)、goodsID( 商 品 ID)、orderamount( 订单总额)、payment( 付款额度)、chanelID( 渠道 ID)、platformType( 平台类型 )、orderTime( 订单时间)、payTime( 付款时间)、chargeback(是否退货)。

(六) 提取数据
提取数据主要是为了找出数据中符合业务流程的数据。首先,明确分析的是 2019 年的数据,观察字段 ordertime(订单下单时间)发现有部分业务数据为 2018 年和 2020 年的,因此引入时间模块, 确定时间周期为 startTime = datetime.datetime(2019,  1,  1),  endTime  = datetime.datetime(2019, 12, 31, 23, 59, 59),然后使用条件pandas 库中的条件筛选和删除操作 df[df.orderTime< startTime]。具体代码如下: df[df.orderTime < startTime]df.drop(index=df[df.orderTime < startTime]. index, inplace=True)df[df.orderTime > endTime]df.drop(index=df[df.orderTime > endTime]. index, inplace=True)其次,确定范围数据后,还要查看有没有与业务流程不合理的数据。第一,通过观察字段payTime 和 orderTime 并查看下单时间与支付时间间隔过长的数据或者支付顺序发生反转的数据进行删除,具体命令如下:
df.drop(index=df[df.payTime-df.orderTime<0]. index, inplace=True)。第二,观察订单金额与支付金(payment),将订单支付 (payment) 金额为负的值进行删除,具体命令如下:df. drop( index=df[ df.payment < 0].index, inplace=True)

(七) 清洗数据
通过提取数据将不符合业务要求的数据进行删除,而数据清洗是为了处理数据分析过程中某些字段出现的重复值、缺失值、异常值、格式错误。在进行清洗数据之前,要先了解数据的全局的统计信息, 所以使用 pandas 中的 info() 来查看每个字段是否有空值,通过 df.describe() 方法来查看数据的平均值、标准差和最小值等一些列常用统计量,为后续的清洗数据做准备。

清洗数据第一步去重,首先通过 df.info() 和df.orderID.unique().size 对比数据数量发现是否有重复数据,然后使用 df.drop 对订单号重复的数据进行删除,去重完毕。具体代码如下所示:

df.orderID.unique().sizedf.drop(index=df[df.orderID.duplicated()]. index,inplace=True)接下来对第二步得到的合理的业务流程内的异常点进行清洗。通过观察发现 goodsID 命名格式为 goodsIDPR+ 数字,根据业务背景可知,命名一般不采用‘PR000000’, 所以通过命令 size 属性查看是否存在这样的字段,存在就进行删除操作。具体命令如下所示df.goodID[df.goodsID=’PR000000’].sizedf.drop(index=df[df.goodsID=’PR000000’]. index,inplace=True)

当对重复值、异常值进行处理后,接下来查看相关字段是否存在空值。通过观察数据源发现chanelID 中存在大量空值 nan, 也可以使用 df[df. chanelID.isnull()] 来进行展示,针对空值需要进行填充。在填充过程中,如果类型为字符串,则可以用中位数来进行填充;如果类型为数值型,则用平均数、中位数来填充。该实例化实例中 chanelID 为字符串类型,因此填充为字符串填充,具体语句如下:

df [df.chanelID.isnull()]df( [‘chanelID’].fillna(value=df.chanelID. mode()[0]),inplace=True)最后,观察数据集中是否有特殊情况。观察platfromType 字段,发现由于中间的空格位置不一致导致相同的类型归为不同的类别,如 a PP,aP P。此时需要调用函数映射 map() 和 str.replace()方法来对平台中所有字符串去掉空格来表达相同的类型。具体代码如下:df( [‘platfromType’] =df[‘platfromType’]. map(str.strip)df( [‘platfromType’] =df[‘platfromType’]. str.replace(“ ”,””)

五 电商数据实例分析

经过数据提取和清洗后,得到有效业务数据。对电商业务数据进行有效的可视化分析,需要了解电商模式画布。电商模式画布包含 9 个基本构造要素,即目标顾客、价值主张、渠道通路、客户关系、收入来源、核心资源、关键活动、重要伙伴与成本构成 [5]。根据电商模式画布和本文所获得的业务数据,将重点关注平台的交易情况、用户的来源和分类。

(一) 平台分析
为了更好的了解平台的发展,从销售额、复购率、下单时间三个角度对平台进行分析。首先第一个是平台销售统计。 以 orderTime(订单时间)为横轴,以销售额 orderamount(订单总额)、payment( 付款额度) 为纵轴, 使用 matplotlit 中的 plt.plot() 方法进行绘制,得到每月销售额统计, 得到如图 2 所示。

\

在图 2 中图例 gVM 代表订单额度;销售额表示实际销售额度;无订单表示不含退货的销售额度。通过图 2 可知 1 ~ 4 月销售额度明显少于其他月份,其中 2 月为额度最少的月份;5 ~ 8 月额度整体趋于稳定;9 ~ 10 月出现下跌;11 ~ 12 月又回升; 11 月为年销售额的最高峰。可针对销售额低的月份加大活动力度,在销售额高的月份保证货源充足。

在电商业务场景中,需对电商用户的复购行为进行分析 , 帮助电商平台实现精准营销, 提高用户留存率 [6]。将 orderTime(订单时间)以月份作为横坐标、userID(用户 ID)作为纵坐标,使用 plt.plot() 折线图绘制。
通过图 3 可知 2 月复购率较低,从 3 月开始用户逐渐开始复购。针对顾客的复购行为,要重点关注用户复购的商品及时间,方便商家进行精准营销。

\
在平台发展中为了对员工进行有效调度,需对每周的下单日期进行分析。具体使用 pandas 中时间序列中的时间周期函数对 ordertime 和orderID 进行聚类统计,同时使用热力图进行展示。具体如图 4 所示。

\
通过用户下单时间,可以给员工调度提供一定的参考。从图 4 可知,周四、周五的订单量比较少,此时间段可以减少员工数量;周一、周二的订单量比较大,此时间段可增加员工数量。

(二) 用户来源分析
流量渠道决定了电商平台发展的好坏,找到购买力较强的渠道进行推广和投放也显得尤其重要。通过对 chanelID 和 userID 进行统计,对流量渠道来源进行饼图的绘制。具体图 5 所示。
  
\
产品研发的基本方法,强化应用新技术解决企业工程技术难题的理念,学会如何从工程中提炼研究课题的途径。在此基础上勇于实践,力争在企业核心技术突破方面有所作为。其次,企业本身就是技术、资金、市场三者的综合统一体,其最根本的就是如何运用三者获得最大化的经济效益。这对培养应用型人才的创业能力是难得的机会。南京工程学院作为全国应用型本科院校专委会主任委员单位及全国服务特需硕士研究生培养单位联盟副理事长单位, 在人才培养工程实践方面做了多年的探索。
 
通过师生多年共同的艰难创业,成功地建立了拥有自主经营权的校办科技产业基地——南京康尼机电股份有限公司。紧紧依托这一难得的工程实践平台,学生可以有的放矢地开展核心技术研发、企业经营管理、市场营销等全方位的工程实践活动。公司通过产学研的融合,也不断获得科技进步新动力,已拥有多项核心知识产权。如今已发展成为年销售额达 20 亿规模的上市公司,从而打造出了“中国轨道交通第一门”的知名品牌。

有了自己的实践平台,就在很大程度上解决了工程实践对社会的依赖并具备长期相对的稳定性,也解决了工程实践中极为缺乏自身主动权而难以向纵深发展的约束难题,学生在实践中可以真枪实弹地受到训练,公司的创业、发展历程也为学生树立了先行示范榜样从而受到工程熏陶。有的学生在这实践中潜移默化地学到了生产管理与经营理念的知识,为其今后向企业家发展奠定了很好地基础。

总之,工程实践是应用型人才培养过程中的一大亮点、也是其特色所在。应用型人才的工程实践应围绕工程技术的创新及经济实体的创业两大中心进行,以求达到最佳的实践效果。

参考文献
[1]潘懋元 . 应用型人才培养的理论与实践 [M]. 厦门大学出版社,2011 .
[2]汪明义 . 对地方本科院校转型发展的思考 [J]. 中国高等教育,2014(8):8-10
[3]史秋衡,王爱萍 . 应用型本科教育的基本特征 [J]. 教育发展研究,2008(21):34-37 .
[4]刘国买,谭轶群 . 闵台合作培养应用型人才的实践探索 [J]. 中国大学教育,2016(6):26-30 .
[5]赵军,赵新泽,李卫明 .“应用型 +”人才培养模式改革研究与实践 [J]. 中国大学教育,2018(9):40-43 .
[6]王留芳 . 面向多元化学生的工程实训策略研究 [J]. 中国大学教育,2016(8):70-73 .

关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jiaoyulunwen/32308.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml