SCI论文(www.lunwensci.com):
摘 要 :针对海量的用户视频行为数据,如何利用这些数据对用户进行画像,找到用户的偏好,从而进一步实现精准营 销,是本文重点探讨的话题。基于此,本文实现用户中心运营系统。介绍系统的功能架构,本系统基于大数据平台,构建用户 标签体系,详细阐述用户标签的构成开发方式以及用户分群 , 并针对特定的人群进行相应的营销策略的推荐。最后介绍该系统 的实际应用情况。用户中心运营系统业务人员更加地了解用户,从而使运营的策略更加准确。
关键词 :大数据,用户行为,用户标签,用户画像,精准营销
Big Data Drives User Operations
QU Pu
(Shanghai Civil Aviation College, Shanghai 200232)
【Abstract】:In response to the massive amount of user video behavior data, how to use this data to characterize users, find their preferences, and further achieve precision marketing,is the focus of this article's discussion. Based on this,this article implements a user center operation system.Introduced the functional architecture of the system, based on the big data platform, this system constructed a set of user tag system, and elaborated on the composition and development methods of user tags, as well as user segmentation and corresponding marketing strategy recommendations for specific audiences. Finally, the practical application of the system was introduced. The user center operation system enables business personnel to have a better understanding of users, thereby making operational strategies more accurate.
【Key words】:big data;user behavior;user tags;user profile;precision marketing
0 引言
随着信息化社会的深入发展,大数据作为一种战略 性必争资源,正逐渐成为当代社会各行业、各领域实现 自身发展模式创新的重要推动力量,蕴含着巨大潜在价 值。综合文化传媒集团,拥有上亿的用户规模,数据生 产规模极大,数据活跃程度极高,具有典型的大数据应 用潜质,但过去也一直存在“有信息,难验证”“有覆 盖,难掌握”“有流量,难变现”等显著问题。纵观国 内外文娱行业的发展演进轨迹, Netflix、爱奇艺等互联 网视频行业领跑者已经敏锐地捕捉到了时代发展契机, 深入挖掘和利用大数据价值,积极构建独有的大数据业 务模式,并取得了巨大的成功。因此,顺应大数据时代 来临的必然趋势,适时确立广电领域的大数据战略认知 与实践思维模式,成为向智慧广电转型升级并实现创新发展的一个重要战略手段。
1 用户中心运营系统
新媒体公司是具有多种类核心业务的企业,视频媒 体业务、电商业务、旅游业务以及地产业务等,都是其 核心业务。对于这些核心业务,企业希望将其数据都接 入数据中台产品中,包括用户基础数据、行为数据等相 关数据,并对各个不同种类的业务形成各个类型的数据 模型或者解决方案,后期同类型的业务可以直接复用模 型或者复用解决方案,形成业务的生态化,真正发挥数 据中台的作用,也为后期深度挖掘用户价值,为业务赋 能提供建设基础。
1.1 系统功能架构
数据从开始产生到最后能提供服务,要经历以下几 个过程。首先是数据的来源。来自各个业务线的数据及第三方的数据,视频媒体行业的 IPTV 和 OTT 用户数 分别是 3000 万和 2000 万, 每日的数据量是 820G 和 730G。其次,将业务线的数据通过收集服务收集进来。 对于 IPTV,可以通过部署采集程序进行采集,也可以 通过数据管道直接收集 ;OTT 业务线主要是通过管道 采集数据 ;电商和视频 App 可以通过部署采集程序进 行采集,也可以通过前端埋点进行收集。再次,数据收 集好后通过处理进入数据湖,按照数据模型进入数仓, 统计计算后进入数据集市,方便后面展示层的服务。最 后,在数据服务应用层,进行运营分析系统、用户画像 以及营销推广。技术平台的功能支撑贯穿整个数据流 程,包括计算引擎和调度、平台安全、平台测量监控和 平台运维。
1.2 数据平台技术架构
(1)平台建设。具体包括数据管道服务、日志持久 化服务、数据湖服务、批处理引擎、测量预警平台、任 务调度平台。数据管道基于 Apache Flume、Apache Kafka 实现,日最高吞吐量达到 5TB,日平均吞吐量约 为 1TB,并且具备分钟级监控能力,能够实现对数据管 道各主题流量、管道运行状况的实时监控。
(2)数据批量处理。使用 Apache Spark 实现数据 批量处理。支持多种数据类型接入数据湖,例如 CSV 格 式日志、JSON 格式日志、TD 格式日志等。目前,数据 湖数据(压缩)累计达到 90TB,每日新增 300GB。每日 执行 3 万次数据湖加载任务,任务异常率低于 99.97%, 并且具备任务重试机制。
(3)存储和计算。使用Apache Hive 和AWS Redshift 构建了完整的数据集市存储和计算引擎。Hive 提供了 用户主题的通用层数据存储, Redshift 提供了内容主题 的通用层数据存储以及报表应用层数据存储。目前可以 支撑各类 BI 运营报表的快速查询需求。
(4)统一任务调度。所有数据平台 ETL 任务均使 用 Apache Airflow 进行统一任务调度, 运维人员每日 通过可视化界面了解 ETL 任务调度情况,并且进行快 速处理。运维效率较之前分散化、命令行调度至少有 70% 的提升,能够更加及时地对任务异常进行处理。
(5)数据分析及可视化。提供多样化的数据仓库、 数据集市数据分析和可视化工具。针对业务运营人员和 管理层,通过用户中心管理平台为其提供丰富的仪表盘 和固定报表 ;针对普通业务分析人员,通过 Tableau 为 其提供元数据查询、数据源管理和多维可视化分析功能 ; 针对高级业务分析人员,其能通过 DBeaver 和 Apache Zeppelin 实现基础数据 SQL 查询和复杂数据需求统计。
2 关键能力
该系统是“以大数据技术为基础、客户数据为核心、 客户服务为目标”的客户洞察产品,关键能力是基于客 户相关的各种数据,将抽象的用户信息标签化 ;利用大 数据分析计算能力使企业能够全面“理解”客户 ;实现 触达用户及智能营销。
2.1 用户标签与画像
用户画像建模其实就是对用户进行打标签,用户标 签是对用户特征进行描述和刻画,让使用者快速了解用 户的重要工具 [1]。(1)标签主题。用于描述标签类型。 包括用户属性、用户行为、用户消费、风险控制等多种 类型。(2)是否互斥标签。依照同一级类目下(如一级 标签、二级标签),各标签之间的关系是否为互斥,可 将标签划分为互斥关系和非互斥关系。例如,男、女标 签就是互斥关系,同一个用户不是被打上男性标签就是 女性标签,高活跃、中活跃、低活跃标签也是互斥关系。
用户打标签方式 [2] 一般分为 4 种类型 :基于属性的 分类标签、基于统计类的标签、基于规则的标签以及基 于挖掘类的标签。
标签类型包括属性类标签、统计类标签和规则标签。 数据来源包括用户的基本数据、用户行为数据等 [3]。用 户标签体系如图 1 所示。
(1)属性分类标签。这类标签即事实型的标签,使 用直接采集的用户属性数据。例如 :性别(男 / 女)、年 龄、学历(研究生 / 本科……)、城市等,可以直接从用 户的注册数据得到。分类标签用于刻画用户属于哪种类 型,如是男是女、是否为会员。
(2)统计类标签。这类标签是最基础也最常见的标签类型,直接根据用户行为数据计算得出。例如 :电影 收视时长、少儿收视天数、近 7 天活跃时长、近 7 日活 跃天数、近 7 日活跃次数等字段,可以从用户访问、收 视、订购等用户行为数据中统计得出,该类标签构成了 用户画像的基础。统计标签通常直接由数据仓库中各主 题表建模加工而成,用于刻画统计用户的某些行为次 数,如历史购买金额、积分使用次数、近 30 日登录次 数等标签,这类标签都需要对应一个用户相应行为的权 重次数。
(3)规则类标签。该类标签基于用户行为及确定的 规则产生。可根据用户数据统计出来,再根据规则筛选 之后得到规则标签,例如周末收看电影大于 3 部、对平 台上“消费活跃”用户这一口径的定义为近 30 天交易 次数≥ 2。在实际开发画像的过程中,由于运营人员对 业务更为熟悉,而数据人员对数据的结构、密度以及特 征更为熟悉,因此规则类标签里的规则,需要运营人员 和数据人员共同协商决定。
(4)机器学习挖掘类标签 [4]。该类标签通过数据挖 掘产生,应用于对用户的某些属性或某些行为进行预测 判断。例如,根据一个用户机顶盒的收视时段习惯预测 该用户是老年人还是年轻人,根据一个用户的收视习惯 判断其对某视频的偏好程度。该类标签需要通过算法挖 掘产生。算法型开发需要对数据做机器学习的算法处理 得到相应的标签。一般的机器学习标签开发周期较长, 耗费开发成本较大,因此其开发所占比例较小,本期项 目并没有使用。
2.2 分析用户画像并触达营销
通过用户画像标签选取以下用户 :使用最近 60 天 每单金额大于 600 的用户 ;偏爱旅游服务的顾客 ;女性 顾客,筛选结果如图 2 所示。取两组用户的交集则生成该用户群,同时希望提取退订数量、一年内的订单数、 订购金额、年龄这些标签,并进行综合分析,最后选择 合适的营销策略以短信或者微信的形式触达用户 [5]。
3 实施效果
以某集团的系统为例, 基于数据仓库、数据集市内 的各类数据,按周、按月生成用户指标,进一步通过用 户画像平台生成各类用户标签和群体画像,涵盖 IPTV 业务 3000 万用户,构建了 IPTV 业务用户标签体系, 共 195 个用户标签。同时,平台拥有扩充内容标签和自 建用户画像标签的能力,会根据产品运营需求的深化而 持续进行优化和细化。
服务自带群体画像页面, IPTV 业务包含五大类用 户群体,同时,平台提供标签集市(自定义组合标签查 询特定用户分群)、客户群集市(群体画像智能分析)、 第三方用户画像专区等功能。系统提取用户过程为 : (1)进行标签的配置 ;(2)进行客户群的创建 ;(3)对 目标客户进行分析,提取用户信息进行相应的营销短信 的投放,达到个性化、精准化的营销目的。
4 结语
随着运营商业务拓展的渠道越来越广泛,数据积累 越来越庞大,运营商对内部运维管理和外部营销推广的 需求也越来越急迫。系统中,对客户的标签画像是客户 数据商业智能化和精准营销的重要基础。现有的客户分 析系统已无法满足日益增长的企业运营需求,构建一 套 360°客户全画像标签体系已迫在眉睫。系统结合开源 大数据算法框架和产品,定义标签计算规则和任务调度 频次,对用户数据进行加工与挖掘,生产出用户观影偏 好、购物偏好、人口属性等标签。后续项目可以通过机 器学习等算法挖掘出更多预测型的标签,并且可以进一 步细化各个维度的标签定义,使标签更加丰富、细化,满 足更多运营投放、BI 分析、智能推荐等应用服务的需求。
参考文献
[1] 单晓红,张晓月,刘晓燕.基于在线评论的用户画像研究— 以携程酒店为例[J].情报理论与实践,2018,41(4):99-104+149.
[2] 刘海鸥,刘旭,姚苏梅,等.基于大数据深度画像的个性化学习 精准服务研究[J].图书馆学研究,2019(15):68-74.
[3] 谢康,吴记,肖静华.基于大数据平台的用户画像与用户行为 分析[J].中国信息化,2018(3):100-104.
[4] 陈斌,李淑琴,曾星宇,等.基于Apache Spark的协同过滤系 统设计与实现[J].软件导刊,2015,14(1):97-99.
[5] 吴明礼,杨双亮.用户画像在内容推送中的研究与应用[J].电 脑知识与技术,2016,12(32):255-259.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/76913.html