基于Spark的用户上网WAP日志分析_龚静

时间:2022-11-21 04:01:17 作者:壹号 字数:15386字

DOI:10.3969/j.issn.1006-6403.2015.01.004

基于Spark的用户上网WAP日志分析[龚静]

摘要

在移动互联网时代,越来越活跃的用户手机上网行为带来了流量的迅猛发展。对电信运营商而言,用户上网日志包含了大量用户个性化需求、喜好信息,对其进行分析和挖掘,能更好的了解客户需求。传统经营分析系统小型机加关系型数据库的架构无法满足对海量非结构化数据的处理需求,搭建基于 X86的 Hadoop平台,引入大数据处理技术的方式,实现高效率、低成本、易扩展的经营分析系统混搭架构成为电信运营商最为倾向的选择。文章主要以用户 WAP日志为例,详细阐述如何利用大数据技术处理海量的非结构化数据,进而挖掘和分析用户上网行为。

关键词:大数据分布式 Hadoop Spark通信热点

龚静中国移动通信集团南方基地IT工程师,主要研究方向为业务支撑系统中的大数据应用。

1

引言随着4G时代的来临、智能终端的普及、移动互联业务

WAP日志作为新型数据源引入经营分析系统,使其越来越具备大数据平台的特征,主要包括如下: (1)数据规模方面:WAP日志的条数和数据量已经超过了语音详单,且还处在不断增长的趋势。 (2)数据类型方面:从结构化数据,过渡到结构化数据和互联网网页、上网日志等非结构化数据和半结构化数据共存。 (3)对数据的使用方面:不仅有批量的数据加工和前台界面的访问,临时统计、数据挖掘等访问需求也逐步增多。对历史明细数据的访问增多。对数据访问的及时性增强。传统数据仓库基础架构[2]难以满足海量、多样化数据以及高速响应的需求。传统IT系统采用Scale-up设计路线,扩展性较弱,难以处理海量数据;小型机 Unix系统

1.1移动互联网时代引入上网日志分析的快速发展,用户手机上网行为越来越活跃,流量收入在运营商的收入中的占比逐年增多。依靠传统CDR话单分析已无法全面把握用户需求,从海量的日志数据中挖掘用户需求来迎合市场的发展,成为运营商需要迫切解决的问题。 WAP[1]日志中蕴含着大量的用户上网行为信息,包含了用户爱好、需求,可以更好的理解业务价值、客户价值,促进精细化营销,制定相应策略与控制。从而降低流量成本和提升流量收入,促进流量业务发展。

1.2引入大数据技术处理非结构化数据 16

基于Spark的用户上网WAP日志分析

的封闭性导致系统扩容时难以利旧,且拥有成本高[3]。为此,我们引入了大数据技术。

所存储的块 (block)的列表。 HDFS采用可扩展的系统结构,利用多台服务器并行计算,提供高吞吐量的应用程序数据访问,它不但提高了系统的可靠

性、可用性和存取

2

需求分析(1)数据源:用户上网WAP日志,每天200G。 (2)数据处理需求:①数据存储前客户隐私数据加密;② ETL处理;③用户上网时间特征分析;④热门网站分析;⑤用户内容偏好分析;⑥热点内容跟踪;⑦热点搜索内容分析;⑧访问内容分类流量监控。

效率,还易于扩展。

2.1主要业务需求

图1分布式存储系统构成元素 Map/Reduce是Google发明的一种编程模型。用户通过定义一个map函数和一个reduce函数来解决问题。map函数对用户输入的键/值对(key/value pair)进行处理,生成一系列新的键/值对作为中间结果;shffle过程将同属于一个键( key )的值( value )组合在一起,生成键/值列表((key/list of values) pair)对;reduce函数将键/值列表对作为输入,对同属于一个键的值列表进行处理,通信热点

2.2系统能力配置(1)服务器:13台HP DL585; (2)配置:CPU cpu:2*4核;内存32G;硬盘4T;千兆电口4个。

3

方案选择为了应对大数据时代业务需求的挑战,行业内涌现[4]

…… 此处隐藏4219字 ……

图6 MMSE-PIC联合均衡算法误码率

5

结束语针对基于 MIMO-OFDM的卫星通信系统,给出最

小均方误差与并行干扰消除结合的联合均衡算法—— MMSE-PIC,在典型的Lutz卫星信道环境下的仿真结果表明,MMSE-PIC均能有效的降低了系统的误码率,提高了系统的通信质量。参考文献1 K. Lee, D. Williams. A space frequency transmitter diversity

(上接第21页)the 39th international conference on very large data bases (VLDB’2013). Trento, Italy, 2013: 97-108 12 Arasu A, Chaudhuri S, ChenZ, et al. Experiences with using d

ata cleaning technology for bing services. IEEE data engineering bulletin, 2012, 35(2):14-23 13 Liu Xuan, Dong Xin Luna, Ooi Beng Chin, Srivastava divesh. Online data fusion//Proceedings of the 37th international conference on very large data bases (VLDB’2011). Seattle, USA, 2011: 932-943 14 Sarma Anish Das, Dong Xin Luna, Halevy Alon. Data integration with dependent sources//Proceedings of the 17 16 15 14th international conferenceon extending database technology. Uppsala, Sweden, 2011: 401-412 Chandramouli B, Goldstein J, Duan S. Temporal analytics on bigdata for web advertising//Proceedings of the 28th IEEE international conference on data engineering(ICDE). Washington DC, USA, 2012: 90-101 Madden S, DeWitt D J, Stonebraker M. Database p a r a l l e l i s m c h o i c e s g r e a t l y i m p a c t s c a l a b i l i t y. DatabaseColumn Blog. / (收稿日期:2014-12-02) 2015.01.广东通信技术 http://www.databasecolumn. com/2007/10/database-parallelism-choices.html

55