数据分组

2024-10-02

数据分组(精选7篇)

数据分组 篇1

引言

测量的目的是确定被测量的值。由于测量工作的不完善以及人们对被测量及其影响的认识不足, 致使被测量的观测值每次往往是不同的。而且, 在测量前对观测值也是不可预知的。所以在每次测量实验报告中, 均应指出测量的不确定度以及被测量之间的相关系数。如在测量实验中, 经常会遇到计算两个量之间相关参数的问题, 常见的形如y=a+bx.y=a+bx+cx2,y=a+bx+cy+dxy, 以及y=Asin (ωx+μ) 等等。其中求直线y=a+bx的直线拟合参数a, b是较为常见且应用较广的。如利用自由落体运动测量重力加速度g值中, 当取得多组测量值x, y进行直线拟合g=2b便可得g值[1], 以得到最佳直线拟合参数a, b。在组合测量数据后期处理过程中, 常用的方法有分组计算法与分组求差法, 但是二者均会涉及到大量繁杂而冗长的数据计算, 本文将基于数学软件Mathematica分别介绍如下。

1. 假设实验数据

用下列数据 (如表1所示) , 分别就上述两种方法, 分别进行拟合并求出拟合参数a, b的值。

2. 分组计算法

测得的n组 (x, y) 数据带入方程均可形成方程yi=a+bxi+εi (为误差项) , 并得到了一个方程组。当n为偶数时, 便可将方程组分为两半 (均有) 个, 当略去误差项εl, 即可由两部分对应的二方程分别得到n/2个a和b的值。再求出a, b的平均值, 以及a, b的标准偏差。

2.1 处理程序

2.2 执行结果及分析

所以。分组计算法引入线性方程组用于求解实验数据的拟合参数, 对于一般精度要求不高的实验, 处理简单, 易于理解, 但是要求测量次数必须是偶数。

3. 分组求差法

在分组计算法中方程组的基础上, 将两部分方程分别求和:

3.1 处理程序

3.2 执行结果及分析

, 最终得知, 。前面的关于的前半部分与后半部分数据求和以及的平均值亦可得出作为验证和纠错的依据。分组求差法是利用误差求和会产生互相抵消的效果, 以使得明显变小, 已达到拟合直线参数计算的目的。但是, 与分组计算法法类似, 同样要求测量次数必须是偶数。

4. 两种处理方法的比较

4.1 共同点

分组计算法与分组求差法均是由所得n组数据, 由建立n个方程, 从方程组出发以拟合出a, b的数值;两种方法均要求测量次数n为偶数, 才能实现平均分组;在进行测量数据拟合a, b值的过程中, 均假设测量值xi的误差对a, b值的影响远小于yi的误差影响;拟合值a均与b有关, 这也是由方程的结构所决定的。

4.2 不同点

在误差项的处理上, 在分组计算法中是直接将二方程中的误差项忽略, 得出的是含有误差的和值;分组求差法是利用误差求和将会相互抵消的性质, 使得误差项的绝对求和变小;在值的不确定度的表示上, 分组求差法未能计算出值的标准不确定度。

5. 结语

由于测量的的定义不完整、方法不理想、设备不完善、环境不确定、人员的技术差异等等。在实际测量中, 要提高值的精确度关键在于测量本身。分组计算法与分组求差法只是提供了给我们在实验数据处理后期对组合测量数据分析和相关系数拟合的一种方法, 而且两种方法拟合相关系数的数值也有一定的差别, 在具体的实验中, 因根据实验要求进行具体分析得出最终采用方法。

参考文献

[1]杨树武.普通物理实验[M].北京:高等教育出版社, 2000, 5

[2]丁大正.Mathematics5在大学数学课程中的应用[M].北京:电子工业出版社, 2006, 6

[3]Rosenberg H., Deformations of Complete Minimal Surfaces, Trans.Amer.Math.Sor.Vol.295, 1986, 475-489

分组数据信道资源配置规划探讨 篇2

随着各类移动应用业务的普及, 移动数据业务增长势头迅猛, 尤其自2009年1月开始, 中国各大移动运营商陆续大幅调低了数据业务资费, 1年左右的时间, 从各地区数据业务的流量统计看, 大多增长了3~5倍。而目前绝大多数移动用户的数据业务需求还是以2G网络承载, 目前2G网络的数据业务量增速远大于语音业务的增速。

相比语音业务, 数据业务的信道资源配置更为复杂, 实际工程中以经验值给出配置的情况较多, 或者以坎贝尔算法折合为虚拟业务量使用爱尔兰B表进行规划[1], 但各类业务模型的统计与预测较为复杂, 不确定性较大。本文尝试以现网统计为基础, 以PDCH (分组数据信道) 的实际承载能力为主要指标, 进行信道资源规划。

1 数据业务需求与信道资源关系

1.1 影响2G数据业务速率的因素

2G数据业务承载包括GPRS (通用分组无线业务) 与EDGE (增强数据速率GSM演进) 两种, 其业务速率与众多因素相关, 主要包括网络质量、PDCH信道资源、PCU (分组控制单元) 、Gb接口、SGSN (GPRS服务支持节点) 、Abis传输接口等资源配置。

对于网络信号质量、BSC (基站控制器) Gb接口以上的因素, 应通过网络优化改善覆盖质量, 增加SGSN处理能力, 开启相关增强功能加以实现。本文不做进一步探讨, 重点讨论对于小区PDCH信道资源配置的方法。

PDCH实际承载有效数据流量的能力, 除了与信道平均编码速率有关外, 主要应考虑如RLC (无线链路控制) 层重传、开销、PDCH激活分配比、PDCH利用率等因素。

1.2 PDCH信道

1.2.1 PDCH信道承载能力

现网的PDCH信道平均信道承载能力可以通过网络报表提取各类统计数据计算得到, 该数值反映了在当前网络覆盖、质量水平下, 对应于当前用户行为与业务特征下的单PDCH承载能力。由于上下行数据量的不对称性, 一般可只考察下行统计数据。

由于GPRS/EDGE业务在不同区域会表现出不同的分布与强度特征, 建议可以划分不同区域进行规划, 现网的单PD-CH承载能力也可分区域进行统计。一般可划分为以下一些区域类型:高校区、密集市区、一般市区、郊区、其他地区。

1.2.2 PDCH信道的忙闲评估

1.2.2. 1 PDCH的带宽利用率

下面的计算公式以爱立信设备为例。

1) PDCH平均激活率。

当小区内有数据业务请求时, 系统将会分配PDCH信道, 用于承载数据业务, 而小区中处于激活状态的PDCH才承载TBF (临时数据块流) 。

小区中PDCH平均激活率K1可通过计数器allpdchactacc与allpdchacc在忙时的统计值A1与A2相除得到。

2) PDCH平均利用率。

PDCH利用率是小区所有PDCH有下行数据传送的时间占比。假如PDCH利用率很低, 则表明PDCH资源并没有得到充分利用。在这种情况下, 即使PDCH指派失败率高、PDCH复用度高、IP吞吐率低, 也可排除是PDCH资源不足导致的, 而可能是大量用户使用低数据量的应用 (例如QQ、飞信、手机证券、WAP浏览等) 导致的。下行PDCH利用率K2可通过计数器useddlrblks与availrblks在忙时的统计值B1与B2相除得到。

根据以上分析, PDCH的带宽利用率K可以定义为激活率K1与利用率K2的乘积:

1.2.2. 2 PDCH平均复用度

PDCH平均复用度可以较直观地反映每个小区的负荷状况。该指标可以理解为平均1个PDCH信道上被几个用户所复用。一般网络, PDCH复用度应不高于2。

1.2.3 PDCH配置参数

以爱立信设备为例, 与信道资源配置相关的主要无线参数包括:

1) 静态PDCH数量 (FPDCH) 。

该参数设定了小区内专有PDCH的个数。增大此参数的数值可提高数据业务质量, 但会减少可用TCH (业务信道) 资源。可根据各区域的不同数据业务特征进行FPDCH数量设置。

2) 动态PDCH最佳数量。

该参数反映动态PDCH占可用TCH的最大比例。动态PDCH的数量可在话音业务空闲时, 为数据业务提供服务, 该值较高会降低PDCH的利用率。

3) 上/下行TBF共享限制 (tbfullimit/tbfdllimit) 。

该参数设定了一个PDCH中可承载的上/下行TBF个数, 该参数的设定与前文所述的平均PDCH复用度密切相关, 一般设置为2。

2 PDCH信道资源配置方法分析

2.1 数据业务资源配置流程

数据资源的配置主要分为以下几个阶段。

1) 数据业务预测:根据历史话统数据和区域经济、市场发展水平, 通过不同方法预测各区域数据业务发展情况和满足期末达到的数据流量需求;

2) PDCH信道需求估算:根据各区域预测得到的数据流量需求, 在平均编码速率下PDCH, 考虑重传、开销、激活比因素下实际承载能力, 得到需求的PDCH信道数量;

3) 小区具体PDCH信道配置:根据各区域PDCH信道需求数量和预计载频数量, 并按照各区域数据业务特征, 按照1∶2至1∶4的比例, 配置每个小区的静、动态信道数量;

4) PCU配置:考虑各BSC下的PDCH信道数量, 并根据不同厂家设备数据处理能力, 计算出BSC对应的PCU需求的板件数量。

数据资源的配置思路可见图1。

2.2 业务需求预测

数据业务预测是根据历史数据流量数据, 结合移动通信市场发展特点, 按照一定的类比外推方法, 并考虑一定的内外部影响因素, 得到预测的各区域数据流量。以下是两种常用的数据业务预测思路。

2.2.1 基于业务量发展趋势的预测

“趋势外推法”是业务发展预测中最简单、也是比较有效的一种业务预测方法。

曲线拟合中的线性方程、二次方程和指数方程曲线拟合, 对通话用户数预测相对比较准确。考虑到组合预测方法优于单一预测方法, 因此对于多种曲线拟合方法进行不等权组合预测。对于多种曲线, 分别按照权重R1、R2、R3…进行加权, 即可得到加权后的预测结果。权重的取定可采用求最小方差S2方法, 取使曲线拟合值与历史实际值之间的方差最小的权重系数。

在实际业务预测过程中, 通常根据全业务区的历史数据流量, 采用趋势外推法, 得到规划期末的全业务区预测数据流量。再根据各区域所占数据业务比例, 考虑未来不同区域间业务发展水平差异, 得到各区域分别的预测数据流量需求。

本预测方法反映了市场发展的一种趋势, 但难以反映未来各种变化对市场发展趋势的影响, 当发展趋向于饱和时, 不能反映其发展变化。因此, 此预测方法比较适合于近期预测。

2.2.2 基于单用户模型特征修正的预测

传统基于单用户模型的预测方法通常以全区的平均PDP (分组数据协议) 激活用户吞吐量和全区用户数进行预测, 得到全区的数据业务需求, 再采用一定的假设方法分摊到各小区业务流量Tcell_throughtput。而以小区的实际用户数Ncell_sub和平均忙时每用户吞吐量Tsub为基础, 可直接进行小区业务预测, 提高预测的准确性, 其主要计算公式如下[2]。

式中fattach_rate为GPRS忙时附着率, factive_rate为GPRS忙时附着激活比, Nvlr_hb为忙时VLR (拜访位置寄存器) 用户数。

Nvlr_hb通常无法从网管维护系统中提取小区级统计值, 由于语音业务的单用户模型变化较小, 可在假定全区用户语音业务模型一定的基础上, 根据预测的小区话务量和单用户话务模型的比值得到。

本预测方法综合考虑了市场发展趋势和未来各种变化对市场发展可能带来的影响, 能对趋势外推法的不足之处进行有效修正和补充。

2.3 PDCH计算与配置

根据前文分析, PDCH实际承载业务的能力P可以按照如下公式计算:

Rgprs, Redge:GPRS、EDGE平均编码速率 (可通过对各阶编码速率以网络统计的对应编码方式的比例进行加权计算得到, 主要与当前网络质量相关) ;

Tgprs_ratio, Tedge_ratio:GPRS, EDGE流量比例;

f1:RLC重传率;

f2:RLC开销比例。

从而, 每小区所需的PDCH数量应为

由此, 考虑一定的配置冗余S (一般取S=20%) , 每小区配置的PDCH数量应为

根据各区域特征, 一般可按照表1所示比例设定静态PDCH与动态PDCH数量。

2.4 EDGE载频配置

由上计算, PDCH实际承载能力与GPRS/EDGE信道的平均编码速率及业务的流量比例都有关系, 从而会影响到小区所需PDCH的数量。逐步提高EDGE业务的小区普及率与载频普及率, 提高EDGE业务流量比例, 这也是减少载频投资的途径之一。

考虑EPDCH (EDGE PDCH) 的平均带宽约为BPDCH (GPRS PDCH) 的3倍, 从而各小区EDGE载频Etrx配置可使用以下公式估算:

式中为向上取整。

3 工程实践效果

根据对2010年1月某省会城市晚忙时密集市区某小区的统计值, 按照以上方法计算结果见表2。

以上数据中, GPRS/EDGE流量比例会随EDGE小区与载频覆盖率的提高而改变, 而PDCH带宽利用率则与动态PDCH信道的配置限制相关, 减少动态PDCH信道数量, 缩短TBF传输结束后的动态PDCH释放延时, 缩短下行RLC数据传输结束后TBF能够保持激活状态的时长, 都可以提高PDCH的带宽利用率。除此两个因素外, 其他数据一般假设网络质量比较稳定时, 也保持比较稳定的值。

从表2计算结果可以看到, 该小区为6载频配置, 开通了1个EDGE载频, 2个FPDCH, 动态PDCH未做限制, 理论最大可达45个, PDCH利用率很低, 仅为17.9%。采用以上算法, 在仅考虑PDCH利用率提升为45%的情况下, 只要配置10个PDCH信道即可满足要求, 实际按照1∶3的比例, 配置为3FPDCH, 最大动态PDCH设为9, 满足配置计算结果。

对该密集市区内所有小区以此方法进行了优化配置, 并同时修改了piltimer, dldelay参数, 下行数据流量、PDCH分配成功率等均未出现明显下降, 对数据业务不会造成流失。但提高了TCH分配成功率, 半速率话音比例平均约下降了约4%。

在随后该本地网的EDGE扩容工程中, 以EDGE流量比例80%, PDCH利用率45%为目标值, 采取本文的方法进行了业务需求预测与各小区PDCH、EDGE载频配置规划。工程实施后, 网络运行效果良好, 符合规划预期。

4 结束语

本文介绍了关于通过现网统计参数进行PDCH能力计算的方法, 给出了业务需求预测的两种方法, 提供了关于PDCH信道、EDGE载频配置的方法。根据对现网分区域数据的统计, 可以较为准确地掌握各区域的数据业务强度与特征, 从而提高网络规划的准确度。

日常网络维护中应注意定期提取相关数据并加以分析维护, 才能为规划分析提供充分的数据支撑。

网络规划阶段仅是一个开始, 还需要在日常运维中建立观察、优化, 网络资源动态优化调整机制, 通过这些机制保障数据业务能力的稳定、优质。即要做到:

·定期检测现网网络数据业务、指标统计值;

·建立网络数据能力健康度评估体系;

·建立数据业务对语音业务影响的预警与优化调整机制。

参考文献

[1]郭兰珂, 刘康, 廖定玖.坎贝尔方法研究及在GPRS信道配置中的应用[J].电信工程技术与标准化, 2007 (3) :9-11.

数据分组 篇3

随着电信信息化业务向广度和深度的持续发展,海量数据的增长速度远远超过系统建设投资预算的增长速度。如何充分利用现有系统资源以较低系统成本满足电信业务海量数据统计分析应用指标计算的精确性和及时性,是一个迫切需要解决的问题。

目前,海量数据统计分析的方法主要采用基于海量数据总体的全量统计分析方法和增量统计分析方法。其中,海量数据全量统计分析方法根据应用指标数据周期内海量数据总体执行一次性统计分析,得到应用指标统计分析结果,其特点是依赖于应用指标数据周期对应的海量数据全部汇总后进行统计计算。而增量统计分析方法是将大数据周期的应用指标统计分析过程分解到各个小数据周期上,每一次统计分析均能得到应用指标截至该小数据周期的统计分析结果值,当应用指标在最后一个小数据周期的统计分析过程完成,则得到该大数据周期应用指标的完整统计分析结果值。增量统计分析方法的特点是可以持续累加运算,但只适应于可按时序增量累加的应用指标。

而面对海量网络数据,每天的数据量达到或超过TB级,传统的统计指标一般到日数据周期,例如访问量、用户数据。当需要统计周或月、年周期的指标时,可按时序累加的应用指标(例如业务量)则可通过增量统计方法运算得到,而周、月和年用户数指标由于不能通过日用户数指标增量累加汇总得到,而且这类应用指标对应的详单数据量特别巨大,需要较大的系统资源开销,系统建设成本投入大,当统计周期内的海量数据总体规模远远超过现有系统资源处理能力时,系统将无法支撑应用指标的统计分析计算功能。

本文提出的分组统计方法保障了能用较小系统资源代价实现海量数据分析应用指标精确计算出数,以及尽可能满足及时性要求,使得企业能大幅度节约数据仓库系统建设成本。

1 总体思路

海量数据分组统计分析算法遵循经典的计算机软件算法设计思想:化繁为简,化整为零。其总体思路基于现有系统资源负载能力(主机CPU和内存、网络带宽、磁盘I/O和存储空间等性能指标),根据负载均衡的原则,将电信业务应用指标的海量数据总体分解为适量数据单元(分组),将指标统计结果不能增量累加转化为可以增量累加,使现有系统资源对单个分组处理能力与海量业务数据总体综合处理能力达到最佳适配效能状态,即对组内数据遍历操作以及组间协调切换等效能进行优化配置。

海量数据分组统计分析适用于电信行业绝大部分应用指标计算。对于不能通过小数据周期指标值增量累加汇总得到的大数据周期应用指标,尤其适合使用分组统计分析方法解决,例如wap业务周用户数指标和月用户数指标不能通过日用户数指标增量累加汇总得到,而且这些应用指标对应的网络数据量特别巨大,在现有系统资源能力下通过一般全量统计方法无法快速出数。

2 方法描述

2.1 分组统计的基本概念

1) 数据周期

数据周期指应用指标统计分析数据对象的时间范围。包括基本数据周期(记作:T0)和非基本数据周期(记作:T)。

基本数据周期常为日数据周期(记作:T0 = {D});非基本数据周期常为周数据周期和月数据周期(记作:T = {W , M})。

根据实际情况和应用需求,基本数据周期可刻划成任意时间粒度单位,如:5分钟,30分钟,1小时,12小时,24小时(1日)等都有实际用途。

2) 总体、总体容量

总体指某数据周期应用指标对应的统计分析数据对象的全部原始数据记录,记作:ω。总体容量指某数据周期应用指标对应的总体记录数,记作:τ=F(ω)。

3) 分组

分组指将电信业务应用指标的海量数据总体分解为适量数据单元(分组),将指标统计结果不能增量累加转化为可以增量累加,使现有系统资源对单个分组处理能力与海量业务数据总体综合处理能力达到最佳适配效能状态。

每个分组一般只取与应用指标相关的数据对<key, value>。其中key 常为业务主体标识(如:用户号码),不能重复存储,且不能为空;value常为与所需要统计应用指标相关的业务量,根据应用指标统计需要允许为空。

4) 分组环境因子

分组环境因子指确定分组处理性能相关的各种因子,包括现有系统资源负载能力(主机CPU和内存,网络带宽,磁盘I/O和存储空间等性能指标),记作:ε

5) 分组业务主体、分组最大可能业务主体数

分组业务主体指电信业务的相关实施对象,包括服务者、承载者、使用者等业务主体对象,如: SP、网元、用户等。分组最大可能业务主体数指电信业务的最大可能业务主体数,包括分组最大可能用户数、分组最大可能SP数、分组最大可能网元数等,记作:δ

6) 分组容量、分组系数

分组容量指根据分组环境因子和系统负载均衡的原则,确定某数据周期应用指标对应单个分组最大可能记录数,记作:G =F(δ,ε)。

分组系数指根据电信业务最大可能业务主体数和分组容量确定的应用指标详单数据可分组数量,记作:μ=F(δ,G)。

7) 分组运算

分组运算又称为分组方法,指根据分组业务主体特征与分组系数关联运算,记作:M=F(X,μ,k)。X为分组业务主体,μ为分组系数,k 为分组方法因子系数。

我们以电信业务用户分组运算来说明:

电信业务用户分组运算根据电信业务用户号码特征与分组系数关联运算。现介绍两种主要分组方法:

(1) 分组取模法

指根据应用指标详单数据中的用户号码与分组系数进行求模分组运算。

分组取模法优点是运算速度快捷;缺点是任意导致海量业务数据分组不均衡,有可能影响分组处理性能。

(2) 分组号段法

指根据运营商用户号码归属万号段与分组系数结合考虑进行分组运算。

分组号段法优点是海量网络数据分组均衡;缺点是分组运算速度没有分组取模快捷,但从分组整体处理性能来看要优于分组取模法,建议按万号段进行分组运算。

电信业务用户分组运算,记作M = F(U, μ,k),U为用户号码,μ为分组系数,k 为分组取模法或分组号段法相关因子系数。

8) 分组类型、分组编号、分组归属

分组类型指某数据周期应用指标的业务类型维度,我们把单个业务类型维度称为原子分组类型,把多个业务类型维度组合为一个新业务类型维度称为复合分组类型。

分组编号指对各个分组确定一个唯一标识。分组编号标识命名规则:分组编号=指标类型+数据周期+分组类型+分组运算值,用“_”连接。例如:users_M_200808_gotone_100 (表示200808月全球通用户数据第100个分组)。

分组归属指根据分组运算结果将应用指标详单数据中的业务主体(如:用户号码)归属到分组编号对应的分组中。

9) 分组存储分布、分组作业进程分布

分组存储分布,根据现有系统资源负载能力(主机CPU和内存,网络带宽,磁盘I/O和存储空间等性能指标)和负载均衡原则,将分组进行合理分布到相应存储空间,可采用分组单/多文件、数据库存储。

分组作业进程分布,同理根据现有系统资源负载能力,将分组作业进程进行合理分布到相应主机或在某些主机并发运行适量分组作业进程。

10) 分组统计值、分组汇总统计值

分组统计值指对应用指标各个分组的统计结果值。分组汇总统计值指对应用指标各个分组的统计结果值进行汇总,得到应用指标全量统计精确值。

2.2 分组统计的设计架构

图1示出了海量数据分组统计分析的设计架构图,主要涉及海量数据总体、海量数据分组、分组存储分布、分组统计分析、分组汇总统计及入库等。

1) 海量数据总体

海量数据总体指某数据周期应用指标对应的海量数据对象的全部原始数据记录。

2) 海量数据分组

海量数据分组指将电信业务应用指标的海量数据总体分解为适量数据单元(分组),将指标统计结果不能增量累加转化为可以增量累加,使现有系统资源对单个分组处理能力与海量业务数据总体综合处理能力达到最佳适配效能状态。每个分组一般只取与应用指标相关的数据对<key, value>。

3) 分组存储分布

分组存储分布指根据现有系统资源负载能力(主机CPU和内存,网络带宽,磁盘I/O和存储空间等性能指标)和负载均衡原则,将分组进行合理分布到相应存储空间。

4) 分组统计分析

分组统计分析指对应用指标各个分组统计分析获取分组统计值。

5) 分组汇总统计及入库

分组汇总统计及入库指对应用指标各个分组的统计结果值进行汇总,得到应用指标分组汇总统计值并入库保存。

2.3 分组统计的流程说明

下面结合图2,以海量数据分组统计分析用例时序图说明海量数据分组统计分析的具体流程。

以海量数据分组统计分析方法来解决wap业务月用户数指标统计来举例说明,简要流程步骤介绍如下:

Step 1

确定应用指标统计分析数据周期,例如200808月份的wap业务数据。

Step 2

确定应用指标详单数据总体构成的基本数据周期,例如20080801~20080831日周期wap业务详单数据。

Step 3

估算应用指标详单数据总体容量;预估200808月份wap业务详单数据总体容量大约为900亿条记录。

Step 4

确定应用指标统计分组业务主体(如:用户数统计分析),例如200808月wap业务总用户数。

Step 5

确定应用指标详单数据分组环境因子;综合考虑数据库服务器、网路交换机、存储的处理能力,给出估算的分组环境因子。

Step 6

估算应用指标详单分组最大可能用户数,例如按8千万用户数估算分组最大可能用户数。

Step 7

估算应用指标详单分组容量,例如按40万用户数估算分组容量。

Step 8

确定应用指标详单分组系数,例如划分为200个分组。

Step 9

确定应用指标详单分组类型,例如分组类型为wap总用户(waptotal)分组。

Step 10

确定应用指标详单分组存储形态和存储分布方案,例如根据现有系统资源潜能,采用分组多文件存储,分组文件合理分布到相应文件系统。

Step 11

确定应用指标详单分组作业进程分布方案,将分组作业进程合理分布到相应主机。

Step 12

执行应用指标详单分组作业进程分布,在相应主机并发执行分组作业进程。

Step 13

执行应用指标详单分组运算,例如对详单用户号码按分组万号段法执行分组运算。

Step 14

确定应用指标详单分组编号,例如确定分组编号方法:users_M_200808_ waptotal _<分组运算值,1..200>。

Step 15

确定应用指标详单分组归属,根据分组运算结果将用户号码归属到分组编号对应分组文件中。

Step 16

执行应用指标详单分组分布存储,将分组文件分布存储到相应文件系统。

Step 17

执行应用指标分组统计,统计每个分组的wap业务用户数。

Step 18

执行应用指标分组汇总统计,汇总每个分组的wap业务用户数统计结果。

Step 19

评估应用指标分组全量统计结果,例如评估200808月份wap业务总用户数统计结果的正确性。

Step 20

将应用指标分组全量统计结果入库保存,例如将200808月份wap业务总用户数统计结果入库保存。

Step 21

清理分组处理过程临时数据。

实际实施中,建议将各类海量统计分析需求进行统一汇总、分析和分解,采用合理的分组定义和配置,充分利用系统计算能力,通过一次流程处理,实现多个或全部海量数据分析应用指标的计算出数。

3 结 语

本文提出了一种用较小系统资源代价实现海量业务数据统计分析应用指标精确出数以及尽可能满足及时性要求的方法,不仅挖掘提升现有系统资源价值,节约系统建设成本,还满足企业运营分析决策支撑能力。同时,该方法在金融、电子商务、互联网业务等领域都可以进行广泛应用,最大限度地挖掘系统处理能力,满足各类数据统计分析需求。

摘要:结合电信行业海量数据的特点,提出一种分组统计方法,充分利用有限的、较低的系统资源成本,满足海量数据统计分析应用指标计算的精确性和及时性,特别是通过传统全量或增量方法无法快速出数的指标。采用合适的分组,该方法也可以应用于互联网、金融、电子商务等其他行业。

关键词:海量数据,分组统计,增量统计

参考文献

[1]庄楚强,何春雄.应用数理统计基础[M].华南理工大学出版社,2006.

[2]陆嘉恒.分布式系统及云计算概论[M].清华大学出版社,2011.

[3]吕攀,余芳.一种通用聚合算法在统计工作中的应用研究[J].计算机技术与发展,2007,17(1):219-221.

数据检索中的分组统计分析 篇4

关键词:GROUP BY子句,COMPUTE BY子句,pubs数据库

SQL(Structured Query Language)是结构化查询语言的英文缩写,它是关系型数据库系统的最重要的查询语言。

许多数据库系统开发公司都根据自己的实际需要在SQL标准的基础上进行不同程度的扩充,形成各自数据库系统查询语言。Transact_SQL就是其中一种。它是Microsoft公司的SQL Server数据库应用中心所扩充的。

SQL Server的数据检索方法,主要包括SELECT子句、FROM子句、WHERE子句、ORDER BY子句、GROUP BY子句、COMPUTE子句、HAVING子句等内容。

其中,GROUP BY子句、COMPUTE BY子句都可以对数据表分组,实现分组统计功能。但是,在实际应用中,用户总是不能正确理解两个子句,并且混淆两个子句,不能发挥分组统计的实际作用。笔者经过研究,用熟了两个子句。下面通过具体实例进行分析。

1 GROUP BY子句

将表按照GROUP BY后边的表达式分成若干组,统计每一组的信息。如果SELECT子句

参考文献

[1]罗运模,王珊等.SQL Server数据库系统基础[M].北京:高等教育出版社,2002.

数据分组 篇5

随着移动网络数据业务的快速发展,业务的全IP化已经成为未来通信网络的发展趋势,进而推动了传送网络的分组化及分组传送网技术的发展。根据采用不同的分组传送网技术,将目前主流的分组传送网技术分为PTN[1][2](Packet Transport Network)和IP RAN[3](IP RadioAccess Network),其中PTN技术最为成熟,已被中国移动和中国电信大规模部署。

某运行商为了满足未来全IP业务的发展需求,在全国322个地市全面部署了分组传送网(3G回传网+全业务承载网络模型)[3,4],以解决3G、LTE、大客户等业务的承载需求。本文针对某运行商D地市分公司分组传送网的流量情况进行深入分析,并根据分析结果提出后期建设的相关建议。

本文后续部分内容安排如下:第2节介绍分组流量分析模型和相关定义;第4节详细地分析了D地市分组传送网的流量情况,并给出D地市分组传送网的目标架构;最后第5节总结全文并简介未来工作。

2 网络分析模型与相关定义

2.1 网络分析模型

本次分组传送网的流量分析过程中,我们选取了某运行商下属的北方某地市分公司作为此次研究对象。为了研究与分析的方便,我们建立如下分组传送网的流量分析模型,具体包括核心层、汇聚层、接入层,具体如图1。

定义1环流量收敛比是衡量分组传送网设备的流量汇聚能力,具体如下:

假设环A上由站点P1、P2…Pn组成,环A上站点P1的峰值流量为:

其中j表示环A上第j个站点,i表示第j个站点在i时刻的分组流量。

那么环A上所有站点的峰值流量为:

若每个站点j配置的带宽为K,则该环上的可用最大峰值流量为FMAX(A):

则环A的流量收敛比β为:

定义2端口利用率是反应当前设备配置的带宽使用情况,具体如下:

假设设备A配置了一个端口E(端口E的速率为VB),在分组流量统计过程中,采集到端口E的峰值流量为FMAX(E),则端口B的利用率γ为:

2.2 假设与问题描述

为了便于研究,我们针对分组传送网,给出如下假设:

假设1目前用户行为下载流量大于上传流量, 如图1。若无特别说明分析场景,此次分析的流量均指用户下载流量[5,6]。

假设2分组传送网中每台分组设备的汇聚能力均相同,且均能进行正常的数据收发。

根据上述假设,我们针对某运行商北方某个地市分公司(暂定为D)分组传送网的分组流量情况进行分析。

3 基于分组传送网的流量分析与研究

3.1 D地市分组传送网现状

地市D自从2011年开始在全市部署,由城区至县乡逐步达到分组设备全覆盖,采用核心层、汇聚层、接入层的三层网络结构,具体如下:

(1)区县汇聚层面:建立以区县为单位的二层汇聚网络,收敛整个区县内的3G业务及后期LTE业务。

(2)市区汇聚层面:通过2个汇聚环收敛城区的3G和后期的LTE业务。

(3)区县和市区的所有业务最终通过核心设备上联RNC。

目前该地市分公司以中兴ZXCTN系列的分组设备来组网,现已建设核心层设备7台,区域汇聚设备9台,汇聚设备54台。

由图2可以看出,该地市虽然前期进行了分组传送网的建设,并形成了三层网络架构,但是,仍存在以下问题:

(1)对核心汇聚设备盲目新建扩容,没有明确的目标网络架构;

(2)对现有分组传送网负荷情况仍采用原MSTP方式统计,导致分组传送网络负荷统计虚高;

(3)边缘层至核心层数据传送采用端到端透明传送,没有做任何收敛;

(4)核心汇聚层设备存在冗余,网络结构不清晰。

为了解决以上存在问题,我们通过对现网流量分析,掌握网络实际负荷,统计流量收敛比,优化目标网络架构。

3.2 分析对象说明

本次主要以核心汇聚节点为重点进行分析,共计采集分析了36个核心汇聚环、7个接入环,共计70个核心汇聚节点、28个接入网元、27个核心端口、94个汇聚端口、35个接入层端口11月25日全天的15分钟性能数据,对比了各个参考点流量高峰情况。

3.3 数据来源统计表

本次调研数据包括通过传输设备厂家网管系统中采集的目标网元配置信息报表、网元连接信息报表、目标网元指定端口的收发数据报表以及通过无线网管系统收集目标网元对应的基站收发数据流量报表,具体如表1。

3.4 分析结果说明

现有分组网管系统可取得数据的最小颗粒度为15分钟,因为本次所有网元都是按照全天15分钟端口收发字节数来统计的,为了使数据能反映出一般规律,我们依次取了工作日和法定节假日的数据。

(1)RNC侧流量分析

现有的中兴网管系统,无法提取出RNC侧端口的流量信息,同时RNC与核心层之间的流量未做收敛,因此本次通过统计核心层至RNC侧的流量,以分析RNC流量的情况。从表2中可以看出核心侧下行峰值总流量约为515.74Mbit/s,具体各端口的流量情况如表2。

(2)汇聚环至核心层流量分析

地市D共有25个汇聚环,汇聚层至核心层(区域汇聚设备)峰值总流量为736.5Mbit/s,其中最大峰值速率为白沟汇聚环的116.98Mbit/s,带宽占用率为11.7%。汇聚环路峰值流量TOP10环路,具体如表3。

(3)接入环至汇聚层流量分析

统计汇聚设备与各个接入环下行链路峰值流量。以涿州和蠡县为例,涿州共有7个接入环,环路端口峰值流量统计报表,如表4。

(4)NodeB侧与接入层传输设备流量分析

在此次分析的过程中,我们发现传输侧统计出的15分钟流量峰值与无线侧提供的瞬时峰值流量(基站话统忙时1小时的流量)数据有较大差异。其中差距最大的为贾家庄,传输侧峰值流量为无线侧瞬时峰值流量的48.87倍,最小的为九四化工的0.99倍。以下是部分基站对比数据统计信息,具体如表5。

基站侧与传输设备侧下行峰值流量存在较大差异,一方面是因为二者统计颗粒度不一致,另一方面传输侧除了承载基站类业务外,还承载了城域网业务。

4 结论

根据上述分析结果,可以得出如下结论

(1)从分析的结果可以看出,现有核心层、汇聚层的带宽利用率较低,故可以满足后期LTE对传输的需求。

(2) 根据核心至RNC侧下行流量及汇聚至核心层流量,可以得出核心汇聚层的收敛比约为1:4,符合集团的指导意见。

(3)从图2中可以看出,目前该地市的,核心汇聚层设备冗余过度,网络架构不清晰。依据集团指导意见,对该地市的核心汇聚层进行精简,核减市区调度环,得出该地市分组传送网的目标架构图,如图3。

5 结束语

数据分组 篇6

1 概述

传统下载方式的时延很大,因为音视频文件一般都较大,需要的存储容量也较大,同时受到网络带宽的限制,下载一个文件很耗时。根据文件的大小,可能往往需要几分钟甚至几个小时。因为internet是以包为单位进行异步传输的,因此多媒体数据在传输中要被分解成许多包,由于网络传输的不稳定性,各个包选择的路由不同,所以到达客户端的时间次序可能发生改变,甚至产生丢包的现象。为此,必须采用缓存技术来纠正由于数据到达次序发生改变而产生的混乱状况,利用缓存对到达的数据包进行正确排序,从而使视音频数据能连续正确地播放。缓存中存储的是某一段时间内的数据,数据在缓存中存放的时间是暂时的,缓存中的数据也是动态的,不断更新的。流媒体在播放时不断读取缓存中的数据进行播放,播放完后该数据便被立即清除,新的数据将存入到缓存中。

本文主要介绍流媒体传输过程中的分组交换内容,并通过万兆以太接口卡可编程器件(Field-Programmable Gate Array,FPGA)的设计,说明数据包在物理层和链路层的传输转换方式。

2 设计思路

本设计为分组通信设备的接口卡,在系统中通过系统总线与业务处理单元相连,对外提供万兆以太网光口。接口卡专用标准产品(Application Specific Standard Parts,ASSP)主要实现以太格式物理层(Physical Layer,PHY)和媒介访问控制(Media Access Control,MAC)功能,可编程逻辑器件FPGA实现流媒体传输报文的QOS功能,线路和系统接口转换。本设计的主要芯片连接关系如图1所示。

在系统的上行侧(ASSP业务处理单元),FPGA完成包缓存、包分类、优先级调度,以及line bus到system bus总线的转换;在系统的下行侧(业务处理单元ASSP),FPGA完成包缓存以及system bus总线到line bus的转换。

本设计FPGA的上行要求线路控制模块能以整包的形式接收ASSP发送的数据,存入FPGA内部缓冲区,并能够正确按照缓冲区的存储状态向ASSP反馈流控信息。由于响应流控的问题,要求上行缓冲区在生成流控的门限基础上有足够的容量继续接收一个最大包长的整包。在系统发送侧,要求能够按照网络处理器的要求发送数据Burst并正确响应网络处理器的流控。下行要求系统接收侧能够正确接收网络处理器发送的Burst并存在缓冲区内,而且能够根据缓冲区的状态准确地向网络处理器反馈流控信息。下行线路接口控制模块能够在缓冲区存有整包的情况下向ASSP发送整包数据,并能够正确响应ASSP送来的流控信号。

FPGA在单板上和ASSP连接,并通过接插件和业务处理单元连接。FPGA主要实现线路与系统总线的转换以及状态、统计信息的读取等。功能结构主要包括线路侧接口的控制、系统侧接口的控制、线路和系统的桥接逻辑,流控逻辑等。FPGA还需要提供了FPGA内部寄存器的配置与状态读取、时钟复位管理功能、时钟检测、包统计、包校验等功能。

3 关键模块实现方案

3.1 线路接口控制逻辑

此模块提供线路接口的视频逻辑,在万兆以太网接口卡中,FPGA和ASSP的线路接口通常是以太网连接单元接口(Ethernet Attachment Unit Interface,XAUI)接口。FPGA需要实现以太PCS和MAC功能。在接收用户端完成MAC功能,识别二层报文发送给下级模块。在发送用户端连接,按照MAC的要求发出申请并接收应答,向MAC的用户接口发送数据。

3.2 报文分类接口控制

此模块按照万兆MAC的用户接口时序正确接收数据,数据的接收以整包模式接收完整的XAUI frame。对于接收的数据,FPGA根据报文的类型进行二层报文的提取,并区分高低两个优先级将数据及一些控制信息写入上行两个FIFO中。

具体的报文提取方法为:提供n个可配置的比较寄存器供驱动配置高优先级报文类型,同时提供一个协议类型偏移配置寄存器。FPGA根据地址偏移从报文某处提取报文类型,然后与驱动配置的类型相匹配。如果匹配,则为高优先级报文,进高优先级队列,否则为低优先级报文,进低优先级队列。

3.3 缓存和调度模块

此模块提供数据及控制信息的缓存,根据两侧数据接口的位宽以及所选器件Block Ram的资源情况,设定每套转换的缓存由低优先级数据先进先出队列(First Input First Output,FIFO)和高优先级二层报文FIFO构成。在这个模块中存在一个计数子模块,计算缓存中存储的数据包个数。当缓存中至少存储了一个完整的数据包后再开始缓存侧的读取,将报文发送到接口。

高低优先级buffer调度采用严格优先级调度方式,高优先级队列有完整报文就优先调度出队列,在流媒体中往往语音和视频等实时业务都配置为高优先级队列;低优先级队列在高优先级没有完整报文时才允许调度,低优先级队列在流媒体中往往缓存高带宽的下载业务。高低优先级缓存需要响应发送侧流控模块的流控,流控Xoff时停止对缓存的调度,流控Xon时开始对缓存进行调度。同时根据缓存设置的高低水线,分别作为流控信号的生成和解除条件。

3.4 系统用户接口控制模块

此模块的功能是实现和业务处理单元互连的系统接口,上行完成报文到系统接口的报文格式转换,下行根据下行缓存的空满状态,将数据和控制信息写入下行缓存中。除此之外,下行接口模块还提供错误处理及报文统计计数,所有的错误包均由FPGA丢弃。

4 结语

线路接口与ASSP连接的XAUI接口,接口仿真波形如图2所示。

系统接口与业务处理单元连接的并行总线SPI4.2接口。图3是对该接口的仿真波形示意。

本设计基于FPGA实现了ASSP到业务处理单元接口转换,并完成报文检测和优先级调度的设计,是视频数据包在物理层、链路层传输转换的可行方法,为使用实现流媒体技术的分组交换的工程设计提供了有益的帮助。

参考文献

[1]周梦然.CLPD/FPGA的开发与应用[M].徐州:中国矿业大学出版社,2007.

[2]王金明.Verilog HDL程序设计教程[M].北京:人民邮电出版社,2004.

数据分组 篇7

Inte rne t的飞速发展以及随之而来的网络信息时代要求第三代移动通信系统能够提供多媒体业务。未来的移动终端不仅能够传送语音, 还要进行网络浏览、收发文件和电子邮件, 可视会话以及访问多媒体数据库等等。这些多媒体业务意味着第三代移动通信系统能够满足不同速率 (从低速话音业务到高速图像业务) 、不同时延 (实时业务及非实时业务) 以及不同的业务质量的要求 (如时延, 抖动和误码率) 。

第三代移动通信系统分为FDD和TDD两种结构, 其中FDD划分为WCDMA和CDMA2000两种协议体系。为了适应3G无线环境下分组数据业务的发展, 这两个协议的标准组织3GPP和3GPP2对业务的划分达成了一致。3GPP和3GPP2协议[1, 2]根据对时延的敏感程度不同, 将业务分成4个Qo S等级:会话类、交互类、流类、后台类。协议[3]规定, 除了会话类业务对时延很敏感, 采用电路交换外, 其他类业务都可以采用分组交换。这不仅具有上下行速率不对称的特点, 而且资源统计能复用, 系统利用率也高。

第三代移动通信系统中的分组业务源模型不仅极大地影响到系统性能评估结果的准确程度, 而且也是规划承载这些业务的网络的基础。

1 主要特性与业务模型

通常无线分组数据业务的业务源模型包括两部分:用户行为的到达过程和具体的业务行为过程。业务行为过程是和具体业务密切相关的, 而到达过程对于不同的业务是相同的, 通常用到达间隔的分布来描述。最常使用的到达过程是到达间隔为负指数分布的泊松过程。

3GPP欧洲电信标准组织ETSI[4]给出了描述3G无线移动网络中分组业务源的统一参考模型, 如图1所示, 其中包括的参数有:会话达到过程、每个会话中的分组呼叫数目、分组呼叫之间的间隔、一个分组呼叫中的数据报数、数据报之间的到达时间间隔、数据报的大小。该业务源模型针对这些参数分别给出对应的分布函数。

无线分组业务源模型的特征参数如下。

(1) 会话到达过程a) 是一个Possion过程;

b) 不同的业务有各自不同的随机过程参数;

c) 只决定业务呼叫起始时间, 而与呼叫结束无关。

(2) 每个会话中的分组呼叫数目 (Npc) a) 服从几何分布;

(3) 分组呼叫之间的间隔 (Dpc)

d) 当分组呼叫中只有一个分组时, 不需要该参数。

(6) 数据报的大小 (Sd)

a) 服从截断的Pare to分布 (Pare to dis tributionw ith cut-off) ;

b) 标准Pare to分布定义如下:

c) 数据报分组大小定义为:

其中, P为标准Pareto分布 (α=1.1, k=81.5byte) 的随机变量。m为最大允许的分组大小 (m=6666byte) 。

d) 数据报分组大小的概率密度为:

其中, β是x>m的概率,

其中a=1.1, k=81.5byte, 所以μn=480byte

3GPP2[5]也在CDMA2000-1x EV (DV) 系统中给出了分组业务的模型, 与ETSI基本类似。但是不同的分组业务也有各自不同的特性, 业务模型也随之不同, 甚至不同的HTTP版本和浏览器都会影响网页下载方式, 从而导致不同的业务模型出现。下面将逐个分析各类业务的特性和模型参数。

1.1 Internet业务——交互类

无线Internet业务主要包括WWW、Email、FTP等。另外还有专门用于无线环境的WAP业务。Email、FTP也可归于后台类业务, 但这并不影响下面的分析。

1.1.1 WWW业务

通常情况下, 一个网页中的一个联接包括一个或多个URL请求。当一个用户发送一个URL请求时, WWW服务器执行一个用户端程序来给用户产生响应。用户端程序可能根据页面的内容产生附加的请求, 例如页面内的图片等。这些附加的请求将建立新到用户的TCP联接, 这些联接可能相互交错并行产生, 也可能顺序产生, 这与HTTP的版本有关。与URL相关的请求完成后, 用户将有一段时间来浏览该网页, 然后再发送一个新的请求, 所以, WWW业务到达过程不是简单的Pois s on到达过程, 可以用一种改进的ON/OFF模型来描述[6], 如图2所示。

图2中, Active ON代表页面单个文件的下载, Active OFF代表下载组成一个页面的不同文件之间较短的时间间隔, Inactive OFF代表用户下载完一个页面后的浏览时间。其中Active ON时长与所下载的文件大小有关, 而文件大小服从Pareto分布。Active OFF时长服从We ibull分布, Inactive OFF时长服从Pare to分布。

1.1.2 E-m ail业务

通常情况下, 当用户运行其Email软件登录到从服务器上删除。每下载一个Email, 用户要浏览E-mail的内容。然后可能回复该E-m ail, 也可能下载下一个Em ail。单个用户的Em ail流量可以用ON/OFF模型来描述[6], 如图3所示。

图3中, ON代表信件的下载时长 (其分布参见文献[3]) ;OFF代表一个信件下载完毕但下一个信件开始下载之间的间隔, 也就是用户阅读信件的时间, 它服从Pareto分布。

1.1.3 FTP业务

FTP类业务的模型相对比较简单, 其过程可以概括为:用户发送带用指定目标文件的起始请求数据分组, 一旦请求确认, 以后的文件传输就无需确认, 有时在获取文件之前, 用户经常会产生一些路径或目录查询的分组。其业务源模型和E-mail的模型类似, 单个FTP用户所产生的流量也服从ON/OFF模型。每个会话通常包括一组文件传输, 每个文件之间的传输间隔为用户阅读时间。图4给出了FTP类业务的参考模型。

通常建模需要以下参数:每次FTP会话间隔的分布、用户在一次会话中下载文件大小的分布以及下载文件数的分布、一次会话中前后2个文件之间的用户阅读时间的分布、文件传输中各分组的长度及分组传输的间隔时间分布。

1.1.4 WAP业务

目前GPRSWAP应用经过无线接入网的电路域和分组域, 由WAP网关接入Inte rne t。未来3GWAP应用只在分组域传输, 图5给出WAP应用的网络参考模型, 便于我们分析WAP业务的模型参数。

移动终端发起的WAP请求可以看作是固定长度的, 引起WAP服务器发起一个间隔服从负指数分布的响应。该响应包括若干对象, 对象数目服从几何分布, 对象间的时间间隔服从负指数分布。在接收到最后一个对象, 开始服从负指数分布的阅读间隔。当WAP浏览器发起一个新的请求, 阅读间隔结束。因此, WAP业务源的建模通常需要统计WML (无线标记语言) 文件 (注:就是上面提到的对象) , 从中找到以下参数:WML文件的平均大小和分布、一个WML文件中包括的数据分组的平均个数和分布、数据分组的平均大小以及数据分组的发送间隔的分布和用户阅读的时间间隔的分布。

1.2 视频流业务——流类

视频流业务将是3G应用中的一项重要业务。移动用户可以通过无线接入网接入Internet上的视频服务器。这类业务的典型特征是没有语音业务那么严格的时延限制。接收端的缓存器结构保证了视频流业务在一定范围内具有一致的时延和时延抖动, 这由缓存器的初始时延决定, 通常是几秒的间隔。

3G标准已经采纳H.263和MPEG4协议用于视频, 由于支持有效的编码压缩技术, 可以保证低比特速率的视频接入, 从而适用于无线接入环境。图6给出无线网络环境下视频流业务的参考模型。这是从基站到移动终端方向观察到的视频流业务的稳态模型, 忽略了呼叫建立的时延。

一次视频流的会话过程就是指一次呼叫过程, 每个视频帧按一定速率在确定的时刻T到达, 其中每帧数据都包括固定数目的片段 (slice) , 每个片段作为一个分组包传输, 通常分组包长服从截断的Pare to分布。如图6所示视频源编码器在分组之间引入了编码时延Dc, 而TB是移动终端缓冲窗的大小, 用来保证视频流的连续播放, 它与业务模型没有直接关系, 主要用于监督视频流的实时性。因而对于视频流业务源进行建模, 需要考虑的主要参数有:视频流呼叫的发起时刻和间隔、帧的到达间隔时间、各帧的大小、帧中所包含的片段/分组的数目、分组大小和传输的间隔时间。

1.3 短信 (SMS) 业务——后台类

短信业务属于后台类业务, 相对比较简单, 它所产生的流量是由固定尺度的数据报组成 (不超过160个字符) , 描述它的参数主要有:每次发送的数据报个数, 两次发送之间的时间间隔。

2 无线分组业务建模的方法与流程

通常业务建模除了需要分析业务源特性, 还要借助合理的分析方法与建模流程。通过直接测量收集网络数据进行的分析、数学理论分析和离散事件仿真分析是业务源建模的3种主要方法。

(1) 基于实际测量的方法

研究任何业务特性的最好方法是在一个正常运营的网络上去研究实际的业务流量, 收集建模所需的参数, 但是由于客观条件限制, 并不是总有这样的机会。

实际测量可以得到精确的业务模型, 但也有明显的缺点。直接测量不但耗时多, 开支大, 而且只能针对现有的特定网络进行分析。在现有网络基础上进行测量, 关于网络性能的一些假设情况不容易定位, 因为模拟假设情况而对网络进行物理上的改动可能会危及网络的正常运行, 所以这种方法只适用于对网络全局性能影响不大的局域网内部。

(2) 基于数学理论分析的方法

借鉴公开的与所研究的业务相类似的数据应用的研究成果, 根据不同的业务需求与网络应用环境来调整参数, 对所有业务都适用, 尤其适用于研究新业务的模型。但是, 总的来说, 开发一个可以控制的理论模型需要很多严格的假设, 并且在通常情况下, 很难求得理论模型的精确解。

(3) 基于仿真分析的方法

通过网络仿真, 可以比较不同网络对同一业务模型的影响, 而且可以在仿真结果中得到业务源汇聚后的流量特性, 也可以验证理论分析得出的模型的正确性。这种方法适用所有业务, 尤其对于尚未开展的无线数据业务进行建模, 这是不可多得的方法。但也存在缺陷, 仿真分析需要借助仿真平台, 完成网络模块的搭建, 不仅耗时, 而且加入了人为的假设。

以上3种方法都存在各自的局限性, 实际应用中往往采用2种和3种方法结合使用, 才能得到比较精确客观的模型。通常采用的建模流程如图7所示。

对于3G无线分组数据业务的建模, 可以在目前已有模型的基础上, 利用仿真工具 (OPNET, NS, BONes等) 对其参数进行修正[7]。仿真过程中首先需要建立UMTS的网络模型 (图8) , 才能分析无线环境的特性和无线应用的Qo S参数对业务模型的影响。图8阴影部分标识的是UMTS分组域部分, 是分组数据业务的网络环境。

仿真环境的开发还需要了解每个网络节点协议栈的构成, 图9是UMTS面向分组交换域的用户平面协议栈, 图9中标识了上行分组数据的流向。只有建立完备的协议栈结构才能将真实网络协议对数据流量的影响考虑进去, 这将关系到后面进行数据拟合时, 对业务模型修正的正确与否。

系统仿真模型不仅要求建立一个业务生成模型和网络体系, 更重要的是要在网络仿真环境下验证该模型产生的数据源与实际业务源是否具有相同的统计特征。

在整个仿真建模过程中, 首先需要建立与实际网络环境相近的仿真条件, 例如无线信道的衰落模型、时延特性以及网络结构 (其中包括网络拓扑、单小区的用户数和用户业务类型) ;其次, 需要选取正确的业务模型。前一节已经给出了若干典型无线分组业务的模型, 这将直接影响下一步的模型参数调整。图10给出了单小区10个用户纯后台类业务条件下收集的流量结果, 这是从基站到移动终端下行方向的流量, 横坐标是仿真时间, 纵坐标是数据流量, 单位bit/s。如果仿真收集的结果与实际网络采集的结果在一定误差范围内, 说明原先建立的业务模型是有效的, 否则就需要重新调整业务生成模型的分布和参数, 直到和实际业务源的统计特性相吻合。如果理论模型选取的不合适, 将直接影响数据拟合过程, 造成仿真结果与实际数据相差太大, 模型的调整也变得更复杂。

3 结论

目前国内外许多有关3G的研究工作都围绕在分组数据业务, 3GPP和3GPP2两大标准组织也在积极从事这方面的研究。业务源模型建立的准确与否, 直接关系到3G系统性能分析的准确程度。因此, 本文对3G无线分组数据业务的特性进行了分析, 提出了一种用于无线分组业务建模的分析流程与建模方法, 这对今后3G无线资源管理和流量控制都具有重要价值。

摘要:业务源模型建立的准确与否直接关系到3G系统性能分析的准确度, 因此, 借鉴了现有网络已有的业务模型;对未来3G无线分组数据业务的特性进行了分析, 给出了若干典型的无线分组数据业务模型。最后针对业务源建模的相关技术进行了探讨, 提出了一种用于无线分组业务建模的分析流程与建模方法, 对实际网络的业务规划具有重要价值。

上一篇:网络课程建设技术要求下一篇:连续弯梁桥