属性特征

2024-08-07

属性特征（通用7篇）

属性特征篇1

目前, 由于我国现行立法缺乏一个完善的住宅缺陷责任体系, 导致实践中住宅缺陷责任性质认定不清, 责任方式适用不明, 责任期间混淆乱用。在住宅缺陷责任问题上, 立法上的缺位空白与司法上的力有不逮, 对于目前正处于维权艰难道路上跋涉的诸多住宅业主而言无疑是雪上加霜。然而, 我国土地资源紧缺, 人口密集的现状, 决定了今后住宅市场上的产品仍主要以集合式住宅为主, 而住宅所具有的价值大、投资周期长、问题潜在期长、合理使用寿命长等诸多特性与我国住宅整体质量水平下降之间的矛盾势必进一步加深。可以预见, 在未来一段时间内, 住宅缺陷问题及由此导致的侵权事件将可能呈现井喷态势。因此, 无论是着眼于长远的立法解决, 或是聚焦于眼前的司法适用, 都有必要为住宅缺陷责任的构建寻求一个适合的理论框架, 而首要者是对其责任属性给予明确定位。

一、住宅瑕疵担保责任

长期以来, 我国立法与学理普遍主张, 开发商就住宅存在之缺陷向住宅买受人所承担之责任系质量保修责任。对于保修期限和保修范围内出现的住宅缺陷, 开发商应承担相应的保修义务, 并对造成的损失承担赔偿责任。然而, 这种认识实际上混淆了责任性质与责任承担方式。对于大部分住宅缺陷问题而言, 开发商所承担的主要责任的确是维修、修复义务, 但是, 除此以外, 开发商所交付的住宅还可能存在其他可能足以威胁住宅结构性安全的严重缺陷, 于此情形下开发商所承担的责任远不是维修、修复义务这么简单。因此, 保修责任不过是开发商在住宅出现缺陷时向住宅买受人承担责任的一种方式, 是开发商违反了合同项下负有向住宅买受人交付符合质量约定之住宅的义务后应予承担的法律后果。这种概念上的混淆, 正是造成我国长期以来在住宅缺陷责任问题上对责任性质认定不清的深层次原因。

在对大陆法系及英美法系相关国家关于住宅缺陷责任的立法经验和司法判例进行充分研究的基础上, 笔者认为, 开发商就交付之住宅对住宅买受人所应承担之责任, 应当是一种物的瑕疵担保责任, 确切地说, 就是住宅瑕疵担保责任。所谓住宅瑕疵担保责任, 应该是指住宅工程的参加者亦即住宅工程的开发商、建筑商、设计单位、勘察单位、监理单位、分包单位等自住宅交付之日起, 向住宅买受人 (或其权利继受者) 就住宅工程之缺陷在担保责任存续期限内承担相应的担保责任。

二、住宅瑕疵担保责任之法律特征

(一) 住宅瑕疵担保责任是一种担保责任

担保责任作为债务人违反了“给付无瑕疵的标的的义务”所产生的责任, 大陆法系普遍称之为“瑕疵担保责任”, 英美法系则称之为“担保责任”。担保责任最初作为一种合同责任系受“契约当事人原则”的限制, 随着保护消费者权益呼声日益高涨, 大陆法系和英美法系不约而同地选择对该原则进行适当的突破以回应制度发展的当代需求, 在纵向上突破了对双方当事人须有直接合同关系的限制, 在横向上则将由于缺陷产品而遭到损失的一切相关方系数囊括, 进而形成了适用于动产缺陷的产品责任理论。与此同时, 各国针对其产品责任对不动产缺陷并无适用之余地的现状, 为解决建筑物尤其是住宅缺陷之问题, 亦纷纷将传统上的担保责任理论通过立法改革或司法判例进行适当改造或突破, 以使其适用于住宅缺陷之场合。从各国之立法例或司法判例来看, 对住宅缺陷之担保责任的认定有渐向产品责任靠拢或发展的趋势, 所以日本的《住宅品质确保促进法》亦被媒体称之为住宅版的“产品责任法”。据此, 笔者认为, 住宅瑕疵担保责任的实质是一种担保责任, 是住宅工程参加者违反了应向住宅业主交付无瑕疵的住宅的义务时所产生的责任, 当然, 从我国合同法的角度而言, 其同时亦是一种特殊性质的违约责任。

(二) 住宅瑕疵担保责任是一定期间内所承担的责任

在厘清住宅瑕疵担保责任性质的基础上, 此前在学理上或立法上对于住宅质量责任期间上的混乱与困惑自然迎难而解。通过对传统物的瑕疵担保责任之理论分析及各国立法例之考察, 我们不难发现, 住宅瑕疵担保责任是责任方对权利方在一定期限内所承担之责任, 即瑕疵担保责任期间。责任期间的长短, 因担保之对象不同而有所区别。例如, 各国对于影响住宅结构安全性或坚固性的部位普遍要求责任方承担10年的责任, 而对于影响住宅运作之良好或其他功能的部位则普遍要求责任方承担2-5年的责任。期间届满后, 责任方之责任自然解除, 权利方再无向责任方主张责任承担之权利。至于学理上此前对我国住宅质量责任所进行的划分 (即, 缺陷责任期、质量保修期、损害赔偿期) , 确切地说, 其实质是责任方就其交付之住宅对权利方所承担的担保责任的责任期间, 只是根据缺陷程度之不同而适用内容不同的责任方式而已。

住宅瑕疵担保责任是在一定期间内所承担的责任, 对于该期间内由于住宅缺陷之存在, 权利方有权根据缺陷程度之差别要求责任方承担相应的责任, 如, 发现一般缺陷时可要求责任方承担维修、保修责任;若由于缺陷之存在对权利方造成任何人身或财产之损害, 则有权据此要求承担赔偿责任;若该等缺陷严重到再无修复之可能或足以危及权利方人身或财产之安全导致合同目的根本无法实现, 还可以行使合同解除权。

(三) 住宅瑕疵担保责任是住宅工程参加者向住宅业主所承担的责任

通过对我国住宅缺陷责任之立法考察, 我国当前在住宅缺陷责任主体上认定狭隘且适用混乱的弊端显而易见。这种弊端, 尤其在以项目公司作为住宅开发主体的运作模式下显得更为突出。要革除这一制度性弊端, 如果仅将眼光局限于双方签订的合同框架内, 则当然力不从心。这一点, 法国的立法经验值得借鉴。事实上, 法国的建筑者责任是可转移的瑕疵担保责任理论对不动产适用的结果, 而可转移的瑕疵担保责任理论就是顺应法国60年代消费者权益保护潮流而对传统瑕疵担保责任进行改革的产物。通过法国民法典1792条对买受人直接担保诉权的确认, 使买受人在建筑物的买卖关系中, 获得了第1792条及相关条款所赋予的工程业主对建筑者所享有的全部权利。因此, 笔者认为, 我国在构建住宅瑕疵担保责任理论框架时, 应顺应瑕疵担保责任之理论改革潮流, 对合同相对性原则进行适当突破。在责任主体上, 住宅瑕疵担保责任的责任主体不仅指住宅的开发商, 而且应包括住宅的建筑商 (总包单位) 、分包商、设计单位、勘察单位、监理单位等诸多住宅工程参加者。住宅开发商对住宅缺陷承担全部担保责任, 而其他住宅工程参加者就其所提供之产品或服务所存在之缺陷承担相应的担保责任。在权利主体上, 住宅瑕疵担保责任的权利主体不仅包括住宅的原始买受人, 而且应包括该住宅的任何权利继受者, 换言之, 住宅瑕疵担保责任是对不动产所有权的法律保护, 业主权利的任何继受人均享有该项权利。

(四) 住宅瑕疵担保责任是强制性责任

事实上, 我国现行立法对于质量保修责任亦带有强制性的色彩。而纵观各国对于住宅瑕疵担保责任之立法例, 日本、法国均以立法明确住宅瑕疵担保责任之强制性。强制性主要表现在两个方面:一方面, 该责任不以当事人之特约予以减轻或免除, 任何关于减轻或免除责任的条款, 无论是对于责任期间的缩短, 责任范围的限缩, 或是责任承担方式的减轻, 均为无效条款。另一方面, 该责任往往与强制性的保险责任相配套, 住宅瑕疵担保责任在法国等国家之所以收效显著, 配套的强制保险制度作为住宅瑕疵担保责任之保障是关键性因素。我国应延续此前在质量保修责任上带有强制性要求的做法, 明确住宅瑕疵担保责任之强制性, 明令禁止当事人以任何方式减轻或免除该责任。在条件成熟的时候, 完善及建立我国的住宅性能认定制度及住宅缺陷强制保险制度, 以使住宅瑕疵担保责任之强制性得以有效落实。

注释

11 .相关研究内容, 详见笔者之研究成果:《美国住宅缺陷默示担保制度及其对中国的启示》, 《行政与法》2012年4月;《英国住宅缺陷的默示担保制度研究》, 《理论界》2012年9月。

22 .齐晓琨著:《德国新、旧债法比较研究——观念的转变和立法技术的提升》, 法律出版社2006年版, 第272页。

新的社会阶层一般特征和属性研究篇2

关键词：新的社会阶层,特征,属性

一、新的社会阶层的一般特征

新的社会阶层尽管主要是由工人阶级、农民阶级、知识分子阶层中分化融合后形成的, 但又与工人阶级、农民阶级和知识分子阶层有所区别, 表现出自身的一些特点。这六类新的社会阶层成员尽管在财产状况、文化层次、社会地位、社会职业上有所区别, 但在共同的社会经济背景下, 逐渐形成了多样性的群体特征。

1. 社会性特征

新的社会阶层作为一个群体, 它是社会转型的产物, 是社会结构深刻变化的结果, 是社会不断演化和进步的基础, 具有社会性特征。一是新的社会阶层来源于社会各阶层和各领域。个体户大多来源于工人、农民、知识分子、干部、刚毕业的学生、退伍军人等。二是新的社会阶层具有社会人性质。主要集中在非公有制经济领域内, 具有明显的“社会人”特征。

2. 流动性特征

一是层级流动性。新的社会阶层在职业和身份上具有很大的流动性, 他们经常从一个公司转向另一个公司, 其身份也就从一个阶层转向另一个阶层。二是地域流动性。地域流动性对于自主择业分子最为明显。他们没有固定的单位, 工作地点和居住地点也可以随时改变。哪里能够充分发挥才能, 获得最大效益, 他们就可能出现在哪里。

3. 自主性特征

一是产生和发展的自主性。市场经济时代是一个个性张扬和发展的时代, 新的社会阶层作为市场经济发展的产物, 其产生是个性化的, 是自主的。二是对社会和国家的较低依赖性。新的社会阶层往往是在党政体制和单位体制之外存在和合自主发展的, 从本质上与传统社会、传统体制相疏离, 与传统体制的联系相对较少, 对政府、对原有体制依赖性较弱, 具有很强的市场经济意识。三是思想的相对独立性。新的社会阶层不受传统的清规戒律的束缚, 不盲目追随主观意识形态观点, 思维活跃、强调自我, 敢于跳出固有圈子, 寻找一条发展自己的道路。

4. 独特成长性特征

一是新的社会阶层主要集中在非公有制经济领域。我国目前的非公有制经济大体划分为外资经济、私营经济和个体经济, 六个新的社会阶层则分属于这三种不同的非公有制经济组织之中。二是新的社会阶层是时代的产物, 伴随着时代而发展。党的十一届三中全会以后, 我国进入社会大变革的新时代, 新时代孕育了新的社会阶层, 新时代催生出了新的社会阶层。三是快速成长。新的社会阶层是年富力强、学士较高、开拓创新精神强、勤奋努力的一个群体。作为社会进步的新事物, 新的社会阶层在竞争中把握先机, 在社会政治经济生活中, 充满生机和活力, 随着经济实力较快增长, 政治地位和社会影响也很快提高。

5. 内部构成的显著差异性特征

新的社会阶层成员有不同的社会背景, 是一个复杂的社会群体。一是各执其业, 职业构成有重大差别。其中既有个体经营者, 也有科技型企业家;既有家族经营的小公司, 也有外商投资的大跨国公司;既有知识密集型的“海归派经济”也有劳动密集型小生产经济。二是文化素质参差不齐。民营科技企业创业人员、外资企业管理人员、中介机构从业人员文化素质高, 而个体户和一般私营企业主文化素质较低。三是收入发展不平衡。私营企业主、民营科技企业的创业人员、外资企业管理人员、小部分中介组织从业人员、一部分自由职业者收入较高, 而个体户和大多数中介机构的从业人员收入较低而且不稳定。四是思想观念多元化。这些人来自不同的领域和不同的单位, 分别在各自特定环境中, 其群体的构成日趋复杂, 不同的群体、不同的个人的心态趋向多样性, 价值观、道德观以及信仰追求明显地呈现多样性特征。他们中间, 既有合法经营、诚实劳动的, 也有极端物质主义侵染, 唯利是图的。

二、新的社会阶层的社会属性

新的社会阶层特别是私营企业主的政治和社会属性, 是一个重大的理论和实践问题。“新的社会阶层”这一表述, 最早见于江泽民同志在建党八十周年纪念大会的讲话中。江泽民同志指出:“改革开放以来, 我国的社会阶层结构发生了新的变化, 出现了民营科技企业的创业人员和技术人员、受聘于外资企业的管理技术人员、个体户、私营企业主、中介组织的从业人员、自由职业者等社会阶层”。以江泽民同志为核心的党的第三代中央领导集体, 坚持马克思主义原理, 结合我国具体国情, 在深入研究思考并广泛听取社会各方面意见的基础上, 明确了新的社会阶层都是中国特色社会主义事业的建设者。在2006年全国统战工作会议上, 以胡锦涛为总书记的党中央进一步指出, 新的社会阶层人士“作为中国特色社会主义事业的建设者, 是完善社会主义市场经济体制和推动经济社会发展的一支新兴力量, 在促进共同富裕、构建社会主义和谐社会、全面建设小康社会中发挥重要作用。”

属性特征篇3

关键词：信息质量特征,资产计量属性,影响

会计信息的质量特征在财务概念框架体系中居于重要地位, 是连接会计目标与会计计量的桥梁。资产计量属性的选择与会计计量必须符合会计信息质量特征的要求。

一、会计信息的质量特征

IASC在1989年7月发布的《编报财务报表的框架》提出, 会计信息的质量特征主要有四项, 即可理解性、相关性、可靠性和可比性。IASC认为相关性和重要性联系在一起, 认为一项信息的相关性受到其性质和重要性影响;一项信息的可靠性与否则由真实反映、实质重于形式、中立性、审慎和完整性等要素共同决定。FASB在APB和AICPA研究成果的基础上, 于1980年在其SFAC No.2《会计信息的质量特征》中提出, 相关性和可靠性是首要的信息质量特征, 可比性是属于次要的信息质量, 可理解性是针对用户的质量特征;相关性由预测价值、反馈价值和及时性三个子质量特征构成, 而可靠性也包含了客观性 (如实表述) 、中立性 (不偏不依性) 和可稽核性 (可验证性) 等三个要素。ASB于1999年2月在其发布的《财务报告原则公告》认为相关性和可靠性是与财务报表中信息内容的主要信息质量特征, 而可理解性、披露、可比性、一致性和及时性是与财务报表中信息“表述”有关的信息质量特征;此外, 它还具体明确指出, 最低的信息质量是重大性, 信息质量的最高标准是“真实与公允”。我国于1992年11月颁布的《企业会计准则》和2000年12月《企业会计制度》, 虽然没有专门提出信息质量特征, 但实际上已经论及信息质量特征, 我国对可靠性和相关性的认识与FASB是相似的。综观上述关于会计信息质量特征体系的各种代表性观点, 虽然存在个别差异, 但不约而同的将可靠性和相关性列为最为重要的两个会计信息质量特征。

二、可靠性与相关性权衡的相关性倾向

IASC在《编报财务报表的框架》中, 将可靠性定义为“当信息没有重要差错或偏向, 并能如实反映其所拟反映或理当反映的情况而能供使用者做依据时, 信息就具备了可靠性。” (2) 英国ASB在其《财务报告原则公告》中指出, 会计信息的可靠性是指信息没有重大错误与偏见, 并且可以在给使用者确定的陈述中作为依据。 (3)

IASC在《编报财务报表的框架》中, 将相关性定义为“当信息能够通过帮助使用者评估过去、现在或未来的事件或通过确证或纠正使用者过去的评价, 影响到使用者的经济决策时, 信息就具有了相关性。” (4) 英国ASB在其《财务报告原则公告》中指出, “为使会计信息有用, 会计信息必须与使用者制定决策的需求相关, 相关性是关于使用者对过去、现在和未来事件信息的评价, 这种评价会受会计报表项目表达方式的影响。” (5)

在理想状态下, 会计信息的相关性和可靠性可以实现有机统一, 这无疑是最佳的, 因为既相关又可靠的会计信息的效用最大。但是在现实经济环境下, 可靠性和相关性经常会产生矛盾。 (6)

当会计目标的定位从“受托责任观”转变为“决策有用观”后, 相关性无疑被认为是最为重要的信息质量特征:

1.虽然在可靠性与相关性孰轻孰重上, FASB并未表明他们的态度, 但他们对相关性的偏好是显而易见的, 这一点从其对相关性和可靠性的排列顺序以及他们的表述中可以看出。

2.ASB在关于财务报表的质量中明确提出了FASB所一再回避的问题:财务报表的信息必须相关和可靠, 当两者互相排斥, 需要对产生信息的方法选择时, 所选择的方法应当是能使信息相关性最大化的方法。

3.AICPA的财务报告特别委员会 (Jenkins Committee) 《改进财务报告—着眼于用户》认为, 应当更为强调信息的相关性, 并使其成为贯穿这份综合报告的主线, 而可靠性则略略带过。

4.美国SEC委员之一的史蒂文·M·沃尔曼 (Steven M·H·Wallman) 在《财务会计与报告的未来:彩色报告方法》一文构建的彩色模式中, 五个不同的报告层次都涉及到相关性, 而可靠性则在某些报告层次中成为可以缺省的因素。 (1)

三、信息质量特征对资产计量属性选择的影响

1.现行计量模式下会计信息的相关性与可靠性。从会计计量产生迄今, 历史成本计量属性之所以长期能在传统历史成本计量模式和现行的混合计量模式中占据主导地位, 在于其具有较强的可靠性, 而其遭受到越来越多的批评缘于缺乏相关性。总的看来, 有关机构和人士对按现行混合计量模式编制的财务报告的批评, 尤以美国会计团体最为激烈, 他们认为: (1) 会计信息严重不完整, 许多目前难以用货币进行计量的资产和负债, 都未能在资产负债表中反映, 如自创商誉等; (2) 财务报告提供的是历史信息, 它未能提供与企业未来风险和报酬相关的信息; (3) 现行报告不能反映企业经营风险和不确定性, 其及时性也不够; (4) 现行报告未能考虑不断出现的非常复杂的交易和事项的确认和计量; (5) 现行报告不能正确反映企业未来的经济利益。 (7)

传统和现行计量模式将可靠性作为首要的考虑, 会计人员愿意以较差的相关性换取较高的可靠性。“会计人员以过去买价的客观性为依据, 为历史成本假设做掩护, 同时也驳斥了现行市价的论据。” (8) 然而, 即使在资产的取得日, 历史成本、市场价值和现值是相等的, 市场价值和现值仍会随着时间以及市场条件的改变而改变。威廉姆·R·司可脱在其《财务会计理论》中, 通过现行实务“折旧”、“递延所得税”、“石油天然气会计中的完全成本法与成效成本法”说明了传统和现行计量模式下的可靠性是相对可靠的。宋德亮博士用模型也论证了其获得的只是客观性而不是真正的可靠性。 (9) 可见, 在传统和现行计量模式下, 可靠性也是相对的, 存在一个度的问题。

2.公允价值计量模式下会计信息的相关性与可靠性。公允价值本质上是一种与市场密切兼容、涵盖多种计量属性的整体概念, 一个既综合而又分工具体的计量属性、一种区别于“成本”观念的全新的“价值”观念。公允价值在世界范围的崛起, 首先在于其无与伦比的相关性: (10) (1) 公允价值反映了市场对现行经济情况对资产或负债的市场评价, 公允价值变更反映了经济情况发生变化时这些经济情况变化的影响。在竞争性的公开市场经济中决定的资产的公允价值体现了到计量时所有可得到的信息。 (2) 资产的公允价值代表了其期望现金流量按与风险相称的市场报酬率折现的现值 (考虑所有可以得到的信息) , 公允价值比其他计量属性提供了更好的基础。 (3) 因为公允价值是市场基础观, 因此公允价值不受下列各项的影响:a.资产的历史。公允价值不取决于取得资产的日期。b.持有资产的特定企业。如果两个企业进入同样的市场, 其公允价值都是一样的。c.资产的未来使用。公允价值不取决于资产是否或何时被打算处置。于是, 公允价值代表一个企业内部和企业之间年复一年一贯的无偏见计量, 其在任何计量日都是可比较和可加的。 (4) 公允价值不仅反映管理层取得或销售资产的决策, 而且反映其继续持有资产的决策影响。 (5) 公允价值报告所有金融工具将减少现有的混合的成本—公允价值金融工具会计的异常。FASB在最近的公告中也承认了当前混合计量模式这种弊端。

3.公允价值的应用性受到部分业内人士的质疑来自于它的可靠性。公允价值计量模式的两种计量属性中, 市场价格的可靠性是毋庸置疑的, 在初始计量时采用历史成本计量属性, 同样也符合客观性原则和成本效益原则。于是人们的怀疑便集中在未来现金流量的现值上, 认为它是一种估计的结果而缺乏应有的可靠性。这种怀疑其实是站不住脚的。因为估计是会计中固有的技术, 1953年由美国会计程序委员会组成的会计名词委员会把会计定义为“一种艺术”, 其实就是基于会计存有大量估计客观现实的考虑。威廉姆·R·司可脱的一句经典名句, 也许可以帮助我们理解估计存在的现实意义:“无法精确解释收益概念使得在资产估价和收益计量的过程中需要大量的主观判断, 而正是这种主观判断使会计职业具有价值。”此外, IASC在其编制的财务报表框架中也明确指出, “成本或价值在许多情况下都需要估计, 合理地估计是报表编制工作的一部分, 这并不会贬低其可靠性。”

对公允价值的可行性最为频繁的关注还在于, 可观察的市价并不总是可以获得的, 如果估计不是基于可观察市价, 则它们可能是不可靠的。但是在估价技术中已经有一些重要的进步, 这些技术可以合理反映市场定价方法。即使金融工具没有可观察的市价, 其公允价值也可用体现资本市场定价原则的技术和有关现行市场情况的信息来估计。布雷克—斯克尔斯模型 (Black-Scholes) 、资本资产定价模型 (CAPM) 、套利定价模型等估价技术的可靠性也都获得了大量经验证据的支持, 应用也日益广泛。现在广泛运用的软件也使许多计算工作的成本处于一个合理的水平。

另一种对公允价值的可靠性的怀疑来自公允价值的波动性。这种论断也是没有理论依据的。因为价格是市场参与者根据所获得的信息所作的理性预期, 由于不断会获得新的信息, 预期会不断的变化, 所以波动性是资产, 特别是金融资产的基本属性, 会计人员既没有资格怀疑价格的合理性, 也没有资格在财务报告中使其平滑。

可见, 公允价值是在追求会计信息的经济真实性, 它是通过提供真实性来提高相关性。

4.计量属性的选择是相关性与可靠性相权衡的结果。“尽管财务信息必须同时相关和可靠才能有用, 信息具备这两种特征的程度可能不同。尽管不会以其中的一者完全代替另一者, 但财务信息可能牺牲相关性以换取可靠性, 反之亦然。财务信息也可能或多或少的具有其他特征, 在这些特征之间的权衡可能是必须的或有益的。”相关性与可靠性犹如熊掌与鱼不可兼得, 在强调相关性的同时, 将会导致可靠性的削弱;反之, 在强调可靠性的同时, 将会导致相关性的降低。相关性与可靠性都存在一个“度”的问题, 不存在取舍问题, 只相关不可靠, 或者只可靠而不相关, 都将是无用的会计信息。会计信息的有用性是相关性与可靠性的函数, 这是由会计目标决定的。那么, 计量属性的选择, 就应当是会计信息质量的可靠性与相关性相权衡的结果。也就是说, 我们既不能光凭相关性来选择计量属性, 也不能仅仅靠可靠性来挑选计量属性, 而应当从两者组合的效用最大化的视角来选择计量属性。通过前文分析, 在“决策有用观”目标导向下, 由市场价格和未来现金流量的现值两种计量属性构成公允价值计量模式所提供的信息效用无疑是最大的。

计量属性的选择, 就如同可靠性与相关性孰重孰轻的辩争, 是一个永恒的话题。这里面存在宏观层面的影响, 也存在微观意义上的制约;既存有经济利益和动机的驱动, 也会受到诸如政治、技术、环境等因素的限制;笔者认为, 它更是一种观念倾向的表现。美国会计学家利特尔顿就是历史成本的忠实捍卫者, 他始终认为会计师本质上是“成本员”而不是“估价员”;葛家澍教授认为, “不相关的信息固然无用, 但并非对所有人都无用, 而不可靠的信息更为危险”, “在可靠性的前提下, 选择最相关的信息”。19SEC首席会计师瓦尔特·斯库茨却持有这样的观点, “的确, 在缺乏清算市场的情况下, 得到公允价值是很困难的。然而, 一旦历史成本有问题, 它就失去了相关性。当我们寻求替代物时, 我们需要寻求最相关性的。如果我们有一个真实的却不相关的数据, 则最具相关性的数据往往会获得认同。在识别这些计量方法时, 会是一个困难的学习过程, 但我们在寻求对于投资者而言最具相关性的资产。”11吴水澎教授则认为, “财务报告中将更多地容纳估计和预测的成分, 其精确性虽然不如建基于历史数据基础上的财务报告, 但事实可能证明此类信息更具决策有用性。”

美国会计学家利特尔顿认为, 两者的冲突缘于经济学理论与会计学理论的某些相互矛盾的观点。在经济学中, 当前的数据 (现行价格) 以及与未来的预期相关的价格对决策才具有意义, 而过去的数据 (前期价格) 是不重要的。而在传统的会计学中, 未来的价格因其不确定性而不适宜于会计记录, 过去的价格 (成本) 代表企业管理层过去决策的结果, 这些历史数据对管理层当前甚至将来的决策至关重要。但是, 会计学与经济学在理论上也是相互渗透、相互融合的, 随着社会经济的发展, 会计学某些概念的内涵必定逐渐向经济学靠拢, 公允价值计量模式正是二者互动效应的一个现实反映。

注释

1 葛家澍, 杜兴强.财务会计概念框架与会计准则问题研究[M].中国财政经济出版社, 2004

2 (4) 财政部会计司编译.国际会计准则2000[M].北京:中国财政经济出版社, 2000

3 陈宇学.对会计信息相关性与可靠性的认识[J].经济理论与经济管理, 2001 (3)

4 (5) 陈宇学.对会计信息相关性与可靠性的认识[J].经济理论与经济管理, 2001 (3)

5 (7) 吴水澎.中国会计理论研究[M].中国财政经济出版社, 2000

6 (8) 斐内.米勒.上海财经大学会计系译.会计学原理[M].上海人民出版社, 1989

7 (9）宋德亮.公允价值的相关性与可靠性的理论分析[J].上海会计, 2002 (4)

8 (10) 谢诗芬.会计计量中的现值研究[M].西南财经大学出版社, 2001

属性特征篇4

电网需求侧用电特征挖掘、评价与控制近年来受到广泛关注[1]。单边市场模式下, 电力需求相对刚性, 对售电市场的细化研究显得非常重要[2,3,4,5,6]。文献[2]提出了用电市场结构对行业电量电价影响评价方法及量化因子。市场细分思想也被引入负荷预测领域[4]。文献[4,5]从电力营销的宏观层面上进行售电市场分析、预测、评估与综合测评。文献[6]阐述了已在欧洲试行的针对分布能源应用的用电水平及类型评价新方法。近年来, 数据挖掘为负荷特征识别提供了全新技术发展空间[7]。文献[8]应用主成分与曲元分析法对比层次聚类、k—均值、模糊C—均值等挖掘算法在负荷特性分析中的效率与价值, 对需求用电特征分析工具的选择具有指导意义。

从当前研究成果看, 缺少市场细分下的多指标综合测算方法。文献[5]提出的最优状态面积法取得较好效果, 但其仍针对传统分类方式, 缺乏对售电对象深入挖掘。本文提出用电集群概念, 对售电市场进行多目标聚类, 设计熵权改进的属性测度分析体系, 达到了售电对象特征属性精细分析的目的。

1 售电市场分析维度

1.1 用电集群定义

在需求常规分类中, 按电价分为农业、居民、工商业用电;按行业分为冶金、轻工、制造、化工用电等。但就同质性而言, 其划分依据不在于用电目的, 而应在于电压等级、容量、负荷形态、可靠性及电能质量要求等本质属性[1]。仅研究传统售电对象不足以精细挖掘用电特征分布, 容易造成市场评价、电价制定、需求侧管理等方面决策偏差, 参见附录A图A1。本文提出售电市场用电集群概念:用电集群是售电市场中以某种或多种分类准则划分的负荷样本群体。分类准则除传统口径外还可包括:典型形态或指标、需求响应程度与方式等。只有精细挖掘各典型集群综合特征, 才能在不同角度与精度上立体刻画售电市场特性细节。

图1展现了用电集群交叉属性。图1 (a) 说明设置单目标或多目标可将样本总体划分为不同集群;图1 (b) 表明对任意用户, 集群属性具有多样性。在负荷总体样本中形成集群的目标可以有多种, 为方便阐述, 将所用到的集群划分单目标列于表1。

1.2 基于用电集群的售电市场分析维度

不同目标形成的用电集群使售电市场分析对象范围大为扩展。对不同目标形成的用电集群对象从不同时间尺度进行多类事务分析构成了售电市场空间的分析维度, 如图2所示。

图2中分析事务可包括经济评价[2]、市场集中度[4]等, 实线三角空间代表以目标3划分售电市场后, 对集群进行短期电价响应评估。

2 售电市场用电集群精细划分

2.1 样本数据失真辨别与修正

可设短时段内数据纵向相似, 即连续3个数据无突变, 且附近同类日曲线横向相似。利用这2个特点通过样本统计指标及预设阈值判断失真数据。同类型日横向数据失真辨别与修正过程如下:

$\bar{x}_{n, i} = \frac{1}{Ν} \sum_{n = 1}^{Ν} x_{n, i} i = 1, 2, \dots, 96 (1)$

$σ_{i}^{2} = \frac{1}{Ν} \sum_{n = 1}^{Ν} (x_{n, i} - \bar{x}_{n, i})^{2} (2)$

$| x_{n, i} - \bar{x}_{n, i} | > 3 σ_{i} (3)$

$x_{n, i} = \frac{1}{2} (α_{1} \sum x_{n \pm 1, i} + β_{1} \sum x_{n, i}^{1, 2}) + γ_{1} \bar{x}_{n, i} (4)$

式中:xn, i为第n天第i点数据;xn±1, i为xn, i附近2个横向负荷;x $_{n, i}^{1, 2}$ 为最近2个相似日负荷点。

式 (3) 利用3σ原理进行失真判断。式 (4) 引入3个总和为1的权重修正数据。且有:

$x_{n, i} ´ = \frac{1}{5} \sum_{j = - 2}^{2} x_{n, i + j} i = 1, 2, \dots, 96 (5)$

|xn, i-xn, i′ |>δxn, i′ (6)

$x_{n, i} = \frac{1}{2} (α_{2} \sum x_{n, i \pm 1} + β_{2} \sum x_{n, i \pm 2}) (7)$

式中:xn, i′为平滑后序列;xn, -1, xn, 0, xn, 97, xn, 98分别为第n-1天、第n+1天最后及最前2个负荷;δ为失真阈值, 取0.08～0.15;α2, β2为参数, 满足α2+β2=1。

式 (5) 用于形成平滑序列。若满足式 (6) 失真条件, 则用式 (7) 修正数据。

2.2 指定目标下集群特征序列筛选

用电集群划分目标确定后, 计算样本各单元特征序列, 其计算目标由划分目标特征量筛选得到。首先定义归一化方法如下:

$\hat{x}_{i} = \frac{x_{i} - x_{i m i n}}{x_{i m a x} - x_{i m i n}} (8)$

式中: $\hat{x}_{i}$ 为归一化后i点数据;ximin和ximax分别为序列最小、最大值。

归一化方法将数据压缩在[0, 1]区间中。以下进行特征序列设定。

1) 以负荷形态相似为集群划分目标。

在此目标划分下, 成员特征量为各自典型负荷归一化曲线形态, TL={L1, L2, …, L24}, Li为负荷值。

2) 以指标集为目标。

指标集为:负荷率I1, 峰谷差率I2, 峰、平、谷期负载率I3, I4, I5, 最小负荷率I6, TI={I1, I2, I3, I4, I5, I6}。

3) 以电价响应类型为目标。

利用电价弹性矩阵[9]量化用户响应, 将其中衡量响应程度与方式的自弹性及交叉弹性系数作为特征序列:

${\begin{cases} e_{i i} = \frac{\partial Q_{i}}{Q_{i}} \frac{Ρ_{i}}{\partial Ρ_{i}} \\ e_{i j} = \frac{\partial Q_{i}}{Q_{i}} \frac{Ρ_{j}}{\partial Ρ_{j}} \end{cases} (9)$

式中:i, j∈{f, p, g};f, p, g代表峰、平、谷时段;Q和P分别为用户电量与电价。

特征序列TE={eff, epp, egg, efp, efg, epg, egp, egf, epf}。

4) 以行业为目标。

将行业编号作为特征量赋予各用户, TV={V1}, V1为用户所属行业编号。

2.3 可视化混合聚类算法与评判指标

通过指定目标下样本成员特征序列计算, 得到归一化M×NT阶 (M为成员数, NT为特征量个数) 特征矩阵, 利用各维划分集群。自组织映射神经网络 (self-organizing map, SOM) 可在保持拓扑特征下实现从n维空间到2维平面数据可视化降维[7,8], 2层节点由权重向量连接。聚类步骤[10]如下:

1) 对输出层各节点权重Wj进行初始化, 并定义神经网络训练结束条件;

2) 利用输入向量X和权值向量Wj的欧氏距离求距离最小的连接权重向量Wg:

$∥ X_{i} - W_{g} ∥ = \min ∥ X_{i} - W_{j} ∥ (10)$

3) 以竞争所得的获胜神经元g为中心取拓扑邻域Hg (t) , 其间单元为激活神经元, 以下式更新:

$W_{j} (t + 1) = W_{j} (t) + η (t) h_{g j} (t) (X_{i} (t) - W_{j} (t)) (11)$

式中:η (t) 为时刻t神经网络学习率;hgj (t) 为获胜神经元g的邻域函数。

4) 反复训练, 减小学习率, 至权值误差小于阈值或达到训练步数停止, 输出聚类结果。

利用SOM虽可直观判断用电集群类别但缺乏客观判别依据。为此选用k—均值算法对邻近点进行二次聚类。算法流程[7]为:①从n个对象中任选k个对象作为初始中心;②根据与中心相似度, 将其分配给与其最相似的类别;③以均值重新计算新类的聚类中心;④不断重复这一过程直到标准测度函数收敛。所取标准测度函数为:

$E = \sum_{i = 1}^{k} \sum_{p \in C_{i}} | p - m_{i} |^{2} (12)$

式中:E为样本与聚类中心均方差之和;p代表对象空间中的一个点;mi为聚类Ci均值。

假设聚类数为K, 各类包含序列集合为Ck, 其聚类中心代表曲线为xc, nk表示每个类中包含的序列单位数目, x1, j和x2, j为不同用户负荷序列, 其间的距离定义如下:

$D (x_{1, j}, x_{2, j}) = \sqrt{\frac{1}{24} \sum_{j = 1}^{24} (x_{1, j} - x_{2, j})^{2}} (13)$

采用MIA (mean index adequacy) 指标[8]IMIA进行聚类数与质量评判, IMIA可表征各聚类中心与对应类中所有单元的距离平均值, 越小表明聚类效果越好。

$Ι_{Μ Ι A} = \sqrt{\frac{1}{Κ} \sum_{k = 1}^{Κ} D^{2} (x_{c}, x_{k})} (14)$

式中:

$D (x_{c}, x_{k}) = \sqrt{\frac{1}{n_{k}} \sum_{n = 1}^{n_{k}} D^{2} (x_{c}, C_{k}^{n})} (15)$

xk为第k测试类数的样本子集;Cnk为第k测试类数子集中的第n个样本。

3 用电集群特征属性测度计算

3.1 多指标属性测度模型

属性测度[11]能有效规避层次法级差大、模糊评判过于依赖极值等缺点。设Ω为用电集群空间, 对集群x需测m个指标I1, I2, …, Im, 评价集为{C1, C2, …, CK}, Ck (1≤k≤K) 为评价类, 可有强弱优劣之分, 如C1={差}, C2={中}, C3={优}则可记为C3>C2>C1, 称为基于用电集群的售电空间的某种有序分割。评价集常以附录A表A1形式列出。

定义用电集群x具有级别Ck的大小用属性测度μxk=μ (x∈Ck) 表示, x的第j个指标 (其值为t) 具有Ck的大小用属性测度μ $_{x j}^{k}$ (t) 表示, 按属性测度理论[11]有:

$\sum_{k = 1}^{Κ} μ_{x}^{k} = 1 μ_{x}^{k} \geq 0 (16)$

$\sum_{k = 1}^{Κ} μ_{x j}^{k} (t) = 1 μ_{x j}^{k} (t) \geq 0 (17)$

由附录B表B2可确定单指标属性测度函数μkxj (t) , 假定ajk表示指标j的指标值范围 (见附录A表A1) , 且aj0<aj1<…<ajk, 令

$\begin{array}{l} b_{j k} = \frac{a_{j (k - 1)} + a_{j k}}{2} k = 1, 2, \dots, Κ (18) \\ d_{j k} = \min (| b_{j k} - a_{j k} |, | b_{j (k + 1)} - a_{j k} |) (19) \end{array}$

确定用电集群单指标属性测度函数μkxj (t) 如下:

$\begin{array}{l} μ_{x j}^{k} (t) = \\ {\begin{cases} 1 a_{j γ} + d_{j γ} < t < a_{j k} - d_{j k} \\ \frac{| t - a_{j γ} + d_{j γ} |}{2 d_{j γ}} a_{j γ} - d_{j γ} \leq t \leq a_{j γ} + d_{j γ} \\ \frac{| t - a_{j k} - d_{j k} |}{2 d_{j k}} a_{j k} - d_{j k} \leq t \leq a_{j k} + d_{j k} \\ 0 t < a_{j γ} - d_{j γ}, t > a_{j k} + d_{j k} \end{cases} (20) \end{array}$

式中:j=1, 2, …, m;k=2, 3, …, K;γ=k-1。

用电集群特征属性计算中, 各特征指标所起作用有差异, 设计权重wj计算多指标属性测度:

$μ_{x}^{k} = \sum_{j = 1}^{m} w_{j} μ_{x j}^{k} (t) \exists w_{j} \geq 0, \sum_{j = 1}^{m} w_{j} = 1 (21)$

用电集群的电力负荷特征属性集是负荷属性空间的有序分割, 可采用置信度准则。设λ为置信度, 0.5≤λ≤1, 如果有:

$k_{0} = \min {k | \sum_{l = 1}^{k} μ_{x}^{l} \geq λ, 1 \leq k \leq Κ} (22)$

则判定用电集群x属于Ck0级别, 其中置信度λ通常可取值为0.6～0.7。

3.2 引入熵权的综合属性测度加权系数改进

式 (22) 中测度主观权重易造成用电集群特征属性计算偏差, 熵权可有效弥补这一不足[12]。信息熵解决的是不确定系统信息量的量度问题, 设系统各状态出现概率为Pi (i=1, 2, …, n) , 其熵H定义为:

$Η = - \sum_{i = 1}^{n} Ρ_{i} \ln Ρ_{i} 0 \leq Ρ_{i} \leq 1, \sum_{i = 1}^{n} Ρ_{i} = 1 (23)$

设用m个指标构成的指标体系分析n个待计算用电集群, 第i个集群的第j个指标值为rij′ (i=1, 2, …, n;j=1, 2, …, m) , 形成用电集群原始指标矩阵R′= (rij′) m×n。根据指标类型对指标作无量纲化处理, 得到rij为样本指标rij′无量纲化后的值。

效益型指标为:

$r_{i j} = \frac{r_{i j} ´ - \min_{i} r_{i j} ´}{\max_{i} r_{i j} ´ - \min_{i} r_{i j} ´} (24)$

成本型指标为:

$r_{i j} = \frac{\max_{i} r_{i j} ´ - r_{i j} ´}{\max_{i} r_{i j} ´ - \min_{i} r_{i j} ´} (25)$

由式 (24) 、式 (25) 可得归一化矩阵R= (rij) m×n, rij∈[0, 1]。根据定义, 第j个指标的信息熵为:

$Η_{j} = - k \sum_{i = 1}^{n} Ρ_{i j} \ln Ρ_{i j} j = 1, 2, \dots, m (26)$

式中: $Ρ_{i j} = (1 + r_{i j}) / \sum_{i = 1}^{n} (1 + r_{i j})$ ;k=1/ln n。

则式 (21) 中用电集群第j个指标熵权wj为:

$w_{j} = \frac{1 - Η_{j}}{m - \sum_{j = 1}^{m} Η_{j}} \exists w_{j} \geq 0, \sum_{j = 1}^{m} w_{j} = 1 (27)$

3.3 用电集群特征属性评价指标

集群属性测度计算前需建立用电集群特征属性精细评价指标集。从电力电量与经济特性角度提出应用9个评价指标, 如图3所示。其中电价响应率用交叉与自弹性系数绝对值的算术平均表示。

4 算例分析

4.1 样本数据与综合特征属性分析流程

采集某电网2004年1月—2007年12月10个行业共计317个1 kV以上等级用户日负荷数据。容量、近年目录电价作为输入一并采集。用电集群特征属性分析流程包括特征序列计算、混合聚类、属性测度计算等主要模块, 均在MATLAB 7.0平台实现。算例样本信息、集群特征属性分析流程、指标测度划分标准分别参见附录B表B1、图B1、表B2。

4.2 基于混合可视化聚类的用电集群生成

SOM输入向量为317个用户特征序列, 4类目标维度为24维、6维、9维、1维。取18×18阶方阵神经元, 邻域函数取六边形函数, 最大训练步数2 500, 可得317个样本点的2维可视分布。采用收敛能力良好的k—均值计算可视平面各点邻域相似性, 较优类数利用MIA指标测试, 表1各目标不同聚类数下MIA值参见附录B图B2。当目标1～目标3划分超过6类、5类、5类时, 随类数增加而MIA减小趋势明显减弱, 可定义目标1～目标3分类数为6类、5类、5类, 目标4为既定的10类。基于SOM输出2维平面的k—均值计算收敛后, 可得附录B图B3中各目标下集群可视化聚类。

定义A (i, j) 为目标i下的第j个用电集群。附录B图B4展示了A (1, 1) , A (1, 6) , A (2, 2) , A (3, 4) 用电集群生成结果示例。

4.3 熵权改进后的用电集群特征属性测度计算

针对图3指标可得附录B表B3所列混合聚类后4类26个集群整体特征序列计算结果。用电集群整体特征直接影响其对售电市场的贡献水平。图3指标具有离散分布特点, 且成本与效益型指标共存, 无法精确定量判断各集群综合属性测度关键点。图4以雷达图展示了4类目标下的用电集群A (1, 1) , A (2, 3) , A (4, 7) 与A (1, 3) , A (2, 5) , A (3, 5) 特征属性序列。图中1～9为式 (24) 、式 (25) 归一化后的9个特征属性指标, 放射轴均为[0, 1]刻度, 闭环连接形成区域表示某集群特征属性指标序列。

图4虽能直观体现各用电集群单个特征指标相对高低, 但却无法客观评价集群综合整体特性相对优劣[5]。根据附录B表B2与式 (16) ～式 (22) 构造4级分段线性属性测度函数, 进行用电集群综合特征定量计算。图5为推导出的负荷率指标的4级分段线性测度函数, 其他指标推导参见附录C。结合属性测度函数与各集群特征序列计算出A (1, 6) 至A (4, 10) 共26个用电集群单指标属性测度, 完整结果列于附录B表B4。

信息熵可客观改进用电集群综合属性测度权重系数wj, 式 (23) ～式 (27) 更新结果列于表2。

定义评价因子Sx量化用电集群属性集优劣。设Ci分数ni, 对于C1>C2>…>CK, 取ni=K+1-i, 则集群x评价因子Sx分数定义为:

$S_{x} = \sum_{l = 1}^{Κ} n_{i} μ_{x}^{l} (28)$

利用式 (21) 、式 (28) 及表2熵权获取集群4级属性测度与综合测评因子, 计算结果列于表3, 完整结果详见附录B表B5。

评价因子量化了图3指标下集群综合测度, 值越大则属性相对越优。取置信度λ=0.6, 由表3可知, A (1, 1) , A (1, 2) , A (4, 9) 综合特性属于“较优”, A (4, 10) “较差”, 且A (4, 9) >A (1, 1) >A (1, 2) >A (4, 10) 。

4.4 算例结果分析

根据某地区售电市场10个行业317个用户用电集群特征属性算例计算结果, 可得以下结论:

1) SOM与k—均值混合聚类能针对既定目标精细挖掘用电集群。从MIA值和附录B图B3聚集程度可以看出, 目标2效果优于目标1, 3。图6为目标2, 3下各集群负荷率与电价响应率, 目标区分度明显。

2) 算法可基于图3指标计算用电集群综合特性, 进而分析各集群特征属性关键点。例如:图4中集群综合属性测度分别为2.540, 3.046, 2.877, 2.667, 2.802, 2.853, 6个集群综合特性高低排序为A (2, 3) >A (4, 7) >A (3, 5) >A (2, 5) >A (1, 3) >A (1, 1) 。定性来看, 雷达图所包围指标面积越大, 则集群综合特性越优, 与文献[5]结论一致。不同的是, 本文算法可精细分析特征属性差异关键点及其对集群综合测度的贡献。比较集群A (2, 3) 与A (1, 1) , 二者整体评价因子相差19.92%, 关键点在于前者的“优”、“较优”2个测度比后者高120.7%, 34.85%, 其本质在于A (2, 3) 在熵权系数最大的第5, 8, 3指标都明显高于A (1, 1) , 数据参见附录B表B3～表B5。

3) 用电集群特征属性计算的目的在于充分挖掘售电对象整体效应, 准确定位负控、需求管理或电价调整对象。例如:集群A (3, 4) 与A (3, 5) 指标9电价综合响应率为1.191, 1.374, 二者该指标测度属于较高的3级、4级 (参见附录B表B4) 。取售电量相当但指标9测度较低的集群A (1, 3) , A (4, 5) 与二者比较, 将分时价差同时拉大0.02元/ (kW·h) , 经弹性矩阵[9]测算四者削峰电量为21.4 MW·h, 39.5 MW·h, 2.03 MW·h, 1.7 MW·h, 对前2个集群调价效果明显, 市场影响力大。

5 结语

传统用电特性分析已不能满足对售电市场的深入研究要求。本文提出多目标聚类下用电集群特征属性分析新思路。通过基于划分目标的用电集群与分析维度概念, 极大地扩展了市场分析对象。采用混合聚类挖掘用电集群信息, 设计经熵权改进的集群分段属性测度分析流程, 以定量、精细计算售电市场中用电特征分布。实际算例证明所述算法效果明显, 能辅助电网公司深入分析特定售电空间。基于MATLAB平台设计的综合程序包已应用于某电网用电集群分析。用电集群的电网节点分布及其区域属性问题, 以及用电集群特征属性监测、动态识别应用与优化是未来的研究重点。

附录见本刊网络版 (http://www.aeps-info.com/aeps/ch/index.aspx) 。

摘要：提出售电市场中用电集群与分析维度概念。确定集群特征变量后, 采用自组织映射神经网络与k-均值混合可视化聚类技术对售电空间进行自定义目标划分。基于负荷与经济指标, 设计熵权改进的多指标属性测度算法对多目标划分下用电集群特性进行精细化定量综合计算, 以分析各对象属性整体相对优劣。采集某电网317个用户数据进行算例分析, 结果表明该算法能区别于传统负荷特性分析方法, 在扩大售电市场研究对象基础上实现更多有效信息挖掘与多目标售电对象特征精细分析。

关键词：多目标聚类,用电集群,自组织映射神经网络,属性测度,熵权

参考文献

[1]KIRSCHEN DS.Demand-side viewof electricity market.IEEETrans on Power Systems, 2003, 18 (2) :520-527.

[2]康重庆, 李顺福, 夏清, 等.用电市场的结构分析及其对市场营销的启示.电力系统自动化, 2003, 27 (14) :27-31.KANG Chongqing, LI Shunfu, XI A Qing, et al.Structureanalysis of electricity consumers and its instruction tomarketing.Automation of Electric Power Systems, 2003, 27 (14) :27-31.

[3]董继征, 何怡刚, 王薇, 等.基于电力细分市场的负荷分解预测方法.电网技术, 2005, 29 (17) :40-43.DONG Jizheng, HE Yigang, WANG Wei, et al.Loaddecomposition forecasting method based on electricity segmentmarket.Power System Technology, 2005, 29 (17) :40-43.

[4]胡江溢, 贾俊国, 林弘宇, 等.售电市场分析与预测指标体系.电力系统自动化, 2009, 33 (2) :10-14.HUJiangyi, JI AJunguo, LI N Hongyu, et al.Index systemofpower sale market analysis and forecasting.Automation ofElectric Power Systems, 2009, 33 (2) :10-14.

[5]庄彦, 康重庆, 胡江溢, 等.售电市场质量及其综合评价.电力系统自动化, 2009, 33 (3) :25-29.ZHUANG Yan, KANG Chongqing, HUJiangyi, et al.Qualityof power sale market and its comprehensive assessment.Automation of Electric Power Systems, 2009, 33 (3) :25-29.

[6]ENCI NAS N, ALFONSO D, I VAREZ C A, et al.Energymarket segmentation for distributed energy resourcesi mplementation purposes.IET Generation, TransmissionDistribution, 2007, 1 (2) :324-330.

[7]FIGUEIREDO V, RODRIGUES F, VALE Z, et al.An electricenergy consumer characterization framework based on datamining techniques.IEEE Trans on Power Systems, 2005, 20 (2) :596-602.

[8]CHICCO C, NAPOLI R, PIGLIONE F.Comparisons amongclustering techniques for electricity customer classification.IEEE Trans on Power Systems, 2006, 21 (2) :933-940.

[9]秦祯芳, 岳顺民, 余贻鑫, 等.零售端电力市场中的电量电价弹性矩阵.电力系统自动化, 2004, 28 (5) :16-19.QI N Zhenfang, YUE Shunmin, YU Yixing, et al.Priceelasticity matrix of demand current retail power market.Automation of Electric Power Systems, 2004, 28 (5) :16-19.

[10]KOHONEN T.Self-organized formation of topologicallycorrect feature maps.Biological Cybernetics, 1982, 43 (1) :59-69.

[11]程乾生.质量评价的属性数学模型和模糊数学模型.数理统计与管理, 1997, 16 (9) :18-23.CHENG Qiansheng.Attribute mathematical model and fuzzymathematical model for quality assessment.Application ofStatistics and Management, 1997, 16 (9) :18-23.

属性特征篇5

关键词：实时推荐系统,R语言,BP算法,FP-tree关联规则算法,商品时效

0 引言

近几年来,电子商务推荐系统发展迅速,个性化及多样化的推荐系统为企业带来了丰厚的利润。有研究表明,电子商务零售行业提供个性化推荐服务后,其销售额会提高2%~8%。目前推荐方式主要有:协同过滤推荐、基于内容的推荐、基于知识的推荐、混合推荐。随着大数据时代到来,数据量急剧增长以及用户多样性的需求对推荐系统的实时性提出了更高要求。因此,更有效、更多样性的实时推荐系统已成为电子商务领域研究的热点之一。

1 实时推荐相关技术

在提高电子商务推荐系统实时性的问题上,国内外专家学者研究出一些切实可行的解决方案,其中主要包括云计算技术、Cookie技术、站外广告推荐技术等。

1.1 基于云计算的实时推荐技术

国内著名的电子商务平台阿里云主要采用云计算推荐方式,它是基于先进的云计算系统,支持海量网页数据和用户行为数据的分析计算,从而可以在很短时间内完成对大量用户数据的分析及计算,从而达到实时推荐的目的。目前运用较多的基于云的实时推荐框架主要有Spark框架、Kiji框架和Storm框架3种[3]。一定程度上,这些框架都是通过缩短模型训练时间,从而提高实时推荐速度。

1.2 基于Cookies的实时推荐技术

基于Cookie的实时推荐是将Cookie技术与模式识别算法相结合,根据用户与相关站点、内容或服务互动时所提供的信息,实时捕捉用户兴趣偏好,然后在电子商务平台所有站点以及其它站点上显示以兴趣为基础的广告。亚马逊电子商务平台就使用了这种推荐方式,使得企业可以快速了解用户浏览了哪些广告、点击了哪些广告,以及追踪用户在各种站点上进行了哪些操作,以便收集用户的站点操作数据,并实时分析用户的兴趣偏好,为用户提供更有效的推荐。

1.3 站外广告推荐的实时推荐方式

随着Web2.0技术发展的成熟,许多电子商务网站都采用了站外广告推荐,它们采用将推荐广告投放到其它网站的方式进行实时推荐,当用户浏览某门户网站时,会发现网站上投放的广告会是不久前搜索过的商品。这种推荐方式使用户浏览网站的同时可以点击了解自己心仪的商品详情,这样做既符合用户心理,又可提高商家的销售额。

1.4 存在的问题

综合以上3种实时推荐方式发现:云推荐系统搭建成本很高;基于Cookies技术推荐方式存在较大的用户隐私泄漏风险;基于站外广告投放的实时推荐方式,相对而言其成本较低,运用也很广泛,但目前该平台是基于社会广告的投放方式,在推荐时根据用户搜索过的商品进行实时推荐,会造成推荐浪费,即:用户通过推荐购买了推荐的商品,下次仍出现相似甚至相同商品的推荐,但对于一些商品,用户在短时间内,一般不会购买同样商品,而更愿意看到更多样化的商品实时推荐。

2 系统框架

为解决实时推荐系统推荐效率不高、推荐商品多样性不强,造成企业推荐成本浪费并影响用户满意度的问题,本文重点对用户历史行为数据进行研究,运用挖掘算法挖掘用户购物商品的特征属性,根据每位用户对应的商品特征属性集合,为用户制定个性化的实时推荐。本文所设计的推荐系统主要创新点就在于可以追踪用户在一段时间内所购买商品的特征属性,为用户制定更有效、更多样的商品实时推荐。推荐系统框架如图1所示。

如图1所示,本文设计的个性化实时推荐系统框架主要包括以下3个部分:数据预处理、数据挖掘、实时推荐,其中实时推荐是推荐系统的核心部分。本文采用基于FP-Tree关联规则的推荐模型[4],并在其基础上提出建立商品时序推荐模型,根据商品的特征属性设定主动推荐商品的时序。例如,对于服装类商品,用户在购买搜索过的商品后,通常在很短时间内不会重新购买类似产品,此时可将此类商品推荐时效后延,保证推荐的多样性和新颖性。

3 系统实现

3.1 数据预处理

本文运用R语言工具对收集的输入数据进行预处理,R语言是一个用于统计计算和统计制图的优秀工具,具有一套完整的数据处理、计算和制图软件系统。对用户购买商品的历史表格进行统计,按照用户ID统计购买对应的商品信息,然后对数据进行筛选,检查数据类型是否统一,是否存在明显的数据错误。另外,从服务器上收集的Web日志数据也同样需要进行处理,一般Web数据预处理主要包括数据融合与清理、用户识别、交互识别、路径完善阶段。

3.2 基于商品特征属性的数据挖掘

通过以上两个阶段的数据预处理,“脏数据”已基本被清理干净。利用电商平台提供的商品分类表及商品对应的属性编码库,整理并统计出每位用户在最近一段时间的购物情况表,然后运用数据挖掘方法探究商品的哪些属性影响用户购买行为。本文主要采用BP神经网络算法对数据进行训练并挖掘出商品属性中影响用户购买行为的特征属性。

现假设用户集合为Q={q1,q2,q3…qi},其中qi表示第i个用户的属性集合;商品集合为X={X1,X2,X3…Xi},其中Xi表示第i种商品的属性集合,每种商品具有相应的属性值,用xij表示第i种商品的第j个属性编码值;用0、1标记已购买和未购买两种行为,则yi={0,1}。本文随机抽取了一部分用户历史购物情况数据,其中包括一定量的正例和反例两种样本数据。

神经网络模型结构主要包括:节点输出模型、作用函数模型、误差计算模型、自学习模型。其中,作用函数模型:反映下层输入对上层节点刺激脉冲强度;自学习模型:Δwij(n+1)=h*δi*oj+a*Δwij(n),h为学习因子,δi为输出节点i的计算误差,oj为输出节点的计算输出,a为动量因子。

运用以上模型训练数据后,可挖掘出商品属性集合中有几种属性对用户购买行为发生的权重较大,将这些权重较大的属性提取出来即为特定用户偏好的商品属性,即商品特征属性。当然每位用户因为购买的商品不同,其商品特征属性也是不相同的,因此针对不同的用户,需不断通过神经网络模型来挖掘其特征属性集合。

3.3 基于商品特征属性的实时推荐

假设提取商品的特征属性值的集合为P{p1,p2,p3…pi},从每位用户对应的商品特征属性集合,就可基本掌握该用户的购物偏好。例如,商品特征属性中若包括单价,则该用户购买商品时应比较看重商品单价这一因素,可根据其购买商品的平均价格为其进行实时推荐。本文通过对挖掘出的商品的特征属性集合进行研究,根据相关文献提出建立基于商品特征属性的关联规则模型及基于商品时效属性的推荐模型。

3.3.1 基于商品特征属性关联规则的推荐模型

基于关联规则的推荐模型也属于经典的推荐算法之一,其主要优点在于可以提高推荐结果的多样性。将这一算法运用于探索商品的特征属性集合的关联规则,可为用户提供更为精准多样的推荐,提高用户满意度。

已知用户所购商品的特征属性值的集合为P{p1,p2,p3…pi},则可结合用户购物情况表,可提取出用户所偏爱购买的商品记录。假设存在如下购物记录{a,b,c,d;a,b,c;d,e;a,c,d,e;e,f;d,f;a,b,c,d,e,f},运用FP-tree关联规则算法进行频繁项集的搜索,首先对数据库扫描一遍,将其中的频集按照关联的方式生成一棵频繁模式树(FP-tree),随后将其划分,形成若干条件库,每个库都和长度为1的频集相关,最后分别对具体的条件库实行挖掘。在用户购物时,该关联规则推荐模型可为用户推荐其感兴趣的产品及其相关产品,提高实时推荐的多样性,从而进一步提高用户满意度,达到留住客户的目的。

3.3.2 基于商品特征属性的时序推荐模型

为提高实时推荐效率,在基于商品特征属性关联规则的推荐模型上,考虑商品属性的时效性。商品时效是指商品可被使用的一般时长或者为用户对某种商品的喜好时长。根据一般购物经验,用户在接受某个商品推荐后即购买该产品,短时间内若系统多次向其推荐相同或相似商品,则用户购买的兴趣度会大打折扣,甚至可能会拒绝推荐,从而影响实时推荐效率。

本文主要以电子商务领域中涉及到的衣、食、用为研究对象。不同类别的商品所对应商品的时效不同,因此本文在商品属性关联规则推荐的基础上,提出建立基于商品特征属性的时序推荐模型。假设挖掘出涉及衣、食、用这3个方面的商品类别属性集合分别为N{n1,n2,n3…ni}、M{m1,m2,m3…mi}、O{o1,o2,o3…oi},设推荐时效权重值集合为Wj={w1,w2,w3…wi}。

本文结合一定的统计信息及相关的专业领域知识,为商品设定以下几条时序规则:(1)在用户可接受价格的范围内,畅销类品牌的食品、服饰、日用品优先推荐,即在进行关联规则推荐时,为这类商品及其相关商品设定较大的权重值Max{wi},使其排序靠前;(2)对于用户在短时间内购买过的食品,可根据其含量及专家建议食用意见,给予定时推荐,即实时推荐,时间间隔T一定,T值大小由商品用途及含量决定;(3)对于用户购买过的同类服饰,可在一定时间内不予推荐,即推荐时权重值设定得较小或直接滤过,另可结合当前用户所在地区的天气情况,给予每日主动推荐;(4)与人类健康有关的用品,结合领域专家的意见定时推荐,如内衣、牙刷、抹布等。

这些商品时效推荐规则构成了商品时效推荐模型,在搭建好实时推荐平台后,运用这一模型可为用户带来专属的个性化实时推荐。

4 结语

本文通过研究用户购买商品的数据,提取出商品的特征属性,并将其作为主要研究对象,探索用户购买商品的偏好,提出建立基于商品特征属性的个性化实时推荐系统框架,在一定程度上可以有效捕捉用户的购物偏好,并可为用户提供推荐效率更高、多样性更加丰富的实时推荐,具有较强的智能性、实用性。但其也存在一些不足,主要表现在商品实时推荐模型中的规则很简洁,后续可深入研究。

参考文献

[1]ZAIANE.Building a recommender agent for e-leafing systems[C].2002International Conference on Computers in Education,2002:55-59.

[2]应毅,刘亚军,陈诚.基于云计算技术的个性化推荐系统[J].计算机工程与应用,2015(13):111-117.

[3]陈敏敏,王新春,黄奉线.Storm技术内幕与大数据实践[M].北京:人民邮电出版社,2015.

[4]卢健,刁雅静.Web日志挖掘中的数据预处理研究[J].江苏科技大学学报:自然科学版,2012(1):81-85.

[5]NORMAN MATLOFF.R语言编程艺术[M].陈堰平,邱怡轩,潘岚峰,等.译.北京:机械工业出版社,2013.

[6]刘华,张亚昕.基于FP-tree算法的推荐系统设计与实现[J].电子设计工程,2015(2):81-84.

[7]朱智林,左天军,牛淑龄.基于日志的脏数据检测与恢复[J].电子科技,2004(5):9-12.

[8]刘钊,蒋良孝.基于神经网络的数据挖掘研究[J].计算机工程与应用,2004(3):172-173,190.

[9]邓星,邓珍荣,许亮,等.基于用户潜在时效偏好的推荐算法[J].计算机应用研究,2016(9):1-6.

属性特征篇6

入侵检测系统 (Intrusion Detection System, IDS) 是网络安全防卫体系中的关键部件。为了提高检测率, 在一个实际的分布式网络系统中往往需要配置多套IDS设备。由于网络上不同的IDS针对同一个安全事件都可能分别发出警报, 即使是同一个IDS也可能对某个安全事件发出多个警报。多个异类IDS的协同配置在有效增强网络系统安全性的同时, 会产生大量的重复报警或警报冗余, 从而给安全分析与管理工作造成沉重负担。警报聚合是对冗余警报进行聚类、合并处理的必要过程。目前常用的警报聚合方法主要是通过直接判断警报的攻击类型、源宿地址、时戳信息等特征属性是否完全相同 (精确匹配法) , 或者基于概率与统计分析的相似度算法 (可能性理论) [1,2]。本文认为模糊理论比精确匹配法和可能性理论更适合于处理入侵警报信息在雷同或相似“程度”上的不确定性, 因此本文算法基于模糊逻辑, 综合分析警报的攻击类型特征、时间特征、空间特征三维属性, 通过分别定义具体的隶属函数, 按照模糊相似度对入侵警报进行聚合。

2 算法基本原理

本算法的基本思想是依据如下经验知识:两个警报的攻击类型特征相同程度越高, 越有可能属于同一个攻击过程;两个警报的时间间隔越短, 越有可能属于同一个攻击过程;两个警报的源地址相近程度越高, 越有可能属于同一个攻击过程。

首先, 对于攻击类型特征属性, 从抽象到具体 (如attack-class, attack-type, sub-type, …, name) , 建立攻击特征类属Classification层次关系。文献[3指出网络攻击可按攻击意图划分为四类:发现类 (Discover) 、扫描类 (Scan) 、拒绝服务类 (DoS) 、权限提升 (Escalation) 。例如IP-Sweep属于发现类, PortScan属于扫描类, SYN-Flood属于拒绝服务类, Buffer-Overflow属于权限提升类。警报属性分类简化了聚合算法, 并提高了警报聚合效率, 因为只有从属于同一类别的警报才有可能被聚合在一起。

在不同的警报分类下, 时间、空间属性相似度有不同的考虑方法和侧重点, 讨论如下:

1) 发现类攻击警报主要是攻击者要探询某些IP、域名或者网络是否存在, 通常会在较短时间内发出大量查询信息, 因此源IP地址需要较大程度上精确匹配, 目标IP至少需要网络地址匹配, 查询时间间隔比较短, 因此对于发现类警报主要考虑这三种属性值, 另外还可以通过字符串属性来判断其查询的域名是否类似等;

2) 扫描类警报往往通过端口扫描和漏洞扫描工具进行, 因此此类警报主要是目标IP地址精确匹配, 源IP地址网络匹配 (因为有时其会发出一些伪造的IP地址包) , 格式串也很重要, 因为同一种工具发出的数据包往往有一些相同的特征在里面, 时间属性也需要重视, 有的扫描会在短时间内发出大量包, 但是有的扫描比较隐蔽, 比如可能隔几分钟或者发出一个包, 可以把时间间隔设置得比较大来聚合这类扫描警报, 这就需要动态调节时间;

3) 拒绝服务类警报通常由大量主机协同进行, 因此对源IP地址的匹配并无多大意义, 主要考虑的是目标IP和端口精确匹配, 时间间隔很短, 攻击数据包通常也是类似的, 因此数据包大小和格式串的匹配有时也可占一定权重;

4) 权限提升类警报一般是针对某一网络内所有主机或者单个目标主机以自动方式运行远程攻击程序, 因此主要考虑目标网络和目标端口的精确匹配, 通常源IP地址即为攻击者IP, 因为攻击程序相同, 因此数据报特征必然相同, 同时时间间隔也很小。

本算法的基本步骤为:首先根据警报中的攻击类型信息进行分类, 然后根据攻击源地址、目标地址、端口和时间信息合并重复警报或由同一攻击引起的多条警报, 融合警报信息, 消除冗余信息, 减少警报数量。每条原始警报均为已经后台信息转换模块转换后的标准入侵检测消息交换格式 (Intrusion Detection Message Exchange Format, IDMEF) 警报, 警报聚合的结果将产生若干超警报。超警报代表了一类原始警报, 每当有新警报idmef_newalert来临时, 警报聚合模块将idmef_newalert与已经存在的超警报比较, 通过相似度比较算法判决该警报是否与某超警报相似, 如是则加入该超警报, 否则自行成为一条新的超警报。

3 特征属性相似度的计算

对于攻击类型属性, 由于警报聚合的目的是尽可能地合并一次攻击产生的多个原始警报信息, 因此合并的这些原始警报必然具有相似的攻击类型, 可以将具有相似类型的多条警报合并为一条单一的聚合警报。文献[4,5]从多个阶段讨论和总结了多种分类策略与方法。警报聚合时按照设定的分类抽象粒度, 只需要对从属于同一类别的警报进行属性聚合即可。

定义攻击类型属性相似度:

对于某些攻击, 如类型未知的攻击或基于异常检测到的攻击, 还需要定义特征属性 (数据包、格式串等属性) 相似度:

对于空间特征属性, 分析不同类型攻击的源地址、宿地址、源端口、宿端口所具有的特性。由于攻击者通常会选择随机的源端口, 因此警报的空间特征主要针对源地址、宿地址及宿端口。表1列举了几种常见攻击的空间特征, 其中“/”表示无意义 (基于传输层以下协议的攻击, 宿端口是无意义的) 。对于不同类型的攻击具有不同的空间特征, 在警报聚合时, 需要为每类攻击指定空间特征。

定义IP地址属性相似度:

IP地址的比较基于无类别域间路由 (Classless Inter-Domain Routing, CIDR) 格式分析, IPv4地址由32位二进制数组成, r表示两IP地址从高位开始相等的位数。

定义端口属性相似度:

对于时间特征属性, 不同类型的攻击通常具有不同的时间特性。一次持续性攻击具有连续性, 并且由于这种攻击通常都是由攻击工具自动完成, 因此攻击进行的速度比较稳定。对不同的攻击事件给出不同的时间间隔阈值, 这个阈值由统计时间间隔的均值决定。注意到IDMEF定义了DetectTime、CreateTime、AnalyzerTime、StartTime、EndTime等多个时间属性, 为方便起见, 本文使用TimeStamp (或ntpstamp) 来描述, 而不涉及具体的时戳算法细节。

定义时间属性相似度:

4 基于多属性相似度的聚合算法

警报间的冗余关系包括重复关系和并发关系, 通过对多个冗余警报的聚合得到超警报 (Hyper-Alert, Meta-Alert) 。对于并发警报, 通过警报聚合, 同时得到攻击次数、攻击频度等信息。

定义1 (重复关系) 对于任意两个警报信息和, 除时间属性之外, 其它属性值均相同, 并且满足

则称和满足重复关系。其中, 为指定的时间间隔阈值。

定义2 (并发关系) 对于任意两个警报信息和, 除AgentId、时间属性之外, 其它属性值均相同, 并且满足

则称和满足并发关系。其中, 为指定的时间间隔阈值) 。

每类超警报由一张链表维护, 超警报链表按照某ntpstamp时间戳属性值递增排序。超警报与原始警报的唯一区别在于AdditionalData子类中的alertset属性, 而警报的类别由Classification子类的category属性标识。对于每条原始警报idmef_newalert, 判决算法如下:

从Classification子类中的category属性得知其所在警报类别, 对相应超警报链表中每条超警报Idmef_MetaAlert, 应用相似度比较算法:

1) 与每条超警报的比较是通过与超警报中包含的原始警报进行相似度比较, 本文的算法取其中五条ntpstamp属性值与Idmef_newalert最接近的原始警报, 然后取五个相似度值的平均值作为Idmef_newalert与Idmef_MetaAlert的相似度;

2) 取相似度最大的超警报作为最终判决的超警报, 如相似度低于预先设定的阈值, 则该警报成为一条新的超警报, 新的超警报通过复制该原始警报而成, 唯一的变化在于alertset属性, 将包含自身的警报消息标识;如果大于阈值, 则其属于该超警报, 只需要将自身的警报ID加入到该超警报的alertset属性中, 并保持alertset中的警报消息依然按ntpstamp时间递增排序。

5 结语

分布式IDS的协同配置在有效增强网络系统安全性的同时, 会产生大量的重复报警或警报冗余, 从而给安全分析与管理工作造成沉重负担。入侵警报聚合主要利用初级警报间的类型特征和时空属性相似性关系归并重复警报和并发警报, 是降低警报数量、提升警报质量的必要技术手段。为有效消除警报冗余、改善入侵检测的效果和性能, 本文提出了一种基于特征属性模糊相似度的入侵警报聚合算法。该算法基于模糊逻辑综合分析警报的攻击类型特征、时间特征、空间特征三维属性, 通过分别定义具体的隶属函数, 按照攻击类型和时空特征属性模糊相似度对入侵警报进行聚合, 并可通过设定不同的相似度阈值来调节聚合结果, 比传统的精确匹配法和概率统计方法更适合于处理入侵警报冗余信息的相似性。

摘要：分布式入侵检测系统的一个显著缺陷是会产生大量的重复警报。为有效消除警报冗余, 改善入侵检测的效果和性能, 本文提出了一种基于特征属性模糊相似度的入侵警报聚合算法。该算法基于模糊逻辑, 综合分析警报的攻击类型特征、时间特征、空间特征三维属性, 通过分别定义具体的隶属函数, 按照攻击类型和时空特征属性模糊相似度对入侵警报进行聚合, 比传统的精确匹配法和概率统计方法更适合于处理入侵警报信息的相似性。

关键词：警报聚合,入侵检测,模糊逻辑

参考文献

[1]Valdes A, Skinner K.Probabilistic Alert Correlation[A].Proceedings of the 4th International Symposium on Recent Advances in Intrusion Detection[C].Berlin:Springer-Verlag, 2001:54-68.

[2]龚俭, 梅海彬, 丁勇, 等.多特征关联的入侵事件冗余消除[J].东南大学学报, 2005, 35 (3) :366～371.

[3]DainOM, Cunningham RK.Fusinga Heterogeneous Alert Streamin to Scenarios[EB/OL].http://www.ll.mit.edu/mission/communications/ist/publications/acm_02_omd_rkc.pdf.

[4]王晓程, 刘恩德, 谢小权.攻击分类研究与分布式网络入侵检测系统[J].计算机研究与发展, 2001, 38 (6) :727-734.

属性特征篇7

了解客户是满足客户需求的前提, DSCRM由于直销的客户覆盖面比传统的CRM更广泛, 对客户细分显得更为重要。对航空公司而言, 并非所有的客户都能成为航空公司有价值的资源。客户的开发和管理需要大量的成本支持, 因而客户关系作为一种资产存在价值的区分。航空公司只有在合理评估客户价值的基础上, 把企业有限的资源合理地配置到合适的客户群才能获得最高的投入产出效益。

客户分析是立足于市场调查或基于一定的数据资料, 对目标群体的心理、消费趋势进行系统的阐述并归纳总结的过程。通过客户分析, 可以掌握客户群的消费习性, 解释客户状态改变的原因, 为企业的营销策略和服务策略的制订和调整提供决策支持。

在DSCRM中, 个性化服务的实现和高水平的需求响应率要求系统具备对客户的准确分类以及预测功能。分类的正确性是差异化服务实施的基础, 而客户群行为的价值预测的准确性是提高服务响应率的保证。

1客户群分类步骤

根据客户群的特征进行分类大致可以分4个步骤:数据准备;建立分类模型;利用模型进行分类;分类评估。

数据准备:为了提高分类的准确性, 对数据的预处理是必需的。包括资料的标准化, 如将连续性数据离散化、数值分布精简化;特征属性的选取, 找出有关键影响的属性, 将无关属性去除;数据标识等。一般的数据预处理有:数据清洗, 保证数据的完整性与合法性;数据筛选, 对于与分类不相关或冗余的数据属性, 在数据训练建模过程中应予删除;数据转换, 指数据的概化分层和规范化。

建模阶段:假设DSCRM数据仓库内的每个数据实例或数据对象都可以由属性进行描述和定义, 并且属于某个预先定义好的分类, 则可通过建立评估模型对整体数据实例进行分类。为建立合适的分类模型, 可以从数据仓库随机抽取数据实例作为样本形成数据训练集, 通过对训练集的分析建立模型。

分类阶段:对于每个测试样本, 设定一个接受概率, 这个概率定义为分类模型在区分训练数据的准确率或者分析人员另外定义的计算公式。将某个预先定义好的类与模拟预测的类作比较, 如果在接受概率之上, 则可认为该测试样本属于该类。

分类结果准确性验证:评估采用的方法主要有训练测试法, 将数据样本分为训练和测试数据集, 训练样本集建立的分类模型利用测试样本集来测试准确性;交互验证法, 将数据分成K个子样本, 轮流将K-1个子样本当作训练样本, 剩下一个子样本当作测试样本, 重复做K次建立模型的过程, 找出准确度最高的分类模型。

2属性相关性分析

实践中采用的方法是数据挖掘中的面向属性的归纳方法, 其基本思想是利用关系数据库查询获取数据样本属性值, 考察与分类相关的数据中每个属性的不同值的个数, 确定其概化阈值并进行概化。最后通过合并值相等的数据实例进行数据聚集, 以逻辑规则、图表等形式将概化关系提供给用户。

对于客户群分析工作来说, 要确定一个分类应包含多少维并不是件容易的事, 由于数据可能包含数十个属性, 选择的维或属性太多、太少都对数据挖掘无宜。从分析的全面性和必要性角度出发, 需要对属性进行相关分析, 滤除与分析目标不相关或弱相关的属性。对于给定的类, 如果某属性的值可用于类的区分, 则认为该属性是与分类高度相关。例如, 年收入通常作为判断高价值旅客的一个数据, 但是从统计的数据看, 订舱等级-次数比率更具有说服力。

3算法选取

依据是否以决策树算法为基础进行分类度量, 用于量化分类的方法可分为:以决策树为基础的算法和以非决策树为基础的算法。①以决策树为基础的算法:资讯获利法 (information gain) , 以及Gini索引等;②以非决策树为基础的算法:贝叶斯分类法、记忆基础推论法、神经网络分类法等。

从计算简易性和实施可行性角度考虑, 以决策树为基础的算法进行属性选取较为可行。通过对DSCRM所收集客户信息数据的特性分析可以发现, 客户数据中属性取值类型为离散型占多。比对资讯获利法和Gini索引法, Gini索引法对数据属性的假设是连续型的, 可能需要其他工具 (如分群) 来得到可能的分群值, 而资讯获利法假设属性是类别形态 (categorical) , 因此较为适合用于属性的选取分析。下面用资讯获利法进行实例分析。

所谓资讯获利, 是指期望信息或信息熵的有效减少量, 根据它能够确定在什么样的层次上选择什么样的变量来分类。而数据某个属性的信息增益是将一个数据集划分后熵的减少量。资讯量可以当作熵的指标, 资讯量越大则熵越大。

假设分类结果为P和N, 其中P代表正例 (Positive instance) 和N代表反例 (Negative instance) , 令A:某个属性;X:属性测试前的样本集合;p:X中正例的个数;n:X中反例的个数;pi:Xi中正例的个数;ni:Xi中反例的个数;Xi:属性测试后样本子集合, i∈[1, …, M]

则根据A的值将X划分为X1, …, XM, 所获得的资讯获利为:Gain (A) =I (p, n) -E (A)

其中:

若≠0∧n≠0, 则I (p, n) =-ulog2u-vlog2v;若p=0∨n=0, 则I (p, n) =0

E (A) = (p1+n1) / (p+n) ⅹI (p1, n1) +…+ (pM+nM) / (p+n) ⅹI (pM, nM)

u=p/ (p+n) , v=n/ (p+n) 。

从上述公式可以看出, 资讯获利就是测试前的资讯量减去测试后的资讯量, 分类的目的是将训练样本分成熵最小的子集合, 即所有的样本都属于同一分类标记的子集合。获取资讯量后, 优先选取测试后资讯量最小的属性即选取资讯获利最大的属性。

由于航空公司的DSCRM还处于概念设计阶段, 没有建立实施系统, 相应的数据仓库也没有建立, 目前尚无法获得实际的数据。因此, 下文所用算例数据将在现有CRM系统数据的基础上, 对部分DSCRM数据采用问卷调查结合仿真模拟的方式获取。

第一步:属性选取

参照某航空公司现有CRM数据仓库的旅客数据, 初步剔除会员号、姓名、性别、通讯地址等不能被概化的属性, 选取年出行次数、年龄、平均每次票价、投诉次数、年来回程数5个属性。

根据DSCRM客户信息采集功能设计目标, 选取年查询订购比、年特价受惠次数、年增值服务次数、年电话订购次数、门户网月登录频次、年出行城市数、年收入水平7个属性。其中, 查询订购比指客户登录门户网站进行机票及其他服务产品查询次数和有效订购的比率。

从计算和实用的角度出发, 对属性的等级划分不宜超过5级, 具体分级标准如表1所示:

第二步:资讯获利计算

现以 (高价值客户、一般客户、潜在客户、低价值客户) 为分类目标, 参照某公司 (金卡、银卡、普通卡、非会员卡) 的分布比例仿真生成500个训练样本, 其中数量分布为 (40, 92, 197, 171) 。

计算给定的样本分类所需要的期望信息是:I (40, 92, 197, 171) =1.7997

记Vij为第i分类在属性第j等级的样本数, 分别对各属性计算信息增益值。以年出行次数为例, 计算结果如表2所示:

则:

E (年出行次数) =353/500ⅹI (4, 34, 153, 162) +107/500ⅹI (18, 46, 34.9) =1.3958

Gain (年出行次数) =1.7997-1.3958=0.4039

采用上述方法, 类似可计算年龄、平均每次票价、年投诉次数的信息增益值如表3示:

则相应属性的资讯获利值分别为:

E (年龄) =1.7509, Gain (年龄) =0.0488;E (平均每次票价) =1.2801, Gain (平均每次票价) =0.5196;E (年投诉次数) =1.7698, Gain (年投诉次数) =0.0299

年来回程次数、查询订购比、年增值服务次数和年特价受惠次数的信息增益值结果如表4示:

则相应属性的资讯获利值分别为:

E (年来回程次数) =1.4038, Gain (年来回程次数) =0.3959;E (查询订购比) =1.1327, Gain (查询订购比) =0.6670;E (年增值服务次数) =1.0285, Gain (年增值服务次数) =0.7711;E (年特价受惠次数) =1.2908, Gain (年特价受惠次数) =0.5098

年电话订购次数、月登录频次、年出行次数和年收入水平的信息增益值结果如表5示:

则相应属性的资讯获利值分别为:

E (年电话订购次数) =1.2324, Gain (年电话订购次数) =0.5673;E (月登录频次) =1.2030, Gain (月登录频次) =0.5967;E (年出行次数) =1.4329, Gain (年出行次数) =0.3668;E (年收入水平) =1.2409, Gain (年收入水平) =0.5588

4结束语

通过对比各个属性的资讯获利值进行依次排序为:年增值服务数、查询订购比、月登陆频次、年电话订购次数、年收入水平、平均票价、年特价受惠次数、年出行次数、年来回程次数、年出行城市数、年龄、年投诉数。阈值的选取根据分析的需要进行设定, 若按0.4的阈值选取, 将年来回程次数、年出行城市数、年龄、年投诉数排除。从航空公司的实践分析结果看, 与现有CRM系统分析指标相比, 对客户分类的指标选取更侧重于行为数据指标。

参考文献

[1]邵峰晶, 于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社, 2003, 8.

[2]王伟.人工神经网络原理-入门与应用[M].北京:北京航空航天大学出版社, 1995.

【属性特征】推荐阅读：

大学属性07-17

法律属性05-12

景观属性05-28

分析属性06-12

道德属性06-19

属性知识06-25

属性处理06-28

技术属性08-20