实用分类(精选4篇)
实用分类 篇1
0 引言
随着互联网应用的飞速发展, 各种衍生问题随之而来。现在很多企事业单位都有自己的办公网络。企事业单位组建办公网络的本意是借助电脑和互联网的技术优势来提高办公效率。但是, 员工可能在上班时间玩游戏, 用实时聊天工具聊天, 访问娱乐网站等。因此, 对于办公网络应该有一个监控系统来查看其使用状况, 并能进行相关控制, 这正是网络监控系统的职能。
1 网络监控系统与网页分类
对于典型的办公网络, 网络监控系统被部署到出口路由器和核心交换机之间, 对通过的所有数据包进行检测和控制。如图1所示:
一个办公网络的所有互联网访问都必须经过网络监控系统。网络监控系统主要有两方面功能。一方面, 它记录下互联网的访问日志, 包括各种实时聊天工具的使用情况、网页的访问记录、各种游戏和游戏平台的使用、文件上传和下载情况等。二是控制功能, 对所有的对互联网的访问请求进行控制。
对于一个网络监控系统来说, 其网页访问记录功能最基本的就是能记录下所有被访问网页的URL。然而站在网络管理者的角度来看, 光有URL记录是不够的, 他不可能去看所有的URL来了解网络的Web访问状况。这有两个主要原因:一是URL访问记录数据量很大;二是不直观, 不容易知道用户所看网页的内容。因此, 要使网页访问记录有使用价值必须进行进一步的处理, 即根据URL, 找出网页所属类型。
目前网页分类的方法大多是基于数据挖掘技术来实现的, 虽然准确性能达到80%左右, 但算法困难, 且运行速度较慢, 难于满足实际运用。
2 实用网页分类算法
本文根据网站具有一定结构的特点, 提出一种从多方面进行网页分类的算法。该算法分三个步骤, 其中步骤1是预处理, 步骤2进行分类, 如果步骤2失效, 就转到步骤3。
步骤1:网站分类。
该步骤将列出某个网站的所有网页所属的分类。这个分类是一个集合, 也就是说一个网站可能包含多个分类。例如, www.163.com, 该网站包含很多类的网页, 有新闻, 娱乐, 财经, 体育, 邮件等很多类型。而www.51job.com则主要包含求职这一个类型。如果令S (W) =A表示W网站所包含分类的集合为A, 那么S (www.163.com) ={新闻, 娱乐, 财经, 体育, 邮件……}, S (www.51job.com) ={求职}。完成网站分类可以使用步骤三所介绍的方法。但是, 由于网站分类的确立在整个算法中有着至关重要的地位, 因此, 建议使用其它准确性更高的方法。通过这个步骤, 我们获得一张表:
步骤2:URL分类。
该步骤将根据网页的URL地址来尝试对该网页进行分类。如果令s (P) =a来表示某个网页P所属分类为集合a, 那么我们马上可以获得一个推论:如果S (W) =A, s (P) =a, 且P是网站W的网页, 那么a必包含于A。从现实意义上理解, 就是说某个网页的类型集, 必然出现在它属网站的类型集之中。许多结构性良好的网站, 网页的URL中会有该网页所属类型的体现。即使是相同的类别 (例如娱乐) , 各个网站也可能使用不同的关键字来表示 (ent或yule) 。因此, 必须为每个网站来配置关键字和类别的联系。可以使用下表的表示方法:
该步骤中识别某个URL分类的完整过程是, 首先解析该URL所属网站以及该URL中的分类关键字, 按照所属网站, 将获得的关键字到上表中查找, 获得相应的分类。
要特别指出的是, 在一个URL中, 所谓关键字出现的位置有可能会因网站的不同而有所变化。因此, 上表是不完善的, 因为它没有指出关键字出现的位置。一个比较好的解决方法是使用正则表达式来描述类别与URL关键字的对应。
步骤3:内容分类。
有时候可能无法按照URL来进行分类。由于单从URL无法得知某些网页的具体分类, 我们需要根据网页的内容进行分析。在分析内容时, 仍然使用关键字作为分类的依据。请先看表3。
每个类别都有自己的特征关键字, 比如讲编程的网页, 很可能会在文章中提到C++, 函数等词汇。我们在处理某个URL时, 对其文本进行关键字检索, 当发现某个关键字, 就找出该关键字对应的类别。如果有多个关键字被发现, 显然可能找到多个类别, 我们就取关键字出现得最多的那个类别。
在进行检索之前, 需要将上表进行预处理, 可以创建一个哈希表, 以关键字为键, 类别为值。在进行关键字检索时, 可以使用多模式匹配算法。当找到一个关键字时, 就从哈希表中查找出对应的类别, 为该类别增加一次计数。当所有的检索完成时, 统计出计数最大的类别。
3 算法分析
这个算法的好处在于识别速度很快, 且内存占用少。缺点是有可能判断错误, 这主要是由关键字的选取造成的。关键字必须经常出现, 并且与其类别联系紧密。该关键字不可以出现在两个类别中, 也不应选取经常出现在多个类别中的词汇作为关键字。
参考文献
[1]周茜, 赵明生, 扈曼.中文文本分类中的特征选择研究[J].中文信息学报, 2003 (3) .
[2]李粤, 李星, 刘辉, 等.一种改进的文本网页分类特征选择方法[J].计算机应用, 2004 (7) .
[3]Sun Wu, Udi Manber.Agrep-A fast approximate pattern-matching tool[C]//Usenix Winter Technical Conference, 1992:153-162.
[4]张鑫, 谭建龙, 程学旗.一种改进的Wu—Manber多关键词匹配算法[J].计算机应用, 2003 (7) .
实用分类 篇2
垃圾分类倡议书1
尊敬的领导、老师,亲爱的同学们:
地球是我们共同的家园,与我们息息相关,我们每一个人都不离开它。我们的课本上有这么一句话“我们的地球是一个美丽、可爱的蓝色星球!”可如今环境污染越来越严重,而生活垃圾是当今世界十大环境问题之一。这些垃圾埋不胜埋,烧不胜烧,造成了一系列严重危害。虽然垃圾可以通过卫生填埋、焚烧、堆肥等无害化处理以达到降低污染的效果。但垃圾无害化处理的费用是高昂的,处理一吨垃圾的费用约为一百至几百元不等。而且更多地方的垃圾则常常被简易堆放或填埋,导致臭气蔓延,并且污染土壤和地下水体。
要解决垃圾处理和污染问题,可以通过减少垃圾的排放,改善生产、生活方式。此外,我们还可以通过垃圾分类的方法,解决垃圾处理和污染问题。为了保护我们的家园环境,我校倡议:
一、全校师生要树立“环境保护从我做起、从身边做起”的理念,强化节能减排意识,养成良好的卫生行为习惯。
二、班级、校园内设置多个贴上各类垃圾标签的垃圾桶或垃圾箱,实行垃圾分类投放。
三、老师自备垃圾桶,学生自备垃圾袋,各自把自己一天来产生的各种垃圾先装好,下午放学后再把各自的垃圾拿到班上或校园里分类投放好,养成不随手扔垃圾和垃圾分类投放的习惯。
四、少使用或不用一次性用品、塑料袋;少制造垃圾,特别是不易分解和有毒有害的垃圾,能循环再用的用品必须做到循环再用。
五、每周进行一次可回收垃圾义卖活动。学校少先队大队部成立一个“志愿站”,由五、六年级各班派出一名志愿者组成,专门负责此项工作。把义卖得来的钱用于公益活动、用于奖励垃圾分类做得好的班级以及个人。
六、让垃圾分类走进社区,走进家庭,开展“小手拉大手”的活动。
倡议人:___
日期:20__年_月_日
垃圾分类倡议书2
市民朋友们:
实行垃圾分类,关系广大人民群众生活环境,关系节约使用资源,也是社会文明水平的一个重要体现。作为全国生活垃圾分类工作重点城市之一,__市从今年开始将全面开展生活垃圾分类处理工作。为倡导垃圾分类新理念,树立绿色生活新风尚,我们向广大市民朋友们倡议:
自觉做一名垃圾分类的积极践行者。坚持从源头减量,践行低碳节约、循环利用的工作生活方式。减少使用一次性用品,促进饮料纸基复合包装、玻璃瓶罐、塑料瓶罐等包装物回收再利用,严格按照生活垃圾分类的标准要求,耐心严谨地将生活垃圾分类投放。
自觉做一名垃圾分类的主动宣传员。一个市民带动一个家庭,一个家庭带动一个社区,一个社区带动一个城市。要积极向身边亲友宣传、讲解生活垃圾分类政策和知识,用自己的模范行为带动身边的人,形成人人参与、个个出力的良好氛围。
自觉做一名垃圾分类的文明引导员。垃圾分类,非一朝一夕之功,必须长期坚持,全民参与。不仅要坚持从我做起,还要热情帮助引导他人,对乱丢乱扔、混装混运生活垃圾等不文明现象敢于抵制,积极进行劝阻和监督,做到人人讲文明,共同养成良好的公共卫生习惯。
各位市民朋友,生活垃圾分类工作已全面铺开,为了我们共同的.家园,让我们积极行动起来,以饱满的热情积极投身到生活垃圾分类工作中来,为改善城市生态环境,提升中国绿城美誉度做出自己应有的贡献!
倡议人:___
日期:20__年_月_日
垃圾分类倡议书3
同学们:
地球,是我们共同的家园,家园的环境与我们息息相关!书上说我们的地球是一个美丽、可爱的蓝星球,可长期以来,人们习惯将各类废弃物和垃圾混合装在一起投放到垃圾站,这种方法虽便于垃圾聚集处理,但可再次利用的物品却难以回收,造成资源浪费。而更多地方的垃圾往往被简易堆放或填埋,不仅导致臭气漫延,污染空气,而且会对土壤和地下水源造成一系列的严重危害。随着环境污染越来越严重,垃圾分类已迫在眉睫!
为了增强大家的环保意识,减少资源的浪费,减少垃圾的产生,我们应当从身边小事做起,积极参与垃圾分类,正确投放垃圾,并做好垃圾分类投放的宣传工作,为保护我们的家园而努力!为此,我提出以下倡议:
1、树立“环境保护从我做起、从身边做起”的理念,增强节能减排意识,养成良好的垃圾分类投放的行为习惯。
2、校园内增设垃圾分类收集点,班级中增设可回收物收集箱,带领全校同学认识各种颜色垃圾桶的标识含义和所对应投放的不同的垃圾类别。
3、人人养成不随手乱扔垃圾的习惯,将废纸、塑料瓶、易拉罐等进行分类回收,并在日常生活中鼓励同学们运用废旧材料,变废为宝。
4、减少使用或不使用一次性用品、塑料袋;少制造垃圾,特别是不易分解和有毒有害的垃圾。
5、积极加入垃圾分类宣传活动,向家人、亲友和邻里宣传、讲解垃圾分类知识,引导他们主动参与到日常的生活垃圾分类中。让垃圾分类走进社区,走进家庭,开展“小手拉大手”的活动。
6、当好垃圾分类的监督员,时刻关注身边的垃圾分类情况,及时纠正不分类投放或乱投放垃圾的行为,确保垃圾分类投放的准确率。
作为地球的主人,保护地球环境和节约资源是我们义不容辞的责任,如果我们能做到人人环保,垃圾件件分类,我们的天会更蓝,山会更绿,水会更清!让我们行动起来,共同呵护美丽的地球!
倡议人:___
日期:20__年_月_日
垃圾分类倡议书4
广大市民朋友们:
目前,我县生活垃圾每日产量500吨,它们正以惊人的速度淹没着我们美丽的家园。如果进行科学分类和回收,就可以节省新资源的开采,从而从根本上减少垃圾。为积极响生活垃圾分类处理工作的号召,大力倡导低碳生活,营造文明和谐的社会环境,为此,我们倡议垃圾分类放置(可回收垃圾、不可回收垃圾、有害垃圾)。我们的口号是:“垃圾分类,从我做起,低碳生活,全民行动”。
整治环境卫生,建设优美、整洁、靓丽的莒县,是美化城市环境,提升城市品位的重要举措,也是广大市民的美好愿望和应尽职责。洁净环境,有您有我,希望每个市民都要发扬主人公精神,争做城市卫生整治践行员、文明行为传播员、环境卫生监督员,以实际行动参与环境卫生集中整治活动。
1、做文明市民,争当卫生整治践行员。美德贵在坚持,实践重在行动。我们要把环境卫生融入日常生活,从点滴做起,用自己的模范行为带动身边的人,形成人人参与、个个出力,摒除陋习,养成良好的`卫生习惯。做到不乱倒垃圾、不乱丢纸屑、不随地吐痰、不乱堆建筑材料、不乱摆摊设点,不在公共场所吸烟。
2、积极主动,争当文明行为传播员。广泛发动身边的人讲文明,树新风。自觉维护公共卫生,让文明卫生知识家喻户晓、老少皆知。在社会形成环境卫生人人有责、人人受益、人人要做贡献的良好氛围,以自己的模范行为带动身边的人,把文明意识、卫生观念和良好行为习惯传播到城区的每一个角落。
3、义不容辞,争当环境卫生监督员。环境卫生涉及千家万户,关乎城市形象和市民的生活,需要各级各部门和每一位市民的积极参与,更需要社会各方面的监督。每一位市民都要认真履行维护城市环境卫生的监督义务,对乱扔、乱倒垃圾等不良行为劝阻、劝说和举报,形成全社会监督、人人参与的良好局面。
参与垃圾分类收集和处理,是讲究公德,讲究文明的体现;是功在当代,利在千秋,为子孙后代造福的崇高事业。为更好地保护我们赖以生存的地球环境,为了我们的子孙后代,为了我们美丽的家园,请大家积极响应我们的倡议,让我们立即行动起来,从现在开始,践行文明行为,争做文明市民,营造优美环境,齐手共建文明幸福莒县。
倡议人:___
日期:20__年_月_日
垃圾分类倡议书5
日前,咸阳市教育系统出台了《城市生活垃圾分类工作校园推进实施方案》,要求义务教育学校将垃圾分类政策合理渗透在有关课程的教育教学中,学龄前教育将垃圾分类知识教育纳入学生基本行为规范教育内容,确保明年年底全市中小学、幼儿园生活垃圾分类教育覆盖率及师生垃圾分类知识知晓率均达到100%。
近年来,随着我国经济快速发展和消费水平大幅提高,生活垃圾产生量迅速增长,“垃圾围城”、垃圾污染已成为突出的环境和社会问题。目前,我国城市垃圾的总存量达60多亿吨,随着人口的增加,每年还以8%左右的速度递增,这些垃圾已侵占土地75万亩。全国668个城市中,就有__年发出以下倡议:
一、做垃圾分类的参与者。从自我做起,树立担当意识,积极响应生活垃圾分类的号召,将生活垃圾分类收集、分类投放,保证物尽其用、安全处置。
二、做垃圾分类的宣传者。从家庭做起,弘扬榜样力量,积极倡导绿色低碳的生活方式,践行垃圾分类、分享分类知识,带动家人、邻居、朋友共同参与。
三、做垃圾分类的维护者。从身边做起,发扬主人翁精神,主动巩固咸阳文明城市创建成果,维护环境卫生、爱护生活垃圾分类设施,对损坏环境卫生设施的行为进行劝导。
四、做垃圾分类的监督者。从日常做起,发挥引领作用,在自己做好垃圾分类的同时,当好义务监督员,主动劝导不按规定分类投放生活垃圾的行为,及时告知正确的方式方法。
广大的青少年朋友,让我们共同支持和参与垃圾分类,为实现生活垃圾减量化、资源化、无害化贡献力量,为我们的幸福生活共同努力!
倡议人:___
日期:20__年_月_日
实用分类 篇3
关键词:互联网信息;分类体系;中图法;语料库
中图分类号: G2503 文献标识码: A DOI: 10.11968/tsygb.1003-6938.2015072
Abstract The classification system is an effective method of information organization. The traditional classification system can not adapt to the transformation of classification object and is no longer practical; at the same time, the existing network classification system is not scientific. An Internet information classification system both practical and scientific can not only effectively meet the users' information demand, but can also promote the development of automatic text classification. Taking Chinese Library Classification and Sina portal for examples respectively, this paper studies the advantages and disadvantages between traditional document classification and taxonomy of network information, come up with the design principles of the internet information classification system, namely practical, scientific and balance. Based on these three design principles, an internet information classification system was built. In order to verify the validity of the classification system, the web crawler is used to grab corpus of www.163.com and www.qq.com which are as experimental data, and Fudan Corpus classification system is used for the comparative experiment. Experimental results show that, compared to the Fudan Corpus classification system, the proposed Internet Information Classification System has a higher practicality, and can more comprehensively cover all kinds of Internet information, little intersections among categories, more approach between the information of each category, the text classification efficiency is quietly improved.
Key words internet information; classification system; chinese library classification; corpus
伴随着网络信息的指数增长,海量信息所带来的信息冗余,使得越来越多的信息用户无法有效获取所需信息。特别是在用户无法明确得知关键词以进行信息检索的情况下,如何帮助用户在信息海洋中更加快速有效地获取需求信息,具有一定的研究价值。信息分类是信息组织的有效途径之一,以中图法、杜威分类法为代表的传统文献分类体系能够有效组织大量的文献信息,网络环境下以各个门户网站分类体系为代表的网络分类体系可以组织海量的网络信息,但传统文献分类体系过分强调类目体系严谨科学,体系庞大、术语生僻;网络分类体系注重体系实用性,但存在措词随意,类目之间科学性欠佳等问题。良好的分类体系是实现自动文本分类的基础,如果能对网络中的文档进行处理,使其形成良好的分类,有助于人们组织、挖掘、检索文本信息[1]。同时,伴随着文本分类技术的发展,越来越多的学者迫切需要文本分类语料库以支撑其实验研究,而最便捷最庞大的语料获取来源即为互联网,但这些互联网信息需要一个有效的分类体系将其囊括。分类体系作为构建文本分类语料库的前提,分类体系的好坏,直接影响了一个文本分类语料库的优劣,继而影响自动文本分类技术的研究。构建融合实用性与科学性的互联网分类体系,除了能够有效满足用户信息需求这一实用性要求,还能够促进自动文本分类技术的进步。
nlc202309051544
1 分类体系研究
一直以来,学者们都试图寻找一个更适用于互联网环境的分类体系。陈树年[2]、张琪玉[3]等先后提出过互联网环境下的分类体系框架,主要划分了一、二级类目,力求涵盖所有互联网信息,但其分类体系过多直接引入传统文献分类法的类目,如陈树年的体系大纲中所出现的“图书馆与参考资料”、“工程技术”等类目,且较少考虑现实情况下的网络信息资源分布,体系重点不明晰,与用户直接使用的指南性网络分类体系有所不同。反观现有的门户网站分类体系,其基于点击率构建、体系适用范围较窄、类名措词随意性大、歧义度高、类目之间交叉明显[4]、网络信息混乱、用户查找困难重重[5]。不仅导致用户在浏览不同网站的过程中存在明显的阅读障碍,更使得用户无法通过分类体系有效获取所需信息,常常出现如点击某一类目后,出现大量与需求信息完全无关的内容等问题。由传统文献分类体系直接改造而来的分类体系框架以及各个门户网站的自编分类体系,无法有效应对海量网络信息环境下的用户信息需求,建立通用性高、更加符合网络信息资源分布现状、适合网络信息组织与传播的互联网信息分类体系具有一定的现实意义。
传统文献分类法与网络信息分类法的分类对象不同决定了传统文献分类法对于互联网信息的不适用性,但两者都是对于知识、信息的组织,这一共性决定了网络信息分类能够借鉴传统文献分类法[6]。传统文献分类法一般以学科为中心建立分类体系,将有关主题的文献集中到学科之下[7],如《中国图书馆分类法》[8](下文简称中图法)。传统文献分类体系更倾向于科学性[9],依据学科属性进行知识体系组织,强调类目体系覆盖全面、稳定,类目命名准确严谨。但存在结构过于庞大、缺乏简明性,划分太细、缺乏实用性,操作复杂、缺乏易用性,体系僵化、缺乏灵活性,单线排列、缺乏多维性等多种问题[10]。而网络分类法以主题为中心或主题结合学科的方式组织分类体系,如新浪门户[11]、网易[5]采用主题与学科结合方式,建立以事物对象为中心的分类体系[12]。网络信息分类法更倾向于依据用户需求来设置类目体系,特别是某些实用性很强的网站,如淘宝网[13]。网络信息分类体系具有更高的实用性,类目名称通俗易懂,但存在着类目交叉明显,如“新闻”一级类目下的“国内”、“深度报道”,用户无法明确选择哪个渠道点击浏览信息,降低网站访问效率,科学性明显不足。对此不少学者提出了自己的建议,陈树年提出建立网上信息的知识分类系统,必须遵循面向网络信息资源、面向网络技术环境、面向网络用户的原则,突出其实用性和易用性[2]。黄如花提出网络信息组织模式应该以用户为中心,遵循实用性和易用性原则,综合运用自然语言和人工语言(分类语言、主题语言),充分利用新兴技术和人们经验的积累[14]。王丽珺等提出网络信息分类体系应具备动态性、多维性、实用性和易用性原则[15]。郑庆胜等认为在构建网络信息分类体系时应注意分类体系的实用性、全面性、规律性、统一性和特殊性[16]。
2 分类体系设计原则
基于上述对传统文献分类法与网络信息分类法的综合分析,并考虑到网络分类体系分类对象的转移以及当前网络信息本身所呈现的特点[17]:数量多、内容庞杂;变化快、稳定性差;类型多、范围宽、用途广;信息组织特殊、控制性差,本文采用以事物对象为中心的方式构建知识体系,并继承传统分类体系科学性、类目体系全面的优点,进一步改进和完善现有网络信息分类体系设计原则,总结提出以下三个原则:(1)实用性原则,即要求类目设置方便用户使用。各大门户在设立分类体系时一个重要的原则就是方便网络用户的查找[18],互联网分类体系区别于传统文献分类体系,其目的是有效地组织网络信息,并最大效能地满足网络信息用户的需求。只有满足实用性,才能制定出更加符合用户需求的体系,使用户更快更准地查询到需要的信息;(2)科学性原则,其要求类目体系不仅能够全面涵盖几乎任何主题的网络信息,且各个类目具有明显主题范围,能够明显区分类目的主题内涵与外延,大类与子类之间具有逻辑性。目前大部分的互联网分类体系只是基于其本身网站的点击率设计,类目体系全面性不足,大量互联网信息无法实现有效分类,大大弱化了信息的利用率;同时,大量类目重复设置,影响了用户的准确判断。坚持科学性原则,有利于构建更完善的互联网分类体系,且各个类目特征明显,类目上下级符合逻辑,有助于后续语料收集、语料训练等机器自动学习的实现;(3)均衡性原则,即要求分类体系各个类目访问频率相近。从信息论角度来看,可以把网站信息分类体系类比为一个信息通道。一般来说,通道的利用率要高,这要求每个类别包含的元素要尽量均衡[19],即内容多分得细,内容少分得粗。若不引入类目体系均衡原则,则可能有的类目只有两三层,有的类目则多达十几层,有时用户从分类途径查找某个类名,往往要链接十多个页面,既费时又费力。坚持类目体系均衡原则,有助于体系更加简洁、更加方便。
3 互联网信息分类体系构建
以分类体系设计原则为基础,构建初步互联网信息分类体系。在初步分类体系基础上,采用网络爬虫从新浪网抓取不同频道的信息并人工识别后将其作为训练语料和测试语料,进行文本分类实验测试。依据测试结果,对初步互联网信息分类体系进行修改调整,最终得到各个一级类目分类准确率均高于90%的互联网信息分类体系。该分类体系共有13个一级类目,各个一级类目之下具有2-8个二级类目(见表1)。
4 互联网分类体系有效性实验
为了检验此分类体系对于互联网信息的有效程度,我们利用目前已有的文本分类体系进行对比实验。目前采用网络信息作为语料测试文本分类效果的分类体系主要有:复旦大学文本分类语料库[20]的分类体系(以下简称复旦分类体系)和搜狗文本分类语料库[21]的分类体系(以下简称搜狗分类体系)。复旦分类体系包含20个类目:Art、Literature、Education、Philosophy、History、Space、Energy、Electronics、Communication、Computer、Mine、Transport、Enviornment、Agriculture、Economy、Law、Medical、Military、Politics、Sports。搜狗分类体系包含9个类目:IT、财经、健康、教育、军事、旅游、体育、文化、招聘。由于搜狗分类体系的类目较少,类别全面性不足,诸如娱乐、游戏等相关主题的语料,无法被涵盖,因此本文采用类目更为全面的复旦分类体系作为实验对比体系。
nlc202309051544
4.1 实验流程
首先通过网络爬虫抓取语料,并将抓取的语料依据不同分类体系进行人工分类,将人工分类所得语料分为训练集与测试集;最后应用文本分类技术,采用KNN分类器进行分类测试。采用KNN分类过程中,主要利用余弦相似度计算以计算各个文本向量空间,设定阀值为20%,即测试文档与类目之间相似程度超过20%,则输出该类别。依据测试文档与不同类目相似程度的不同,按照相似程度从高到低排序,得到测试文档的第一相似类目、第二相似类目和第三相似类目。考虑到当前一个互联网信息文档中涵盖多种主题的现实情况,故而将第一相似类目、第二相似类目、第三相似类目统称前三相似类目,能够有效反映语料的真实分类情况。因而,在传统的文本分类评价指标——分类准确率的基础上进行扩展,提出了两个分类准确率评价指标,包括第一相似类目分类准确率(即传统的文本分类分类率,见公式1)以及前三相似类目分类准确率(见公式2)。具体实验流程如图1所示。
4.2 实验数据
由于本文互联网信息分类体系主要参考中图法和新浪网分类体系构建,为保障对比所用语料公平性,本文实验采用的语料来自网易门户与腾讯网,通过网站首页层层遍历抓取,保证实验语料能真实反映网络语料分布现状,抓取所得语料总数为21614条。
抓取所得的语料,需先进行人工分类,即通过人工识别某一语料归属于哪个类目,以作为可用的语料,剔除不可用的语料,得到实验所需的语料集。其中,可用语料率=该体系可用语料数量/抓取所得语料总数量。人工分类统计后,可得到复旦分类体系与互联网信息分类体系的语料情况(见表2)。
由语料情况可知,复旦分类体系可用语料率仅为53.63%,大量娱乐、游戏、时尚、神秘学等相关互联网信息无法找到相应类目;而互联网信息分类体系可用语料率达84.37%,无法分类的语料主要集中为语料涵盖主题过多,人工无法明确识别类目的语料。因而,相比于复旦分类体系,本文构建的互联网信息分类体系实用性更高,具有包括娱乐、游戏、时尚等多个复旦语料库分类体系所没有的类目,符合实用性原则;同时,也体现出互联网信息分类体系能够更加全面的覆盖多种互联网信息,符合科学性原则所要求的类目体系全面。
本文实验中的训练语料、测试语料依据各个类目语料总数大约1:1划分,根据抓取信息的实际情况,不同类目的训练语料、测试语料数量有所不同。复旦语料库分类体系总训练语料数为5802条,总测试语料数为5790条(具体情况见表3);互联网信息分类体系总训练语料数为9142条,总测试语料数为9094条(具体情况见表4)。
由训练与测试情况可知,复旦分类体系各个类目的语料数量差异较大,语料数量多于1000的类目仅有3个,语料数量低于200的高达11个,相应其训练语料数量将低于100,会极大的影响后续文本分类实验;相比于复旦分类体系,互联网信息分类体系各个类目的语料数量较为均衡,语料数量多于1000的类目有7个,语料数量低于200的仅有2个。由此可知,互联网信息分类体系各个类目包含的语料数量相对比较均衡,诸如“复旦分类体系”中划分的Military(军事)、Politics(政治)类目在互联网信息分类体系中,均为event(时事)的子类,而互联网信息分类体系的训练集、测试集情况也显示Military(军事)、Politics(政治)类目语料数量较少,符合均衡性原则。
4.3 实验结果
通过实验,可分别得到复旦分类体系以及互联网信息分类体系各个类目的测试结果(见表5、表6)。
由两种分类体系的测试结果可知,互联网信息分类体系第一相似类目分类准确率高于90%的类目达5个,低于50%的仅有1个,而复旦语料库分类体系高于90%的仅有1个,低于50%的有10个;互联网信息分类体系前三相似类目分类准确率高于90%的类目有9个,高于80%的有12个,仅有1个低于80%,而复旦语料库分类体系高于90%的仅有4个,高于80%的有11个,低于80%的有9个。由此可知,互联网信息分类体系类目设置具有更高的合理性,类目之间交叉度更低,各个类目特征明显,符合科学性原则所要求的类目之间相互独立。
对于整体数据集,利用文本分类评价指标——宏平均准确率进行评价,即每个类的分类准确率的算术平均值。由于前面各个类别考虑了第一相似类目分类准确率、前三相似类目分类准确率,故而此处考虑第一相似类目宏平均准确率以及前三相似类目宏平均准确率(复旦分类体系与互联网信息分类体系的宏平均准确率见表7)。
对比可知,尽管互联网信息分类体系所含语料数目为18236,复旦分类体系所含语料数目仅为11592,互联网信息分类体系语料数大大多于复旦分类体系,即互联网信息分类体系所包含的干扰信息大大多于复旦分类体系,但其第一相似类目宏平均准确率、前三相似类目宏平均准确率均仍高于复旦分类体系,验证了本文所构建的互联网信息分类体系的有效性。
5 结语
针对当前现有的各大网站自建体系科学性不高,用户无法通过分类体系有效获取所需信息,甚至误导用户的现状,本文在对比了传统文献分类法与网络信息分类法的特点基础上,结合网络信息分类法——实用性以及传统文献分类法的优点——科学性,提出了适用于构建互联网信息分类体系的设计原则,并初步构建了具有13个一级类目的互联网信息分类体系。该互联网信息分类体系以事物为中心进行知识组织,在贯彻网络信息分类体系实用性原则的基础上,提高了分类体系的科学性与均衡性。同时,实验结果表明,对比复旦语料库的分类体系,本文所提出的互联网信息分类体系具有一定的有效性,既能有效涵盖更多的互联网信息,且能够保证更高的分类准确率。具体而言,互联网信息分类体系可用语料率达84.37%,远高于复旦语料库分类体系的可用语料率53.63%,涵盖多个较高实用价值的类目,符合实用性原则;同时,较全地覆盖网络信息,能够使更多的网络信息找到相应类别。其前三相似类目分类准确率高于90%的类目有9个,占体系总类目数的69.23%,而复旦语料库分类体系中高于90%的类目占体系总类目数的比率仅为20%,互联网信息分类体系各个类目特征更加明显、相互独立、交叉度低,符合科学性原则。同时,各个类目涵盖的语料数量相近,语料数量低于200的仅有2个,而复旦语料库分类体系的语料数量低于200的高达11个,“Economy”类目语料数量设置多于这11个类目的语料总和,表明互联网信息分类体系各个类目所包含的网络信息量接近,符合均衡性原则。同时,互联网信息分类体系具有更高的分类准确率,前三相似类目分类准确率达96.50%,具有较好的自动文本分类效果,其能够有效解决当下网站自建体系类目交叉明显,类目科学性不强的问题,帮助用户更加便利快捷地查找到需求信息。
实用分类 篇4
空间负荷预测的概念最早由Willis提出并完善[1]。它是城市配电网规划的基础,已成为城网规划领域中一个极为重要的研究课题[1,2,3,4,5]。
空间负荷预测方法中的仿真法主要适用于用地规划比较不确定的情况(如中长期负荷预测),能较好地综合考虑不少定性因素(如地理、社会和交通环境),但在国内城网规划中推广应用的成功案例还不多见[6]。目前短期和中期空间负荷预测的主要方法有趋势法、时间序列法、混沌法[7]和分类分区法等。其中,分类分区法[5,8]是一种比较简便实用的方法,适用于土地使用较确定的情况,无需收集太多的历史数据,并已在生产实践中得到了广泛应用。该方法的关键之处在于根据土地使用规划设置各功能小区的负荷饱和密度,进而确定各规划期小区负荷密度。但现有的一般做法是各规划期小区负荷密度基于整个规划区内同一分类负荷平均密度确定[5,8,9]。显然,由于负荷历史或发展阶段不同,即使同类负荷其负荷密度相差甚远,基于统一的分类负荷平均密度预测小区的负荷必然会造成不可忽视的误差[8]。为此,文献[5,8,9]提出了一种误差修正方法,其思路是设定一个阈值λ,当小区内某类负荷实际密度与该类负荷平均密度差异超过λ时,就进行必要的修正。但小区负荷的实际密度难以事先知道。
本文提出一种改进的空间负荷预测分类分区实用方法。基于空区推论[2]概念和目前国内空间负荷预测基础数据收集的实际情况,对有、无历史负荷数据的老城区和新城区采用不同的负荷预测思路。
1 负荷预测的传统趋势法
作为分类分区法的实现,先介绍其基础,即传统趋势法。如果已知负荷的历史数据,可直接用回归曲线拟合外推得到规划期的负荷。通常,回归曲线采用3次函数[2],其他常用的回归曲线还有生长曲线(S形曲线)。它们既可用来拟合小区历史负荷,也可拟合全城区总量或分类负荷总量的历史负荷。
由于城区负荷密度不可能无限增长,城市发展到一定程度后会处于一种比较稳定的饱和状态,对于有限建筑面积的城区,在曲线拟合时应设置远景年负荷饱和值以控制曲线的发展趋势,有助于提高趋势法的预测精度。远景年y的典型值可取为y=T+25,T为现状年[2]。
2 空间负荷预测的分类分区法
分类分区法负荷分布预测的总体思路是:先估算各小区的负荷密度,再结合其面积计算小区负荷。
小区划分一般按功能小区选取边界。功能小区一般是一片用地类型相同的地块或1个到几个负荷类型相同的用户。根据小区用地类型,负荷大致可分为工业、居民生活、商业仓储、公共设施和其他几大类[10]。一般来说,小区负荷密度不可能无限增长,往往经过一段时间快速增长后,速度逐渐放慢,最后趋向饱和[9,10,11]。负荷饱和值基于确定远景分类负荷密度指标得到。根据远景规划用地分析,设定远景年分类饱和负荷密度指标并预测远景年负荷分布情况,进而得到远景分类负荷和分类电量值。
目前使用的分类分区法中,将由分类负荷总量历史值及其饱和值一起拟合的分类负荷曲线回推,得到中间年的分类负荷总量。根据各年的分类负荷总量和分类总面积可求得中间年的分类负荷平均密度。然后,将该类负荷平均密度按各小区“实际密度”修正后作为各小区负荷密度的预测值。最后再结合各小区面积计算得到其负荷值[5,8]。
3 改进的小区负荷预测
为了比较现实地改善预测精度,本文采用空区推论的思想对现有的分类分区法进行了有效的改进:不必所有同类小区负荷全都基于同一分类负荷平均密度确定。空区推论(VAI——vacant area inference)[2]最初是为了预测现状无负荷的空区上的负荷发展而提出的。它是通过预测包含空区的更大区域的负荷来推算其中空区的负荷发展。其基本思路是:外推有历史负荷区域的负荷发展趋势和加上空区后较大区域上的总负荷发展趋势,然后根据两者之差推算空区的负荷,如图1所示。
3.1 老城区负荷分布预测
本文所说的“老城区”是指已有负荷,其用地功能基本不发生大的变化的城区。
3.1.1 已知历史负荷数据的老城区
根据实际城市配电网规划工作经验,通过划分城市配变供区可获得部分小区的年用电量,再由其最大负荷利用小时数可得小区的年最大负荷。对于这些有历史负荷数据的小区,可直接将其负荷历史值及远景年的饱和值用回归曲线拟合,再回推得到规划期的负荷,无需通过分类负荷平均密度来计算。
3.1.2 无历史负荷数据的老城区
除去上述老城区,其余老城区的历史负荷数据不详,其负荷分布可根据其分类负荷平均密度的思路来预测。
首先,确定现状年整个老城区的分类负荷发展曲线,如图2中曲线a所示。根据远景分类负荷饱和密度和现状年老城区的分类总面积,算出现有老城区的远景分类负荷。将该饱和值和分类负荷历史值采用曲线拟合可得到分类负荷发展曲线。
然后,将有历史数据的各老城小区的负荷预测值逐年汇总(考虑同时率),可得有历史负荷的老城区的分类负荷发展曲线,如图2中曲线b所示。
最后,所有无历史数据的同类老城小区的负荷可基于同一分类负荷平均密度计算得到,该分类负荷平均密度可表示为:
式中:Lth′为t年在现有老城区面积上预测的h类总负荷,见图2中曲线a;Lth1为t年h类无历史负荷数据的老城区的负荷,如图2中下方阴影所示;Lth2为t年h类有历史负荷数据的老城区的负荷,见图2中曲线b;S1为h类无历史负荷的老城区的面积。
3.2 新城区负荷分布预测
新城区泛指各类成片开发的大型居住区、商业区、工业园区、各类新技术开发区等,通常是全新设计和开发,基本没有历史数据,即使有也无参考价值[12]。故新城区的负荷及负荷分布基本只能依据小区用地开发规划,利用分类负荷密度来预测。与以往采用分类负荷平均密度法不同的是,本文根据空区推论的思想来估算新城区的分类负荷平均密度(不同于老城区的负荷密度),主要思路如下:
1)确定远景年整个规划区面积上的分类负荷发展曲线。随着城市的发展,新城区的出现会使得某类或某几类负荷的总面积增加。从远景城市市政规划图上获得分类负荷的总面积,再结合远景分类负荷饱和密度,可算出在新的规划区域上远景年的分类负荷。然后按前述类似做法,得到分类负荷发展曲线c(见图2)。
2)估算新城区分类负荷平均密度,并据此预测新城区负荷分布。根据新城区的各分类面积及其分类负荷,计算新城区的分类负荷平均密度,计算公式如下:
式中:dth,new为新城区t年h类负荷平均密度;ΔPth为新城区t年h类负荷,是根据整个规划区面积上的负荷饱和值和仅老城区面积上的负荷饱和值分别预测得到的2个负荷值之差,如图2中的上方阴影所示;Sth,new为新城区t年h类负荷的面积,若每个新小区规划出现的时间不详,可近似采用从现状年至远景年增加的该类新区的总面积。
4 空间负荷预测流程
本文空间负荷预测是基于空区推论的分类分区实用方法,对有、无历史负荷数据的老城区和新城区采用不同的负荷预测思路;并采用自下而上与自上而下首尾相接,计算、校核与修正循环进行的模式,其基本算法流程如图3所示。其中,结果校核可分为以下2项:①各分类电量和负荷之和应与系统总电量和负荷预测值互相校核。②将自下而上由小区电量和负荷汇总得到的分类电量和负荷预测结果与直接由分类电量和负荷预测得到的结果相校核。若校核结果令人满意,则结束计算;否则,按现有电量和负荷的比例,把差值分配到每个小区,或采用专家干预的方法修正小区电量和负荷,此为自上而下的修正方式。
5 算例分析
以某城区空间负荷预测中居民类负荷的预测为例,对本文改进后的方法进行分析和验证。该负荷预测以2005年为现状年,预测2006年—2010年的负荷。
至2005年底,该城区居民生活占地面积约6.15 km2。根据远景城市市政总体规划,至远景年,该城区居民生活占地总面积将达到14.36 km2。规划期有将空地开发为新住宅小区和商住楼的规划,收集到前2年的土地规划资料,如表1所示;在估算2008年—2010年的分类负荷密度时采用的是从2006年至远景年新增的该类小区的总面积。远景年该类负荷密度指标确定为15.5 MW/km2(占地面积指标)。
由于用原有分类分区平均密度法和本文方法进行负荷预测所得结果的差异主要体现在新城区上,故选取了2006年新入住的某居民小区,占地面积1.65 km2(见表1),将其2006年和2007年负荷实际值与本文方法和用原有分类分区平均密度法所得的预测结果相比较,如表2所示。
由表2可见,该居民小区在建成后前2年由于入住未满,用电量低,负荷增长速度较缓慢,本文方法的预测结果与实际值较接近,原有分类分区平均密度法所得结果的相对误差却很大。分析其原因在于,初期新区的负荷密度较小,若所有同类小区基于统一的平均密度确定负荷显然会增大误差;随着该小区负荷的发展,至2010年其负荷密度逐渐向平均密度靠近,故原有分类分区平均密度法的预测结果与本文方法的预测结果差距可能会缩小。可见,本文方法对于新区近期的负荷预测精度较高。
6 结语
本文首先针对有历史负荷数据的老城区,将其历史年和饱和年的负荷值采用回归曲线拟合,并回推规划期的负荷预测值;然后基于空区推论的基本思想,提出了现有面积(不包括新城区)上的分类总负荷减去上述老城区的负荷即得到无历史负荷数据的同类老城区的负荷,再结合面积算得无历史数据的老城区的平均负荷密度,进而预测其负荷分布。该方法虽然增加了划分现有配变供区以获得部分老城区历史负荷数据的工作,但避免了所有同类老区基于统一的分类负荷平均密度来确定,有效改善了预测精度,而附加的数据也易获得。
最后,基于空区推论法可得到新城区负荷分布预测,避免了同类新老小区基于统一的分类负荷平均密度来确定。该方法仅需增加识别新老城区的数据收集工作,但对新城区前几年的负荷预测影响较大,实例说明了其实用性和有效性。
摘要:目前对无历史数据的新老城区空间负荷预测,一般采用分类分区法,所有同类小区基于统一的分类负荷平均密度预测其负荷。针对这一不足,基于空区推论的思想对分类分区法进行了改进,提出现有面积(不含新城区)上的分类总负荷减去有历史负荷数据的老城区的负荷即得到无历史负荷数据的同类老城区的总负荷;同理,规划面积(含新城区)上的分类总负荷减去现有面积上的分类总负荷即得到同类新城区总负荷,再结合面积算得无历史数据的新老城区的平均负荷密度,进而预测其负荷分布。这样使得有、无历史数据的老城区和新城区采用不同的负荷预测思路以提高其预测精度。该方法几乎不增加收集原始数据的工作量或附加的数据较易获得。最后通过实例说明了该方法的实用性和有效性。
关键词:空间负荷预测,分类分区法,空区推论,负荷密度
参考文献
[1]WILLIS H L,NORTHCOTE-GREEN J E D.Spatial electric load forecasting:a tutorial review.Proceedings of the IEEE,1983,71(2):232-253.
[2]WILLIS H L,TRAM H.A cluster based VAImethod for distribution load forecasting.IEEE Trans on Power Apparatus and Systems,1983,102(8):2677-2684.
[3]陶文斌,张粒子,潘弘,等.基于双层贝叶斯分类的空间负荷预测.中国电机工程学报,2007,27(7):13-17.TAO Wenbin,ZHANG Lizi,PAN Hong,et al.Spatial electric load forecasting based on double-level Bayesian classification.Proceedings of the CSEE,2007,27(7):13-17.
[4]肖俊,张晶,朱涛,等.基于关联分析的城市用电负荷研究.电力系统自动化,2007,31(17):103-107.XI AOJun,ZHANGJing,ZHU Tao,et al.Analysis of urban power load based on association rules.Automation of Electric Power Systems,2007,31(17):103-107.
[5]余贻鑫,王成山,肖俊,等.城网规划计算机辅助决策系统.电力系统自动化,2000,24(15):59-62.YU Yixin,WANG Chengshan,XI AO Jun,et al.A computer decision support system of urban power system planning.Automation of Electric Power Systems,2000,24(15):59-62.
[6]王成山,肖峻,罗凤章.多层分区空间负荷预测结果综合调整的区间方法.电力系统自动化,2004,28(12):12-17.WANG Chengshan,XI AO Jun,LUO Fengzhang.Interval-based multi-layer decomposed calibration methodfor spatial load forecasting.Automation of Electric Power Systems,2004,28(12):12-17.
[7]杨正瓴,王渭巍,曹东波,等.短期负荷预测的Ensemble混沌预测方法.电力系统自动化,2007,31(23):34-37.YANG Zhengling,WANG Wei wei,CAO Dongbo,et al.Ensemble chaotic forecasting method in short term load forecasting.Automation of Electric Power Systems,2007,31(23):34-37.
[8]王成山,黄纯华,葛少云,等.一个实用的城市电力负荷密度预测系统.电力系统自动化,1992,16(6):41-46.WANG Chengshan,HUANG Chunhua,GE Shaoyun,et al.A practical forecasting system for urban electric load density.Automation of Electric Power Systems,1992,16(6):41-46.
[9]段新军.空间电力负荷预测系统研究[D].天津:天津大学,2001.
[10]王晓东.城网综合负荷预测方法的研究与工程应用[D].天津:天津大学,2004.
[11]WILLIS H L,ENGEL M V,BURI M J.Spatial load forecasting.IEEE Trans on Computer Applications in Power,1995,8(2):40-43.
【实用分类】推荐阅读:
小学常用成语分类积累(最实用1000个)11-10
知名培训学校安全分类应急预案(含总案)-经典实用版12-08
实用要求07-19
实用文本06-27
实用建议06-27
实用功能06-28
实用07-22
实用算法07-26
实用智能08-06
实用教材08-09