不良信息过滤论文

2024-10-23

不良信息过滤论文(共6篇)

不良信息过滤论文 篇1

随着网络系统的发展, 人们认识到网络的重要作用, 并积极通过网络进行信息的传递与资源的共享, 从而达到交流的目的。但是, 网络在传播有利信息的同时, 也会在有心人士的利用下传播不良信息, 使一些是非辨别能力较弱的青少年受到严重影响, 从而产生不良反应, 危害到青少年身心的健康成长, 也危害到国家与社会的稳定发展。在这样严峻的形势下, 网络技术人员提高对网络安全性的研究, 并不断创新相关技术, 提出网络不良信息过滤技术, 通过各种过滤方法净化网络, 以保证网络传播信息的有效性。

1. 网络不良信息过滤的特点

随着网络的发展, 一些人为了经济目的或者政治目的, 在网络论坛或者聊天室中发布黄色、反动、色情、暴力、迷信等不良信息, 严重危害网络环境的清洁性, 也危害社会的稳定性, 这个问题是必须解决的。但是, 由于不良信息过滤与一般信息过滤不同, 具有自身独特的特点, 这就加大了过滤的难度, 需要技术人员提高重视。网络不良信息多是以多变的表达方式隐蔽自身的不良性质, 这样就增加了其逃避网络信息过滤的机会, 同时, 一般过滤方法对于不良信息文本倾向性的判定质量不高, 影响网络不良信息过滤的效率。因此, 网络技术人员必须提高重视, 创新网络不良信息过滤技术。

2. 网络不良信息过滤技术的应用方法

网络不良信息过滤的方式有以下几种, 如利用过滤软件的针对性, 设置关键字来过滤含有设定关键字的文本, 或者直接对一些特定网址进行屏蔽, 以封锁不良信息的传播, 另外, 还有利用网络内容分级系统的有效性来进行网络不良信息过滤的方式, 都能够有效地提高网络不良信息过滤的效率与质量。基于以上网络不良信息过滤的方式, 笔者提出几种网络不良信息技术及其应用情况, 以供相关技术人员参考。

2.1 分级过滤技术

这种过滤技术是通过一定的分类算法, 对网络信息进行分类处理, 并设置网络过滤模板, 对网络中与模板相同的不良信息进行过滤。这种过滤技术应用较为灵活, 效果也较好, 但是需要用户提供网络真实信息。

2.2 文本过滤技术

这种过滤技术主要有两种过滤方式, 一种是关键词过滤方式, 另一种潜在语义索引过滤方式。关键词过滤是在网络中设置一定的关键词, 以过滤与关键词相关内容信息, 潜在语义索引过滤则是一种弥补关键词过滤的方式, 它将与关键词语义相类似的词语构建在文档空间中, 以过滤文档空间中词语相关内容信息。

2.3 多媒体信息过滤技术

这种过滤技术多是针对图像、音频、视频信息而言的, 通过对以上信息物理与内容特征判定, 并建立过滤索引库, 以提高网络不良信息的过滤效率。

网络不良信息技术应用的实现途径主要有两种, 一种是通过运营商的配合, 对网站设置过滤标准, 并加强网站管理力度, 从源头上过滤不良信息。还有一种是通过计算机厂商对电能软件的优化, 即是在计算机中加设不良网络信息过滤软件发挥其过滤不良信息的功能, 从而促进网络清洁性的提高。

3. 结语

综上所述, 在网络发展过程中, 技术人员不仅要注重对网络系统构建技术的研究, 同时也要提高对网络安全技术, 尤其是网络不良信息过滤技术的重视, 积极分析不良信息在网络中传播的方法, 并创新网络不良信息过滤的方法, 以便提高网络不良信息过滤技术应用的有效性。虽然现阶段, 网络系统中依然存在着一些不良信息, 但是相信, 随着技术人员对网络不良信息过滤技术不断地研究与创新, 必将有效过滤不良信息, 保证网络的安全性与社会的稳定性。

网络不良信息过滤技术与应用 篇2

目前国内外的各种不良信息过滤软件或系统, 在网页信息鉴别上主要使用四种过滤技术, 即基于因特网内容分级过滤 (PICS) 、数据库过滤 (IP库、URL库) 、关键词过滤以及基于内容理解的过滤。

1.1 基于因特网内容分级平台过滤 (PICS)

为了保护用于免受网络不良信息的侵扰, W3C (World Wide Web Consortium) 于1995年8月组织当时因特网上的主导力量共同商讨制定一套技术规范, 即因特网内容分级平台 (platform for Internet content selection, 简称PICS) , 它是一种分级过滤软件标准, 为网上信息内容的标记、分级提供一个平台, 使用户或组织能够根据各自认同的分级体系对网络内容进行分级, 分级体系 (rating system) 规定了分级的类目、类目的级别和分级的标准。

分级得到被称为分级标记 (content rating) 的数据集, 分级标记产生以后, 凡是遵循PICS技术规范开发的软件都可以对其进行处理。用户可以通过分级标记了解到分级机构和分级体系的情况, 从而在使用时下载合适的过滤系统分级档案, 并在浏览器中设置不同的向度, 在浏览网页时, 浏览器会依据用户设定的向度级别筛选出合适的信息。

利用网页内容分级法, 采取人工分级方法过滤不良信息, 其错误率相对较低, 并可以准确地对图像、视频等多媒体信息进行准确分级, 尤其是网页作者希望更多的人浏览其网页的初衷是相违背的, 如果网页作者是恶意地传播不良信息的话, 用户对其是无法控制的。

1.2 数据库过滤

数据库过滤就是通过对网上各种信息进行分类后, 精确地匹配URL和与之对应的页面内容, 形成一个预分类的网址库。网址库有两种类型的列表, 一种为“黑名单”, 包括禁止访问的目标网站的URL, 另一个是“白名单”, 包括允许访问的目标网站的URL。在用户访问网页时, 依据数据库中的IP地址或URL来判定是否需要过滤掉相应的内容。数据库必须依赖事先列出的特定网址, 对非法URL的覆盖程度不高, 此外这种方法对许多寄生在综合性网站内的不良信息也无法过滤, 且经过系统的不断训练反馈, 通过一定时间一定规模的积累之后, 禁用地址数据库将动态地修改完善, 在一定程度上可以满足用于需求。

1.3 基于关键词的过滤

基于关键词的过滤原理简单, 就是给定一系列描述文档特征的关键字或索引词, 或者时间、作者、坐镇姓名等个性信息。在过滤过程中, 它以数据流中是否包含关键词或衡量与关键词的相似度, 判断是否要过滤掉该页面。这种方法的性能取决于是否建立精确完备的禁用词库, 它过滤速度快, 但往往不考虑上下文的关联性, 漏报、错报率较高, 而且有些信息内容的发布者可能有意避开使用这些词, 用其他的词或图片替代, 使得基于关键词的信息过滤机制不能识别。

1.4 基于内容理解的过滤

基于内容理解的过滤是指对获取的网络信息内容进行识别、判断、分类, 确定其是否为需要过滤的目标内容, 并对以确定的目标内容进行过滤等检测控制的技术。它是根据不良信息的一些内容所呈现的特征来进行判断的一种识别过滤方法。基于内容理解的过滤技术具有适应性强、精度高等特点, 能有效地解决基于数据库和关键词的过滤技术不能处理好的问题, 包括文本内容理解过滤、图像内容分析过滤、视频内容分析过滤和智能过滤等。

1.5 其他过滤策略

基于提高过滤不良信息的整体性能和运行速度考虑, 分级匹配过滤的策略也被提出来。第一级过滤是基于查询关键词的过滤和基于数据库的过滤, 这两种过滤方式过滤速度快, 可以快速剔除一部分不良信息, 缓解了系统压力。第二级过滤是基于内容理解的过滤, 是主要的过滤环节。两种过滤方式的有机结合, 在一定程度上提高了过滤的效率和准确率。

2 信息过滤技术的应用

通过在服务端或是计算机终端安装过滤产品, 信息过滤技术已经被广泛地应用于网络环境的净化。公安、安全网络监察部门广泛采用各种信息过滤产品, 实现对互联网接入单位网络出口的信息审计管理。教育部、财政部、工业和信息化部、国务院新闻办2009年4月下发通知, 为各中小学联网的计算机终端免费提供绿色上网过滤软件, 以净化校园网络环境。中国电信、中国网通等运营商也陆续在全国各地推出绿色上网业务, 为用户提供不良信息过滤服务。

目前, 经过公安部审核办法销售许可证的硬件或软件的信息过滤产品已达30余种, 可以实现IP过滤、自动收集、识别网上的各种信息, 具有智能化地提取摘要和关键词、建立索引、提供查询和对不良信息的报警等功能。基于中间服务器过滤的网络安全管理系统或网关型产品, 对于单位网络管理部门来说是一个良好的选择, 可以对不良信息进行有效控制, 实现把内网安全管理由被动防护转变为主动检测, 根据用户工作性质设置管理策略, 对用户网上行为监管、审计、追踪等, 能够有效提高网络信息管理水平。

依靠专门的网络信息过滤产品, 在隔离不良信息方面虽然能起到明显的作用, 但任何一种过滤策略不可能剔除网上所有的不良信息。创建良好的网络环境, 引导和督促使用者养成良好的上网习惯, 加强对上网行为的严格管理是关键。在现实生活中, 管理者往往只关注系统是否完备、应用是否通畅, 以及设备的检修维护等, 却忽视了对上网人员的行为管理和教育。

上网行为管理, 又称网络行为管理, 就是对上网人员在网

(上接第19页)

出智能化多媒体教学的优越性。L模式的特点:利用VOD辅助学生的学, 在这一教学模式中, 都是根据教学大纲的目标、要求, 自行编制或从市场上各种的VOD学习光盘中选择出适合自己教学对象的光盘。

2.1 教学模式的流程

基于Internet教学模式, 它包括教师、学生、课件 (CAI、CAL、ICAI、IMCAI等课件) , Internet和WWW技术。在这种教学模式中, 教师把课件文档, 挂在WEB服务器上, 网络上的学生经过注册登记, 就可在自己工作站上访问教师的WEB站点。教师和学生通常不在同一地点, 学生也不一定在同一个教室, 他们也不一定在规定时间内上课。学生自由地选择学习的时间、地点、内容;学生通过Internet不仅可选择自己喜欢的教师, 而且可以随时阅读、浏览世界各地图书馆的资料和信息;学生除了听课还可以参与教学过程中的提问、发言。开展课室讨论等。

2.2 教学模式的特点

(1) 教师必须具有网上教学能力。注意发挥教师的主导作

(2) 教学双方不受时间、空间的限制。

(3) 学生学习更自主, 而且具有网上学习能力才能真正成为学习的主体。

(4) 为学生构建一个多媒体, 全方位的虚拟学习环境。

(5) 教育的投入小, 效益大。

3 网络教学的应用

3.1 充分利用远程教学网发展教育

随着高等教育规模的进一步扩大, 高等学校现有的教学资源 (课室、宿舍等) 难以满足需要, 社会上报考成人本科函授教育越来越多, 把现有的函授教学模式改用网上教学, 已经成为上进行各种个人或社会活动, 进行合理的、规范的管理。近几年来, 上网行为管理已近引起各国政府的关注, 上网行为管理产品也逐渐形成了独立的系统。这些产品以网络行为记录和控制为主要手段, 可以对BBS发帖内容等进行关键词过滤, 并对此类行为自动记录;对流量进行控制, 保障重要用户和核心用户的带宽;进行网络行为客观评估, 形成详尽的网络流量日志、邮件日志、网络监控日志等统计报表, 并向管理者报告;对不规范网络行为进行阻断, 实现带宽资源的合理利用, 保障健康网络文化的传播。上网行为管理支持网关模式、网桥模式等多种方式, 由用户根据需要自由选择, 与各种网络安全软件和防病毒、防入侵技术相互补充, 为各个内部网络安全建设和管理提供帮助。在平时的管理工作中, 准确把握不良信息传播的动向, 及时采取有效的过滤处理技术, 堵住不良信息来源路径, 切断传播渠道, 并教育和引导用户增强识别不良信息的判断力、抵抗力, 有效防止和控制不良信息侵入内部网络。

现实。让广大的函授学员利用计算机、互联网提高自己对信息处理的能力, 挖潜发展, 进一步体现个人价值。

目前我校远程教学网提供了几十门课程的网络教学环境, 并在不断完善和丰富。学生可通过网络与教师、同学进行实时交谈, 进行网上答疑、讨论、上交作业等。这些都很受学生欢迎。尤其是对个别的残疾学生来说, 网上教学更显优越性。

3.2 充分发挥校园网的作用搞好教育

校园网络是学校教与学的纽带, 学生可以从校园网上得到更多的知识信息, 也能及时地发布自己的信息, 并实现网上交流、讨论。这样不仅使学生自主地学习, 而大大丰富和充实课余生活。教师的备课可从校园网中获得更多教学信息, 及时了解学生的学习情况, 教师可方便地, 有选择地比较教学信息资源, 然后通过校园网向学生进行指导, 以提高教学质量。

不良信息过滤论文 篇3

1 研究目的

该课题设计基于大数据技术的采集、分析和过滤的不良信息过滤系统, 该系统能够有效识别互联网中不同分类的不良信息, 并根据用户的需求, 可实现对网页文本内容进行关键词识别, 然后对其URL进行相应的处理, 完成互联网不良信息的过滤, 其中内容过滤是不良络信息过滤系统的重点功能。具体的系统设计目标为:

(1) 系统对内容过滤的效率性能要求较高;

(2) 系统除了实现传统的基于URL、关键字等信息的过滤, 还实现了通过语义分析对文本内容的智能过滤;

(3) 系统根据互联网信息的变化情况具有适应性学习的能力;

(4) 系统采用低耦合高内聚的设计方法, 将分词、特征识别和分类算法进行模块化设计;

(5) 将网页划分为多个处理单元, 并实现分布式多引擎处理机制。

2 设计与实现

2.1 系统结构

该信息过滤系统的架构采集-分析-过滤-可视化”的架构进行设计, 并在这个基础上满足业务的可扩展性要求。整个系统包括如下四个部分:

2.1.1 采集系统

通过搜索监测引擎的方式实现基于不良信息规格的数据采集, 并将采集内容分装至采集库。

2.1.2 分析系统

基于数据清洗和分析技术, 对所釆集的数据进行协议还原, 包括数据重组, 下载网页或文字、图片、视频等信息, 并完成内容识别、分析和存储。

2.1.3 过滤系统

根据分词规则, 通过检索规则库等技术, 对信息进行过滤, 并提供完成格式优化、策略配置和入库建档。

2.1.4 可视化系统

负责与用户的交互、完成审核、报警和报表功能, 并包括采集、分析和过滤的配置管理功能。

2.2 系统流程

该系统按照EPC模型, 通过将业务过程中的采集资源、分析资源、过滤资源和可视化资源 (系统、组织、数据等) , 组织设计完成一个能够完成不良信息过滤任务流程的动态模型。

2.2.1 数据采集

采集的种类分为两大类, 一种是使用互联网的搜索引擎, 根据指定的关键字进行相关内容的数据采集, 第二种是对指定网站类型的数据进行采集 (如博客、论坛、新闻等) 。根据这两大类采集方式, 分别执行相应的采集子流程, 在采集子流程中根据不同的采集类型执行相应的采集规则, 并将采集的数据存入数据库中。

2.2.2 数据分析

数据分析阶段, 首先从采集数据库中获取数据内容, 然后根据数据内容的不同选择不同的数据分析器, 最后进入相应的数据清洗子流程。数据清洗子流程中, 根据不同的分析器选择文本分析法或者内容分析法进行相应的数据清洗, 并将清洗后的数据结果存入数据库中。

2.2.3 数据处理

数量处理阶段, 首先从清洗后的数据库中获取初步处理的数据, 然后对该数据根据配置的处理的方式, 选择相应的处理流程。该阶段的处理流程主要包括:检索、分类、聚合等;还可以通过插件的方式对其进行扩展来完成更多的功能。

2.2.4 数据展示阶段

主要是通过页面的形式对数据进行一个有效的展示, 更能直观的表达出数据的作用, 包括展现预警信息、负面信息、热点趋势等, 通过扩展页面的方式可以增加更多的展示效果。

3 结语

该课题最初的研究是基于研究解决不同不良信息的过滤问题, 但是随着对现状的分析和工作的难度增加, 越来越发现针对网络不良信息的过滤是一个可以上至关系国家民生, 下至老百姓生活的具体防范措施, 从而调整工作的步骤, 逐步建立可视化监测平台、规划不良信息搜集、持续实时监测过滤机制、完成研究报告。这个过程是非常艰辛, 其中过很多的迷茫和未知, 都是通过检索和收集大量的相关资料, 以及在不断地部署开发验证中磨练。其中也体会到了技术改变一切, 但是不断业务需求是驱动, 业务剖析和其他手段的辅助也关切到不良信息的成果, 这里就涉及到了国内外的法律法规、管理措施、道德约束, 这些各自都是一定因素的助力和局限, 直接影响着网络不良信息的现状。

参考文献

[1]丛健.不良信息过滤技术研究[D].北京:北京邮电大学, 2012.

[2]史乙力.基于关键词匹配的网页文本过滤算法的研究和实现[D].贵阳:贵州大学, 2009.

[3]贾美娟.基于互联网的不良信息过滤技术的设计与实现[D].哈尔滨:哈尔滨工程大学, 2006.

[4]王银利.基于启发式规则和文本分类的信息过滤技术[D].北京:北京交通大学, 2007.

[5]黄勃.基于语义分析的网络过滤设计与实现[D].长沙:湖南大学, 2011.

[6]林建.网络不良信息过滤研究[D].武汉:华中师范大学, 2007.

不良信息过滤论文 篇4

随着网络的日益普及和网络信息总量的激增,当人们正享受网络技术带给我们美好生活的同时,也使某些不法分子通过网络传送一些不健康的非法信息,因此,建立一种积极主动的信息安全过滤系统已成为网络安全领域中研究的热点。

目前,信息过载、信息污染的问题正严重的困扰着用户,简单的信息检索成为了整个网络中数据出入的瓶颈。在网页信息过滤领域,主要采用的方法有分级法、URL地址列表法和动态文本分析法,同时包过滤作为一种能选取用户需要的信息、剔除用户不需要的信息的有效方法应运而生。包过滤的关键技术包括网络封装的截获和解析,而包过滤技术[1]的核心算法是字符串匹配算法,字符串匹配的效率直接影响数据包过滤[2]的能力。当前,较为有效的匹配算法有BF算法、KMP算法、BMH算法、SUNDAY算法和ZZL算法等。经过各类试验证明,KMP算法虽然提出时间较早,但由于其可扩展性和易用性,仍然是目前应用较为广泛的一种[3]。

1 KMP算法及改进策略

所谓KMP算法匹配技术,即用户模板与文本的匹配技术。文本过滤的主要流程是首先根据用户的信息需求,建立用户需求模型,然后在相应的文本流中搜索符合用户需求的文本,再利用反馈,改进需求模型。KMP算法的信息过滤模型如图1所示。

在整个信息过滤系统中,用户需求模板的构建、信息的揭示、匹配算法和反馈机制是最为关键的部分。在现有技术条件下,全自动的信息过滤系统还处于试验阶段,为了提高实用性,往往会在这些关键部分进行必要的人工干预,把人工智能和机器学习的方法引入到信息过滤中,通过遗传算法、神经网络方法、K最近相邻方法(KNN)和支持向量机(SVM)等方法,来判断用户信息需求与文档的相似性,动态地反馈用户需求的变化,提高过滤的效率。如对动态的信息集先作预处理、人工修改用户需求模板等。

所谓字符串匹配就是指给定一组特定的字符串集合T,找出T中的字符串在主串S中的所有出现,如在文本S中查找到一个与模式串T相同的字符串,则模式串与文本匹配;如在文本T中未查找到一个与模式串S相同的字符串,则不匹配。KMP算法[4]从文本中逐个读入字符,每读入一个字符就更新相应变量,同时也是已读入文本的后缀的最长字符串的长度,检查是否存在一个可能的匹配,它是一种改进的字符串匹配算法,KMP算法的关键是根据给定的模式串T,定义一个next函数,数组next[j]表示当模式串中的第j个字符与主串中的该字符匹配失败时,在模式中需重新与主串中该字符进行比较的字符的位置,next包含了模式串本身局部匹配的信息,得到next之后,便可继续进行匹配。

下面给出简单的例子来说明KMP经典算法匹配过程:例如把主串S=ABACABADAEACABAE与模式串T=ABAE进行匹配,按照KMP算法进行匹配,具体匹配过程如图2所示[5]。

KMP算法的时间复杂度为O(m+n),计算Q(r)的复杂度为O(m)。本文算法时间复杂度仍分两部分进行讨论:一是模式匹配算法中文本与模式的比较次数;二是根据模式串来计算Q(r)。由于KMP算法中Q(r)与其他的运算量相同,但其循环次数明显减少,所以KMP算法被广泛应用。

在KMP算法匹配过程中如果失配,不需回溯指针,而是利用已经得到的“部分匹配”结果将模式串向前滑动尽可能远的一段距离,然后继续进行比较。

通过KMP算法的滑动长度与实际经验相结合,提出了相邻位对比的KMP算法,尽量在不丢失匹配项的前提下增大滑动长度,可以有效提高匹配效率,算法流程如图3所示[6]。

核心KMP算法程序:

While(比较未完)

{

If(S[j]!=T[j])

{调用kmp算法确定滑动系数k;

使得S[j]==T[k];

If((S[k-1])!=T[j-1])or (S[k+1]!=T[j+1]))

{ 向后滑动模式串长度,使得S[j+1]与T[1]对齐;}

else {模式串向后滑动j-k,使得S[j]与T[k]对齐;}

}

else {j++;}

}

该算法相对于KMP经典算法的优势是在尽量不丢失匹配项的前提下在滑动长度上进行了调整,在相邻位匹配不成功时,直接滑动整个模式串,而不是仅仅滑动j-k个长度,这样可以更高的提高匹配效率。

2 系统设计的基本要求

2.1 系统的应用要求

(1) 系统应满足人们对网络使用的基本需要,并注重系统的可用性、可靠性和可维护性,整个系统长期可靠的运行,并达到操作过程中的直观、方便、实用等要求。

(2) 采用KMP算法匹配过滤技术[7],根据网络上各网站信息特点把不良网站网址分为色情、非法娱乐、反动3类。所有Web信息在通过系统时,会把Web的URL信息与网址库的URL进行比较,所有网址可以让用户很方便的增加、删除和修改禁止访问的URL地址,进而按规则过滤受屏蔽的网站。

(3) 系统管理员能够在不改变系统运行的情况下对网络活动进行实时的控制和管理,不管网络设备的物理位置在何处,网络都应该是可以控制的,而且管理员要能够在页面管理可以让用户很方便地增加、删除和修改敏感关键字,从而限制浏览出现非法关键字的网页。

2.2 系统的功能要求

系统主要通过调用KMP字符串匹配算法对在计算机屏幕出现的关键词进行逻辑判断,主要功能是在网络链路层对Sock端口进行过滤和屏蔽,然后在网络应用层对Web信息流根据语法和语义进行分析,按管理员制订的不同规则进行实时监控,进而完成对100组不良网站的查杀。

2.3 主要技术

本文前台开发工具为Visual Studio 2008,后台利用Oracle建立样本训练库,采用ADO.NET数据访问技术进行数据库互联[8],在应用层采用Windows Socket 2 SPI 标准的网络接口技术。

3 系统的结构和设计

3.1 整体结构设计

局域网网页信息过滤系统采用的是C/S模式,通过查询Oracle数据库的信息进行有选择性的过滤,数据库的信息是管理员预置的过滤信息,利用Winsock 2接口,使它工作在应用层,负责连接核心层驱动程序和高层应用程序,并为上层调用提供接口函数,当捕获到的不良信息需要过滤时,在数据链路层、网络层、传输层以及应用层分别使用改进后的KMP算法进行模式匹配,找到匹配项,则将数据丢弃;否则进行更深层次的匹配。在应用层,并不是将整个应用层数据进行匹配,而是从数据头和数据尾取一定长度的数据分别进行匹配,进而缩短匹配时间,提高匹配效率。当捕获到的不良信息需要过滤时,在数据链路层、网络层、传输层以及应用层分别使用改进后的KMP算法进行模式匹配,找到匹配项,则将数据丢弃;否则进行更深层次的匹配。在应用层,并不是将整个应用层数据进行匹配,而是从数据头和数据尾取一定长度的数据分别进行匹配,进而缩短匹配时间,提高匹配效率[9]。

3.2 系统界面设计

界面如图4~图7所示,有4个界面。用户管理界面:该界面的主要功能是实现系统与用户的交互,即它是用户需要检索过滤的不良网站进行操作的平台;样本库训练界面:该界面的主要作用是根据用户的兴趣通过Google,Baidu等搜索引擎获得需要过滤的不良网站的样本库;过滤参数管理界面:该界面的主要作用是对当前用户对信息过滤参数的一个可视化呈现[10];过滤效果图界面:该界面的主要功能是通过关键字设置、过滤网址设置和管理员设置来分别呈现过滤的效果,进而对信息过滤的评价指标查准率、查全率和过滤速度进行分析[11]。

4 结 语

本文设计是在KMP算法基础上,提出了一种在模式串滑动时采用相邻位对比方式来决定滑动长度的算法,并将其应用于网络信息过滤技术中。主要用于过滤禁止浏览的网页(网址),从而达到信息过滤的目的。该算法应用在网络信息过滤中,通过在应用层中采用Winsock 2 SPI技术,使其实现相对容易且灵活,CPU资源占有少,效率较好,提高了网络安全性能,从而限制

了用户对不良网站的浏览。本文采用相对成熟的技术,系统易于管理,安全可靠,并具有较强的实用性、应用效果较为理想。

参考文献

[1]刘翌南.基于SPI的信息过滤的设计及实现[J].长沙交通学院学报,2005,21(1):64-68.

[2]张敏.信息过滤系统模型的相关问题研究[J].科技情报开发与经济,2008(1):85-86.

[3]黄晓斌.网络信息过滤原理与应用[M].北京:北京图书馆出版社,2005.

[4]GARDNER Michael,DOBSON Judith,MILLER Brian.Implementation of a"data filter"for the UK national marinemonitoring programme[J].Accred.Qual.Assur.,2002,7:60-65.

[5]赵继俊,胡启秀,冯茜,等.基于规则匹配算法信息过滤系统的设计与实现[J].陕西科技大学学报:自然科学版,2010,28(1):109-112.

[6]谭跃生,顾瑞春,段军,等.改进的KMP算法在深度包过滤中的应用[J].计算机应用,2007,27(6):217-218.

[7]邹萍,纪沙.网络信息过滤机制的研究[J].哈尔滨师范大学自然科学学报,2008(2):66-69,97.

[8]王小科.C#开发实战宝典[M].北京:清华大学出版社,2010.

[9]NEWELL SIMA C.User models and filtering agents forimproved internet information retrieval[J].User Modelingand User-adopted Interaction,2005,7:223-237.

[10]宋宝亚.基于数据挖掘的信息过滤系统的设计与实现[D].济南:山东师范大学,2006.

信息过滤技术及应用 篇5

信息过滤(information filtering,IF)作为解决网络信息超载问题而发展起来的技术与方法,最初运用于新闻和电子邮件过滤,后来被用于各类信息源过滤。目前,国内外关于信息过滤的研究主要集中在两个方面:一是不良信息过滤,主要目的在于维护网络信息的健康,净化网络环境;二是获取相关信息过滤,过滤掉无用或不相关的信息,主要目的在于获取与用户需求密切相关的信息。

不良信息是一个主观的、相对的概念,同一信息相对于不同的用户、不同的监管者和不同的环境条件来说,可能会有不同的定位。我国自1996年以来,已经制定了20多个涉及互联网非法内容的法律文件。一般情况下,凡是违背社会主义精神文明建设要求,违背中华民族优良文化传统与习惯,以及其他违背社会公德的各类文字、图片、音视频信息都可视为不良信息。

2 信息过滤技术的分类

目前,国内外的各种不良信息过滤软件或系统,在网页信息鉴别上主要使用四种过滤技术,即基于因特网内容分级平台过滤(PICS)、数据库过滤(IP库、URL库)、关键词过滤以及基于内容理解的过滤。

2.1 基于因特网内容分级平台过滤(PICS)

为了保护用户免受网络不良信息的侵扰,W3C(World Wide Web Consortium)于1995年8月组织当时因特网上的主导力量共同商讨制定一套技术规范,即因特网内容分级平台(PICS),它是一种分级过滤软件标准,为网上信息内容的标记、分级提供一个平台,使用户或组织能够根据各自认同的分级体系对网络内容进行分级,分级体系(rating system)规定了分级的类目、类目的级别和分级的标准。

分级得到被称为分级标记(content rating)的数据集,分级标记产生以后,凡是遵循PICS技术规范开发的软件都可以对其进行处理。用户可以通过分级标记了解到分级机构和分级体系的情况,从而在使用时下载合适的过滤系统分级档案,并在浏览器中设置不同的向度,在浏览网页时,浏览器会依据用户设定的向度级别筛选出合适的信息。

利用网页内容分级法,采取人工分级方法过滤不良信息,其错误率相对较低,并可以准确地对图像、视频等多媒体信息进行准确分级,尤其是网页作者能主动采用标准的分级体系分级时,将对过滤不良信息、净化网络环境有较大的推动作用。但这与网页作者希望更多的人浏览其网页的初衷是相违背的,如果网页作者是恶意地传播不良信息的话,用户对其是无法控制的。

2.2 数据库过滤

数据库过滤就是通过对网上各种信息进行分类后,精确地匹配URL和与之对应的页面内容,形成一个预分类的网址库。网址库有两种类型的列表,一种为“黑名单”,包括禁止访问的目标网站的U R L;另一个是“白名单”,包括允许访问的目标网站的URL。在用户访问网页时,依据数据库中的IP地址或URL来判定是否需要过滤掉相应的内容。数据库必须依赖事先列出的特定网址,对非法URL的覆盖程度不高,此外这种方法对许多寄生在综合性网站内的不良信息也无法过滤。但数据库过滤的过滤速度快,准确率比较高,且经过系统的不断训练反馈,通过一定时间一定规模的积累之后,禁用地址数据库将动态地修改完善,在一定程度上可以满足用户要求。

2.3 基于关键词的过滤

基于关键词的过滤原理简单,就是给定一系列描述文档特征的关键字或索引词,或者时间、作者姓名等个性信息。在过滤过程中,它以数据流中是否包含关键词或衡量与关键词的相似度,判断是否要过滤掉该页面。这种方法的性能取决于是否建立精确完备的禁用关键词库,它过滤速度快,但往往不考虑上下文的关联性,漏报、错报率较高,而且有些信息内容的发布者可能有意避开使用这些词,用其他的词或图片替代,使得基于关键词的信息过滤机制不能识别。

2.4 基于内容理解的过滤

基于内容理解的过滤是指对获取的网络信息内容进行识别、判断、分类,确定其是否为需要过滤的目标内容,并对已确定的目标内容进行过滤等检测控制的技术,它是根据不良信息的一些内容所呈现的特征来进行判断的一种识别过滤方法。基于内容理解的过滤技术具有适应性强、精度高等特点,能有效地解决基于数据库和关键词的过滤技术不能处理好的问题,包括文本内容理解过滤、图像内容分析过滤、视频内容分析过滤和智能混合过滤等。

2.5 其他过滤策略

基于提高过滤不良信息的整体性能和运行速度考虑,分级匹配过滤的策略也被提出来。第一级过滤是基于查询关键词的过滤和基于数据库的过滤,这两种过滤方式过滤速度快,可以快速剔除一部分不良信息,缓解了系统压力。第二级过滤是基于内容理解的过滤,是主要的过滤环节。两种过滤方式的有机结合,在一定程度上提高了过滤的效率和准确率。

3 信息过滤技术的应用

通过在服务器端或是计算机终端安装过滤产品,信息过滤技术已经被广泛地应用于网络环境的净化。公安、安全网络监察部门广泛采用各种信息过滤产品,实现对互联网接入单位网络出口的信息审计管理。教育部、财政部、工信部、国务院新闻办2 0 0 9年4月下发通知,为各中小学校联网的计算机终端免费提供绿色上网过滤软件,以净化校园网络环境。中国电信等运营商也陆续在全国各地推出绿色上网业务,为用户提供不良信息过滤服务,这些举措都可为部队网络管理部门所借鉴。

目前,经过公安部审核颁发销售许可证的硬件或软件的信息过滤产品已达30余种,可以实现IP过滤、自动收集、识别网上的各种信息,具有智能化地提取摘要和关键词、建立索引、提供查询和对不良信息的报警等功能。基于中间服务器过滤的网络安全管理系统或网关型产品,对于部队网络管理部门来说是一个良好的选择,所有的信息都要经过它的过滤才能进出内网,可以对不良信息进行有效控制,实现把内网安全管理由被动防护转变为主动检测,根据用户工作性质设置管理策略,对用户网上行为进行监管、审计、追踪等,能够有效提高网络信息管理水平。

依靠专门的网络信息过滤产品,在隔离不良信息方面虽然能起到明显的作用,但任何一种过滤策略不可能剔除网上所有的不良信息。创建良好的网络环境,引导和督促使用者养成良好的上网习惯,加强对上网行为的严格管理是关键。在现实生活中,管理者往往只关注系统是否完备、应用是否通畅,以及设备的检修维护等,却忽视了对上网人员的行为管理和教育。

研发信息:空气过滤机 篇6

正像现在人们接受了喝桶装水, 空气过滤也将受重视。过滤机通常采用HEPA过滤材料, 但能过滤感冒病毒等微生物的设备每年维护费高 (约5千元) 。瑞典有一种技术, 用类似电场的办法, 能收集0.001~10微米的可吸入颗粒物, 同时通过高电压把空气中的病毒电死, 空气集尘器用水就可以冲洗, 无需维护成本, 价格500欧元左右。另外, 我国科研人员——吕京建领导的小组正在开发一种新设备, 能把空气用水和负氧离子洗, 其文化代号是“原乡空气计划”。

上一篇:宋元时期的档案文书下一篇:药品专利权