数据分类模型(精选7篇)
数据分类模型 篇1
一、引言
数据挖掘技术产生十几年来得到了较为广泛的应用, 并取得了显著的经济及社会效益, 但该技术在医学领域的应用目前处于起步阶段。电子病历 (CPR) 作为医院信息系统 (HIS) 的一个重要组成部分, 它是将传统的纸质病历电子化, 并超越纸质病历的管理模式, 提供查询、统计分析、信息交换等功能。随着电子病历数据库系统中病历数据量急剧增长, 如何从海量的数据中发现有价值的信息或知识也已经成为目前电子病历系统研究的热点问题。因此积极探索数据挖掘技术在电子病历系统中的应用, 具有重要的实用价值和广阔的发展前景。
本文采用分类算法, 检测属性与胃癌早期预警相关的属性, 构建较为适合的预测模型, 探讨是否有助于提高胃癌早期预警或诊断的正确率及联合检测对胃癌辅助诊断的意义, 以实现胃癌早期预警、诊断和分类的自动化, 为高危人群的筛查和临床胃癌诊断提供有价值的参考资料。
二、方法
(一) 数据来源
本文的数据是通过在监控、流行病学和最终结果 (SEER) 网站上申请的1973-2009登记的确诊病例。SEER项目是美国国家癌症研究所监控研究项目的一部分, 它将这些数据免费提供给以分析研究为目的的机构和实验室。
(二) 数据预处理
数据预处理几乎是数据挖掘过程中最重要的一步。SEER数据包含9个文本文件, 每个文件代表某个具体解剖位点的癌症。
SEER的DIGOTHR.TXT包含308155条记录。由于本文只考虑胃癌的生存预测, 因此需要对数据进行初步的筛选。由于较多属性适用范围是1988年以后, 为了预测模型的准确性, 选取1998-2002年的数据。
1. 数据清理
数据清理主要是清除掉与挖掘主题无关的属性和冗余属性、光滑噪声数据、填充空缺值和识别删除孤立点。本文原始数据中存在空缺值, 数据格式不一致等现象, 清除掉一些跟挖掘主题无关的属性, 如“诊断年份”、“注册ID”等。
2. 数据集成
数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理, 数据集成还可能产生数据重复等冗余问题。由于本文数据都来自SEER, 数据集成这一部分的工作较少。
3. 数据变换
数据变换主要是找到数据的特征表示, 用维变换或转换方法减少有效变量的数目或找到数据的不变式。初始数据共有134个属性, 本文属性选择的标准是信息增益率。
经过数据预处理以后得到的数据集包括9个变量 (8个条件属性和1个决策属性) 和1806条记录。决策变量是一个二元分类变量, 0代表没有存活, 1代表存活。预分类考虑三个变量:Survival Time Recode (STR) , Vital Status Recode (VSR) , and Cause of Death (COD) , 步骤如下:
(1) 如果STR大于等于60个月并且VSR是1, 则属于“survived”, 标记为1
(2) 如果STR小于60个月并且COD是21020, 则属于“not survived”, 标记为0
预分类的结果为not survived有1225个, 占总数据的67.8%, survived有581条, 占32.2%。
(三) 运行环境
软硬件环境:AMD A6-3400M1.40GHz安装内存6.00GB操作系统:Windows 7旗舰版建模环境:Clementine 12.0。
(四) 预测模型
本文使用了三种不容类型的分类模型:C5.0、BP人工神经网络和支持向量机。
(五) 评估模型精确度的方法
本文采用的模型评价参数是精确性、敏感性和特异性。
三、结果与分析
三种模型的精确性、敏感性和特异性结果如表1所示:
从表1可以看出, TAN贝叶斯网络的精确度最高, 敏感性均最好, C5.0算法的特异性最好, 而BP-人工神经网络的精确度和特异性都是最差。整体而言, 三种算法的特异性均比敏感性要好, 这可能是由于样本数据分布不均匀导致的。
四、结论
本文运用实例对C5.0、BP-人工神经网络和TAN贝叶斯网络进行了比较研究, 针对本文预测精度不高的不足, 以后的工作将围绕一些新的并且更有前景的算法, 如支持向量机和模糊集等, 以进一步提高预测准确度。具体存活时间的预测也是今后的研究方向。
摘要:数据挖掘技术己经引起了信息产业界的广泛关注。分类预测是其中一个主要的研究方向, 有着广泛的应用价值。对数据挖掘中的三种分类预测挖掘算法 (C5.0、BP-人工神经网络和TAN贝叶斯网络) 进行了研究和探讨, 并通过一个实际例子对三种算法做了分析和比较, 三种算法的精确度分别为87.26%、85.71%和88.7%。TAN贝叶斯网络的精确度和敏感性均最高, C5.0算法的特异性最好。
关键词:数据挖掘,分类预测,敏感性,特异性
数据分类模型 篇2
关键词:关联规则,基因表达数据,支持向量机,疾病辅助诊断
0 引言
DNA微阵列[1]技术是分子生物学领域的一项重大技术突破。人们可以利用微阵列技术从全基因组水平定量或定性检测基因转录产物mRNA的表达丰度, 即基因表达数据。基因表达数据中蕴含着基因活动的信息, 在基因层面上反映了细胞当前的生理状态, 如细胞是处于正常状态还是恶化状态、药物对肿瘤细胞是否有效等。因此, 基因表达数据在药物疗效判断以及对于恶性肿瘤、遗传性疾病等疾病的辅助诊断有着重要的意义。
由于基因表达数据实验的特性以及现有技术的限制, 基因表达数据与以往数据挖掘的相关数据有较大的区别, 具体表现为样本数量小、样本维度高等特性。这些特性给基因表达数据分析带来前所未有的困难, 成为了实现微阵列技术的瓶颈之一。因此, 如何克服上述困难, 成为了基于基因表达数据的疾病辅助诊断方法主要研究思路。将传统有监督学习方法推广到基因表达数据领域, 一般而言有基因选择和关联规则挖掘这两种方法[2]。
在基因选择方法上, 一般采用特征选择法去降低基因表达数据的维度, 然后调用常用的分类方法对这些降维后的基因表达数据进行训练以及分类。目前较具代表性的方法有支持向量机迭代特征剔除算法SVM-RFE[3]以及基于条件互信息[4]的特征选择算法。基因选择方法的主要优势在于它能够与不同种类的分类器结合, 达到较高的分类精度。然而, 现有的基因选择方法不能捕捉到基因之间的非线性关联, 并且分类结果缺乏可解释性是其主要缺点。
与基因选择方法相比, 关联规则筛选方法提供了一种有效、易于理解的方式对基因之间的各种联系进行描述, 受到生物学家的欢迎。关联规则兴趣度测量以及分类模型的选取是基于关联规则的基因表达数据分类模型的两个重要内容。其中关联规则兴趣度测量的代表性研究有Cong等人的短规则优先 (Short方法) [5]和Cai的最大/最小子关联规则优先准则 (MinSC、MaxSC方法) [6]。在分类模型方面, 关联规则分类模型RCBT[5]以及改进关联规则分类模型IRCBT[6]是现有的两种高效、基于关联规则的基因分类模型。分类模型的选取对于基因表达数据的分类精度起决定性的作用, 一个有效的分类模型可以显著地提高其最终的分类精度。
基于上述分析, 本文主要的研究思路如下:克服由基因表达数据样本数量小、维度高等特性所带来的困难, 在保持良好的分类精度的基础上提高分类结果的可解释性。其实现过程主要通过在一个统一的框架内结合对关联规则以及支持向量机分类模型的应用, 达到基因选择和关联规则挖掘方法各自优势的整合。为此, 本文提出了一种基于关联规则的支持向量机分类模型ASSO-SVM。ASSO-SVM首先对基因表达数据进行关联规则提取, 通过这一步可以令有价值的频繁模式被挖掘出来;然后根据每个训练样本是否被这些挖掘出来的频繁模式所覆盖这一准则, 将原始的基因表达数据集转换为二进制向量集;最后, AS-SO-SVM采用支持向量机作为分类器, 对上一步经过转换后的数据进行训练, 并最终完成对基因表达数据进行分类这一过程。
1 相关工作
1.1 基因表达关联规则
自1993年R.Agrawal[7]等人首先提出在交易数据库中挖掘关联规则和频繁模式后, 关联规则挖掘算法及应用得到迅速发展。关联规则能够解决基因选择算法在理解性方面所遇到的困难。Li[8]等人在研究白血病发病机理时发现以下一条关联规则:“IF the expression of 40454_at is≥8280.25 AND the expression of 41425_at is≥6821.75, THEN this sample is subtype E2A-PBX1”。这里不仅指出40454_at、41425_at这两个基因与白血病子型E2A-PBX1的关系, 还指出各个基因的表达情况和癌症的关系, 例如41425_at的表达水平大于8280.25。显然这种结果大大降低了进行生物学解释的难度, 具有实际的应用价值。以下内容将在基因表达数据层面上对关联规则所涉及的一些概念作出简单介绍。
(1) 基本概念
假设基因表达数据集D由一个n行m列的矩阵组成, 集合R={r1, r2, …, rn}和I={I1, I2, …, Im}分别代表矩阵的全体行和列。其中R中的每一个元素rn代表一个样本, 而I中的一个子集Im被称为项集或模式, 代表一种关于基因表达的状态。集合C={C1, C2, …, Cn}表示每一个样本rn所属的类别。这里需要特别说明的是, 每一个样本属于并且只可属于一种类别。基因表达关联规则是由项集和样本类别一起构成, 一条典型的基因表达关联规则γ具有形如A→co的蕴含式, 其中A→I且c0∈C, A与co分别称为关联规则的前件和后件。
给定一个特定的集合, I'的行支持集为R (I') ={ri|ri∈R, 且I'ri}, 即包含项集I'的最大样本集合。类似地, 对于一个特定的样本的集合, 它的项支持集为I (R') ={Ij|Ij∈I, 且对任意的r∈R', 有Ij∈r}, 也就是样本集合R'中各个样本共同包含的项的最大集。
针对基因表达数据这一研究对象, 常用的关联规则兴趣度度量为支持度和置信度。对于关联规则γ:A→co, 其支持度为|R (A∪co) |, 即同时包含A和co的样本占总体样本数的比例;而其置信度则是|R (A∪co) |/|R (A) |, 即在所有包含项集A的样本集中, 包含co的样本所占的比例。
(2) 关联规则等价类
关联规则等价类是关联规则挖掘领域非常重要的概念, 最早由Cong[9]等人在基因表达数据的关联规则挖掘研究中提出, 用于解决高维数据上的关联规则数量组合爆炸问题。一个关联规则等价类由关联规则集G={γ1, γ2, …, γr}组成, 其中G的行支持集为R', 当且仅当它满足以下两个条件:
条件1任意的γ∈G, R (γ) =R'。
条件2若R (γ) =R', 则γ∈G。
显然, 一个关联规则等价类内所有的规则都具有同样的支持度和置信度。
Cong还提出, 在一个关联规则等价类中, 存在着两种特殊的关联规则, 上界关联规则UBR (Upper Bound Rule) 以及下界关联规则LBR (Lower Bound Rule) 。其中UBR是关联规则等价类中唯一的一条具有下述特征的规则:其前件项集是关联规则等价类内其余所有关联规则前件项集的超集。相对于UBR的唯一性, LBR则是由一条或多条这样的关联规则组成:由它们的前件项集的子集所组成的关联规则都不属于该关联规则等价类。UBR以及LBR的作用主要在于从关联规则等价类中选择k个最有价值的关联规则。
1.2 支持向量机
在我们面临的大量实际分类问题中, 绝大多数的样本都是低维、线性不可分的, 使得这类问题的解决往往比较困难。而由Vapnik[10]提出的支持向量机理论则非常巧妙地解决了非线性分类问题。支持向量机是一种监督式学习的方法, 它广泛地应用于统计分类以及回归分析中, 现已经在许多领域 (生物信息学, 文本和手写识别等) 都取得了成功应用。
支持向量机首先利用核函数将输入空间中线性不可分的样本映射到一个更高维的特征空间里, 从而使得问题变得线性可分;然后在这个特征空间里建立一个分类面, 使得某一类样本能与其它类别样本区分开来。Vapnik使用分类间隔作为分类器的推广能力的度量。如图1所示, 线性分类器的方程为y=w×x+b, 其分类间隔是直线w×x+b=1与w×x+b=-1的距离, 可通过计算得出此时的分类间隔为2/‖w‖。SVM通过令分类间隔最大化来提高分类器的推广能力, 即便在小样本、高维的基因表达数据下仍可较好地解决分类问题。
解决基因表达数据的分类问题, 可用现时较为成熟的机器学习方法, 如神经网络、支持向量机、聚类等等。鉴于基因之间的关系往往是非线性的, 以及基因表达数据存在高维、小样本和高噪声的特性, 支持向量机对这些条件都具有较好的适应性, 本文最终选择了支持向量机作为分类模型。
2 基于关联规则与支持向量机的分类模型
传统上对基因表达数据进行分类常常有以下两个步骤:第一步是“基因选择”, 也称为“特征提取”。主要目的是在原始的基因表达数据集里面将有意义的特征提取出来, 以及生成相应的训练集和测试集。第二步是将训练集和测试集作为分类器的输入, 完成分类的过程并最终获得分类结果。在此情况下, 由于没有将生物学先验知识与分类器结合应用, 传统的分类方法普遍都存在着分类结果不容易进行生物学解释的问题。
这里我们提出一种新的分类模型ASSO-SVM, 它结合了关联规则以及支持向量机特性的分类模型。ASSO-SVM属于有监督学习方法, 主要包含以下三个步骤:
第一步关联规则的挖掘。我们在这一步从基因表达数据挖掘出我们感兴趣的关联规则。现时存在多种挖掘关联规则的方法, 传统上衡量关联规则的兴趣度有支持度以及置信度这两种。Cong的研究[5]根据最小描述长度原理选取最短的k个LBR作为最具代表性的关联规则 (Short) 作为兴趣度。Cai[6]在Cong研究的基础上提出用最大子关联规则置信度 (MaxSC) 以及最小子关联规则置信度 (MinSC) 去度量关联规则。在我们的研究里将采用Short、MaxSC以及MinSC作为衡量关联规则重要性的兴趣度, 并且在实验当中对这三种兴趣度作出对比分析。实验中所有的关联规则将以以下形式存储:{RulegroupID:Rule1, Rule2, …, Rulen}。其中项Rulen代表一个基因表达关联规则, 由若干个唯一标记各个基因的“基因ID”组成;而RulegroupID则表示这些关联规则所属的关联规则等价类。
第二步对原始的基因表达数据集进行转换, 数据集被划分为训练集以及测试集两部分, 并且结合前一步获取自关联规则的先验知识将数据集转换为二进制形式。我们根据训练集或测试集中的样本是否被前一步挖掘出来的模式所覆盖为准则以实现该转换过程。假如样本smp1被关联规则ar1所覆盖, 那么结果文件里对应smp1和ar1的变量将被赋值为1, 否则被赋值为0。经过这一步后, 所有的样本都结合了关联规则的先验信息, 同时我们将获得一系列形如“01001”的二进制字符串作为新的训练集和测试集。关于这一步的具体框架如算法1所示。
第三步用SVM分类器对数据集进行分类。在向分类器输入数据之前, 我们还要对由第二步生成的结果进行格式转换。这是由于分类器对输入数据的格式有一定要求, 二进制字符串一般不能直接作为分类器的数据输入。经过格式转换之后, 我们便可将其作为分类器的数据输入。分类器在训练数据的过程中不断调整参数, 我们的程序将依据各个核函数的训练结果, 自动选择出最优核函数, 并获得最终的分类结果。
算法1 ASSO-SVM对原始基因表达数据集的转换
输入:DS:原始基因表达训练 (或测试) 样本集
RS:关联规则集
输出:RC:新基因表达训练 (或测试) 样本集
为了更好地理解算法所描述的整个转换过程, 我们将用一个简单的例子说明:假设“smp:{1, 3, 6, 8, 10∶1}”是原始基因表达训练 (或测试) 样本集DS的一个样本 (注意这里“∶1”是一种类标记, 表示该样本属于正类, 而“∶0”则表示该样本属于负类) , 以及由上一步挖掘所得、对应正类的关联规则集RS为{{1, 3}, {1, 2}, {1, 6}, {3, 8, 10}}。我们通过检查RS的每一个元素ar的所有项是否都出现在smp中, 将smp与ar进行匹配。显然, 对于RS的首个元素{1, 3}, 其项“1”以及“3”都出现在smp:{1, 3, 6, 8, 10}中, 匹配成功, 因此我们把“1”插入结果文件RC的第一位中;对于RS的第二条关联规则{1, 2}, 由于其中的一个项“2”没有出现在smp中, 匹配失败, 因此我们将“0”插入结果文件的第二位;以此类推, 在遍历了RS的所有规则之后, 我们便可得到对应RS以及smp的二进制字符串{1, 0, 1, 1}。最后将该二进制字符串与smp的类标记“∶1”结合, 便得到新的训练集{1, 0, 1, 1∶1}作为算法的输出结果。
3 实验分析
3.1 数据集
实验采用Leukemia[11]、DLBCL[12]、Lung Cancer[13]和Bortezomib[14]这四个公开的基因表达数据集对算法性能进行测试。这些数据集可从Gene Expression Omnibus的官方网站获得。数据集的具体信息见表1所示, 其中“D”、“F”、“AML”等分别指代各种疾病的类型。
3.2 实验框架
在实验中, ASSO-SVM的关联规则的挖掘算法和筛选标准为Cong等人的Short准则, 以及Cai等人的MaxSC和MinSC准则, 相关算法可在其各自的项目主页下载。ASSO-SVM的所有算法都是在Visual C++6.0环境中编程实现, SVM分类器采用LibSVM 3.1+Python 3.2.2。运行环境为一台操作系统为Windows 7 (64位) , CPU为Intel Core i3-330M (双核) , 4GB内存的PC。
在获取ASSO-SVM的分类精度的过程中, 本实验采用三折交叉检验方法。在三折交叉检验框架中, 数据集被随机分成三份大小一样的子集 (fold) , 每次将其中一份用作训练, 其余两份用作测试。上述过程共被重复三次, 以三次结果的均值作为最终结果。为了消除随机因素对实验的影响, 我们采用了30次三折交叉检验的平均值作为后续的实验结果。
为了公平地对比各种挖掘准则, 在参数设置方面, 实验首先采用Cong等人的行枚举方法挖掘top-10个关联规则等价类, 然后再采用不同的兴趣度从每个关联规则等价类中挖掘出top-20个LBR。另一方面, 为了测试ASSO-SVM分类器的准确性, 实验还分别采取了两种不同的分类器RCBT和IRCBT与之进行比较。
3.3 分类精度分析
(1) 不同兴趣度度量之间的对比
表2、表3和表4分别给出了3种分类器在Short、MaxSC和MinSC关联规则筛选标准下的分类精度, 其中每个数据集上分类精度最高的算法用粗体标出。总体上说, ASSO-SVM分类模型相对RCBT和IRCBT分类模型获得了较佳的分类效果, 证明了ASSO-SVM的高效性。同时, 我们发现ASSO-SVM分类器在3种关联规则筛选标准的性能上非常接近, 从侧面验证出AS-SO-SVM具有较好的推广能力。
(2) 与SVM直接应用在原始基因表达数据的情况作比较
为了验证关联规则挖掘对分类精度的影响, 表5给出了对原始基因表达数据直接使用SVM分类器的分类精度。虽然这种方法也利用到SVM分类器, 但与ASSO-SVM分类模型相比, 这种方法没有经过关联规则挖掘的步骤。实验结果反映出在对高维、连续的原始基因表达数据分类上, 使用ASSO-SVM时的分类精度优于单纯利用SVM分类器时的分类精度。这说明了关联规则挖掘是一种有效的特征选择方法, 对高维、连续的基因表达数据具有良好的适应性。另外, SVM分类器属于一种“黑盒类”分类模型, 存在分类结果不容易进行解释的问题, 而结合了关联规则先验知识的ASSO-SVM则有助于解决这个问题。因此, 进行关联规则挖掘是很有必要的。
3.4 参数敏感性分析
为了研究参数设置对实验结果的影响, 我们分别设置不同的UBR数量和LBR数量进行实验。实验将在DLBCL数据集上进行研究, 其他数据集上也有类似结果, 此处不再赘述。实验总体上反映了ASSO-SVM分类模型对LBR数量和UBR数量的鲁棒性。
图2给出了LBR数量与分类精度关系。当LBR的数量大于20时, 分类器已经捕捉到了数据集大部分的信息。更进一步地挖掘出过量的LBR将会对分类精度产生负面的作用。这可从当LBR的数量设置为80时, 分类精度产生明显下降的情况看出。该现象也体现出选择适量LBR的必要性。
图3则说明了UBR数量与分类精度关系。与LBR的情况相似, 当在实验中设置过量的UBR时, 其分类精度会下降。例如, 当设置UBR的数量为40时, ASSO-SVM+MinSC与ASSO-SVM+MaxSC这两种组合的分类精度相对其在UBR为20时的分类精度大约有1%的下降。
4 结语
数据分类模型 篇3
通过对网络搜索数据的挖掘和分析, 探索网络搜索数据与某种社会经济现象之间的关联性和规律,并进一步预测社会经济现象的发展趋势,已经成为学术界的一个新的研究热点。
在不同的商品类型下,消费者的搜索行为、购买决策以及交易规律存在差异, 站内搜索数据对其在线交易量的预测效果是不同的。 本文将探索在不同类型商品下, 站内搜索数据对商品在线交易量预测效果的差异, 从而为企业更精准地进行资源配置提供借鉴。
一、文献综述
(一)基于商品的在线交易量的相关研究
在学术界对于商品的在线交易量预测方面的研究较少,主要聚焦于讨论电子商务交易的转化概率、交易发生的影响因素、 用户的浏览行为及访问路径研究。 Moe和Fader[1]从电子商务交易购买转化率的角度出发进行研究,研究表明:顾客的访问历史对购买概率具有正向边际递减的累积效应。 Poel和Buckinx[2]总结了四类变量来预测购物行为: 访问水平的一般点击流行为、 更细节的点击流信息、 消费者人口统计、历史购物行为,并通过一家网上店铺的点击流数据评估四类变量的预测能力。
目前, 官方各级统计机构尚未发布准确的商品在线交易量数据,在实业界有几家咨询机构(艾瑞、易观等)通过深入访谈,或者桌面研究等方法对交易量进行预测。 但是由于调研样本及计算方法存在差异,其预测结果往往差距很大,而且没有细化到月、周、天的交易量预测。
(二)基于网络搜索数据的相关研究
基于网络搜索数据的预测研究始于医药卫生领域,最早应用于流行病监测。Ginsberg等[3]构建了基于Google搜索数据的监测模型,可以比传统方法提前一到两周预测流感发病率。
这一研究方法此后迅速从医药卫生领域扩展到宏观经济、大宗商品、社会舆情等领域,结果表明网络搜索数据对经济现象的预测效果较好。 Askitas和Zimmermann[4]的研究表明,词频搜索数量与德国当月的失业率有着非常强的相关性。 Ripberger[5]认为,在股票市场搜索词频的增加会带来交易量的增加,较高关注度会带来较高的上涨动力。 Lynn和Erik[6]的研究表明, 房屋搜索指数与未来的房屋销量和价格高度相关。
目前, 应用搜索数据对不同种类商品在线交易量预测比较的研究成果还很少。
二、理论分析与逻辑框架
在网络购物过程中, 进入某电子商务网站的部分用户是具有购物倾向的潜在消费者, 在意图购买某种商品之前,通过站内搜索平台,将个人需求以文字关键词的形式输入到搜索框中, 以筛选并寻找到自己所需的商品进行浏览。 如果消费者对该商品合意,则会在当期或者后期下单购买。 多个消费者的购买下单行为便形成该电子商务网站每日的交易量。电子商务网站则在为用户提供信息查询服务的同时,也自动记录用户的查询过程,并生成海量的搜索关键词及其搜索量数据, 可以反映在当期给定关键词的被关注程度和热门程度。 这种网络搜索数据的合集被称作用户的“意图数据库”,可以反映搜索者在搜索这一显性行为下所蕴涵的隐性意图与关注,折射出搜索者在现实世界中的行为趋势和规律。
因此, 电子商务网站搜索关键词数据与商品的在线交易量之间存在一定的相关关系, 搜索数据对电子商务订单数具有一定的预测能力。 总体来说,网络搜索数据是一种接近于全样本的“准自然”采样统计,其普通性和客观性比传统数据具有明显优势,这种预测方法的优点是摒弃了传统预测方法依靠样本抽样数据的做法。 搜索数据记录的高频化,使得对网民的线上行为的刻画更加精确, 其即时性也优于传统数据。
对于不同种类的商品, 其在线交易行为与在线交易规律是不同的。 例如搜索类商品(如3C商品),其特点是商品属性容易信息化和标准化, 该特点既有利于商家通过互联网展示其基本信息, 也有利于消费者获取信息并比较不同商品之间信息的差异。 而体验类商品(如零食),相对而言其在线可信息化程度和标准化程度较低, 容易造成商家与消费者之间的信息不对称。 因此,不同种类的商品会影响到消费者的搜索行为及其对信息的认知程度, 进而影响消费者的购买决策。
三、数据收集与预处理
(一)数据来源
本文获得淘宝网所提供的3C、零食、女装三大类商品的成交量数据, 以及站内搜索词的日搜索量数据作为实证数据, 时间维度为2011年6月7日到2011年10月19日共135天,二者都是绝对数据。 其中,3C商品包括遥控器、网络切换器等275个子类目,每一个子类目下都对应其订购金额( 订购笔数) 从20110607~20111019的时间序列,有3000个站内搜索词的完整数据, 每一个搜索词分别有展现量(show)和点击量(click)的日绝对数据。 零食商品包括猪头肉、张裕/国产葡萄酒等177个子类目,有2829个站内搜索词数据。 女装商品包括打底裤、休闲套装等29个子类目,有2999个站内搜索词数据。
本文以前131天的数据作为训练集进入模型用于参数估计,后4天的数据作为测试集用于检验模型的预测效果。
(二)清洗与整理商品在线交易量数据
淘宝网每类商品下有很多的三级类目, 每一三级类目都有对应的订购金额和订购笔数。 本文以每类商品的订购笔数为被解释变量对象。
首先剔出数据无效(在所给时间范围内其数据存在无效值或均为0)的三级类目数据。 经过清理,3C商品剩余121个有效的子类目,零食商品剩余158个,女装商品剩余20个。 其次,将有效的三级类目对应的订购笔数每日横向加和, 得到每类商品每日总的订购笔数的时间序列,作为被解释变量。
其中,3C商品的每日订购笔数的时间序列记为Yc,零食商品的每日订购笔数的时间序列记为Ys,女装商品的每日订购笔数的时间序列记为Yn。
(三)清洗与整理站内搜索数据
本文以每类商品的站内搜索词的点击量(click)的日绝对数据作为解释变量对象。 首先,计算每个关键词先行0~7天的搜索量与当日订购笔数之间的皮尔逊相关系数(Pearson Correlation Coefficient);其次,找出其中每个关键词对应的最大相关系数;剔除最大相关系数小于0.40的关键词以及先行期为0的关键词,得到有效的站内搜索词的日点击量数据。 经过上述清理,3C商品得到有效站内搜索词50个,零食商品为243个,女装商品为581个。
(四)合成商品搜索指数
对于3C、零食、女装三大类商品,采用统一的方法合成商品搜索指数。
第一步, 以最大相关系数的先行期数对原始的搜索数据进行相应期数的时序错位。
第二步, 由于这些关键词之间天然存在信息重叠问题, 只需要从中筛选出重要的关键词即可反映出所有关键词的信息。 本文采用逐步筛选策略,使用SPSS17.0统计分析软件stepwise筛选策略, 设定进入原则为系数显著性水平0.01,删除原则为系数显著性水平0.05,筛选出关键词。
第三步, 采用时序错位相加法合成综合搜索指数, 即基于选出的关键词的最大相关系数的先行期数,对原始的搜索数据进行相应期数的时序错位,然后求和得到搜索指数。 按照上述合成搜索指数的方法,将3C、零食、女装三大类商品的搜索指数分别记为Qc、Qs、Qn。
四、实证分析
(一)构建商品在线交易量预测模型
对于3C商品, 以每日淘宝网3C商品的订购笔数为被解释变量,记为Yct;以Yct-1,为第一个解释变量;以每日的搜索指数为第二个解释变量,记为Qct。 为了减少数据之间的差异性, 我们对这三个变量取对数形式,分别记为Log Yct,Log Yct-1, Log Qct
建立淘宝网3C商品订购笔数与综合搜索指数之间的模型如下Log Yct= b0+b1Log Yct-1+b2Log Qct+μt
在统一方法指导下, 建立零食商品订购笔数与综合搜索指数之间的模型为:
建立女装商品订购笔数与综合搜索指数之间的模型为:Log Ynt= b6+b7Log Ynt-1+b8Log Qnt+μt
最终得到的模型回归结果如表1所示。
(二)模型预测效果对比分析
通过2011年6月14日~2011年10月15日共124天的数据,建立了网络搜索指数对淘宝网3C商品、零食商品、女装商品订购笔数的预测模型。 运用此模型对2011年10月16日~19日的淘宝网3C商品、 零食商品、女装商品订购笔数进行预测, 以平均绝对百分误差MAPE作为衡量预测能力的指标。 设n为预测值的个数,实际值为yi,预测值为yi, 则。预测结果如表2所示
五、结论与展望
本文采用站内搜索数据的处理方法, 针对不同种类商品的电子商务交易量进行预测研究。 结果显示,对于搜索类商品(3C商品),搜索数据对其在线交易量的预测效果的平均绝对误差为6.36%,预测效果较好;对于体验类商品(零食商品),搜索数据对其在线交易量的预测结果的平均绝对误差为15.68%,预测效果较差;对于中间型商品(女装商品),平均绝对误差为11.09%,预测效果介于上述两种商品中间。 可见,搜索数据对于搜索类商品的预测效果最佳, 对于体验类商品的预测效果最差, 而对于中间型商品的预测效果则适中。 可见,未来搜索数据将更多的应用于搜索类商品的在线交易量进行预测监控, 而对体验类商品则需要探索更好的预测方法。
由于这种新的预测方法尚处在探索阶段, 还有很多难点和问题需要进一步思考研究。 如何更好地去除特殊的统计噪声, 如何更好地筛选并合成综合搜索指数,等等,都将是后续进一步研究的内容。
摘要:对搜索型商品(3C)、体验型商品(零食)、中间型商品(女装)分别建立基于淘宝网站内搜索数据对商品在线交易量的预测模型。研究结果表明,搜索数据对于搜索型商品的在线交易量具有最佳的预测效果,而对体验型商品的预测效果较差。
传送带模型分类汇编 篇4
一、水平传送带模型(设物体与传送带间的摩擦因数为μ)
1.传送带匀速,物体无初速度释放(如图1所示)
分析:物体在向右的滑动摩擦力作用下向右以加速度a=μg做加速运动
情况:(1)先加速后匀速(速度加速到v0后,随传送带一起匀速运动,无摩擦力作用);(2)一直加速.
2.传送带以速度v向右匀速,物体以速度v0放在传送带左端向右运动(如图2所示)
分析:当v>v0时,物体在向右的滑动摩擦力作用下向右以加速度a=μg做匀加速运动;当v<v0时,物体在向左的滑动摩擦力作用下向右以加速度a=μg做匀减速运动.
情况:(1)v<v0物体可能一直减速,可能先减速后匀速(减速到v后);(2)v>v0物体可能一直加速,可能先加速后匀速(加速到v后)
3.传送带以速度v向右匀速,物体以速度v0放在传送带右端向左运动(如图3所示)
分析:物体受到向右的摩擦力作用向左以加速度a=μg做匀减速运动.
情况:(1)传送带比较短时,物体一直减速运动;(2)传送带比较长时,物体先向左匀减速到零,再反向加速到最右端.其中v>v0时物体到达最右端时的速度为v0,v<v0时物体到达最右端时的速度为v.
二、倾斜传送带模型(设物体与传送带间的摩擦因数为μ)
1.传送带以速度v斜向上匀速,物体无初速度或以初速度v0(v>v0)放在传送带底端(如图4所示)
分析:物体能在传送带上运动的条件是:μ>gtanθ(其中为传送带的倾角).物体将以a=μgcosθ-gsinθ的加速向上做匀加速运动.
情况:(1)物体一直加速;(2)物体先加速后以速度v匀速上升(其中物体后来受静摩擦力作用)
2.传送带以速度v斜向下匀速,物体无初速度放在传送带顶端(如图5所示)
分析:物体受到沿斜面向下的滑动摩擦力作用,刚开始以加速度a1=μgcosθ+gsinθ匀加速运动,后面可能以加速度a2=gsinθ-μgcosθ(条件:μ<gtanθ,其中θ为传送带倾角).
情况:(1)可能一直以a1做匀加速;(2)先以a1做匀加速后以v匀速运动(μ>gtanθ);(3)先以a1匀加速再以a2继续匀加速(μ<gtanθ).
3.传送带以速度v斜向下匀速,物体以初速度v0放在传送带顶端(如图6所示)
分析:当v>v0时,物体以加速度a1=μgcosθ+gsinθ匀加速,后匀速(条件:μ>gtanθ)或以a2=gsinθ-μgcosθ继续匀加速运动(条件:μ<gtanθ);当v<v0时,物体以加速度a2=gsin-μgcosθ匀加速到底端(条件:μ<gtanθ)或以加速度a3=μgcosθ-gsinθ做匀减速运动(条件:μ>gtanθ).
情况:(1)可能一直以a1做匀加速;(2)先以a1做匀加速后以v匀速运动;(3)先以a1匀加速再以a2继续匀加速;(4)可能一直以a2做匀加速;(5)可能一直以a3做匀减速;(6)可能先以a3做匀减速后以速度v匀速运动.
4.传送带以速度v斜向上匀速,物体以初速度v0放在传送带顶端(如图7所示)
分析:以加速度a1=gsinθ-μgcosθ做匀加速(条件:μ<gtanθ);以速度v0一直匀速运动(条件:μ=gtanθ);以加速度a2=μgcosθ-gsinθ做匀减速(条件:μ>gtanθ).
条件:(1)可能一直以a1做匀加速;(2)可能以速度v0一直匀速运动;(3)可能一直以a2做匀减速到底端;(4)可能先以a2做匀减速到零后以加速度a2反向匀加速.
例1如图8所示,传送带与地面成夹角θ=37°,以10 m/的速度逆时针转动,在传送带上端轻轻地放一个质量m=0.5 kg的物体,它与传送带间的动摩擦因数μ=0.5,已知传送带从A→B的长度L=16 m,则物体从A到B需要的时间为多少?
解析:物体放上传送带以后,开始一段时间,其运动加速度
这样的加速度只能维持到物体的速度达到10 m/s为止,其对应的时间和位移分别为:
以后物体受到的摩擦力变为沿传送带向上,其加速度大小为(因为mgsinθ>μmgcosθ)
设物体完成剩余的位移s2所用的时间为t2,则
解得:t21=1 s或t22=-11 s(舍去),所以t总=1 s+1 s=2 s.
物理模型的作用、分类及应用 篇5
一、 物理模型在教学中的作用
1. 有助于联系实际。高中物理课程的一个目标就是要学生学习物理知识和技能而且要熟练掌握这些技能与知识, 并能在实际生活中灵活应用。在高中物理教学中建立物理模型, 能够让学生切身体会到物理知识在实际生活中的应用, 认识到物理知识与社会的联系, 加深学生对物理学科的亲切感, 激发学生学习物理的兴趣。
2. 有助于培养学生科学的物理研究方法。首先, 在建立物理模型以及处理物理过程的时候, 都要分析物理问题。通过建立物理模型, 能够培养学生解决复杂问题的能力, 让学生分清主次, 抓住物理现象的本质, 并运用科学的思维方式去解决物理问题, 有助于学生掌握科学研究物理的方法。其次, 在高中物理教学中建立物理模型, 一方面可以培养学生分析和解决问题的能力, 另一方面还能帮助学生解决实际生活中遇到的问题, 同时有利于培养学生的创造性思维能力。
3. 有助于培养学生的迁移能力。高中物理最常见的模型是过程模型和对象模型, 也是高中物理课堂中非常重要的知识。教师在物理教学中只要抓住了重点内容, 明确了过程模型和对象模型之间的关系, 就找到了知识点之间的纽带和联系。如, 学生学习了质点模型、力的模型之后, 教师引导学生进行总结, 学生头脑中就会形成模型的结构图, 加深对物理知识的理解。学生头脑中一旦有了知识网络结构, 就很容易迁移所学物理知识, 使其成为自己的东西。
二、物理模型分类
1. 对象模型。该模型主要是针对研究对象的特点, 放弃非本质的、次要的因素, 抓住本质的、主要的因素, 然后建立一个能反映研究对象的本质属性且便于研究的新形象。对象模型在高中物理教材中非常常见, 比如理想流体、刚体、单摆、弹簧振子、质点、磁力线、电力线、近轴光线、点光源。对象模型在高中物理教学中有着不可替代的作用。
2. 过程模型。建立过程模型主要是为了研究比较复杂的物理问题, 是以物体运动变化的过程为基础, 然后根据研究的需要以及问题的性质, 找出物理过程的主要因素, 从而建立能够反映物理现象本质的过程。在高中物理教材中, 过程模型也非常常见, 如等压变化、等容变化、弹性碰撞、简谐振动、自由落体运动。
三、 物理模型在高中物理教学中的应用
1. 动量守恒定律———“人船模型”。“人船模型”的特点是, 在系统的某个方向没有受到外力或者是不受外力的时候, 在这个方向或者是系统动量就会呈现守恒状态, 也称为动量守恒。相互作用之前处于静止状态, 当相互作用之后才发生运动。根据“人船模型”, 可以总结出动量守恒定律:O=m1v1-m2v2, 然后可以得到, 从而得到m1S1-m2S2。在这个公式中, 可以发现S1、S2是两个物体的位移.这个公式说明了, 在任何一段时间里面, 系统中的两个物体位移的大小和他们的质量成反比。教师通过实际构建“人船模型”, 可以让学生直观进行理解, 把比较抽象的物理知识变得更加直观, 也便于总结出相关规律, 还能在今后遇到相关的物理题型或者是物理现象时, 想到该模型, 从而根据这个模型的相关知识去进行构思, 从而得到正确的答案。
2.“子弹击打木块”。该模型由两个物体构成了一个系统, 当该系统受到的外力的合力为零而且系统受到的相互作用力是一对恒力的时候, 这种类型的题就可以用“子弹击打木块”模型来进行模拟。教师可以在课堂上给学生构建这个“子弹击打木块”的模型———把木块放在光滑的水平面上, 一颗子弹从水平方向射进木块中:
虽然物理现象非常多, 但是与这类问题相似的情况都可以用这个模型来进行解答。当教师给学生建立完这个模型之后, 引导学生总结出这个模型中涉及到的物理知识———运动学、动力学、能量、动量的规律以及对这个模型的图象进行描述, 让学生深刻地理解这个模型所体现的知识点。
刍议数学模型分类和建模步骤 篇6
建立数学模型,可能会涉及许多数学分支,一个问题,往往可以利用不同方法建立不同的模型。因此绝对的分类,对于建立数学模型是不利的,但是大致的分类,对初学者,在确立原型所属系统或采用数学工具时,会有一定的帮助。数学模型按不同标准可分为不同的类型:
1.1 按时间变化对模型的影响,可分为时变与时不变模型,静态与动态模型等。
1.2 按变量情况可分为离散型与连续型模型,确定性模型或随机性模型等。
1.3 按实际系统与周围环境相互关系可分为自治的或非自治模型。
1.4 按研究方法和对象的数学特征,可分为优化模型、逻辑模型、稳定性模型、扩散模型等。
1.5 按研究对象的实际领域可分为人口模型、交通模型、生态模型、经济模型、社会模型等。
2 数学建模的步骤
建立数学模型是一种积极的思维活动,从认识论角度看,是一种极为复杂且应变能力很强的心理现象,一般可分为以下几个步骤:
第一步:模型准备。建模的问题可能来自各行各业,而学生都不可能是全才。因此,当刚接触某个问题时,学生可能对其背景知识一无所知,这就需要学生想方设法地去了解问题的实际背景。通过查阅、学习,可能对问题有了一个模糊的印象。再通过进一步的分析,对问题的了解会更明朗化。模型准备跟炒菜前的准备一样,准备得越充分,解决问题就越得心应手。
第二步:模型的假设。现实世界的复杂性和多样性,使得学生不得不根据实际情况扩大思考的范围,再根据实际对象的特性和建模的目的,在分析问题的基础上对问题进行必要的、合理的取舍简化,并使用精确的语言作出假设。如果假设过于详细,试图把复杂的实际现象的各个因素都考虑进去,无疑是一种有勇气但方法欠佳的行为。在假设中,应抓住问题的关键因素,抛弃次要因素。当然,如果假设不合理或过分简单,也同样会因为与实际相去甚远而使建模归于失败。必要而合理化的模型假设应遵循两条原则:(1)简化问题;(2)保持模型与实际问题的“贴近度”。
第三步:模型的建立。根据所做的假设,利用适当的数学工具(应用相应的数学知识),建立多个量之间的等式或不等式关系,列出表格,画出图形,或确定其他数学结构。事实上,建模时还有一个原则,即尽可能采用简单的数学工具,以便使更多的人能够了解和使用模型。
第四步:模型的求解。对建立的模型进行数学上的求解,包括解方程、画图形、证明定理以及逻辑运算等,会用到传统的和近代的数学方法,特别是软件和计算机技术。目前有一些非常优秀的数学软件,如MATLAB、Mathematica、Maple、Lingo等,它将为学生求解数学模型提供方便快捷的手段和方法。
第五步:模型的分析。将求得的模型结果进行数学上的分析。有时根据问题的性质,分析各变量之间的关系和特定状态;有时根据所得的结果给出数学上的预测;有时则给出数学上的最优决策或控制。这一步有时视实际问题的情况也可以合并在下一步。
第六步:模型的检验。把模型分析的结果返回到实际所研究的对象中,如果检验的结果不符合或部分符合实际情况,那么必须回到建模之初,修改、补充假设,重新建模;如果检验结果与实际情况相符,则进行最后的工作———模型的应用。
当在面临新的建模问题时,这几个步骤具有指导意义,应当注意的是,这几个步骤的目的是指导更好地进行建模实践,其应用是可以有弹性的,切勿生搬硬套。也就是说,不是每个建模问题都要经过这六个步骤,其顺序也不是一成不变的。一个具体建模问题要经过那些步骤并没有一定的模式,通常与实际问题的性质、建模的目的等有关。因此,在建模过程中不要局限于形式上的按部就班,重要的是根据所研究对象的特点和建模的目的,去粗取精、去伪存真,不断完善。
摘要:本文按照不同的标准对数学模型进行了分类,并介绍了数学建模的步骤。
关键词:数学模型,数学建模,步骤
参考文献
[1]颜文勇.数学建模[M].高等教育出版社,2011.
一种基于事件分类的安全模型 篇7
网络信息安全问题日益引起人们的重视。ISO定义了5个安全服务功能,包括身份认证服务、数据保密服务、数据完整性服务、不可否认性服务和访问控制服务。为了保证这些安全性,人们提出了很多安全模型,但这些安全模型大都是从计算机底层操作考虑,对现实生活具体事件的执行过程考虑很少。本文模型把事件分成3类,从而构造了一种既保证用户私密性又保证系统安全性的安全模型。
我们将用户的事务分为3类:私密事件、公开事件、公共事件。私密事件是由单个用户完成的操作,不需要其他用户的协作,事件的执 行不需要 为其他用 户提供任 何信息,事件执行的结果也不会对其他用户造成任何影响。该类事件为用户提供私密性保护,保证用户的隐秘信息不会被泄露;公开事件中单个用户必须向其他用户公开该类事件执行过程以及执行结果。公开事件可以由用户单独完成,但必须向其他用户公开相应信息。公共事件是单个用户无法执行、必须由多个甚至全部用户参与的事件。该类事件一般安全级别很高、影响极大,类似于以往模型中的“绝对可信主体”执行的操作。由于公共事件由多个用户共同完成,可以防止单个用户的反悔和抵赖,因而具有很好的抗抵赖性。
在实际生活中这3类事件是存在的,如银行职员上班时,首先输入自己的用户名和密码,登录到系统,修改自己的密码,这些属于用户个人的事情,不会对其他用户造成影响,属于私密事件;当职员准备好自己办公所需的相关工具后,通知其他职员和客户可以开始办公了,这个事件就属于模型中的公开事件;当需要去金库取现金时,就需要有两个以上的相关人员,凭借至少两把钥匙打开金库并取出现金 ,这就属于 公共事件 。在计算机 系统应用 与管理中同样存在类似事情,如用户登录计算机并写了一篇文章,这个事务不需要其他用户参与,也不需要告知其他用户,在未经本用户允许 的情况下 其他用户 不得阅读 该文章,这个事件正是我们模型中的私密事件,通过私密事件的性质保护了用户的隐私;文件服务器管理员由于某种原因,需要重新配置服务器的IP地址,管理员必须通知其他用户,否则其他用户将无法使用该服务器,这类事件就属于模型中的公开事件;机房中的服务器需要对外提供某种服务,需要系统管理员配置好相关信息,并开启相关服务,与机房管理员协商打开机房防火墙的某个端口才能对外提供服务,这个过程必须由系统管理员与机房管理员共同参与才能完成,这类事件就属于模型中的公共事件。
1模型设计
本文用到的符号:
U :表示用户集,U = {uk|k=1,2,....n;uk表示第k个用户};
O :表示对象集,O = {ok|k=1,2,....n;ok表示第k个客体};
M :表示操作集M = {mij|i= 1,2,....n,j = 1,2,....l;mij表示用户ui对客体oj的一次操作};
E:表示事件集,E = {ei|ei = mik1j1mik2j2......mikmjn,mikmjn∈M,其中i,j,k,m,n均为自然数}上式表明一个事件实际上是一些操作的序列。
S:表示状态集,S= {si|i=1,2...n,si表示系统的某一状态}。
定义1:操作mij是安全操作,当且仅当在mij的作用下,系统从安全状态s1转移到状态s2,s2状态仍然是安全的。
定义2:事件ei是安全事件,当且仅当组成事件ei的操作序列中所有的操作均为安全操作。
显然经过安全事件ei后,系统状态从安全状态s0转变到s1,状态s1仍然是安全状态;若s1不是安全状态,则必存在某一操作m′使得系统从安全状态转移到了某一非安全状态,这显然与安全事件的定义相矛盾,所以系统在s1 仍然处于安全状态。
对于操作集M ,每个操作m由两部分 组成,m =[con,ope],其中con表示该操作必须满足的条件,ope表示系统中具体实施的单步操作,根据con的不同可以把操作集划分为3类,即M = M1 ∪M2 ∪M3。M1表示私密操作,所谓私密操作是 指con规定该操 作只需用 户独立完成,不需要其他用户的协调,也没必要将该项操作及结果通知其他用户;M2表示公开操作,该操作也由用户独立完成,与M1不同的是,用户需要在该操作进行前或操作结束后通知其他用户;M3表示公共操作,该操作必须由多个用户甚至全部用户共同合作才可以进行。
操作划分后,进一步对事件集E进行讨论:E=E1 ∪E2 ∪E3 ,其中E1表示私密事件集,若事件e所包括的操作序列全部为私密操作,则e为私密事件;E2表示公开事件集,若事件e所包括的操作序列至少有一个操作为公开操作,则e为公开事件;E3表示公共事件集,若事件e所包括的操作序列至少有一个操作为公共操作,则e为公共事件。
至此,模型可以简单描述如下:
模型运行过程:当系统要进行某项任务时,首先根据任务特点,分解成不同的事件,若事件e∈E1 ,则对应的用户u独立完成该事件,不需要通知其他人,也不需要他人的合作;若e∈E2 ,则对应的用户u可以单独完成该项事件。与e∈E1 不同的是,对该事件的执行需要通知其他用户,公开事件的存在既保证了用户的私密性,也在一定程度上增强了系统的安全性;若e∈E3 ,则单个用户u无法进行该事件的操作,u收到执行该项事件的任务后,首先请求其他用户共同完成,若得到其他用户的配合,则共同完成某项事件。公共事件的存在最大限度地保证了系统的安全性,但对用户私密性关注较少,具体运行过程如图1所示。
2安全性分析
引理1[2]:对于给定的一个单步命令系统,初始状态s0 存在一个算法,可以判定系统对于一个一般意义的权限r是否是可靠的。
引理1在文献[2]中有比较详细的论述,有该结论的证明过程,这里不再重复。由引理1可知,系统操作m的ope可以判定是否可靠,加上限制条件con ,使得ope的应用范围变小,存在一种方法能够判定哪些操作m是可靠的。
引理2[3]:单调单亲模型比单调多亲模型表达能力更小。
引理2在文献[3]中给出了详细的证明过程。模型中的公共事件并非完全由单个用户完成,需要有多个用户共同参与。由引理2可知,模型具有更好的表达能力,能对各种事件进行更详细的刻画,可以提供更高的安全保护。
引理3[2]:在一个受保护的 系统中,给定状态 对于一个基本权限是否可靠无法判定。
引理3的证明可以采用反正法,证明任意一个图灵机可以归纳为一个可靠性问题,把图灵机进入最终状态对应的基本权限泄漏,如果这样可以判定一个可靠问题,则图灵机停机问题也是可以判定的,但是,这个结论是否定的。
引理3告诉我们,单纯从系统的状态无法判定系统是否可靠,故而本文从一个全新的角度描述了安全性及私密性。若事件是私密事件,一个用户即可完成,该事件没有向其他用户泄漏任何 信息,故而很好 地保护了 用户的隐私,具有更好的私密性;而公开事件和公共事件需要多个用户的协作,要向其他用户泄漏该项事件的操作信息,故私密性较低,而正是由于多个用户的参与,提高了系统的安全性。
条件1:系统在某个状态下,大多数或全部用户都认为是安全的操作,则认为是安全的操作。这里的大多数或全部用户是根据事件的安全等级来确定的,如系统建立后要求所有用户都参与才可以进行,此时系统具有最高安全等级,这样的操作就是安全操作;若某一时刻系统的全部用户都不可靠,则系统就没有存在的必要了;两个不同用户进行通信或合作时,它们所组成的实体会使用一种新的安全策略,且这种策略要建立在这两个实体的安全策略之上,同时满足两个实体的安全性要求。
条件2:存在一种算法能判定事件e的安全性并将其归为某类事件,这里的某类事件是指私密事件、公开事件和公共事件。
由定义可知,事件的分类最终归结为有限个有序的操作序列。对于单个操作,由引理1可以判定是安全的。如安全策略要求级别较高,则可以归为公共事件,以保证其安全性;如策略要求私密性较强,则可以将其归为私密事件以更好地保护用户的隐私。
结论1:安全模型可以提供更高级别的安全保护,能够做到安全性与私密性的平衡。
本模型定义了3类事件,当然存在3类事件的转化问题。由定义可知:私密事件到公开事件到公共事件,安全性一直在增强,而其私密性却在逐渐降低。若一个事件属于私密事件,则该事件只须某一用户即可完成,这样可以更好地保证事件和用户的私密性。若私密事件转换为公开事件或公共事件,该事件的操作就受到更多用户的安全限制,故而可以提供更高的安全性,但却牺牲了事件和用户的私密性。
从以上分析可得结论2:某一事件从私密事件转换为公开事件、公共事件,其安全性和抗抵赖性依次增强,而事件和用户的私密性逐渐降低;反之,则私密性增强而安全性和抗抵赖性减弱。
3安全模型对比
人们已经对安全模型进行了很多研究,提出了很多有价值的安全模型,具代表性的有:基于访问控制矩阵的安全模型、BLP模型、基于角色的访问控制模型、信息流模型等,关于这些模型的具体设计可以查看相关文献。表1是几个安全模型与本模型进行的对比。
4结语
本文从全新的角度定义了一个安全模型,更多关注了用户的需求,较少关注底层实现,从而使模型更贴近应用。探讨了其理论上的可行性和系统安全性,没有具体到某个应用,这是因为不同的环境,安全策略差别较大,具体问题需要具体分析。本模型可以应用到医院患者相关信息的保护中,但其具体实现还要进行科学的设计。
摘要:根据事件的特性和安全等级,将事件分为3类:私密事件、公开事件、公共事件。以此为基础,采用秘密分享的思想构造了一种既可以保证用户私密性又可以保证系统安全性的模型。