调和函数

2025-01-24

调和函数（精选3篇）

调和函数篇1

复变函数与偏微分方程是大学数学系的两门重要的基础课.复变函数讨论的是复平面上的解析函数的一些性质, 而调和函数则是偏微分方程的重要内容.我们知道解析函数的实部和虚部都是调和函数, 而给了一个调和函数, 如果该函数的定义域是单连通的, 则存在一个解析函数以该调和函数为其实部.所以说解析函数和调和函数有非常密切的联系, 这从它们的性质里就可以看出来, 比方说它们都有极值原理、Liouville定理, 等等.我们这里从调和函数的观点来研究解析函数的这两个性质.

1 调和函数的性质

定义1.1 如果二元实函数u (x, y) 在区域D内具有连续的二阶偏导数并且满足Laplace方程 $Δ u = \frac{\partial^{2} u}{\partial x^{2}} + \frac{\partial^{2} u}{\partial y^{2}} = 0$ , 则称u (x, y) 为区域D内的调和函数.

调和函数是椭圆型偏微分方程的重要内容, 其性质也是研究的重点.我们首先回顾一下调和函数的一些重要性质.

定理1.1[1] (极值原理) 非常数的调和函数在区域D内不能达到极大值和极小值.

定理1.2[1] (Liouville定理) R2上的有界调和函数必为常数.

2 解析函数的性质

首先给出解析函数的一些等价定义.

定义2.1 称复函数f (z) =u (x, y) +iv (x, y) 在区域D内解析, 如果其实部u (x, y) 和虚部v (x, y) 在区域D内处处可微且其偏导数在区域D内满足C-R方程

$\frac{\partial u}{\partial x} = \frac{\partial v}{\partial y} ‚ \frac{\partial u}{\partial y} = - \frac{\partial v}{\partial x} .$

下面我们给出调和函数和解析函数之间的关系.

定理2.1[2] 设f (z) =u (x, y) +iv (x, y) 是区域D内的解析函数, 则u (x, y) 和v (x, y) 都是D内的调和函数.

反之, 我们有

定理2.2[2] 设D是单连通的区域, 则对D上的任意调和函数u (x, y) , 必存在调和函数v (x, y) , 使得f (z) =u (x, y) +iv (x, y) 是D内的解析函数.

下面我们从调和函数的观点来看解析函数的极值原理和Liouville定理.

定理2.3 (极值原理) 设f (z) 在区域D内非常数的解析函数, 则|f (z) |在D内无极大值点.

证明1 设f (z) =u (x, y) +iv (x, y) , 则u (x, y) 和v (x, y) 都是R2上的调和函数, 有

Δ|f (z) |2=Δ (u2+v2)

=2|ᐁu|2+2uΔu+2|ᐁv|2+2uΔv≥0.

这说明|f (z) |2是一个下调和函数, 由下调和函数的极值原理知, |f (z) |2在D内无极大值点, 从而|f (z) |在D内无极大值点.

证明2 设f (z) =u (x, y) +iv (x, y) , 则u (x, y) 和v (x, y) 都是R2上的调和函数, 因此u (x, y) 和v (x, y) 在D内既无极大值也无极小值, 从而|f (z) |2=u2+v2在D内无极大值点, 所以|f (z) |在D内无极大值点.

定理2.4 (Liouville定理) 设f (z) 是复平面C有界的解析函数, 则f (z) 在C内为常数.

证明设f (z) =u (x, y) +iv (x, y) , 则u (x, y) 和v (x, y) 都是R2上的调和函数, 因为f (z) 在区域C内有界, 所以u (x, y) 和v (x, y) 在C内也有界, 这样由调和函数的Liouville定理得出f (z) 在C内为常数.

注除了上述的两个定理之外, 解析函数还有一些性质与调和函数性质是相应的, 比方说平均值定理, 等等.在学习过程中如果能够将它们联系起来就能够感受到数学的整体性和统一性, 这是当今数学发展的趋势.

参考文献

[1]D Gilbarg, N Trudinger.Elliptic partial differ-ential equations of second order[M].Berlin-New York:Springer-Verlag, 1983.

[2] V Ahlfors. Complex Analysis[M]. (3rded) New York:McGraw-Hill, 1979.

调和函数篇2

多重次调和函数的一个Phragmén-Lindel(o)f定理

该文给出了CN中锥上关于多重次调和函数的一个Phragmé-Lindel(o)f定理,从而推广了文献[8]的.一个结论.

作者：王光吴密景 Wang Guang Wu Mijing 作者单位：山西大学数学科学学院,太原,030006刊名：数学物理学报 ISTIC PKU英文刊名：ACTA MATHEMATICA SCIENTIA年，卷(期)：28(3)分类号：O177.4关键词：多重次调和踊数锥暴露面

调和函数篇3

异常检测是指从一组观测值中检测出异常样本。当前数据分析领域的大部分异常检测算法是无条件算法, 从所有数据属性角度检测离群点[1]。有条件异常检测 (CAD) [2]是指其余变量的值给定后, 检测部分变量的异常值。换句话说, 一组变量的异常检测是在另一组变量给定之后的背景下进行的。

有条件异常检测对多个领域中的异常行为检测、异常结果检测和异常属性配对检测问题具有重要作用[3]。例如, 医疗领域、投资领域、法律领域、社交网络领域及政治领域等[4]的异常行为和结果检测。在所有这些领域中, 检测结果非常依赖于检测背景 (病人状况、经济和市场、案例条件, 等等) , 因此只有与具有相同背景的数据进行比较时, 异常检测结果才有意义。

1 相关工作

尽管人们已经对传统的异常检测问题进行了大量研究[1], 但对有条件异常检测却涉及极少, 一般来说, 当前有条件异常检测算法主要采用分类模型[5]或者最大边界分类器[6]。当目标变量限制为离散值时, 有条件异常检测就与错误分类检测[7]和跨离群检测[8]产生了密切联系。错误分类检测的目标是: (1) 确定样本有没有被错误分类; (2) 通过移除错误分类样本, 提高分类准确度。Brodley[9]等人使用不同的分类方法 (包括单分类器和全分类器) 来移除错误分类样本。Verbaeten等[10]使用了Bagging和Boosting算法来提升分类方法的性能。Jiang等[11]使用各种神经网络来提升k-NN分类器的性能。Sanchez等[12]中使用了多种其他基于k-NN分类器的算法, 包括净化算法, 最近矩心邻域算法 (NCN) 及迭代k-NCN算法。然而, 错误分类检测和有条件异常检测的主要区别是:前者检测并移除错误分类样本是为了学习更好的分类器, 而后者主要是根据有条件数据异常的严重性来对样本排序。这也是为何本文第4节性能评估衡量异常样本的排序情况, 而不是衡量将异常样本移除后的分类准确度提升情况。我们将在第4.1和4.2节与典型的错误分类检测算法进行比较。

另外, Papadimitriou[8]将跨离群点定义为:如果部分样本在考虑来自被分配类的样本的分布后属于正常样本, 但是考虑了其他类的样本后属于非正常样本, 则这些样本就认为是跨离群点。对每个样本 (x, y) , 它们根据x与来自类别y的样本的邻域及与不属于类别y的样本的相似度来计算两种统计量。当第一个统计量远小于第二个统计量时, 就认为样本异常。然而, 它们的算法对边缘点不够稳健 (见图1所示) 。本文提出的有条件异常检测算法可以解决这一问题。总体来说, 本文主要贡献如下:1) 针对有条件异常检测, 提出一种基于数据相似图的类别传播算法, 以估计各类别的置信度;2) 提出一种具体的正规化方法, 以避免无条件离群点和边缘点现象 (如图1所示) ;3) 提出一种简洁的无约束正规化计算方法, 以考虑具有不同结点权重的近似主干图;4) 提出一种可对多任务预测进行调整且使异常得分具有可比性的调节方法;5) 基于合成数据、UCI数据和复杂的病人医疗记录真实数据, 对本文算法的有效性进行了验证。

其中, 方块和加号分别表示以下两种类别的样本:

1) 边缘点为类别分布支持边界上的样本;

2) 孤立点为仍在同一类范围内但是离其他大部分点距离较远的样本。

2 问题建模

2.1 标记法

本文使用如下标记法:设 (xi, yi) in=+1m表示n个过去样本和m个最近观测样本。为了不失一般性, 我们约束y为二元类别, 即y∈{±1}。设G为基于结点{xi}in=+1m构建的相似图, 结点链接的权重为W。W的元素wij表示xi和xj的两两相似度。我们用L (W) =D-W表示非标准化图形拉普拉斯算子, 其中D是元素dii=∑jwij的对角矩阵。

2.2 问题描述

当前文献对数据异常的定义比较模糊[1,2], 通常情况下, 当某个样本依据底层模型不应出现而出现时, 便认为该样本为异常。出于实用性考虑, 本文将有条件异常检测问题描述如下:假设有n个过去样本 (xi, yi) ni=1 (可能带有分类噪声) , 检测出最近m个样本 (xi, yi) n+mi=n+1中的异常, 并进行排序。为了评估一个样本的异常性, 我们往往会输出一个异常得分。确定得分的一种方法就是使用概率模型M, 将异常得分计算为不同取值的概率:P (y≠yi|xi, M) 。然而, 概率模型M并不能提前知道, 必须从现有数据中估计出来。这可能会导致图1中的两大问题:一是可能有数据远离过去的数据点观测值。由于对这些数据做出其他响应缺乏依据, 因此难以对这些数据的异常性做出判断。我们将这些数据称为孤立点;二是位于类别分布支持边界上的数据, 因为概率较低, 所以貌似异常数据。这些边界数据称为边缘点。

有条件异常检测的一种方法是:根据过去数据 (xi, yi) ni=1构造一个分类模型, 然后将其应用于数据 (xi, yi) n+mi=n+1上, 以确定归属类别{yi}n+mi=n+1是否正确。但是, 通过利用过去数据的类别和新观测到数据的类别之间的关系, 部分类别{yi}n+mi=n+1可以用来提升有条件异常检测的性能;如果我们利用上述有条件异常检测方法, 就会丢弃掉这部分可用类别数据。

因为底层的有条件数据分布形式是未知的, 基于数据邻域分类一致性的无参数算法 (即k-最近邻或k-NN算法) 可能会很有帮助[8]。使用k-NN等模型存在的一个问题就是无法检测出异常数据集群。

本文提出一种新的无参数检测算法来解决有条件异常检测问题及其面临的挑战。本文算法以数据相似图为基础, 利用分类信息在图中的传播来确定输入变量的响应与其邻域数据点的响应是否一致。本文算法与典型的局部邻域算法有两大区别:1) 它尊重簇结构, 考虑了数据中更为复杂的关联性;2) 通过正规化处理, 降低了孤立点和边缘点相反分类预测的置信度, 解决了孤立点和边缘点问题。与其他基于图论的信息传播算法类似 (比如半有监督学习算法) , 本文算法求解时需要计算相似矩阵的逆矩阵, 当数据数量较大时逆矩阵计算难度也较大, 为了解决这一问题, 本文提出了一种可以近似原始图的缩小的主干图构建算法。

2.3 类别传播

基于图论的类别传播广泛应用于半有监督学习算法 (SSL) 。总体思路是:如果数据间互相靠近, 且位于某种结构 (簇或聚类) 上, 则假设这些数据的类别具有一致性。比如Zhou等人[13]提出的一致性算法和Zhu等[14]中提出的调和解。Zhu等人所提分类算法的思路可以解释为转移矩阵为P=D-1W且在图形G上的随机游走。调和解满足调和属性 (j~i表示在G中相邻) 。调和解和一致性方法属于无约束正规化优化问题。在转换背景下, 无约束正规化问题将搜索软 (连续) 类别分配方案, 以尽量提高被分类数据的适应性, 并对没有遵守簇结构现象进行惩罚:

其中, K是对称的正规化矩阵, C是经验权重对称矩阵。C往往是对角矩阵;对被分类数据, 对角元素常等于固定常数cl, 对未分类数据, 对角元素常等于cu。对SSL, y是伪目标向量, 于是当样本被分类时yi为第i个样本的类别, 否则yi=0。基于式 (1) 可以推导出多种算法。例如, 对 (硬) 调和解K=L (W) , cl=∞且cu=0。一致性算法设置K等于标准化图形拉普拉斯算子K=I-D-1/2WD-1/2, 且cu=cl设为非零常数。式 (1) 的一个重要属性就是, 该解可按闭合形式按照下式计算:

3 本文算法

本节将给出如何利用基于数据相似图形的类别传播来求解有条件异常检测问题, 同时阐述如何计算异常得分。我们将以调和解方法为基础 (第2.3节) , 从以下几方面根据有条件异常检测情况对其进行改进: (1) 给出如何计算错误分类置信度; (2) 引入正规化因子以解决孤立点和边缘点问题; (3) 使用软约束以考虑完全分类情况; (4) 基于量化主干图描述了一种简便求解方法。

3.1 有条件异常检测

通过将所有观测数据看成是分类数据, 且没有样本未被分类, 可以将第2.3节描述的类别传播算法应用于有条件异常检测中。矩阵C的设置与过去观测数据的质量无关。如果过去观测数据的分类 (或者是最近任意样本的分类) 肯定正确, 我们将矩阵C对应的对角线元素设置为一个较大值, 使其类别固定。请注意, 可以使用具体的域值技术来确保过去观测数据的采集样本被正常分类。本文中, 我们假设无法访问这样的先验知识, 因此, 观测数据可能遭到分类噪声干扰。

我们现在给出基于式 (2) 的异常得分计算方法。式 (1) 针对样本i的输出可以被重写为:

SSL算法使用式 (3) 中的作为样本i的预测类别。对未分类样本, 当值接近于±1时, 传播给它的分类信息更为一致。一般而言, 这意味着该样本与各类别被分类样本非常接近。本文利用的一个重要观点就是:可以将看成是分类的置信度。本文情况与SSL算法不同, 因为我们所有的样本都被分类, 且我们还将对已经被分类的样本的置信度进行评估。因此, 我们将异常得分定义为实际分类yi和推断出来的软分类的绝对差。

我们将要着手解决图1中阐述的问题。根据前文, 孤立点是指与绝大部分数据相距较远的样本 (从某个指标角度来说) 。所以, 它们周围的数据点数量很少甚至没有相邻点。于是, 不管这些点的类别如何, 我们不会将这些点判定为有条件异常点。换句话说, 我们希望有条件异常检测算法为这些点分配的异常得分非常低。即使孤立点与大部分数据点相距较远, 这些点与相反类别的数据点的距离可能会非常近。这可能会让类别传播算法对有条件异常样本产生错误的置信度。同样道理, 我们也不愿为边缘点分配较高的异常得分, 原因是它们位于分布边界上。为了处理这些问题, 我们设置K=L (W) +γgI, 其中我们以对角方式对图形拉普拉斯算子进行正规化。直观地, 这种正规化方式可以降低所有样本的置信度|l*|;然而, 相对而言, 这也降低了偏远离群点的置信度。为明白这一点, 请注意 (第4.3节) 相似权重指标是欧几里德距离的指数递减函数。换句话说, 这种正规化方式可被解释为带有汇点的图形的类别传播。该汇点是图G上类别为0的额外结点及与之相连且权重均为小值γg的其他所有结点。相比其他数据点, 链接权重γg对孤立点的影响更大, 原因是它们与其他结点的连接较少。

对全分类问题, 硬调和解退化为加权k-NN。调和解的硬约束不允许类别在其他被分类样本中传播。然而, 即使对全分类情况, 我们仍然希望利用簇结构。为解决这一问题, 我们通过在非约束正规化问题式 (1) 中使用软约束来允许类别在图形上传播。具体地, 我们不是设置cl=∞, 而是让其等于一个有限常数, 且C=clI。设置完K和C后, 我们可以通过式 (2) 解决式 (1) , 且:

为避免计算逆矩阵 (考虑到数值不稳定性) , 我们使用如下线性等式计算式 (6) :

然后, 我们将式 (7) 代入式 (4) 进而求得异常得分。我们将这一得分称为Soft HAD得分。直观地, 如果置信度较高但, 我们将判定样本 (xi, yi) 的类别yi有条件异常。

3.2 主干图

线性方程组式 (7) 的计算复杂度为O (n3) (使用Coppersmith-Winograd算法时, 复杂度甚至可能恶化至O (nu2.376) ) 。这对带有上千个结点的图形来说不具有可行性。为解决这一问题, 我们使用数据量化技术[15], 从训练数据中采样一组结点以创建图形G。然后用数量为k≪n的一小组矩心来代替图中的结点, 此时计算复杂度为O (k3) 。

我们为矩心分配不同的权重, 用主干图来提升对原始图的近似效果。具体方法是对相重性进行计算 (即:每个矩心代表多少个结点) 。在下文中, 我们将描述如何对式 (7) 进行改进以基于相重性展开计算。

设V为相重性对角矩阵, υii为矩心xi代表的结点数量。我们将根据先验知识设置相重性。设WV是矩阵W在图G上的简洁表示, 其中每个结点xi被复制υii次。设LV和KV分别为WV的图形拉普拉斯算子和正规化图形拉普拉斯算子。最后, 设式 (1) 中的C经过相重性改进后成为CV。CV可以表明, 我们根据训练数据的相重性兼顾了训练数据的“适应性”。于是:

非约束正规化式 (1) 现在为:

进而, 式 (6) 转化为:

基于这些改进, 考虑了相重性的异常得分等于

4 实验

为评估本文Soft HAD算法, 我们将其与以下算法进行比较:

单类SVM算法

用带有RBF内核的单独单类SVM覆盖每种类别[16], 且异常得分等于样本与其自身类别学习边界的距离。该算法属于有条件异常检测使用的传统的异常检测算法。

二次判别分析模型 (QDA) [17]

用一个多元高斯变量对每种类别建模, 且异常得分是相反类的后验类别。

带有RBF内核的SVM分类模型[18]

如果样本在决策边界对边较远处, 则判定该样本异常。有条件异常检测采用了该算法作为分类方法, Valko[2]也利用了这一算法。

使用与Soft HAD相同的权重指标W的加权k-NN算法[17]

该算法只依赖于局部邻域的类别, 不考虑簇结构。

4.1 合成数据

当真实模型未知时评估有条件异常检测非常困难。因此, 我们首先基于三种合成数据集 (D1、D2和D3) 来评估、比较不同的有条件异常检测算法结果, 这些算法的底层模型已知, 方便我们与真实异常得分作比较。

我们在图2中给出了采用三种合成数据集时的异常检测结果。所有数据集都建模为多元高斯变量的混合体, 我们用于生成这些数据集的类别密度随着地点、形状和相互重叠情况的不同而不同。数据集D1与数据XOR类型类似, 其中一个类别被建模为一个细长高斯变量。对数据集D2, 各类别相互重叠, D3的形式与同心圆相似, 但是各集群没有重叠。对每个数据集, 我们从+1类别中采样500个样本, 从-1类别中采样500个样本作为训练集, 采集同样数量的样本作为测试集。每次试验中, 我们采集数据集100次。采集过后, 我们对训练集和测试集, 随机变换3%样本的类别类型。

然后, 我们计算真实异常得分:

它反映了相对真实模型, 样本类别的异常程度。每种算法输出一个得分, 每个得分根据异常类别的置信度对样本排序。对每种有条件异常检测算法, 我们评估这种排序与基于真实异常得分获得的排序结果的一致性。具体方法是:计算真实排序与预测排序交换对的数量, 该数量等于Wilcoxon或AUC得分 (经常用于分类的AUC是真实得分为±1的特殊情况) 。交换对数量越少, 一致性分值越高。

表1比较了所有算法在实验中的一致性分值 (或者是AUC) 。结果表明, 本文算法优于其他所有基准算法, 与真实模型确定的排序最为接近。我们同时评估了SVM和单类SVM的线性版本性能, 但是结果劣于带有RBF内核的SVM。

图3给出了每种算法在D3数据集上发现的前5类异常。我们发现, 只有软调和算法可以检测出前几类有条件异常, 这些异常对应于中间区域带有切换类别的样本, 由于带有大量的逆向支持, 因此异常得分最高。

4.2 UCI ML数据集

我们还基于三个UCI ML数据集[19]对本文算法进行了评估, 在评估时有一个顺序响应变量可用于计算真实的异常得分。尤其地, 我们选择: (1) 红酒质量数据集, 响应变量为质量; (2) 房产数据集, 响应变量为业主占用住房中位值; (3) 汽车英里/加仑数据集, 响应变量为英里/加仑。对每个数据集, 我们将响应变量yr定标到[-1, +1]区间上, 并且设置类别类型为y:=yr≥0。与合成数据集类似, 我们对3%的样本随机切换类别类型。真实异常得分计算为初始响应变量yr和 (潜在切换) 类别的绝对差。表2给出了基于 (2/3, 1/3) 比例训练-测试数据集, 所有算法的一致性得分与真实得分的比较情况。同样可以看出, Soft HAD性能要么最优, 要么接近最优。

4.3 医疗数据

本实验主要评估本文算法在检测病人管理异常行为方面的性能。我们邀请临床专家从临床作用角度评判有条件异常检测算法的输出。

(1) 数据

从4486名病人的电子医疗记录 (EHRs) 中提取数据, 如文献[7]所示。病人被分为训练集 (2646名病人) 和测试集 (1840名病人) 。病人记录按照时间划分 (每天早上8点看望病人) , 于是获得51 492条病人病情实例, 其中30 828条为训练数据, 20 664条为测试实例。然后, 这些实例电子医疗记录的数据转化为9282条特征———病人状态的向量表示, 并采用主成分分析法进行降维处理。对每个病人病情实例, 我们有749条决策类型 (或任务) , 这些决策可能是化验室化验或医药处理决策, 决策值为真/假, 表示在24小时内是否需要进行化验室化验或医药处理。

(2) 评估

我们基于222个病例/治疗行为组合对本文有条件异常检测算法进行了评估。我们选择这些222个病例, 使之基于基准的SVM算法可以代表高、中、低各种异常得分[2]。由3位临床专家对每个病例/治疗行为组合进行评估, 以确定治疗行为是否异常及该异常有无临床价值。为了对样本进行评估, 我们使用多数裁定原则 (3名专家中有2名专家赞同即可) 。然后, 我们根据ROC曲线面积 (AUC) 指标来评估有条件异常检测算法的性能。将Soft HAD算法与以下3种算法做比较: (1) 基于相同图形的加权k-NN算法, (2) 带有RBF内核的SVM算法, (3) 本节开头给出的带有RBF内核的单类SVM算法。

(3) 基于图论算法的参数设置

为了构建图G, 我们将相似权重计算为:

其中, ψ是特征权重, σ是长度尺度参数。由于数据维度较高, 所以特征权重不同。如果没有特征尺度变换, 且根据9000个特征计算距离, 则基本上任意两个点都将等距, 这种情况毫无意义。因此, 我们根据一元Wilcoxon得分, 基于各特征的辨别能力来确定各特征的权重。然后, 确定σ, 使图形适度稀疏。我们根据文献[19], 设置σ为欧几里德距离经验方差的10%。实验表明, 本文算法对σ的微小波动的敏感性较低。更重要的是, 由于含有权重接近于0的几个结点的所有链接, 所以图形不会分离。对每种类别, 我们抽取相等数量的阳性和阴性实例来构建k-NN图。设置k=75, cl=1, 且改变γg和图形大小。

(4) 多任务异常检测调整

迄今为止, 我们只描述了单任务有条件异常检测 (单类异常) 。对该数据集, 我们有749个二元任务 (或类别) , 对应于749个不同的化验室化验或医药处理预约情况。在实验中, 我们分别计算了每种任务的有条件异常检测 (CAD) 得分。图4显示了两种任务的CAD得分。若CAD接近于1, 则表明应该执行预约, 若接近于0则相反。对不同的类别/任务, 异常得分范围可能会有差异, 如图4所示。然而, 我们希望不同的任务/类别输出的异常得分具有可比性, 以便系统在实际部署时我们可以设置一个统一的阈值。为了保证得分具有可比性, 我们提出一种简便方法:先取出训练集获得的最大和最小得分, 然后将同一任务的所有得分进行线性调整, 使调整过后的得分在0和1之间。

上部任务和下部任务的得分范围分别为0.1~0.9和0.25~0.61。两种情况下的箭头指向被评估样本的得分, 且两种情况均是阴性类别。虽然下部任务的得分较低, 我们仍然认为它的异常性更强, 原因是它在同一任务的得分范围内更极端。

(5) 结果

在图5中, 我们设置γg=1, 同时在构建相似图时改变从训练集中采集的样本数量, 并将其与加权k-NN进行比较。误差柱显示了10次运行的方差。请注意, 两种方法对图形大小不是十分敏感。这是因为主干图进行了相重性调整 (见第3.2节) 。由于我们对Soft HAD和加权k-NN算法使用了相同的图形, 考虑到数据簇上而不仅仅是邻域内的类别传播, 我们希望性能能够优于加权k-NN算法。在图6中, 我们在不同正规化设置条件下, 对Soft HAD和带有RBF内核的SVM算法进行了比较。在构建图形 (或训练SVM时) 抽样了200个样本, 并且改变γg正规化因子的值 (或者是SVM的代价c) 。我们在正规化因子范围内的性能要优于SVM算法。带有RBF内核的单类SVM的AUC始终低于55%, 因此在图5中没有给出。我们还针对该多任务问题的调整, 对两种算法进行了评估 (如图6所示) 。异常得分调整提升了两种算法的性能, 且降低了算法对正规化设置的敏感度。

5 结语

本文提出了一种基于图论的有条件异常检测无参数算法。本算法不仅利用局部邻域信息 (最近邻算法) , 还对数据簇使用类别传播技术来估计分类的置信度。我们还基于合成数据评估了本文算法性能;此时真实模型已知, 以证明根据真实异常得分时, 本文算法的异常得分在样本排序方面优于其他算法。我们还基于病人医疗记录真实数据对本文算法进行了评估;此时真实模型未知, 使用临床专家来评估本算法异常检测结果的有效性。下一步, 我们打算对结构异常展开研究, 此时不是对各类别分别计算异常得分, 而是统一计算。通过这一结构化方法, 可以避免对得分进行调整。

摘要：对有条件异常检测问题展开研究, 以检测出响应异常或类别异常的数据实例。基于软调和函数, 提出一种新的无参数有条件异常检测算法。该算法基于软调和解, 可估计类别置信度, 进而检测出异常类别划分。同时对调和解进行正规化, 以避免检测孤立样本和分布支持边界样本。基于数种合成数据和UCI ML数据进行实验, 通过与其他基准算法进行比较, 验证了该算法在检测异常分类方面的有效性。最后基于真实电子医疗记录数据 (检测病人管理异常决策) 对所提算法的性能进行了评估。

【调和函数】推荐阅读：

调和模型10-25

调和分析11-15

调和原则11-30

文化调和论文09-08

柴油调和论文12-10