分类标准扩展

2024-06-01

分类标准扩展（共6篇）

分类标准扩展篇1

XBRL是一种基于XML的计算机标记语言, 通过互联网、跨平台操作, 被广泛应用于财务报告和相关监管报告领域, 如金融机构审慎监管报告、上市公司年报、税务报告等[1]。现在, XBRL的理论研究和技术研究已经趋于成熟、完善, 其所带来的巨大优势也被充分认识, 世界各国已经着力于将XBRL大力推广和应用。在XBRL国际组织颁布的财务报告分类体系FRTA1.0的指导下, IASC基金会和美国行业协会分别制定了准则导向型的分类标准 (IFRS分类标准) 和实务导向型的分类标准 (US GAAP分类标准) , 并在实务中初步应用[2]。在我国, 也有越来越多的管理界学者和计算机专家投入到XBRL领域的研究, 从XBRL的必要性及优势、XBRL语义、XBRL的软件开发到XBRL的制定、评价和应用、推广, 极大地推动了XBRL的发展。实务中, 2003年以来XBRL已经成为会计信息化年会每年的议题之一, 并且上海证券分交易所2002年开始和深圳证券交易所2003年开始对XBRL的研究和应用, 到现在均已要求其上市公司提交相应的XBRL财务报告, 尽管还处于应用的初级阶段, 但已经带来了巨大的便利和效益[3]。

随着业界对XBRL技术、标准和应用的研究的不断发展, XBRL被社会大众所熟识, 人们对XBRL格式财务报告真实性和有效性的关注不断加深。而要保证XBRL财务报告的真实有效, 从源头上, 就要求不同行业、不同企业建立适合自己现状的高质量的XBRL分类标准体系[4]。因此, 在当前形势下, 要根据不同行业、不同企业的具体情况, 对通用分类标准进行扩展, 并实现与通用分类标准的无缝对接, 从而成功有效地推广XBRL。本文以系统工程的观点对XBRL分类标准系统的扩展进行了梳理, 以期为我国XBRL分类标准系统扩展的理论和实践研究提供借鉴与参考。

1 XBRL分类标准概述

1.1 通用分类标准

2010年10月, 国家标准化管理委员会、国家财政部分别发布了XBRL技术规范系列国家标准和基于企业会计准则的可扩展商业报告语言通用分类标准。通用分类标准的制定是基于强制披露和监管要求的, 所以只涵盖了底层的通用元素, 标记了财务报告的一般概念, 是一种基准分类标准, 通用于所有行业和企业。

1.2 扩展分类标准

扩展分类标准是对通用分类标准进行扩展得到的适合行业和企业现状的具体分类标准, 是对分类标准扩展的结果, 主要有两种:行业扩展分类标准和企业扩展分类标准。行业扩展分类标准是由各行业主体以通用分类标准为基础, 按照行业的信息披露需求进行扩展所得到的行业通用的分类标准;而企业扩展分类标准是各具体企业以通用分类标准或者行业扩展分类标准为基础, 按照企业自身的财务报告要求进行扩展所得到的适合企业的具体分类标准。

1.3 分类标准扩展

可扩展性是XBRL语言的核心属性。分类标准扩展是在XBRL语言规范的指导下, 考虑行业和企业的现状和披露需求, 考虑未来的、潜在的因素和解决办法, 在通用分类标准中加入元素集和关系集, 实现并验证分类标准可扩展性的一个过程。扩展后的分类标准能够更加适应企业现状, 自动生成XBRL财务报告的效率和准确率提高, 并且更加具有可比性。具体框架见图1。

2 XBRL分类标准的系统化扩展

2.1 分析分类标准扩展的系统需求

首先要在了解通用分类标准功能和性能的基础上, 加强与股东、债权人、雇员、供应商、行业协会、政府机构、社会大众等利益相关者的沟通和交流, 明确对XBRL财务报告的信息披露需求, 确定分类标准扩展的必要性和功能、性能需求, 并保证需求的准确性。同时考虑信息源、信息类型、获取成本和时间等各种因素, 在座谈、会议讨论、问卷调查、场景等中选择合适的获取方法进行需求诱导, 保证需求的完备性、一致性和可验证性。

2.2 确定分类标准扩展的技术框架

目前XBRL国际组织已经先后制定了XBRL Specifications (技术规范) 1.0、2.0和2.1共三个版本, 也补充了XBRL Dimensions1.0、Generic Links 1.0、Formula Specification 1.0和Functions 1.0几个成员, 从技术基础、业务规则和使用指南三个层面指导分类标准的制定、扩展和应用, 但由于各国实际国情存在差异, 具体采用哪些规则、补充哪些成员需要进一步探索[5]。因此, 在分类标准系统的扩展过程中, 要形成一套科学合理的技术指引体系, 来引导本国会计准则和其他披露规则“翻译”为具体XBRL分类标准。分类标准扩展的技术指引体系主要包括:第一, 需求分析阶段的成果;第二, 扩展过程中采用的业务规则, 实现真实需求到计算机语言的映射;第三, 如何在现有的技术基础和平台上实现这些规则。

2.3 选择分类标准扩展的模式

分类标准扩展的模式是指从通用分类标准到企业扩展分类标准的路径选择模式。目前, 主要有两种模式:一种是直接模式, 即由企业直接基于通用分类标准创建企业扩展分类标准;另一种是间接模式, 即先创建行业扩展分类标准, 再创建企业扩展分类标准。现行实务中, 要根据需求分析结果, 行业背景和企业现状, 是否有时间和有需要利用行业扩展分类标准进行过渡, 确定使用直接模式还是间接模式。

2.4 确立分类标准扩展的规则

X BR L分类标准就是从系统角度出发对现实世界进行建模的, 由概念和其之间的关系组成。从建模角度, 可以将财务报告划分为4个粒度: (1) 框架, 是指从总体上全部报告领域的组织形式, 包括是否分行业, 分多少个行业等等; (2) 模块, 是指在一个分类标准文档内部元素子集的划分; (3) 复合元素, 是指元组、维度以及它们的子元素; (4) 简单元素, 是指不与任何复合元素发生语法关系的数据项元素。

针对上述4个粒度层次, 相应的应该有4种扩展规则几何: (1) 框架规则, 用于指导最高层次的结构建模问题, 形成合理的框架结构; (2) 模块规则, 用于解决粒度层次不统一问题和模式冗余问题; (3) 复合元素规则, 使得在任何情况下都可以使用元组和维度, 并利用维度, 提高可视化和可比性; (4) 简单元素规则, 主要有万维网联盟规定的简单元素命名规则和FRTA1.0规定的命名规则, 要根据我国XBRL实际情况, 选择并进行改进, 确保简单元素的准确性和易调用性。

2.5 分类标准扩展的方法研究

分类标准扩展的方法主要有元素扩展和关系扩展。元素扩展是指在通用分类标准中增加概念和资源等元素。可以采用“扩展分类=基准分类+调整元素”的模式[6、7], 将分类标准的元素分为两类:通用元素和调整元素, 企业级分类标准可以直接从通用分类标准调用的元素为通用元素, 企业财务报告需要单独列示的元素称之为调整元素, 在两类元素协调的基础上实现分类标准元素的扩展。

关系扩展是指计算、公式、引用、展示、标签、定义等链接库的扩展, 包括已有元素之间的关系扩展、调整元素和已有元素之间的关系扩展和调整元素之间的关系扩展。在技术上, 现存的关系扩展类型包括:第一, 增加关系链接库, 通过增加并展示新的定位器和关系弧实现扩展;第二, 禁止关系链接库, 通过利用优先级属性, 来保留或禁用原有链接关系, 可在不影响基准分类标准文件的同时进行扩展;第三, 重写关系链接库, 引入优先级属性和状态属性, 显示相应定位器和关系弧的优先顺序和使用状态。

2.6 分类标准扩展的评价和认证

分类标准系统扩展完成后, 需要进行评价和认证, 主要包括过程认证和功能认证[8]。XBRL分类标准扩展的过程认证是指在扩展分类标准系统时相关关键过程领域的审核和认定, 具体为需求管理、计划制定、方法实施和配置管理等关键过程的审核。可通过建立认证小组, 实施成熟度问卷调查, 与分类标准项目组成员访谈, 文档记录审查等, 进行系统性的分析, 标识出该系统建立和实施过程中的强项和弱项, 进而提出过程改进建议。

XBRL分类标准扩展的功能认证主要认证分类标准系统是否满足合法合规性、完整性、准确性、有用性、可维护性、互操作性等性能指标。可以采用基于度量的认证方法, 即首先定义出XBRL性能的某一个属性目标, 再针对该目标提出相应的问题, 问题的答案整理后就可以成为度量的范畴, 针对这个目标和范畴, 收集并分析数据, 发现扩展分类标准存在的问题并进行改正。也可以采用层次分析法, 首先根据内容和技术两个方面抽象出模型和相关权重, 然后进一步分解, 以抽象出子模型和确定相关权重, 最后再反馈至XBRL扩展分类标准。

3 结语

综上所述, 本文系统完整地分析了XBRL分类标准扩展过程, 旨在为我国XBRL分类标准系统的扩展提供一个研究思路和方法。现今, 有很多种分类标准系统构建和扩展体系, 如美国以XBRL2.1为基础, 又遵循了维度链接库、FRTA等一些额外的规范;澳大利亚分类标准系统通过分类标准信息分类、基础分类标准、通用模块、维度分类标准、外部分类标准五个模块来构建和扩展;英国则以维度、超立方体和元素链接等视角进行数据建模, 构建和扩展XBRL分类标准系统。总之, 不论采用何种方法, 中国的XBRL分类标准扩展既要符合国际标准, 也要具有中国特色;既要保证相对独立, 也要能与其他系统对接;既要为现有分类标准系统提供保障, 又要充分意识到日后的运行、维护机制以及相应的成本。

摘要：可扩展商业报告语言 (XBRL eXtensible Business Reporting Language) 正在全球范围内掀起一场财务报告的信息化革命。然而, 要使XBRL财务报告有效, 其前提是构建一套高质量的XBRL分类标准体系。我国于2010年10月发布了基于企业会计准则的XBRL通用分类标准, 而现阶段XBRL的应用正处于行业、部门、企业推广实施的关键环节, 其核心就是如何对通用分类标准进行扩展, 使之适应于不同行业和不同企业。考虑到这项工作的重要性和复杂性, 本文用系统工程的观点, 阐述了XBRL分类标准系统扩展流程, 以期更好地推动我国XBRL的应用。

关键词：XBRL,分类标准,分类标准扩展

参考文献

[1]财政部会计司供稿.XBRL基本知识[N].中国会计报, 2010-05-07.

[2]金侃.我国XBRL分类标准体系构建中的风险控制[J].财会月刊, 2010 (06) .

[3]何芹.上市银行XBRL财务报告现状及存在的问题[J].证券市场导报, 2011 (06) .

[4]高锦萍.XBRL财务报告分类标准研究:质量水平、经济后果与改进[D].上海交通大学, 2007.

[5]赵英吉.我国XBRL财务报告分类标准制定路线探析[J].会计之友 (下旬刊) , 2010 (05) .

[6]潘琰, 林琳.公司报告模式再造:基于XBRL与Web服务的柔性报告模式[J].会计研究, 2007 (05) .

[7]高锦萍.我国XBRL财务报告分类标准的创建模式研究——从IFRS分类到扩展分类[J].山西财经大学学报, 2008 (07) .

[8]黄长胤, 张天西.XBRL技术分类标准扩展:研究综述[J].科技管理研究, 2011 (22) .

分类标准扩展篇2

不同地区不同企业财务科目的明细设置、固定产值和税收计量等不同,导致财务核算和报表编制的难度加大,从而大大降低了财务信息的质量,因此分类标准扩展是提高财务信息质量的关键。分类标准扩展一般包括财务信息元素的增加以及必要元素之间关系的添加两个方面,具体方法有:增加与基本元素处于同一等级的元素; 增加基于某一层次的基本元素层次更深的具体元素;增加基于基本元素其他分类方法扩展更具体的元素。但是, 进入分类标准元素数量的多少以及元素扩展的细致和粗糙程度如何,即扩展度量问题是最关键的。

一、XBRL分类标准扩展度量模型

1. 度量条件。依据XBRL财务报告基本框架提出以下4个度量条件:

(1)可细分性。要求财务信息元素可以细分成更加细致的财务信息元素。例如货币资金这个信息元素按照币种口径可以细分成人民币、美元人民币等值、日元人民币等值等等。

(2)明显的层级关系,即要具有一定的父子关系。父结点元素的粒度较粗,子结点元素的粒度较细。如上一条件中的例子,父元素就是货币资金,子元素就是人民币、美元人民币等值等。

(3)相应的初始粒度元素。在财务信息元素空间中都会出现一个初始信息元素,该元素是粒度最粗的元素,其结构粒度的值为1,即表示只能被细分不能被合成。除此之外的其他信息元素的结构粒度值都小于1。

(4)各个元素层次之间的距离是相等的。即不同父元素被划分的差异性忽略为零,例如货币资金被细分为人民币、美元人民币等值、日元人民币等值等,存货计价方式被分为后进先出计价方式和先进先出计价方式,这两种划分之间假定是没有差异的,或是被假定为存在一定的差异,但差异性是一致的。

2. 度量原理。在XBRL分类标准扩展度量模型中的核心问题就是选择合适的粒度进行财务信息元素的分析和把握。为了找到粗细合适的元素粒度,才能扩展出合适的XBRL分类标准。这里定义两种基本的等价划分。

定义1:设论域X上有三个等价关系R1、R2和R,若三者同时满足以下条件,就称R1和R2之积是R,记为R= R1×R2:

条件1:R1<R且R2<R;

条件2:若存在R',使得R1<R',R2<R',且R<R'。

定义2:设论域X上有三个等价关系R1、R2和R,若三者同时满足以下条件,就称R1和R2之和为R,记为R= R1+R2:

条件1:R<R1且R<R2;

条件2:若存在R',使得R'<R1,R'<R2,且R'<R。

简单理解就是:定义1说明了将元素由粗到细的划分;而定义2说明了将元素由细到粗的划分。

3. 模型设计思路。在研究XBRL分类标准扩展度量问题时,首先要确定一个财务信息元素空间与初始元素 Δ0以及扩展需求。财务信息元素空间就是进入XBRL分类标准扩展的所有元素,而初始粒度的设置与XBRL分类标准扩展服务对象以及会计准则和规范有关。扩展需求的设定相应得到了一个等价关系R0。由此就可以画出元素的粒度树状结构图,接着在此范围和边界内分析问题并完成该树上所有的财务信息元素的粒度计算,得出所有元素的结构粒度值。然后根据专家打分或是实务统计等手段确定出粒度的选择标准,即确定遴选粒度值。根据相应的分类标准扩展要求和粒度的选择标准进行粒度控制,明确哪些元素予以扩展,哪些元素不能扩展;哪些元素可以扩展详细,哪些元素可以粗略扩展。最后就能依据粒度控制的结果确定XBRL分类标准的扩展边界和范围。但是,如果初始元素和相关的等价关系没有选择正确,那么将分两种情况继续讨论,直至初始粒度和等价关系合适为止。

一种情况是,首次选择的粒度较粗,这时取相关的等价关系R0',可令R=R1=R0× R0',即将R0进一步细分成R1,在等价关系R1上重新得到XBRL分类标准的扩展边界和范围,以及新的初始粒度Δ1。如果得到的粒度还是粗的,就继续往细划分,接着再取相关的等价关系R1',且令R=R2=R1×R1', 这时R2比R1更加细致。然后在R2上继续分析。这样的过程可以重复进行多次,每重复一次 ,粒度就被细分一次 ,直到满足XBRL的分类标准扩展要求。

另一种情况是,首次选择的粒度较细,这时可取相关的等价关系R0',且令R=R1=R0×R0',这时得到新的等价关系R1,R1比R0的粒度要粗,在R1对应的XBRL分类标准扩展边界和范围内进行分析。若还是觉得太细,就继续对R1进行粗化。可以取相关等价关系R1', 且令R=R2=R1×R1',这时R2又比R1要粗,在R2对应的XBRL分类标准范围内进行分析。这个过程也可以多次重复下去,且每重复一次,就将粒度加粗一次,直到达到满足XBRL分类标准的扩展要求。

XBRL分类标准扩展度量模型的框架图如图1所示。从图中可以看出,在XBRL分类标准扩展度量中,最关键的两个步骤是财务信息元素粒度值的计算及具体的粒度控制。

二、财务信息元素粒度值计算

财务信息元素粒度值也称为元素的结构粒度值,它用字母G表示,用来表达财务信息元素的粗细程度。

一般常用的粒度计算模型有三种:基于模糊集合论的粒度计算、基于粗糙集的粒度计算以及基于商空间的粒度计算。张玲和张钹(2007)提出的商空间的概念是一种基于不同粒度的划分。基于商空间的粒度计算就是研究在给定的论域中不同粒度子集之间的关系和转化,因此,在XBRL财务信息元素粒度研究中主要还是利用了基于商空间的粒度计算理论。

定义:设R为论域X上的一个等价关系,则{[x]x∈X} 是X上的一个划分,[X]R={[x]x∈X}称为论域X关于等价关系R的商集。

由上述定义可知,为等价关系Rn对应的商集为等价关系Rn+1对应的商集。同时由于Rn<Rn+1,所以可知是的父集是的子集。

利用等价对的原理 ,假设 :。其中,k=1,2∙∙∙n,则。其中j表示第j个元素,m表示对j这个元素的m种划分,k表示依据m划分后产生的众多子元素的第k个子元素,如图2所示。

由上图可知,Xj是Xm1、Xm2、,…,Xmn的父集,其结构粒度可以表示为G(Xj);Xm1、Xm2、,…,Xmn是Xj的子集。其结构粒度可以表示为G(Xmk)。若元素j所属层对应的是等价关系Rn,元素m1、m2……mn所属的层对应的等价关系为。则就表示在等价关系Rn下的商集的第j个子集。就表示在等价关系Rn+1下的商集的第mk个子集。

在粒度树状结构图中,各个财务信息元素的子集的结构粒度的计算公式可以表示为:

这样就得出各个元素的结构粒度为G=G(Xj)*G (Xmk),其中G(Xj)代表父集元素的结构粒度值,G(Xmk) 代表Xj子集的结构粒度值。在实际求解的过程中,父集的结构粒度就等于上一层的子集结构粒度值,所以在此不给出具体公式。

三、粒度控制

粒度控制是指对要进入XBRL分类标准中的财务信息元素依据扩展条件和信息披露实践规范,以及粒度理论的相关知识进行合理的选择。即依据一定的判别标准规定哪些元素可以被增加到分类标准的扩展中、哪些元素不必被扩展。经过粒度选择和控制,就可以划定出元素的边界,也就划定了XBRL的分类标准扩展的边界和范围。

1. 确立粒度遴选标准。遴选粒度用Δn表示,是指慎重地在结构粒度和财务信息元素综合披露的基础上选择出一个粒度,该粒度的确定可以提供一种客观公正的选择标准。利用这个标准,就可以确定分类标准扩展的细致和粗略程度,也可以判断哪些元素可以被分类标准所扩展。遴选粒度的确定一般分为以下几步:

利用专业判断(演绎法)的方法,先确定一个初级遴选粒度Δn'。专业判断一般都采用的是估计的方法,常用的可以是专家打分方法,综合各种专业因素和信息技术的因素大致估计出初级遴选粒度。

利用实务统计(归纳法)的方法,利用计量经济学中知识进行回归分析,对Δn'进行拟合,得到次级遴选粒度。

依据粒度选择规则,通过初级遴选粒度和次级遴选粒度来确定合适的遴选粒度。一般合适的遴选粒度一定要大于最终粒度Δm,会是初级遴选粒度和次级遴选粒度之间的某个值。

2. 财务信息元素的遴选。用公式A={e|Ge≥Δn}表示财务信息元素遴选的规则。其中A是财务信息空间,e是包含在该财务信息空间中的财务信息元素,Ge是元素e的结构粒度值,Δn就是确定好的遴选粒度。

四、结束语

通过建立度量模型来确定XBRL分类标准扩展的粗细程度,现阶段XBRL的研究范围中较少涉及,因此该模型自身有着一定的缺陷和局限:1模型的结构和可行性还有待完善和检验;结构粒度计算公aa的正确性和实用性需要进一步细致的验证。2度量条件中,假设了财务信息元素之间的层次距离是相等的,也就是说假设其划分误差为零,这样就简化b分析,便于理解。但是在实际的操作中这种误差还是真实存在的,这也是未来研究中不能忽略的问题之一。3在确定初级遴选粒度时会有较大误差出现,财务报告主体、财务报告类型、行业间的差异、重要性水平以及信息技术因素等都会影响初级遴选粒度的估算。

此外,粒度控制中,其技术主要是依靠XBRL分类标准中的展示链接库得以实现,展示链接库主要是反映财务信息元素层次间的关系,符合粒度树状图的要求,进而可以满足粒度控制的诸多要求,但是在实现过程中却还有一定的技术难点需要克服。

参考文献

张天西.网络财务报告:XBRL标准的理论基础研究[J].会计研究,2006(9).

黄长胤,张天西.XBRL分类标准扩展与信息披露质量[J].现代管理科学,2011(5).

张钹,张玲.问题求解理论及应用——商空间粒度计算理论及应用[M].北京:清华大学出版社,2007.

范萍.基于本体的粒度计算模型[J].科技广场,2008(3).

路强,刘晓平.基于商空间粒度计算的产品功能模型[J].工程图学学报,2009(6).

分类标准扩展篇3

关键词：XBRL银行业,扩展分类标准

一、引言

2011年12月, 银监会发布了《银行监管报表可扩展商业报告语言 (XBRL) 扩展分类标准》, 用于提升银行非现场监管报表数据的标准化水平, 推动银行业金融机构实施企业会计准则通用分类标准改进财务报告的编报和使用。这个分类标准是在2010年10月财政部发布的《企业会计准则通用分类标准》基础上, 从行业层面扩展元素内容以更好地适用于银行业的财务报告内容。然而, 扩展后的分类标准也可能因为不当的扩展而降低信息披露的准确性, 降低不同报告主题之间信息的可比性 (Botitz.J.E 2005) 以及增加审计的难度 (Plumlee 2008) 。上官鸣等 (2013) 认为使用会计准则通用分类时, 银行业财务报表在主要内容和项目、报表数据单位以及项目重分类三大方面上存在较大的细节差异。银行甚至可能为了监管需求和行业要求, 编制两套报表, 一套为按自身原有模板编制的报表, 另一套则为针对行业财务报告模板, 将原报表一些披露项数据进行重新处理和归集编制的报表。银行监管报表XBRL扩展分类标准的提出是否适用于现阶段的银行实务报告?会不会由于不适用导致报表信息的缺失?本文对此进行探讨。

二、文献综述

目前, XBRL作为会计信息技术的重要组成部分, 研究热度近年来持续升高。在分类标准方面的研究, Matthew Bovee (2002) 为探究美国分类标准与实务报告是否适合, 搜集美国10个行业共67家工商企业公司的财务报表数据进行研究, 发现分类标准与实务报告匹配合适, 并在各行业间表现不同, 建议推出行业扩展分类标准。高锦萍和张天西 (2006) 通过比对除金融保险业外的12个行业中117家企业的数据, 发现我国XBRL财务报表分类标准定义的信息元素与公司报告实务披露的项目间的差异还较大, 并且各类差异在行业间无差别, 分类标准需要完善。Poolion (2009) 对分类标准适当性的评价提出了标准, 包括与国际会计准则的接轨, 内容要涵盖所有通用财务数据元素, XBRL在计算链接库的关系要正确以及可比性的要求四个方面。在行业扩展分类方面的研究, 李争争和张天西 (2013) 以石油行业上市公司为样本, 通过元素的复用和扩展频数的质量评价手段, 认为行业扩展模式在分类标准的效率和不足以及可比性上具有绝对优势, 能够更好地提高财务报告质量。结合2011年推出的公告, 本文将针对银行业的扩展分类标准进行研究, 旨在了解现阶段银行实务报告与银行业扩展分类标准的适用程度。

三、样本选择与研究方法

(一) 样本选择。

根据2013年公布的《财政部关于印发<企业会计准则通用分类标准编报规则>的通知》 (财会[2013]11号) , 作为试点单位需要将2012年的财务报告按照银行监管报表XBRL扩展分类标准进行报送的共有18家银行。其中昆仑银行和国家开发银行未上市, 所披露的报表为财务报告摘要, 并不完整, 所以剔除这两家银行, 仅采用之外的16家上市银行数据。在数据采集方面, 上海证券交易所和深圳证券交易所在其网站上提供了上市公司的XBRL实例文档, 但是实例文档中的信息仅作为展示与参考使用, 并没有完整反映披露实物。考虑到数据的完整性, 本文假设企业的PDF版本的财务报告都是由XBRL文档映射形成的, 具有充分完整性。所以, 本文通过手工翻阅2012年PDF版本的财务报告进行数据搜集。

我国上市公司的财务报表信息披露实行强制性披露, 主表的表内项目反映的信息基本由证监会强制披露, 各家银行在这方面的披露差异不大。然而, 对于财务报表附注中的内容, 证监会和财政部并没有强制性规定, 都是企业自愿进行披露, 会由于企业规模、发展模式、方向以及业务个性等多方面有所不同。因而, 以财务报表附注项目用来评价XBRL财务报告与实务中的适用程度, 对XBRL的实际发展更有意义。

(二) 研究方法。

已有的文献显示, XBRL适用性的质量一般从效率和不足两个方面进行评价。元素复用率由黄长胤和张天西 (2011) 提出, 是指通用分类标准中的元素被企业在其披露实务中复用的比例。高锦萍和张天西 (2006) 使用元素匹配法, 通过匹配分类标准中的财务信息元素和企业实务披露的财务信息元素之间的差异, 发现我国XBRL财务报告分类与公司偏好的财务报告实务之间还存在较大的差异, 分类标准还需进一步完善。

本文运用元素匹配法, 定义元素覆盖率这一概念。具体做法是:将单个银行财务报表附注中含有的元素进行标记, 与银行业扩展分类标准元素清单进行逐一比对。若报表附注元素按照银行业扩展标准元素进行反映匹配, 则定义为匹配元素;若报表附注元素并未在银行业扩展标准元素中提及, 则定义为差异元素。差异元素越少, 在绝对量上说明适用性越好。然后, 将匹配元素与财务报表附注中的披露元素之比定义为元素覆盖率。元素覆盖率越高, 在相对量上说明适用性越好。在元素标记与匹配时, 本文遵循以下原则:第一, 银行业扩展标准元素中含有以下元素类型:文本块、文本、时点货币型、数值型、股份数、维度化的表格、维度化的轴、维度化表格轴上的成员、维度化表格的列报事项。其中维度化的表格、维度化表格的轴与维度化表格的列报事项都是标明元素层级以及列报格式的元素, 对报告的实际内容并未做出贡献。所以在匹配元素时, 将这几种元素予以忽略。第二, 元素类型必须与银行业扩展标准元素类型一致才能记作匹配元素, 即使披露了其他类型的元素, 可以推算或推测出也不予以认可。第三, 元素匹配时, 各家银行内报表对财务报表中的科目或者一些项目列报内容的一级标题并不相同, 本文参照实质重于形式的原则, 认可实际上披露了相关内容只是名称定义有所不同的元素。

四、统计结果

按照银行业扩展标准元素覆盖率的方法, 本文统计了16家银行共计12 814个报表附注元素, 统计学分析计算如表1所示。表1的上半部分可以看到, 总差异数较多, 最小差异元素数为112个, 最大差异元素数达到286个, 均值达到了183.25个。从整体数据看 (未在表中列示) , 差异元素总数在112-200个之间的有11家, 在200个以上的有5家。从表1的下半部分可以看到, 纵使差异数多, 元素覆盖率还是较高的, 最低的元素覆盖率为67.9%, 最高的元素覆盖率为84.27%, 平均元素覆盖率达到77.12%。从整体数据看 (未在表中列示) , 元素覆盖率在67%-70%之间的有2家, 元素覆盖率在70%-80%之间的有9家, 元素覆盖率在80%以上的有5家。从数据上来看, 银行业报表扩展标准元素行业元素覆盖率超过四分之三, 最低的上市银行也达到了三分之二, 在各家银行中规模、业务倚重等多方面因素不同, 差异元素数均值也达到183.25的情况下, 还能达到这种程度的覆盖率, 充分说明在相对值的角度上来说, 元素的使用率较高, 适用性很好。

表2将表1中的差异元素根据所对应附注的内容分为资产负债表项目、利润表项目、现金流量表项目和其他项目四个方面进行详析。我们可以发现, 从绝对值的角度而言, 不同类型项目之间的差异还是很大的, 其中资产负债表项目差异元素 (均值为85) 最多, 一方面是由于资产负债表项目附注最多, 另一方面也可能是因为资产负债表项目元素的分类涵盖得并不完整。其他项目差异元素 (均值70.875) 也较多, 可能的主要原因是银行业务较多, 分部类型和业务分类较繁杂, 加上想侧重披露的业务单元和警示单元也不尽相同, 导致了各家银行报表的繁简不一, 而产生了这部分的差异。

五、结论

目前按照银行监管报表XBRL扩展分类标准披露的银行财务报告实务元素覆盖率较高, 均值达到77%以上, 说明该标准对于现阶段的银行报告适用性较高。然而, 报表实务中披露的元素与银行业扩展标准元素中的差异元素也较多, 总均值达到183.25, 说明该标准还有提高的空间, 可以根据现阶段以及今后银行财务报告涉及的元素进行进一步完善, 使其更适用于银行业财务报告的披露。

参考文献

[1] .高锦萍, 张天西.XBRL财务报告分类标准评价——基于财务报告分类与公司偏好的报告实务的匹配性研究[J].会计研究, 2006, (11) .

[2] .赵聪.XBRL财务报告分类标准质量评价[D].上海交通大学硕士学位论文, 2011.

分类标准扩展篇4

关键词：领域本体,查询扩展,文本分类,信息检索

0 引言

随着信息技术和Internet的快速发展, 互联网上的文本数量呈指数级增长, 在海量性、多样性和动态变化的知识库中获取所需的信息是一项具有挑战性的任务。传统的信息检索主要使用关键词字符匹配和全文检索技术, 借助索引、目录和关键词等方法实现[1,2], 在许多情况下不能很好的表达用户的查询要求, 从而导致了检索结果的低相关性。针对这个问题, 研究者们把查询扩展[3]引入到信息检索。在初始查询的基础上加入与用户查询词相关的词组成更长、更准确的新查询串。查询扩展分为人工查询扩展和自动查询扩展两种[4,5]。人工查询扩展通过人工挑选与查询词相关的特征词来扩展查询串。该方法因为有用户的参与可以有效的提高检索精度, 但手工建立扩展词表需要很大的工作量, 且其操作过程有人的主观因素, 从而导致查询扩展的有效性强烈依赖于检索者的知识和判断。自动查询扩展根据某些规则自动扩展查询串[6,7]。该方法不需要用户参与, 且检索精度较高, 但需要对整个文档进行两次检索, 开销较大。文献[8]提出了一种基于分类的检索方法, 该方法可以较快的定位到类别, 但类特征项权值计算是以单个词语为单位的, 每个词语可能属于不同的类, 导致相关类判别错误, 影响检索精度。文献[9]提出了一种基于分类的交互式检索算法, 该方法由用户确定查询请求与那类最相关, 这种方法可以准确的找到类, 检索精度比较高, 但需要用户的参与。

本文提出了一种基于分类和语义查询扩展的信息检索方法。用支持向量机对语料库进行分类并提取出每类的类特征项向量。检索时, 首先对查询串进行语义扩展, 然后借助词语的语义约束定位相关类别, 最后在相关类中进行检索。

1 相关知识

1.1 支持向量机多类分类算法

支持向量机[10]是由Vapnik提出的一种新的机器学习方法, 已经成功的应用于文本分类等诸多领域。常用的支持向量机多分类算法有一类对余类 (1-a-r) 、一对一类 (1-a-1) 和有向无环图支持向量机 (DAGSVM) 等。其中, 1-a-1方法的分类精度较高, 且适用于类别数较少、样本规模较大的情况。

设给定的多类训练样本集{ (xi, yi) }, i=1, 2, …, l。其中, xi∈Rn, yi∈{1, 2, …, M}, l为样本个数, M为样本集类别数, Rn为n维实数空间。

1-a-1方法对任意两类构建一个二分类支持向量机, 对M类样本需要构建M (M-1) /2个二分类支持向量机。在训练第i类和第j类对应的分类器时, 在样本集中选取属于类别i和j类别的数据作为训练样本, 并将属于第i类的样本标记为正类, 将属于第j类的样本标记为负类。对应的优化问题如下:

$\min_{w^{i j}, b^{i j}, ξ^{i j}} \frac{1}{2} ∥ w^{i j} ∥^{2} + C^{i j} \sum_{t = 1}^{l} ξ_{t}^{i j} (1)$

s.t. wij·ϕ (xt) +bij≥1-ξ $_{t}^{i j}$ , if yt=i (2)

wij·ϕ (xt) +bij≤-1+ξ $_{t}^{i j}$ , if yt=j (3)

ξ $_{t}^{i j}$ ≥0 (4)

求解这M (M-1) /2个优化问题可以得到M (M-1) /2个决策函数:

fij (x) =sgn (wij·ϕ (x) +bij) i, j=1, …, M并且i≠j (5)

用1-a-1 SVM方法对待分类样本进行分类时, 用每一个分类器fij对其进行判断, 并为相应的类别“投一票”, 最后得票最多的类别即为待分类样本的类别。

1.2 语义查询扩展技术

为了更有效的解决信息检索过程中词不匹配的问题, 对查询扩展进行了补充, 把查询扩展提升到语义层面。

如果存在两个查询Q1和Q2, Q1⊆Q2 , 其中, Q1基于概念集C1, Q2基于概念集C2, 并且C1和C2在语义上是相关的, 那么就称Q2是Q1的语义查询扩展[11]。

文献[12]和文献[13]研究了基于本体的查询扩展方法, 基本思想是利用本体中的路径来进行用户查询的扩展。在本体的结构图中, 每一个概念的节点都与其他节点有着连通的路径, 因此对用户查询进行扩展的时候, 可以选择与该节点连通的路径上的概念。引入本体后, 实现查询扩展的基本步骤如下:

①根据本体知识库对原始查询进行扩展, 找到与之关联的扩展查询词;

②扩展查询词加入到原查询之中, 形成新的查询描述信息, 再送入检索系统进行查询;

③查询结果按照一定算法进行排序并展现给用户, 这个过程需要本体知识库的支持。

基于本体的查询扩展技术利用本体所推导的信息对用户的查询进行扩展, 得到了不错的检索效果。

2 分类和语义查询扩展相结合的信息检索方法

2.1 检索模型

检索模型如图1所示。

文本预处理及文本分类:对语料库中的文档进行分词处理, 去除停用词, 合并数字和人名等词汇, 利用关键词抽取算法抽取出文本的关键词。用支持向量机多类分类算法 (1-a-1) 对预处理的文本进行分类, 对每一类的关键词进行统计比较, 得到类关键词向量。

查询预处理:查询串经过分词程序分词后, 去除停用词, 合并数字和人名等词汇, 构成初始查询向量。

查询扩展:初始查询向量在领域本体的帮助下进行语义查询扩展。领域本体中包含了多种关系, 如同义关系、上下位关系、整体与部分关系、实例与概念关系、同类关系。通过这些关系, 每个关键词被扩展为以此关键词为根节点的树状结构。扩展的具体思路为:以关键词为根节点, 同时检索与此关键词邻接关系词, 并把这些词作为本次检索的查询扩展词, 这样就可以保证加入的扩展词在语义上与原查询是最相关的。

2.2 检索算法描述

步骤1:用领域本体对初始检索关键词进行语义扩展得到扩展查询串, 扩展范围包括关键词及其相关词。

步骤2:用支持向量机多类分类算法 (1-a-1) 确定扩展查询串所属类别。

步骤3:利用向量间的夹角余弦函数 (6) 计算扩展查询向量与所属类中每个文本向量的相似度[14]。

$S i m (Q, d) = \cos 〈 Q, d 〉 = \frac{\sum_{k = 1}^{n} W_{q_{_{k}}} \cdot W_{d_{k}}}{\sqrt{\sum_{k = 1}^{n} W_{q_{_{k}}}^{2} \sum_{k = 1}^{n} W_{d_{k}}^{2}}} (6)$

其中, Q= (Wq1, Wq2, ……, Wqn) 为扩展的查询向量, di= (W1, W2, ……, Wn) 为被检索的文本。

步骤4:按相似度值大小进行排序, 返回检索结果。

3 实验与结果分析

实验数据来自复旦大学提供的中文语料库, 从中提取艺术、历史、军事、教育、交通五类共2802篇文档。其中的1396篇文本作为训练样本, 其余的作为测试样本。将文本数据经过预处理后形成高维词空间向量, 采用信息增益的方法来进行特征降维, 向量中每个词的权重根据TF*IDF公式计算。

实验环境为CPU Pentium 1.6G, 512M内存, Windows Xp操作系统。

支持向量机多类分类算法 (1-a-1) 采用RBF核函数:K (x, y) =e-γ‖x-y‖2, 其中, γ=0.1。系统参数C=10。算法实现参考了Chang和Lin所开发的Libsvm[15], 并在此基础上进行了相应的修改。根据分类结果, 抽取每类文档的关键词, 得到类特征向量。

实验中采用标准的查全率、查准率的F1值作为评价指标。

查全率 (Recall) 是只检索到的相关文档数与所有满足条件的文档数的比率。

查全率 $= \frac{检索到的相关文档数}{文献库全部相关文档数} (7)$

查准率 (Precision) 是指检索到的相关文档与检索到的全部文档的比率。

查准率 $= \frac{检索到的相关文档数}{检索到的全部文档数} (8)$

查全率和查准率反映了检索质量的两个不同方面, 两者必须综合考虑, 不可偏废, 因此, 存在一种新的评估指标F-测试值 (F-measure) 。

F测试值 $= \frac{2 \times 查全率 \times 查准率}{查全率 + 查准率} (9)$

实验中, 用本文方法和用关键词与分类检索相结合的方法分别进行50次不同的查询, 表1给出了检索结果。

由实验结果可知, 本文方法的检索性能较关键词与分类相结合方法有了明显提高。因为用关键词检索只能返回与关键词匹配的检索结果, 当用户输入短查询时, 只检索出部分相关的文档, 从而造成查全率查准率较低的现象。本文算法首先对查询词进行扩展, 然后快速准确的定位到相关类别, 最后在相关类中进行检索得到最终的搜索结果。该算法大大缩小了检索的范围, 提高了检索速度, 与基于关键词检索方法相比, 查全率、查准率都有明显的提高。

4 结束语

结合领域本体概念对关键词进行语义扩展, 并和文本分类技术相融合, 构造了新的信息检索模型, 提出了基于分类和语义查询扩展的信息检索方法。该方法首先对查询串进行语义扩展, 提高了查全率, 其次该方法先定位到类, 然后在类中进行检索, 提高了检索的效率。实验结果表明, 基于分类和语义查询扩展的方法具有较好的检索效果。

分类标准扩展篇5

支持向量机SVM[1]是解决分类和回归问题的一种新的数据挖掘技术。它已广泛应用到文本分类[2]、人脸识别[3]、语音识别[4]等领域,并取得良好的效果。标准支持向量机中参数C的选择对构造分类函数来说是至关重要的,它是样本分类误差的惩罚系数,不过在标准支持向量机中对于不同的样本,惩罚是相同的。但在实际应用中常常发现某些样本重要性大,要求小的训练误差,而有些样本的重要性相对低一些,容许一定大小的训练误差。针对这种情况,文献[5]提出了模糊支持向量机,对不同的样本采用不同的惩罚系数,以致在构造目标函数时不同的样本有不同的贡献。对野值和含噪样本赋予较小的权值,可在一定程度上消除野值与噪声的影响。

采用模糊支持向量机时,隶属度函数的设计是整个算法的关键,不同的隶属度函数会对分类结果产生不同的影响,这就要求隶属度函数必须能客观、准确地反映系统中样本的重要程度。关于隶属度函数,很多学者作了大量的研究工作。文献[5]提出根据样本到类中心的距离来度量其隶属度的大小,但该方法并不能将野值或含噪样本从有效样本集中区分出来,以致将野值或含噪声样本赋予和有效样本相同的隶属度,严重影响分类性能。文献[6]在计算隶属度时,对类中有效样本与野值分别进行了考虑,对有效样本采用样本到类中心的距离来度量其隶属度,而对野值的隶属度直接赋予一个很小的值。该方法的关键在于如何确定野值点,错误判断野值点会严重影响分类器的性能,但确定野值点又是非常困难的[7]。文献[8]提出了一种基于样本紧密度的模糊支持向量机。该算法在确定样本的隶属度时,不仅考虑了在特征空间中,样本与最小包围球中心之间的关系,样本到最小包围球中心之间的距离越大,则该样本属于该类的隶属度就越小;同时,考虑了在特征空间中样本分布范围对于隶属度的影响。位于球半径内的样本,其隶属度都大于0.4;而位于球半径外的样本,其隶属度都小于0.4。由于其较好的抗噪性能和分类能力得到了广泛的应用。但通过大量的实验表明,将0.4作为球内样本隶属度的极小值,球外样本隶属度的极大值,往往不能得到最好的分类效果。基于此,本文提出了一种扩展的紧密度模糊支持向量机。该算法将球内样本隶属度的极小值,球外样本隶属度的极大值不再单纯地设为常量0.4,而是变量σ,并采用交叉确认的方式来得到较好的σ。实验结果表明,该算法具有更好的分类性能。

1 模糊支持向量机和超球支持向量机

给定模糊样本集{xi,yi,μi}li=1和核函数K(xi,xj),其中,xi∈Rn,yi∈{-1,1},μi∈(0,1],K对应某特征空间Z中的内积,即K(xi,xj)=〈g(xi),g(xj)〉,变换g:XZ将样本从输入空间映射到特征空间,μi为训练样本xi属于类别yi的隶属度。

模糊支持向量机的数学模型如下[5,6,8,9,10]:

其中,w为超平面的法向量,b为超平面的偏置,ξi是松弛变量,C为惩罚因子。

则原始问题(1)的对偶问题为:

超球支持向量机的数学模型如下[11,12]:

其中,a为球心,R为球半径,ξi为松弛变量,v∈(0,1]为惩罚因子,用来控制包围球的半径与球外样本的个数之间的折衷。

则原始问题(3)的对偶问题为:

2 紧密度模糊支持向量机及其扩展

设给定模糊样本集{xi,yi,μi}li=1和核函数K(xi,xj),其中,xi∈Rn,yi∈{1,2,…,k},μi∈(0,1]为训练样本xi属于类别yi的隶属度。K对应某特征空间Z中的内积,即K(xi,xj)=〈g(xi),g(xj)〉,变换将样本从输入空间映射到特征空间。训练超球支持向量机得到k个超球(am,Rm),其中,am是包围m类样本超球的球心,Rm为超球的半径。

紧密度模糊支持向量机的隶属度函数定义如下:

其中,d(xi)=‖g(xi)-ayi‖。

由式(5)可以看出:样本到最小包围球中心之间的距离越大,则该样本属于该样本集的隶属度就越小;同时考虑位于球半径内、外样本的隶属度变化规律不同,采用不同的隶属度函数,且位于超球内的样本,其隶属度都大于0.4;而位于超球外的样本,其隶属度最大值为0.4。但通过大量的实验表明,将0.4作为球内样本点隶属度的极小值,球外样本点隶属度的极大值,往往不能得到最好的分类效果。

扩展的紧密度模糊支持向量机的隶属度函数定义如下:

其中,σ∈(0,1)。

由式(6)可以看出:式(5)是式(6)的特例。式(6)将位于超球内的样本的隶属度的极小值及位于超球外的样本的隶属度极大值设为σ,即位于球半径内的样本,其隶属度都大于σ;而位于球半径外的样本,其隶属度都小于σ。

关于取得σ的较优值,本文采用交叉确认的方式来获得。

3 实验结果及分析

实验中使用标准语料库Reuters 21578,从中选取5类809篇文本进行实验分析。用其中的539篇文本作为训练样本,其余的270篇文本作为测试样本(见表1)。将文本数据经过预处理后形成高维词空间向量,采用信息增益的方法来进行特征降维,向量中每个词的权重根据tf-idf公式计算。算法实现参考了Chang和Lin所开发的libsvm[13]。实验环境为CPU Pentium1.6G,内存512MB,操作系统Windows XP。

图1给出了扩展的紧密度模糊支持向量机对于不同σ,宏平均F1值的变化情况。使用的核函数为径向基函数RBF(Radial Basis Function)K(x,y)=e-γ‖x-y‖2,其中,γ=0.1。系统参数C=1,v=0.5。实验结果表明,一般情况下,紧密度模糊支持向量机(即σ=0.4)不能得到最优的分类结果,有时甚至与最优值相差较大。

表2给出了基于样本到类中心之间距离的模糊支持向量机、紧密度模糊支持向量机和扩展的紧密度模糊支持向量机的比较结果。使用的核函数为径向基函数RBF K(x,y)=e-γ‖x-y‖2,其中,γ=0.1。模糊支持向量机的系统参数C=1,超球支持向量机的系统参数v=0.5;基于样本到类中心之间距离的模糊支持向量机的隶属度函数的参数ε=0.01。对于扩展的紧密度模糊支持向量机,实验中采用交叉确认的方式,得到σ=0.7,其中,折取3,范围0.1~0.9,步长0.1。

由表2可以看出:基于样本到类中心之间距离的模糊支持向量机,由于基于样本空间的所确定的隶属度很难反映样本在特征空间的重要程度,因此其分类性能相对较差;紧密度支持向量机和扩展的紧密度支持向量机,由于样本隶属度的确定是基于特征空间,且综合考虑了样本到球心之间的距离和类中各个样本之间的关系,因此其分类性能更好;由于扩展的紧密度支持向量机使用的交叉确认的方式来得到较优参数σ,因此其分类性能更加出色。同时也应看到,由于需要使用交叉确认来确定σ,因此增加了时间的开销。

4 结论

针对紧密度模糊支持向量机存在的问题,本文提出了一种扩展的紧密度模糊支持向量机,并采用交叉确认的方式来确定隶属度函数的参数。实验结果表明,与传统的模糊支持向量机相比,本文所提算法具有更好的分类性能和抗噪能力。

分类标准扩展篇6

为了适应形势的发展, 满足学生的实际需求, 在完成教学大纲要求的基础上, 我们教学团队在植物分类学的教学上进行了一定的改革, 取得了预期的效果, 现报道如下。

为了便于学生逐步理解和掌握相应的概念, 我们先引入了第一个假想的例子。

起初, 一个居群 (Population) 内的个体都很相似 (我们假设的这个物种只有一个居群) 。由于某种原因 (比如山脉的隆起或河流的阻断) , 这个居群分成了两个居群, 居群间的基因交流也逐渐完全阻断, 因此两个居群走上了独立发展的道路。也就是说, 两个谱系 (lineage, 居群的祖先———后代顺序) 建立了起来。两个谱系建立起来的直观证据是两个居群的个体获得了新的特征, 使得居群内的个体更为相似, 而居群间的个体在外形上则有了明显的差异。我们假定第一个居群的个体到第9年的时候全部都具有木质茎, 第二个居群的个体到第10年的时候所有的花瓣都变为了红色。

植物的特征, 比如花的颜色和茎的质地, 通常被称为性状 (character) 。每一个性状可以有不同的取值, 或者说状态, 称为性状状态 (character state) 。例如性状“花色”可以有“白色”和“红色”等等性状状态;“茎的质地”这个性状, 可以是“草质茎”的性状状态, 或者是“木质茎”的性状状态。

在这个例子里, 木质茎和花瓣红色, 相对于祖先居群的性状状态 (草质茎和花瓣白色) 来说, 都是衍生的 (derived) 。新的衍生的性状状态标志着新的谱系的建立, 而两个新的居群所保留的旧的老的性状状态 (白色花、草质茎、叶光滑无毛、干果和光滑种皮) 则不能告诉我们过去发生了些什么, 也就是说其信息有限。

性状的衍生与否是一个相对的概念, 在上例中, 木质茎这个性状状态虽然相对于其祖先性状状态来说是衍生的, 但是, 对于那些后来产生的具有肉果和种皮具刺的类群来说, 它又是祖先性状状态了。

一个包含祖先及其所有后裔的类群称为单系类群 (monophyletic group) 。我们可以通过类群的个体所共有的衍生的性状状态即共有衍征 (synapomorphy) 来判断单系类群。共有衍征是一个性状状态, 其最初出现在这个类群的祖先, 最后这个类群的所有个体都具有这个性状状态。上例中的木质茎和红色花就是两个居群各自的共有衍征。木质茎的居群又可以分化出两个新的居群, 分别具有肉果和果皮具刺的特征;同理, 红色花的居群也可以分化出具有4枚雄蕊和叶片具毛被的居群。这样, 新产生的4个居群的共有衍征分别是肉果、种皮具刺、雄蕊4和叶片具毛被。在这里我们可以让学生自己找出这4种植物的共有衍征, 以便及时考查学生对概念的理解和掌握情况。

我们可以把上述过程简化成一棵分枝的树状图。同时我们只关注那些发生了改变的性状状态, 在分枝的适当位置加上短横线表示性状状态改变的先后顺序。这样就可以看出, 衍生的性状可以按照其所包括的范围, 按从大 (如木质茎或花瓣红色) 到小 (如叶片具毛或种皮具刺) 的次序安排成一个阶层系统。同时还可以得出一个直观的推论, 即植物可以被安排成一个反映其进化历史 (系统发育, phylogeny) 的分类系统。比如在上例中, 植物可以首先被分为两个大的类群, 一个具有草质茎和红色的花, 另一个具有木质茎和白色的花;前者又可以分为两个类群, 一个雄蕊数目为4, 另一个叶片具毛;同理后者也可以分为具肉果和种皮具毛的两个类群。如果我们把最后出现的四个类群看成四个种, 那么具肉果和种皮具刺的我们假定其组成一个以木质茎为特征的属, 则雄蕊数目为4的种与叶片具毛的种组成以草质茎为特征的另外一个属, 这两个属合起来组成一个科 (当然这个假定的科所包括的范围很小) 。那么, 在这样理想的状态下, 我们这样所建立的分类系统即是基于植物的系统发育, 因此能反映植物的亲缘关系。

在这个例子里, 似乎我们就站在那里看着植物的演化, 在现实生活中几乎没有这种可能性。那么, 分类时应该怎样判断植物的演化历史呢?我们再引入第二个假想的例子来说明这个问题。

假定我们所观察的一群植物, 其中有相当大一部分具有3沟型的花粉;在具3沟型花粉的这些植物中, 有的花瓣是联合的;这些花瓣联合的植物当中, 又有一部分具有头状花序。这几大类植物的性状状态, 我们也可以用网状图表示这些植物之间的关系。中间用短的竖线来表示在不同植物间所发生的性状改变, 比如花粉小于3沟与3沟之间的改变, 花瓣分离与联合之间的变化, 花是否排列为头状花序等。网状图上一共是发生了3次改变, 包括花粉、花冠和花序各发生了1次改变, 所以网状图的长度是3。

因为我们不知道这些植物出现的先后顺序, 也不知道这些性状状态发生改变的先后顺序, 所以我们可以从网状图的任何一个位置开始这些植物的进化, 有的性状状态发生改变的时间顺序甚至完全相反。需要注意的是, 在这些不同的结构里, 网状图的长度完全一样, 都是3。那么对于这些植物, 什么样的网状图的结构才是正确的呢?

为了解决这个问题, 我们需要引入外类群 (outgroup) , 外类群是我们所研究类群的一个近缘类群) 。当一个外类群加入网状图后, 其加入点就是系统树的根 (或者说是网状图的根, 加入外类群就是为网状图置根) 。在第二个例子里, 所有的植物都是被子植物。我们知道被子植物的近缘类群是裸子植物, 为简便起见, 我们只选择针叶树作为外类群。我们知道, 裸子植物没有真正的花, 因此花序和花瓣两个性状在裸子植物中都无法应用。好在裸子植物有花粉, 且我们知道它的花粉是单沟型的花粉。由于仅仅花粉这个性状可用, 所以针叶树只能以花粉沟小于3这个位置加入网状图。

如果我们继续加入新的类群和新的性状, 网状图就可以有更多的画法。有的网状图里, 花瓣发生了两次改变。而在另外的网状图里, 花瓣虽然只改变了一次, 子叶数和花粉沟则发生了两次改变。在这样的情况下, 没有很好的办法判断哪个网状图更好。这时, 我们可以应用简约性 (parsimony) 法则, 选择更短的网状图。虽然更短的网状图并不意味着其一定是正确的, 但它对于我们所观察到的资料来说, 却是最简单的解释。

在阅读分类学文献时, 尤其是涉及分子系统学方面的文章, 通常对于一棵系统树, 有两个常见的评价指标, 一个是一致性指数 (consistency index) , 一个是保持性指数 (retention index) , 分别简称CI和RI。

一致性指数等于最小的改变次数除以系统树的实际长度。在第二个例子里, 最小的改变次数是4, 即花粉沟、花瓣、花序和子叶各都只改变一次。假设某个网状图的实际长度是5, 则该系统树的一致性指数CI=4/5=0.8。

保持性指数等于系统树可能的最大长度减去系统树的实际长度, 再除以可能的最大长度减去最小改变次数。计算最大长度时, 从外类群处开始, 每个性状状态都是分别出现的。假设上例的最大长度为9。那么, RI= (9-5) / (9-4) =0.8。

需要指出的是, 此处的一致性指数和保持性指数在数值上是碰巧相等, 根据计算过程我们可以看出它们的实际意义是不一样的。

虽然只是两个看似简单的例子, 但它们所涉及到很多的概念, 普通的药用植物学 (甚至植物学) 教材都没有收录。在教学过程中, 我们只是要求学生通过具体的例子去理解这些概念, 不必死记硬背它们的定义, 以减轻学习的负担。学生反映通过这部分内容的扩展, 开阔了他们的视野, 学会在系统树上理解科的重点特征和不同科之间演化上的联系, 因此对植物分类学有了更多的了解和兴趣, 对阅读分子系统学文献也大有帮助。最后, 这部分内容的教学可以控制在25分钟到45分钟之间, 不会过份挤压别的部分的教学, 也不会加重学生的学习负担, 可供同行老师在教学时参考。

摘要：为了便于学生理解和掌握植物分类学的基本知识, 扩大学生的知识面, 本教学团队在教学过程中, 通过两个假想的例子, 生动的介绍了植物系统学的一些基本概念。这样的教学方法将枯燥的概念通过具体的例子展现出来, 便于学生理解和掌握, 为学生进入更高阶段的学习, 和在更高的层次上将植物分类学的各个知识点串联起来打下基础。

关键词：植物分类学,药用植物学,教学

参考文献

[1]Judd, W.S., C.S.Campbell, E.A.Kellogg and P.F.Stevens, Plant Systematics:A Phylogenytic Approach.1st ed.1999.Sinauer Associates, Inc., Sunderland, Massachusetts U.S.A.

[2]刘全儒, 郭延平, 于明.植物系统分类学——综合理论及方法[M].北京:化学工业出版社生物医药出版分社, 2008.

[3]曾亮, 孙芳, 赵丽.高职高专院校《药用植物学与生药学》实验教学改革实践[J].安徽农业科学, 2010, (18) .

[4]何志光.浅谈药用植物学的兴趣教学[J].安徽卫生职业技术学院学报, 2006, (06) .

[5]石晋丽.药用植物化学分类学教学方法初探[C]//中华中医药学会第十届中药鉴定学术会议暨WHO中药材鉴定方法和技术研讨会论文集, 2010.

【分类标准扩展】推荐阅读：

行业标准分类06-25