专利检索与服务系统(共12篇)
专利检索与服务系统 篇1
0 引言
随着知识经济的深入发展,专利已成为企业市场竞争力的核心要素和最重要的资产构成。进入新世纪以来,许多企业特别是西方跨国公司通过“专利圈地”,垄断高端技术领域,排挤竞争对手,攫取了巨大的市场利益。可以说,对于后发展欠发达地区的企业而言,加强技术创新并及时将创新成果申请专利保护,既是保护自身利益的迫切需要,也是跻身市场竞争制高点的必然选择,更是其发展和壮大的必由之路。本文开发了一个在线专利数据检索分析系统PatentOnline,为广西重点产业提供以产业细分为基础的专利检索及分析服务,帮助企业了解竞争对手的技术水平和跟踪最新技术发展动向,提高研发起点、加快产品升级和防范知识产权风险。
1 总体设计
系统采用MVC 3层结构:展示层、逻辑层和数据服务层(如图1所示)。展示层负责基于Web界面的用户交互与展示;逻辑层负责对数据进行处理,并与数据服务层进行交互;数据服务层负责采集与专利相关的数据,进行数据清洗、数据抽取转换等操作,并为上层提供数据访问的接口。
1.1 在线专利检索子系统
1.1.1 快捷检索模块
快捷检索模块提供类似搜索引擎的简洁界面(仅一个检索框)给用户进行检索。快捷检索功能提供2种检索行为。
(1)专利号检索。用户输入申请号或公开公告号进行检索。
(2)关键词检索。用户输入关键词,系统对发明名称、摘要、发明人进行全文检索查询,返回查询结果。可以输入多个关键词,用空格隔开,默认是“逻辑与”的关系。
1.1.2 表格检索模块
表格检索模块提供给用户同时对多个检索字段进行检索的功能,检索字段包括申请号、发明名称、公开(公告)号、公开(公告)日、IPC分类号、申请人、申请日、发明人、主题词、摘要、主权利要求、优先权项、国别省市代码、代理机构代码、申请人地址。字段内支持检索词使用“and”和“or”运算。
1.1.3 自定义表达式检索模块
用户可根据自己定义的表达式来进行检索。支持“and”“or”“not”“xor”等多条件查询。单击“》”显示更多的逻辑关系。鼠标移至“?”显示帮助说明文档。对每个查询条件的字段名称有相应的字母对应,点击“字段名称”可查看。单击某个字段名称,自动在自定义表达式输入框中填充,用户输入自己想要查询的表达式,点击“检索”按钮,就会检索到相应的数据。单击“检索历史”,显示之前检索的历史记录。在检索历史记录中点击某条检索表达式,会自动填充在自定义表达式的输入框中,方便操作。
1.1.4 主题检索模块
主题检索模块是根据中国分类主题词表实现的关联性搜索功能。用户可以通过“主题检索”-“查看主题内容”来查看所输入检索词的主题词信息。信息包括主要类目相关内容和次要类目相关内容。通过点击“主题检索”-“生成主题表达式”来生成专利检索表达式。主题检索模块提供了3种专利检索方式:①根据检索词的正式和非正式主题词来进行专利搜索的“精准检索”。②根据检索词的正式主题词、非正式主题词、下位词来进行专利搜索的“模糊检索”。③将检索词的正式主题词、非正式主题词翻译成英文的“英文检索”。
1.1.5 同义词检索模块
同义检索模块是根据同义词词库来实现的相关搜索功能。用户可以通过“同义检索”一“查看同义词内容”来查看所输入检索词的同义词信息。通过点击“同义检索”—“生成同义词表达式”来生成专利检索表达式。同义检索模块提供了3种专利检索方式:①根据检索词的同义词进行专利搜索的“同义检索”。②跟据同义词的相关主题词进行专利检索的“同义扩展检索”。③将检索词的同义词翻译成英文的“英文检索”。
1.1.6 自动翻译模块
该模块提供对检索结果的自动翻译。系统调用外部专利机器翻译系统接口,将英文检索结果中的专利信息(标题和摘要)自动翻译成中文,以帮助用户快速地了解检索结果信息。
1.1.7 IPC分类导航模块
IPC分类导航显示各IPC分析的信息,可点击展开节点来查看各分类节点的子项信息,包含有中国专利和外国专利的选择,点击某项可进行查看信息。用户可以选择对指定分类的专利集合进行检(有数量限制)。
1.1.8 行业分类导航模块
行业分类导航功能和IPC分类导航功能相同,只是分类不同。可点击展开节点来查看各分类节点的子项信息,包含有中国专利和外国专利的选择,点击某项可进行查看信息。对选择的某个分类专利集合进行检索。
1.1.9 专利管理模块
该模块由“表达式”“标引”“专题库”和“模板”4个部分组成。该模块可帮助用户在日常使用中积累自己的专利检索表达式,对感兴趣的专利进行标引,建立自己的专利专题库。
1.1.1 0 用户管理模块
用户分为普通用户和高级用户。系统对不同用户赋予不同的使用和管理权限。例如,高级用户可放宽进行专利分析的数量限制。
1.2 在线专利分析子系统
对专利数据进行多元统计和指标分析是指对专利文献的有关特征进行统计或按照指标算法进行分析。该子系统能够实时对用户选择的专利集合(专利检索结果集或是专利专题库)进行各种专利分析操作,并显示分析结果。
1.2.1 总体趋势分析
总体趋势分析按专利申请日期或专利公开日期统计专利数量。
1.2.2 国省分析
通过专利信息的国省分析,可以了解行业发展的重点区域及不同区域内专利研发的重点方向和各区域之间技术的差异性、不同区域内专利技术的主要竞争者(申请人)和发明人。国省分析包括国省分布状况、国省申请人分析、国省发明人分析及国省技术分类分析。
1.2.3 申请人分析
申请人分析包括申请人趋势分析、申请人构成分析、申请人国省分析、申请人技术分类构成、申请人综合比较、合作申请人分析及申请人区域构成。
1.2.4 发明人分析
发明人分析包括发明人趋势分析、发明人构成分析、发明人国省分析、合作发明人分析。
1.2.5 技术分类分析
技术分类分析包括技术分类趋势分析、技术分类构成分析、技术分类国省分析、技术分类申请人构成、技术关联度分析及技术分类区域构成。
1.2.6 中国专项分析
针对于中国的专利数据进行的分析,它主要包括专利类型分析、国省分布状况。
1.2.7 区域分析
区域是指专利的受理国信息,包括国家、组织,比如美国、德国、WIPO等。区域分析用于了解不同区域产业产品及其技术的特点和差异,包括区域趋势分析、区域构成分析、区域技术领域构成(IPC构成)、区域申请人构成。
1.2.8 自动生成分析报告
将上述分析结果形成报告,可导出成Word格式。分析报告模板可以自定义,并可以定制分析报告模板。
2 关键技术
2.1 分布式专利大数据采集
本系统平台的专利数据来源于互联网的多个国内外数据源,数据格式多样,数据总量庞大,需要用程序自动化进行持续性的长期采集抽取。以下为系统设计与实现的要点。
2.1.1 编程语言
使用Perl或Python这种脚本语言来实现。Perl和python都擅长处理文本,无需编译,修改方便,入门容易,拥有强大、丰富的模块扩展。
2.1.2 增量式采集
由于专利数据量极其庞大,全世界中英文专利共约1亿份,所以将其全部采集是个长期的过程。因此,整个流程中每个步骤都是以增量的方式来处理,每个步骤都要识别上一步骤传递来的增量数据包进行转换处理,并记录处理日志,以便以后能够根据日志恢复全部数据。系统以定时或不定时方式生成增量采集到数据包,导入平台。
2.1.3 并行采集方式
为提高采集的带宽利用率和采集效率,系统以并行进程或多线程的方式进行采集。为了避免对数据源服务器造成压力,需要限制访问的频率,同时使用多个IP出口轮换。
2.1.4 鲁棒牲
系统核心进程可以任意中断,不影响后继重启后采集。
2.1.5 自动化
整个系统要求有较高的自动化程度,不需要专门安排人员来监控,失败操作能够自动重启,并有较完善的日志记录,以便发现和修复问题。
2.2 基于Lucene与Mysql数据库结合的中文专利信息全文检索
本系统平台的数据库是使用Mysql管理的,虽然能够较方便地对专利数据进行组织和操作,但是用户无法控制其信息索引的方式。由于是针对西文字符开发的,Mysql在对中文信息进行全文索引时问题较大,因此本系统平台采用了目前流行的Lucene技术,并与Mysql结合使用一起管理专利数据库。通过Lucene为专利数据库中的海量专利信息建立索引,实现全文检索,可以较好地解决海量专利信息在检索方面的效率问题。
2.2.1 Lucene介绍
Lucene[1]是Apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包。它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文2种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。
2.2.2 倒排索引
Lucene像其他主流Web搜索引擎一样,采用的是倒排索引技术。倒排索引在实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因此称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。
搜索引擎的关键步骤就是建立倒排索引,倒排索引—般表示为一个关键词,然后是它的频度(出现的次数)、位置(出现在哪一篇文章或网页中,及有关的日期、作者等信息),它相当于为互联网上几千亿页网页做了一个索引,好比一本书的目录、标签一般。在本系统中,我们以字段文本分词并过滤掉停用词后得到词语作为关键词,为需要全文检索的专利信息字段建立倒排索引。专利检索时就能够快速查找到关键词所在的专利。
2.2.3 中文分词
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。汉语的句子不同于英文句子,英文单词之间有间隔,汉语文本中词与词之间没有明确的分隔标记,而是连续的汉字串。词是构成句子的基本单位。若要计算机智能地理解汉语中的每一句话,则必须让计算机明白该句子的各个词的含义。也就是说,需要计算机智能地把每一句话都正确地切分出来,才不会造成理解上的偏差。以词为单位作为搜索引擎索引的Key值,会大大提高搜索引擎结果的准确性。
目前,现有的分词算法主要可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。考虑到技术的可行性,我们选择易于实现的基于字符串匹配的分词方法。
为了提高分词的正确率,我们将主题词表及各行业的专业词加入分词词典中。
2.3 基于Mina框架的分布式专利在线分析架构
考虑到专利数据库沉重的存储压力,以及实现分析算法的SQL语句复杂度,本系统主要设计思路是将分析算法主要实现在应用层,数据库只是单纯作为存储。并且,将该部分功能实现成独立服务,支持任意扩展。
上层分析系统使用Apache Mina[2]远程服务调用分析服务,传递参数和分析结果。Apache Mina是一个能够帮助用户开发高性能和高伸缩性网络应用程序的框架。它通过Java nio技术基于TCP/IP和UDP/IP协议提供了抽象的、事件驱动的、异步的API。
为了提高性能,在Mysql存储层与应用层间可使用memcache、redis等作为缓存,如取专利数据、缓存分析计算结果等。
3 系统运行效果
在对上述技术研究的基础上,本文设计和实现了一个在线专利检索分析系统。以下简单展示一下特色功能。
3.1 高级检索
用户可根据自己定义的表达式来进行检索。支持“and”“or”“not”“xor”等多条件查询(如图2所示)。
3.2 检索词智能扩展
用户单击高级检索页面右侧的“检索词智能扩展”(如图3所示),可展开检索词智能扩展功能区,在“检索词”文本框中输入关键字,如“电脑”,然后可在右侧选择“主题检索”或“同义检索”。
3.3 自动翻译英文专利
在使用英文关键词检索得到的英文专利检索结果页的上方,用户点击“自动翻译”链接,系统会自动将结果页中的专利标题和摘要信息翻译成中文,以便用户阅读理解(如图4所示)。
3.4 产业分类导航和IPC分类导航
产业分类导航和IPC分类导航分别如图5、图6所示。
3.5 在线分析
申请人分析图如图7所示;专利趋势分析图如图8所示。
4 结语
本文开发了一个在线专利检索分析系统,阐述了系统的体系结构、各模块的功能、关键技术。系统在系统架构、全文索引等基础上实现的专利信息检索和统计分析在大规模数据方面体现出较好的效率;系统提供自动翻译检索结果、产业分类导航、检索词智能扩展等具有特色能够有效帮助普通用户使用的功能,在用户体验、可视化界面和交互性等方面取得较好的效果。系统具有较大的使用价值,未来将应用在自然语言处理和语义分析等技术领域,从而进一步提升系统的性能。
摘要:文章介绍了一个在线专利检索分析系统,阐述了系统的体系结构、各模块的功能、关键技术。该系统在分布式大数据采集、基于Lucene与Mysql数据库结合的全文索引、基于Mina框架的分布式在线分析架构等基础上实现的专利信息检索和统计分析,在大规模数据方面体现出较好的效率,并提供检索结果自动翻译、检索词智能扩展和产业分类导航等特色功能,可以帮助普通用户更便捷地利用专利信息。
关键词:专利检索自动翻译,检索扩展,专利分析,分布式,全文检索Lucene Mina
参考文献
[1]Lucena Welcome to Apache Lucene[EB/OL].http://lucene.apache.org,2016-03-17.
[2]Mina.Welcome to Apache MINA[EB/OL].http://mina.apache.org,2016-03-12.
专利检索与服务系统 篇2
4.1 科技文献语义丰富化
在传统文献标引的基础上, 一些文献检索系统已经进行了深层的语义丰富化处理, 并且在此基础上提供更准确的检索服务。例如, ProQuest在文本标引基础上将蕴含在学术出版物中的表格、地图、照片和其他图形中的数据、变量以及其他内容进行深度的标引,平均使用8个术语描述一个图像。Wiley的SmartArticle技术[14]针对化学期刊新增了化合物索引, 提供对于内容的深层检索, 此外对文献中的化学术语进行标注,使用不同颜色对不同类型的化学术语进行高亮显示,以方便用户阅读。在医学文献检索领域, PubMed使用MeSH主题词表进行文献标引, 随着文本挖掘技术的成熟, 一些工具和系统在PubMed基础上对科技文献进行了更为深入的语义丰富化处理[15].例如, EBIMed[16]
从文献中抽取蛋白质、基因本体标注、药物和物种, 基于共现分析识别抽取概念之间的关系。PubTator工具[17]支持对PubMed检索结果的标注, 识别的生物医学实体包括基因、化学物质、疾病、变异、物种等。
4.2 基于实体或概念的数据集成与融合科技文献的数据集成已转变为以实体或概念为中心的数据集成和融合, 实现不同应用系统之间的语义互操作, 促进更广泛的共享与应用。AGRIS 国际农业科学和技术信息系统利用 OKKAM 实体名称系统框架[18]创建关联数据模型, 将书目数据库转换为关联数据服务.一方面, 使用 AGROVOC 叙词表与其他叙词表映射, 另一方面将书目记录与外部资源建立连接,如 DBPedia、WordBank、Google Custom SearchAPI、Nature OpenSearch 等。在 AGRIS 检索结果的详细页面中, 除书目信息外, 还提供相关外部资源的结果揭示, 借助文献标引使用的 AGROVOC 词汇、书目关联数据等实现以实体或概念为中心的知识页面之间的融汇。Elsevier 提出 Smart Content 的概念, 组织医学专家在 UMLS 基础上构建 EMMeT 医学词汇分类体系, 将 Elsevier 的临床医学期刊、论文、书目章节、表格、图像等数据映射到合适的医学术语上, 从而加强对 Content 的理解, 使其提升到实体、概念和关系的知识层面上, 以便各类应用程序更好地理解和处理内容上的内涵信息。
4.3 面向文本分析结果的索引机制。为实现对文本分析结果的检索, 语义检索系统构建了文本中概念、实体、关系、事实与文献之间的索引。例如, Kleio系统应用Lucene对识别出来的蛋白质、基因、代谢物和医学术语构建索引, 即对与文本相关的概念构建索引, 而不是个体或规范词形式, 这意味着系统可以检索与某个指定概念相关的文档, 无论概念的表现形式是它的拼写变体还是缩写形式.
EvidenceFinder 系统借助基因、蛋白质、药物、疾病和代谢物的词表以及表示生物医学过程和关系的词典, 对 Europe PMC 仓储全文数据进行语法分析和文本挖掘, 将所有可能包含相关事实的句子构建索引。NLMplus使用 Solr 对语义层进行索引, 支撑检索服务。而 Quertle建立语义关系索引、关键词索引和辅助索引三种索引, 用于查找用户输入的检索词和提问,并返回检索结果。
4.4 查询处理
由于一个搜索请求可能代表多重含义, 对用户输入的检索词进行语义分析是语义检索系统的首要任务。通常, 语义检索系统从用户输入字符开始提供自动完成功能, 对用户输入的检索词和语句进行识别和分析, 给出相关的查询建议, 通过理解用户查询意图和搜索空间的含义改进检索质量。
(1) 基于受控词表和本体的自动完成功能
目前, 搜索引擎大多数都具有自动完成功能, 利用预存的术语自动将用户的检索词对应到可能匹配术语上并提示给用户, 简化用户输入操作。文献检索系统通常利用受控词表和本体实现自动完成功能,GoPubMed将输入的术语匹配 MeSH 和 Gene 本体术语; Semedico将查询建议放在分类树中允许用户选择一个广义术语作为检索词, 在括号中列出其同义词;NextBio可以列出匹配的基因、化合物、SNPs、疾病、组织、生物学团体和作者等; Elsevier 的 ClinicalKey 医学信息平台在用户输入检索词后提供检索建议, 如相关医学主题、内容来源和作者等。
(2) 查询分析
检索系统在执行查询前, 采用语言学方法将用户输入的检索词映射到受控词表或本体的概念、实体上,将关键词检索转化为概念或实体的检索。利用受控词表的同义、广义、窄义等术语以及基于本体上下位关系实现查询的逻辑推理, 用于解释用户的查询, 并给出查询建议。Kleio 系统将摘要中命名实体进一步分类, 结合语义分类信息执行查询, 可以降低搜索空间,提高检索效率.一些文献检索系统允许用户使用自然语言进行提问, 如 Quertle、EvidenceFinder 等, 在执行查询处理前, 需要对查询语句进行预处理, 利用自然语言处理技术将查询语句进行重构。NLMplus使用叙词表和本体对 PubMed Review 进行语义标引, 利用构建的知识库对查询进行分析和解析, 以检索到更精确的结果。iPubMed[23]提供一个交互式检索界面, 当用户在搜索框中输入几个字符时, 系统将立即显示任何包含这些字符的引用, 便于缩小搜索目标, 此外该系统还允许小的拼写错误。ClinicalKey 通过 EMMeT建立关系的语义框架, 促进内容发现, 使得被传统关键词检索忽略的潜在关联能够被揭示出来, 并且保证了ClinicalKey能够为用户的检索请求提供具体并且有针对性的答案, 比如查找“myocardial infarction”,ClinicalKey 智能检索可以识别其缩略词、同义词、相关外科手术和治疗药物, 并且知道这是一种与高胆固醇相关的心血管疾病[20].
4.5 查询结果管理在传统文献检索系统的基础上, 语义检索系统对于查询结果的呈现方式更加多样, 表达的信息也更加丰富, 基于本体的结果精炼、知识导航等为用户带来了新的检索体验。
(1) 查询结果呈现方式语义检索系统为用户提供了最直接的结果呈现方式, 如检索的目标概念(实体)、关系、事实、回答等信息。GoPubMed[5]在文献结果列表中只显示文摘中与检索目标相关的句子, 反映检索词的事实, 而不是全部摘要信息。Quertle[8]同样显示文摘中相关的事实信息,并对检索目标进行高亮显示。FACTA++[12]将与查询目标相关的概念通过不同分类列表的方式显示, 并可以按照相关的频次排序。CoPub[9]返回查询术语的详细信息、共现术语的分类和文摘数量。EvidenceFinder[13]在文献检索列表中直接给出查询问题的答案并高亮显示。
(2) 概念/实体层级结构分类与导航GoPubMed[5]通过本体的层级结构对查询结果进行聚集, 实现了大规模结果的快速导航, 用户可以快速获取相关的生物医学概念, 同时可以在检索中发现新的检索目标或过滤检索条件, 使得检索更有深度和广度。NextBio[6]将从摘要和正文中抽取的生物医学术语, 以Tag云的方式显示, 并提供这些术语的分类, 可以利用它们进一步过滤和优化查询结果。Kleio[7]将检索结果根据文献标注命名实体的语义分类进行组织,并列出最高关联频率的概念, 方便用户浏览和过滤检索结果。ClinicalKey 允许用户根据有临床意义的子分类筛选检索结果, 比如内容类型、专科、疾病名称、身体部位等[20].
(3) 文本挖掘结果显示与相关知识导航在结果页面或文献详细页面对语义标注结果进行呈现, 并提供相关知识的简介、链接与导航, 例如GoPubMed[5]在标注概念下方用虚线标记, 点击后可实现对标注概念的重新检索和二次检索, 以及直接给出标注概念的详细信息、W kipedia 链接。EvidenceFinder系统[13]在文献详细页面将识别的生物实体统计情况以图形化的方式显示, 并根据不同的类型分别列出, 点击标注实体可以直接链接到 UniProtKB的相关检索界面,查看相关信息。ClinicalKey平台在检索结果页面提供文献摘要的预览窗口, 同时对语义标注的结果进行展示,并且提供 2 000 多个疾病主题页, 可以快速访问疾病的流行病学、风险因素、临床表现、治疗等方面的信息, 以及与特定专科相关的答案和药物链接[20].
(4) 基于概念/实体的文献统计分析。通过对文献的文本挖掘, 语义检索系统可以实现基于概念/实体而不是关键词等元数据信息的文献统计分析功能。例如, 在 GoPubMed[5]平台上点击左侧导航的概念或文本标注概念都可以看到该概念相关文献的时间轴, 不仅可以展示相关文献的演化过程, 也可以预测其发展趋势。
5 结 语
专利检索与服务系统 篇3
关键词 高校图书馆 信息检索 服务功能
中图分类号:TP393.03 文献标识码:A
0 引言
图书馆的主要服务对象是读者,为读者提供高质量的信息服务是图书馆服务的目的之一。在当今信息爆炸的时代,信息在形式上、数量上都大幅增加,传统的图书馆服务模式,受到了强烈的冲击和挑战。去电子图书馆已成为人们的共识。随着计算机和通信等现代技术的发展,在电子设备的协助下,可最大限度地满足读者的信息需求。电子化的阅读与信息检索,已成为现代图书馆的新服务模式。由于任何一间图书馆,即使其电子程度再高,其文献信息量相对于整个社会的信息需求量而言也是非常有限的,不能满足所有读者的信息需求。因此,图书馆计算机检索服务是基于计算机网络,而为读者提供的搜索服务。大学图书馆是高等教育和科研的重要支柱,因此,在高校图书馆开展计算机检索信息服务,对高校的建设和发展有着十分重要的意义。
1 当前高校图书馆发挥信息检索服务的主要问题
当前大学图书馆信息检索服务功能所面临的问题众多,如图书资源利用效率问题,信息检索服务功能的利用效率有限。高校图书馆资源的开发和利用只停留在满足学校老师和学生获取信息,写学术文章、阅读等方面,在市场经济中还没有完全发挥作用。集中表现的问题有:
1.1 宣传工作力度不够
虽然在近几年大学图书馆有较大的信息优势,图书馆的信息较大。但是宣传的力度不够,影响力小,人们对于高校图书馆数据库的认知度还比较低。高校图书馆工作者大多只是定位于踏踏实实做好本职工作,缺乏宣传图书馆工作的意识,对自己的工作成果宣传较少,,从而影响了人们对高校图书馆的社会认知度。
1.2 馆藏资源相对匮乏
对于教师和学生,公共服务必须有丰富的资源作为后盾,图书馆的馆藏资源是影响信息检索服务功能的重要因素。虽然高校的图书馆资源相对丰富,但面对现代信息爆炸的社会环境而言,馆藏资源显得相对匮乏。
1.3 服务水平不高
目前,大多数图书馆的服务质量仍存在一些问题,主要表现为:一是服务形式单一。对于许多图书馆,对读者被动服务仍是主要形式,很少有高校结合图书馆中心的特点为读者提供周到、积极的服务,图书馆资料的查阅便捷、提高预订咨询效率等工作大多还没有真正有效的付诸实践。二是利用效率不高。由于宣传力度不够,大多采用手工检索控制,服务设施落后,一系列的问题导致图书馆利用效率不高。三是采编工作缺乏成效。大多数高校图书馆藏书工作为完成指定的任务而采用突击编辑的方式,会导致图书数据质量不高,实用性不强,从而导致图书馆资源利用效率低等问题。
2 高校图书馆发挥信息检索服务提高的主要方法
选择一个或多个检索系统,只是为联机检索提供了必要的基础。为使读者能够在网上搜索到图书馆的信息,应发挥咨询服务的作用,也应充分显示员工的素质和技能,制订高品质的检索策略和计划,以达到最佳的检索结果。
2.1 加强宣传工作力度
2.1.1 组织宣传活动
通过举办图书馆信息服务、宣传窗口、印刷图片、答题簿等方式丰富信息资源,促进与教师、学生等读者的互动。
2.1.2 利用网络等手段提高图书资料利用率
图书馆要充分开发网上资源,如利用图书馆网页开办电子资源库、网上图书馆、网上音频和视频等资源。通过网页发布新书通知和图书信息,以提高图书的利用率。
2.1.3 创办刊物,扩大影响
图书馆工作人员的根据实际的工作经验将工作感受、理论研究论文等文章整理成出版物出版,还可以设置新书籍目录,对收集的资料进行展示,开展书评活动、新书推荐等活动,扩大图书馆的影响,发挥图书馆的信息检索服务功能,服务于读者。
2.2 选好检索系统,丰富信息资源
目前,国内和国际联机检索系统比较普便,种类繁多,让人无所适从。对于高校图书馆,应根据发展需要,以满足高校读者为主要目标,合理地选择一个或多个检索系统,以确保正常的图书馆信息服务。为确保信息资源既实用、丰富,从以下的角度来选择检索系统:一是系统要注重高校的专业特点和广度。二是系统所含信息要具备新颖性和完整性。三是要注重检索系统的性能。使用人机界面友好、操作方便的检索系统。
2.3 加强人员素质,提高服务水平
作为计算机联机检索人员,应具备敏锐的信息意识,责任心强,具备优秀的服务能力。我们应该掌握文献检索的原理和技术,提高外语阅读和翻译能力,熟练使用计算机,可以处理一些简单的软件和硬件故障。对于信息检索人员,可通过不同形式的学习,以提高自身素质,注重巩固和加强检索实践。此外,图书馆也应该可以根据检索人员不同的专业,合理搭配工作人员,实现团队工作人员的互补,以提高整体团队的工作能力。
图书馆工作人员在接受检索请求时,应认真听取读者的需求,不明白的地方要了解清楚,直到完全理解搜索的主题意义,理解要检索内容的核心所在。然后根据这一主题,在与读者充分沟通的基础上开展信息检索工作。
3 结语
总之,在高校图书馆开展计算机在线搜索服务,有着广阔的前景,也是非常有意义的。高校图书馆应重视这项工作,使图书馆在计算机联机检索服务中发挥更大作用,收到更大的效益。
参考文献
[1] 郑重.信息时代高校名牌专业重点学科文献资源建设[J].情报杂志,2004,23(10): 108-109.
专利检索与服务系统 篇4
该系统在实现上有许多好的解决方案。但综合考虑, 我认为采用Struts+Spring+Hibernate (SSH) 架构开发专利检索与服务系统是一个最好的解决方案。Struts中标签具有灵活的特性;Spring可以动态配置Java Bean, 配置比较灵活;Hibernate可以实现数据的持久化;这些方案技术的优点在一定程度上使得项目开发变得较为简单。系统中应用Struts技术架构表示层, 利用Spring技术架构业务层, 利用Hibernate技术来架构持久层, 持久层是处于业务层、数据存储层之间, 用于操作业务层对象在数据存储层的读写工作。在系统中采用B/S体系结构利用中间件将应用分为表示层、业务逻辑层和数据存储层三个不同的处理层次。正是基于三层B/S体系结构, 针对每层的特点结合目前流行的开源框架, 系统选择了Struts+Spring+Hibernate架构实现三层结构功能。
专利检索与服务系统运行可实现对中国、欧洲、美国等官方公开专利的下载, 企业可在内部局域网内建立相关技术领域专题数据库, 企业内部员工可在局域网内进行专利检索服务。对从网上下载采集到的数据, 可按企业自己产品、技术进行分类、标引。系统使用较为方便, 便于组织的智慧积累。整理、分类后的专利还可通过系统在局域网或互联网进行发布, 提供检索服务, 便于组织的科技知识共享。系统方案成本相对较低, 数据可实时更新, 在局域网内部检索速度较快, 安全性能较高, 并可定制个性化的服务, 使企业方便构筑行业数据库, 系统构架图如图1所示。
整个系统分为用户接口模块、检索模块和数据采集、处理模块三大模块。其中用户接口模块是为用户提供使用搜索引擎的接口。主要功能是输入用户查询、显示查询结果、提供用户相关性反馈机制, 以方便用户使用搜索引擎, 从而高效、多样地获取有用信息。检索服务模块负责接收、解释用户的搜索请求, 根据用户的查询在索引库中快速检出文档, 计算网页与搜索请求的关联度, 对将要输出的结果进行排序, 实现用户相关性反馈机制。数据采集、处理模块中的信息采集层负责自动地 (也可以由人工干预) 从网上根据需要抓取合格网页保存到本地。
系统架构采用SSH组合框架实现, 其整体架构实现方式如图2所示。
客户端通过浏览器提交专利检索请求, 在应用逻辑层, 系统通过专利检索服务从两个层次 (关系数据库层次和全文数据库层次) 进行数据检索, 并调用搜索结果进行部分处理, 并把处理后的结果展现给用户。其中的应用逻辑层主要用于处理业务逻辑, 包括:专利申请业务、检索业务以及数据采集后的处理服务等。数据采集服务以独立服务的形式运行, 基于网络爬虫的原理, 根据用户的面向主题的配置, 持续地从网络上获取最新的专利信息。
根据专利检索与服务实际应用, 我们将系统分为专利利用、竞争对手专利分析、专利信息采集、专利检索、专利的受理、系统管理6个功能模块。其中每个模块的功能如下:
(1) 专利利用为用户提供一个技术交流平台, 用户可在线提问、回答有关专利方面问题。
(2) 竞争对手分析模块用于分析某个竞争对手的专利申请情况, 包括研发重点分析、技术发展状况判断和高产专利申请人分析。
(3) 专利信息采集模块功能还在建设完善中, 目前模块主要实现关键词管理、黑名单管理和新采集专利管理三个功能。关键词管理主要为管理员提供管理采集关键词的功能, 可以执行添加、删除和修改的操作。黑名单管理功能主要对被加入黑名单的专利进行处理, 包括:入库、删除、快速检索等。
(4) 专利检索是根据用户提出的查询条件, 从TRS全文数据库和专利关系型数据库中检索出需要的信息。该模块提供简单检索、复杂检索和表达式检索三种检索方式, 默认方式为复杂检索。
(5) 专利受理模块是提供用户专利申请、专利资料上传、专利申请状态查询功能以及专利申请涉及到的相关信息的查询 (包括专利申请类型、专利费用等) 。根据其功能又可以分为专利申请指南、专利资料上传、专利申请状态查询、用户专利管理和专利状态维护五个子功能模块。
(6) 系统管理模块主要用于对系统信息及专利信息采集的管理, 分为用户管理、采集管理、专利申请管理以及竞争对手管理四大主要功能。
通过使用SSH架构实现的专利检索系统使得项目开发变得较为简单, 同时配置更加灵活。在该系统中加入了对专利对手进行分析研究的功能模块, 使得广大科技工作者更加方便快捷的查找专利信息, 弥补了目前专利检索系统的不足, 可以很好地为专利检索者提供服务。
参考文献
[1]孙卫琴.精通Hibernate:Java对象持久化技术详解[M].北京:电子工业出版社, 2006.
[2]刘鑫.论Struts+Hibernate+Spring的架构分析[J].济南:科技信息, 2010 (32) .
[3]三扬科技.Structs+Spring+Hibernate开发[M].北京:电子工业出版社, 2009.
专利检索与服务系统 篇5
Systems(ICWNIS 2013)—— Indexed by SCI
2013年第二届无线网络与信息系统国际学术会议(SCI 检索)
Taipei, Taiwan-January 15~16, 2013台湾·台北,2013年1月15-16日
会议网址:http:///index.htm
2013 2nd International Conference on Wireless Networks and Information Systems(ICWNIS 2013)will be held on January 15-16, 2013, Taipei, Taiwan.All accepted papers will be published by Advances Science Letters(ISSN: 1936-6612)– American Scientific Publishers Which will be indexed by SCI.You are invited to submit papers in all areas of wireless communications, networks, mobile computing and applications and information systems.为了提高学术交流的质量,所有投稿论文必须经过严格评审。录用后,论文(约150篇)将全部发表在SCI期刊,指标有限,征完即止。出版时间为组委会提交至期刊社5-6个月左右(具体时间由出版社决定),送检由期刊社负责。
本次大会仅接收该领域最新成果,拒绝低水平重复、无创新、已发表、一稿多投的论文,中文已发表论文需要扩充30%以上的研究内容。一经发现作者学术不端行为,大会将其列入黑名单,并将视情况通知其所在单位和相关出版机构。
The submission system is open, welcome submitting to:
投稿系统已开放,欢迎投稿:
More requirements of the submission paper can be known from:
Important Dates:
Paper submission due(投稿截止):May 10 , 2012
Registration due(注册截止):June 10 , 2012
Contact:
Email:
专利检索与服务系统 篇6
【关键词】信息检索系统;推荐系统;网络营销;网上销售
眼下越来越多的商家为了节约营销成本和库存成本,利用相关的信息技术选择在上进行销售,顾客也能得到更广泛的商品选择。传统意义上的店铺由于店面空间有限,不能与网络店面的商品数量相比。如一家实体书店与当当网比较,大型书店一年的营业额约在1200万元,除去租金、税收、水电、人力等成本,最后可能还会有亏损。根据一组数据调查显示:2009年当当网新增用户超过1000万,每日处理订单超过10万单,每日快递商品数达30~40万件,占到了整个图书市场份额的10%左右。另外,网络提供的在线阅读及免费下载等方式,也进一步分流了实体书店的顾客,这种发展趋势不仅对数字化产品有着重要的意义,而且对有形产品也同样适用。
如何借助于检索和推荐系统,让顾客在众多的商品品种中,准确地找到自己所需要的商品是网络营销亟需解决的问题。因此,对于网络营销来说,检索和推荐系统是非常重要的。所谓检索系统是顾客按照目标商品的关键词搜索商品,而推荐系统就是根据个人喜好,依据相关数据计算后向顾客推荐商品。网上店铺可以选择搜索系统,依靠搜索成本较低的优势增加销售,增长利润;也可以用推荐系统,在热销产品被顾客抢购的同时,带动利基产品的销售,边际收益较低的产品销量增加,同样也是利润的增加。本文就信息检索系统和个性化推荐系统对网上销售带来的影响进行了讨论。
一、检索系统及推荐系统的概述
1.检索系统概述。检索系统在为顾客获得需求信息带来方便的同时也能降低商品的搜索成本,热门的商品总是能被轻易搜到并且得到很多选择对象,各种排行榜和推荐系统也大大降低了热门商品的搜索成本,但相比起来,利基产品的降幅更加明显。在饱和市场中顾客和利基商品的获利,大于不饱和市场中,各种商品及商品的供需双方利用检索系统获得的利益。所以,商品所在市场的状态不同,由搜索成本的降低所带来的盈利程度也不同,商品提供商在从事网上销售时,要对商品特征、商品市场状态以及商品品种的规模等进行认真分析,正确利用相应的信息检索技术,在满足消费者需求和降低顾客搜索成本的同时来获利。
2.推荐系统概述。推荐系统就是根据顾客个人的喜好、历史浏览商品的习惯向其推荐商品的程序。顾客习惯于借助搜索引擎来寻找目标商品,情况大多分为两种:一是顾客用了一大堆的关键字词来搜索自己的需要,结果由于搜索系统的过分排除,仅提供极少符合的商品或无任何检索结果;二是顾客用很少的关键字来描述自己的需要,结果不得不在罗列出来的范围很广的一长串列表中逐个查找。所以,需要构建一个推荐系统能揣摩顾客的心意,记录顾客所喜欢的,然后自动为顾客筛选出与喜欢目标相匹配的商品,过滤掉那些顾客无意向选择的商品。推荐系统的目的就是分析顾客的消费偏好,进而在帮助顾客选择商品的同时提高顾客购买过程的满意度。因此,如何做到在庞大的商品目录中针对性地推荐商品,选择性地排出顾客需要的商品是推荐系统的关键。
二、系统对网络销售的影响
在当今市场环境下,传统的销售模式极大地限制了销售行业的整体发展,销售模式的网络化发展必将会对传统销售行业的销售渠道产生重大影响。眼下各类电子商务网站与用户数目不断增加,通过各类电子商务网站销售的商品种类,只有想不到的,没有卖不了的,并且每日浏览这些电子商务网站的用户所投入的时间也逐渐增多。各类电子商务网站通过分享、转载、邀请、邮件等形式的广告手段,也使得浏览群逐渐扩大。如何将更多的潜在用户从浏览者变为购买者,并确保自己可以提供足够多种类的商品促使他们留下来,让用户面对众多选择的同时准确挑选出自己所需,成为电子商务网站在进行客户关系管理中遇到的挑战,也是在适应新的竞争环境中成败的关键。
传统的销售模式中,顾客为了获得商品较全面的信息,会花费较多的时间和精力在不同的商店中进行比较。而网络销售的最大优势在于可以异地经济地获得海量信息进行商品选择,从而节约了时间成本。假设一个北京游客到桂林旅游,想要购买桂林特产送给亲友,可直接在网上交付成功后由实体店直接下单给当地物流公司,既省去了游客挑选商品时间,也无需自行带给亲友,节约了精力。网上销售具有传播范围广、无时间地域限制、速度快、双向交流等优势,商家还可以提供更多的商品品种,既满足了不同的购买需求,减少了库存成本,也大大减少了购买者的搜索成本。
一般的搜索系统,就是顾客输入一个或若干个关键字,然后计算出与关键字具有高相似度的其它关键字,再根据相关度由大到小的顺序罗列出商品供顾客选择。如果某个顾客多次购买一种商品,那么他可能会对这个商品的同类商品持续关注。这种从商品内在特点来推荐目标的方法包含很广,这个特点可以是商品本身的名称,也可以是它的属性,如类别、出厂厂家、适合赠送的年龄段等信息。检索系统不能随意性太大,需要略去一些辅助性的词汇,提取出关键字,然后根据各关键字出现的频率来查找相关程度,因为名字的相关性很难保证其内容的相关性。为了使用户搜索的结果更准确,检索系统还可以与搜索提示、搜索推荐等附加功能相结合。
三、推荐系统对网络销售的影响
有时顾客很难借助于搜索引擎用几个简短的关键字来描述自己的需要,结果不得不在罗列出来的范围很广的一长串列表中逐个查找或者得不到任何搜索结果。利用推荐系统分析顾客的消费偏好,然后借助于畅销排行榜、口碑和广告等营销手段向每个顾客具有针对性地推荐产品,不仅帮助顾客从庞大的商品目录中挑选出自己所需,也提高了顾客对商务活动的满意度,换来对商务网站的进一步支持。一般说来,推荐系统在电子商务活动中的作用可以归纳为以下几点:
1.帮助顾客检索有用信息。对于只是四处看看,购物目标不明确或者没有购买欲的顾客,是很难有耐心在众多商品中逐项查找有没有感兴趣的商品。而推荐系统通过针对性的推荐,更大可能性地可以将一个浏览者变为购买者。
2.促进销售。当顾客结账时,根据购物车中已有的商品进行同类型商品推荐,可以促进交叉销售和向上销售,也可能提供给消费者正追求的更好的商品。还可采用的促销方式有:捆绑销售、限时折价、包邮等。
3.个性化的服务。个性化服务是根据顾客的兴趣、习惯、购买历史,或者顾客之间的关联性等动态化地为顾客定制个性化推荐,向顾客推荐商品。
4.提高客户忠诚度。顾客觉得自己的消费倾向越多地被了解,使用推荐系统也就越频繁。适合顾客需要的推荐系统才能将更多的顾客吸引到自己的网站。另一个必不可少的就是在线客服,在线客服除了能帮助顾客解疑商品上的问题外,还包括售后问题,物流问题及其它帮助。保持与顾客之间的随时沟通,并且让顾客对所选商品有着详细的了解是网络销售成功的关键。
四、结论
推荐结果要有准确性,总是向顾客推荐其不感兴趣的商品只会导致顾客觉得无趣而转向其他网站,并且推荐范围应尽可能大地覆盖顾客实际的兴趣范围。最简单的一种方法就是根据统计数据,如销量排行、收藏数量等,以店主推荐的排名形式时常更新,或定期推出专题,汇集一系列围绕某主题的商品放在网页的醒目位置。尽可能让顾客关注那些销售形势非常好的商品对于新来的访问者相当有效。既能体现有不少顾客在本网站购买商品并持续关注,又能给新顾客一个参考方向。
另外,购买者在购买商品后对商品的正面评价,也能增强其他对此商品有购买欲的顾客的购买信心。在饱和市场中,如果所销售的商品是垄断产品,消费者由于财力、时间或需求等限制,就会转向替代商品。所以,信息查询系统不方便不会带来消费增长,而是更多的替代商品销量增加。在未饱和的市场中,顾客可以将检索和推荐系统相结合,更容易发现自己所需,进而出现替代效应;另一方面由于搜索成本的降低,顾客可以找到更多的购买目标从而导致消费的增加。另外,方便、智能的查询和推荐系统,会使那些“冷门”商品容易被发现。
除了前面提到的“人工式推荐系统”,还有一种比较复杂的“自助式推荐系统”。如果具备一定的技术和资金支持,可考虑设计一种针对每一顾客的个性化推荐系统。充分地考虑每位顾客的兴趣爱好,或者在顾客的购买历史或搜索信息中动态地产生推荐结果。而顾客在搜索的同时,自助式推荐系统又能毫不冲突地推荐更多类似商品,甚至有所扩展,系统能综合多种推荐方法,互补长短。另外,协作筛选也是一种不错的方法。兴趣相近的顾客可能会对同样的东西感兴趣。所以,分析出具有相同喜好和相同浏览历史的顾客,就可根据相似顾客的意见来向其进行推荐。只需将"浏览了该商品的顾客还浏览过以下商品"的版块放置在顾客正在浏览的商品页面的最下方即可。另一种可能的出发点是,可以根据顾客对各种商品的评价来判断商品之间的相似程度,然后推荐与顾客兴趣最接近的那些商品。例如在主页面添加"您最近浏览过的商品“以及”您还可能喜欢同类型的商品"两个版块,进行顾客喜好的深度挖掘。
参 考 文 献
[1] 周惠虹,柳益君,张尉青,谢俊元.推荐技术在电子商务中的运用综述[J].计算机应用研究,2004(1):8-12.
[2] 岳讯.基于矩阵聚类的电子商务网站个性化推荐系统[J].小型微型计算机系统,2003(11):1922~1926
图书馆信息检索与引导服务系统 篇7
关键词:分布式系统,信息检索,引导服务
现代信息技术和网络环境下, 图书馆如何综合利用各种人力、物力和财力, 实现最大的优化, 为高等教育可持续发展服务, 是图书馆需要着力研究的问题。随着数字资源的快速增长, 读者对“人、机和书”一体的需求日益增长, 而目前各高校所采用的图书馆系统, 在开发过程中, 仍然没有突破以图书为核心的理念。如何引进“资源、管理和服务”三位一体的图书馆系统设计理念, 实现图书馆管理以用户为中心和服务的全面信息化, 将图书馆关注和管理的重点从单一的图书转移到资源、服务和管理三大要素, 开发出一套资源信息化、服务人性化和管理高效化的系统是现阶段高校图书馆系统建设的一个重要方面。
一、需求分析
高校图书馆是学校教学科研的重要硬件设施, 也是教学与科研的支柱之一。目前, 很多高校都只有图书馆的借还书处的检索机可以进行图书检索, 经常出现使用检索机排队的现象。检索到书目以后也只能通过比对索书号范围, 一个个的查找书架, 直到找到所需要的书, 这大大的降低了图书馆借书的效率。另外, 图书馆中一般都配备有自习室和阅览室。用户一般倾向于去人少一些的自习室或阅览室, 而怎么找到最理想的自习室或阅览室, 则需要用户使用穷举法一间间的排除查找。普通的大学图书馆用户, 不一定同时熟悉所有大学校园内图书馆主馆和各分馆的房间布局, 当用户来到一个不熟悉的图书馆, 想要迅速的找到理想的自习室或阅览室需要花费较长的时间。另一方面, 不加认证的图书信息查询不利于以学校为主的信息查询服务, 并且不能统计图书馆查询情况以及各类书籍受欢迎程度等图书管理数据信息。
二、系统的构想
针对这样的现状, 可以提出如下的构想:将具有认证检索功能的37台客户机按需求量大小分配到图书馆各馆舍的每层中, 为教师学生提供图书检索服务, 并且在查询前通过校园卡进行身份认证, 来确保高校学生教师优先使用权, 记录图书馆查询情况。然后在主图书馆添加1台集中式管理服务器, 将这38台机器通过与网络中心连接起来。这样的构想呈现出来的是两种模式的结合, 分别是一体机/服务器的C/S模式和浏览器/服务器的B/S模式。其中, 前台用户服务子系统设计为:前台用户服务子系统部署在图书馆各分馆内HPTouch Smart 300PC一体机上, 图书馆读者能够进行图书服务指引 (如服务查询、信息查询等) 。后台系统管理子系统设计为:后台管理子系统也部署在图书馆各分馆内HPTouch Smart 300PC一体机上, 主要实现内存图书信息修改、删除、添加等功能。
在一体机/服务器构成的C/S模式中, 各一体机本地保存用户的刷卡认证信息和查询图书位置的图片信息, 体现了分布式的特点, 在客户机本地保存认证信息能使用户验证系统响应时间更短。通过认证后, 进入借还书功能模块可以通过检索书名和ISBN号, 可以查询到书目的馆藏位置图片, 图片中显著标明书目具体的位置。图书馆的藏书量非常大, 书目位置图片只能保存在分布式一体机数据库中才能保证查询书目馆藏位置功能的响应速度。另外, 自习室和阅览室人数查询功能, 也是在C/S模式中实现。由于自习室和阅览室人员流动较大, 时效性强。所以这一功能也只能做在客户机本地。但是, 本地客户机数量仍然有限, 无法同时满足全校师生查询书目和了解图书馆的要求, 这就需要引入B/S模式。
浏览器/服务器也就是BSS模式中, 图书馆用户可以通过校园网访问信息检索系统。例如, 在校内办公区、学生寝室、或在校区外用VPN连上校园网后, 通过学号工号及密码认证后可分权限访问。登录成功以后, 当用户进入B/S模式中的借还书模块, 可以通过书名和IS-BN号码查询到书目的详细信息。另外, 还可以查询到用户借还书情况和各楼层平面布局图等。
另外, C/S模式中的图书馆服务引导系统是指以仿照平板电脑应用的方式, 全触摸式操作查询平面布局、藏书位置、阅览座位布局和自习座位等位置信息, 个人借阅信息、各阅览室当前在室人数、自习座位实时空余数等数据信息的图形化显示。进一步整合现有的软、硬件资源, 可提高图书馆信息系统的利用率, 为广大师生员工提供方便、快捷的图书馆服务指引。图书服务指引主要包括对图书馆各楼层平面布局、藏书位置、阅览座位布局、自习座位平面图、个人借阅信息、各阅览室当前在室人数和自习座位实时空余数等数据信息的图形化显示。在系统中以树状结构化方式罗列图书馆各项服务以及功能区域的概要介绍, 并与平面布局图关联。
三、系统的作用
第一, 分布式的图书馆检索和引导服务系统, 通过高校网络中心机房并借助校园网的网络环境和高性能计算机实现对信息资源的高效使用。第二, 一般原有的图书检索系统不能远程检索及查平面图和大致藏书位置, 用户找书过程耗时间较长。本系统采用C/S架构和分布式数据库, 在本地图书馆部署一体机, 引导服务系统在读者输入需要找书的书名或ISBN号, 系统就会显示出那一类书和书的位置平面图位置显示。如果再点选显示书目位置就会在平面图中显示那一本书的具体位置, 这样读者能最快速度去书库找到要借阅的书。第三, 引导服务系统还有其他的引导服务功能, 如:阅览、自习、查新和咨询等, 如果选择的是去图书馆自习, 就能利用系统查询每个自习室的位置、己有人数及空位数等实时信息, 使读者不用一间间的去找空自习室和阅览室, 而是可以按照引导服务系统里的提示有针对性的享受服务。第四, 图书检索系统和引导服务系统完全集成, 把两个独立的系统整合成了一个稳定的系统, 在图书馆一体机上, 采用校园卡读卡和软键盘输入学工号和密码两种认证方式, 界面上仿造平板电脑应用的设计, 实行全触摸进行翻屏、缩放屏幕、选择和确定等操作, 更加方便和快捷。第五, 系统将改进原有的图书馆工作和服务方式, 可以更好的履行高校图书馆在提倡全民读书服务中的作用, 能最大限度的突破时空限制, 营造全民读书的良好环境, 使广大师生更愿意读书, 对于学生素质教育将起到良好的提升作用。
总之, 对于高等院校来说, 高校图书馆信息化建设和完善有助于提升教学质量, 丰富教学形式, 提高师资力量。目前, 建设主要包含两点:一是图书馆自主资源的数字化, 二是检索和引导服务系统的优化, 如何帮助用户科学的、高效的发现信息, 是数字化图书馆在新时期将面临的挑战。
参考文献
[1]魏群义, 彭晓东.浅谈图书馆管理系统的发展趋势.大学图书馆学报, 2011.
[2]张兴, 吕亚娟.近五年来我国数字图书馆发展研究述评.图书馆学研究, 2010.
专利检索与服务系统 篇8
一、企业专利信息利用现状
国内企业利用专利信息的状况令人担忧, 大部分企业对企业专利信息利用的认知十分缺乏, 更不用说要善用专利信息作为商业竞争中的筹码。我国绝大多数的小型企业没有专人负责专利信息工作, 或者就根本没有搜集、利用专利信息。例如河北省专利管理局在1997年6月~1998年8月对河北省2 000家企业进行了调查, 结果显示有专利活动的企业有1 200家, 而使用专利文献的企业仅有80家, 占调查企业的4%。
我国大量的研发活动中由于不重视专利信息的检索和研究而进行重复劳动, 每年造成了巨大损失。国家知识产权局原主任刘延淮说:“由于忽视专利信息查询, 给我国企业带来了上百亿元的损失。”资料显示, 国家专利局复审委员会平均每年受理约4 000件专利案, 其中二千多件会被宣布无效。也就是说, 中国专利局签发的专利中, 可能有一半会被漏检的外国专利、各国期刊论文以及其他事实和规划推翻。“七五”期间, 我国700个大中型企业的9 760个科研项目, 约2/3是重复研究。国家知识产权局局长田力普说:“花巨资开发产品, 在产品鉴定会前进行专利文献检索时, 才发现国外在几年前甚至几十年前就已经有了相同专利产品的事例屡见不鲜。”其主要原因就是没有利用专利信息进行课题查新。
另外, 国内企业由于不会利用专利信息造成侵权的案例比比皆是。例如2009年105届广交会一期认定涉嫌侵权企业64家, 其中专利32家。涉嫌侵权的展品主要有榨汁机、电热水壶等。投诉主要来自日、法、英、德等国, 投诉的产品主要为家用电器、电子消费产品、照明产品等。这些企业出现侵权的原因是不知道专利的法律状态。例如, 国内企业生产的榨油机, 由于其专利只在外国申请, 未在中国申请, 我国可以无偿使用, 一旦在广交会上出口, 就会遭到外国有关专利权人的起诉。广交会规定:对严重侵权企业取消从下届开始连续6界甚至终身广交会的参展资格。
企业是专利工作的主体, 也是市场经济的主角, 掌握专利信息、分析竞争情报, 是企业生死攸关的头等大事。建设企业专利信息系统, 是专利信息应用与推广的主要手段之一。
二、企业专利信息系统建设的原则
企业专利信息系统一般包括两大基础数据和应用系统。目前的应用系统多是基于WEB网页, 即可通过WEB网页直接进入企业专利信息系统。信息系统所包含的数据一般存储在本地服务器或者网络服务器中。
1. 数据要专而精。
目前, 全球的专利信息数据量在7 000万条以上, 对任何企业而言, 要对所有的专利数据进行跟踪和分析, 都是不可能的, 而且也毫无必要。企业的规模可能有大小, 企业的产品可能有多有少, 但都有自己的主打产品和拳头业务, 只要瞄准这些产品的主要对手和主要技术, 就能在激烈的国际竞争中立于不败之地。专利文献中所包含的技术范围非常广, 而且有自己独特的分类体系和分类方法, 所以, 企业专利信息系统所提取出来的专利数据, 切忌求大求全, 应尽量做到专和精, 最好能根据自身的特点和要求, 进行重新加工和深度标引, 现在有些企业已将知识产权信息纳入到企业内部整体信息平台的建设, 从而构筑统一的管理和创新平台, 就是很好的做法。
2. 系统方便易用。
企业专利信息系统的实质是一个信息工具, 是企业各类人员利用专利信息的平台和手段。由于专利信息本身的分类、编码具有自身的特殊性和专业性, 要熟练掌握专利信息的特征以及专利信息所包含的内容, 绝非一朝一夕能够完成的。就检索而言, 即使最专业的检索人员, 要使检索结果既准又全, 也绝非易事, 需要对所检索内容极其熟悉并且具有良好的专业检索技能, 同时需要投入大量的时间和精力才有可能实现。而企业专利信息系统的使用对象一般包括技术人员和管理人员。技术人员一般希望通过该信息平台了解到最新的本领域的专利信息以及技术路线, 借鉴他人的技术方案, 同时避免企业所研发和采用的技术侵权。管理人员则多是希望通过本平台了解本领域的专利申请状况、竞争对手的专利申请及授权状况、企业自身的专利申请和授权状况、本领域的技术发展趋势等较宏观的信息。企业专利信息系统的建立要充分考虑到两种使用者不同的关注点。根据不同使用者所具有的知识背景、应用习惯等设计该系统, 使系统方便易用, 做到好用、易学。
三、企业专利信息系统的功能
企业专利信息工作的重点是“准确跟踪, 创新维权”, 一个好的专利信息系统至少应该能够实现专利的检索与分析功能。
1. 检索功能。
企业专利信息系统的检索功能一般包括简单检索、表格检索、高级检索和二次检索, 这些检索功能与国家知识产权局公共专利信息平台的检索功能相同或近似。检索字段一般包括专利文献著录项等。经过代码化处理的专利文献可实现全文检索。高级检索一般能够实现字段检索、全文检索、逻辑运算、位置运算、截词运算、检索式运算。一般的信息系统还包括专利的法律状态检索, 部分专利信息系统包括同族专利检索, 这两种检索功能一般用专利号检索。有同族专利检索功能的多是需要对后台原始的专利数据进行加工。部分专利信息系统对原始的专利数据进行了标引和加工, 并对外文专利数据摘要或全文以及部分关键词进行了翻译, 可实现输入中文, 进行中英文检索的功能。
2. 分析功能。
企业专利信息系统的分析功能多为数量分析, 主要包括统计分析和趋势分析, 只有引证分析等功能是非数量分析, 更进一步的分析则要借助专业的专利信息人员和技术人员, 如专利地图分析、技术路线图分析等。主要的分析功能如图1所示。
3. 导航功能。
智能媒资检索系统设计与实现 篇9
现有的媒资管理系统采用关系数据库管理系统如Oracle、SQL Server、MySQL等对媒资文件进行存储管理,使用结构化查询语言(Structured Query Language,SQL)对媒资编目信息进行查找,实现对媒资文件的检索,主要存在以下3个瓶颈:1)编目信息需要人工标注,随着媒资数据的爆炸式增长,所耗费的时间成本和人力成本将难以负担;2)编目项难以涵盖媒资数据内容的所有维度,而且不具有通用性和扩展性,难以在不同应用系统之间实现信息共享及自身升级换代;3)不同标注人员对同一媒资数据的标注存在主观上的偏差,导致检索词与编目信息之间存在语义误差。其根本原因在于:1)多媒体数据的非结构化,视频文件的语义内容信息来源于视频字幕、视频关键帧、语音内容,难以用结构化的方法将其全部描述;2)大脑的认知误差,对于同一幅图像,不同人的关注点不同,标注的信息也不同;3)多媒体数据将呈指数级增长。
针对产生问题的根本原因,本文提出一种基于内容结构化分析的智能媒资检索系统。该系统的工作原理是首先采用视频内容分析、图像处理、语音识别、光学字符识别等多种信息处理手段将非结构化的文本、图像、音频、视频转化为结构化的特征数据[2];然后采用特征倒排表的方式生成媒资索引;最后采用特征模式匹配的方法进行检索和相似度排序。整个系统具备媒资上传下载、存储管理、多媒体数据检索输入、跨媒体检索、在线播放预览等功能[3]。
1 总体架构
针对媒资检索系统的应用需求,本文提出的智能媒资检索系统采用如图1所示的体系架构。
整个系统分为如下5个子系统:
1)上传下载子系统:实现所有媒体数据文件的上传和下载,并进行转码后形成标准的媒资数据。
2)存储管理子系统:实现对媒资数据文件的存储管理,包括媒资记录的增加、删除、修改、查找、在线预览等功能。
3)交互子系统:提供用户输入检索数据的人机交互接口,包括文本关键字和检索图片两种接口。
4)检索子系统:一方面对系统中存储的媒资数据进行自动分析和索引,另一方面根据交互子系统提供的检索输入数据对索引进行查找并按照相似度给出排序结果。
5)播控子系统:对于需要进行播出媒资数据文件进行控制和再利用,同时也可以将结果输送到其他系统。
这5个子系统之间的关系如图1所示,上传下载子系统是整个系统数据采集和输出端口;存储管理子系统对所有的媒资数据进行记录管理;交互子系统是用户检索的输入端口;检索子系统是整个系统的核心模块;播控子系统是整个系统的对外输出端口。
2 系统方案设计
本文的工作重心为检索子系统的算法设计与实现,具体包含:媒资内容分析、媒资内容索引、媒资内容检索匹配。
2.1 媒资内容分析
本系统主要针对广播电视中出现的新闻文本、音频、图片、视频等媒体类型进行分析。
1)文本内容分析
文本内容分析采用自然语言处理的方法[4],将全文本数据切分为一组有意义的字词的集合。如图2所示,具体处理过程包括如下3个步骤:
(1)建立词典:预先根据应用背景建立一个包含单字和单词的词典。
(2)中文分词:将全文本按照分解为单字和单词,本系统中采用开源软件算法库ICTCLAS进行中文分词。
(3)数据清洗:去除无意义的单字和单词,将剩余的集合作为该全文数据的特征,并得到每个单子和单词的出现频率,作为最终的文本特征量。
2)音频内容分析
音频内容主要指音频中的说话人语音内容,因此,音频内容分析的思路是将音频语音内容转化为文本信息,然后再采用文本内容分析的方法实现音频内容分析。如图3所示,具体处理过程包括如下3个步骤:
(1)语音内容提取:从音频文件中将含有语音内容的部分检测提取出来,本系统中采用静音点检测与场景切换检测融合判定的方法检测语音内容的起止时间。
(2)语音内容识别:使用语音识别技术将语音内容转换为文本,本系统中采用商用软件库PATTEK作为语音识别引擎。
(3)文本内容分析:通过文本内容分析得到音频中的文本特征量。
3)图像内容分析
图像数据比文本数据和音频数据包含更多更直观的信息,而且由于认知偏差,不同的人对于同样的图像数据会给出不同的内容描述。因此,除了要考虑高层语义内容(如物体、事件、地点等)外,还要考虑底层视觉特征(颜色、形状、纹理等),需要采用不同的方法分别进行分析[5]。图像内容分析设计图如图4所示,具体处理过程包括2个方面。
(1)高层语义内容分析
高层语义内容是指在图像中可以获取的人物、物体、地点、时间、事件等具有特定意义的信息。目前,较为成熟的是对人物和部分特定物体进行自动检测和识别。本系统中主要采用人脸检测识别技术实现对图像中人物的识别分析,得到图片中的人脸特征量。
(2)底层视觉特征分析
不同于高层语义特征,底层视觉特征是对图像中形状、颜色、纹理等基本图像元素的描述,是图像表达的最基本特征。尽管底层视觉特征没有给出图像内容的具体语义信息,但它是对图像的客观描述,避免了主观认知偏差。本系统中采用颜色直方图、梯度直方图(Histogram of Gradient,HOG)、尺度不变特征(Scale Invariant Feature Transform,SIFT)等得到底层视觉特征量。
4)视频内容分析
视频数据比文本数据、图像数据、音频数据的结构更为复杂,但视频数据又可以看作是由前三者构成的。例如,视频数据的每一帧可以看作是一幅图像、视频数据中的声道是音频数据、视频画面上出现的文字可以看作是文本数据。因此,只需要采用特定的方法将以上数据提取出来,然后采用文本内容分析、音频内容分析、图像内容分析的方法即可实现视频内容分析[6]。基于此思想,视频内容分析的关键是提取音频数据、文本数据、图像数据。视频内容分析设计图如图5所示,其具体过程如下。
(1)文本数据提取
视频数据中的文本数据主要是指在视频中出现的字幕。由于字幕的位置较为固定,可以直接分割出来,得到包含字幕的区域。之后采用光学字符识别(Optical Character Recognition,OCR)的方法提取字幕内容。
(2)音频数据提取
音频数据提取的关键在于音频数据的检测。本系统中采用静音点检测与场景切换检测融合判定的方法,确定出音频数据的起止时间,从而截取含有语音内容的音频数据。
(3)图像数据提取
理论上每一帧视频数据都是一幅图像,但是由于帧间冗余,只有少部分视频帧可以作为有用的图像数据,一般称之为关键内容帧,简称关键帧。对于关键帧的提取可以根据帧中的内容信息和帧间变化作为检测的依据。本系统中将包含有特定人物和物体及帧间变化较大的视频帧作为关键帧,提取出来的关键帧集合为该视频的图像数据。
得到文本数据、音频数据和图像数据之后,分别采用上文提到的文本内容分析、音频内容分析、图像内容分析的方法实现视频内容分析,得到视频内容的文本特征量、人脸特征量、底层视觉特征量。
2.2 媒资内容索引
媒资内容索引是对媒资内容分析后得到的文本特征量、人脸特征量、底层视觉特征量等建立索引,以便于检索。本系统直接采用目前最为成熟而且有效的倒排索引法对以上特征量进行索引,形成媒资特征量索引文件。以文本特征量倒排索引为例,整个索引包含两个部分:单词项记录词典中的每个单词,文件列表记录包含该单词的所有文件序号及其他信息。如图6所示,其中N为文本词典中的单词总数,mi(i从1到N)为包含“单词i”的文件总数。
2.3 媒资内容检索
媒资内容检索基于输入媒资检索数据,对媒资内容索引进行查找,并对所有查找结果进行相似度排序。媒资内容检索设计图如图7所示,包含如下3个过程。
1)输入媒资内容分析:对输入的文本或图片进行内容分析,得到文本特征量或人脸特征量、底层视觉特征量;
2)索引查找:对于3种特征量分别进行索引查找,找到包含3种特征量关键元素的所有文件;
3)匹配排序:将找到的文件的文本特征量或人脸特征量、底层视觉特征量分别与输入的3种特征量进行相似度匹配,并根据匹配结果进行排序。
3 系统实现及验证
3.1 基于B/S架构的系统实现
本系统采用浏览器/服务器(Browser/Server,B/S)系统架构,可同时支持多个客户端同时访问系统。如图8所示,整个系统由检索客户端、Web服务器、检索分析服务器集群、磁盘阵列、存储管理服务器、播出控制工作站、上传下载工作站等通过以太网连接组成。
整个系统实现遵循J2EE体系,采用Spring+Structs+Hibernate(SSH)框架进行开发,核心检索模块搭建在检索分析服务器集群上,所有算法封装成独立的软件包在服务器上独立运行,Web服务器通过任务调度的形式将任务分配给相应的算法软件包。
3.2 系统结果验证
采用如表1所示的测试环境对本系统的检索性能进行验证。得到以下结果:
1)文本检索可以达到很好的效果,查准率可以达到95%以上,与开源文本检索引擎Lucence的实验结果相吻合,完全能够满足应用需求。
2)音频检索效果稍逊于文本检索,但是能够满足应用需求。通过分析结果,原因在于音频转文本的性能有损失,即语音识别的精度。尽管语音识别引擎对标准中文的精度在90%以上,但在实际应用中,由于受背景噪声、专业领域词汇等的影响,精度会有所下降。
3)图像检索的效果差强人意,距离期望还有一定距离。对于人物的检索,侧面人脸大大降低了人脸检测精度,导致出现图像漏检;另外,简单的底层视觉特征还没有达到需要的效果。
4)视频内容检索的效果与前三者直接相关,基于关键字的视频内容检索效果与文本检索、音频检索相当;基于图像输入的视频内容检索效果与图像检索效果相当。
4 小结
本文介绍了一种基于数字媒体内容自动分析的智能媒资检索系统的原理设计和技术实现,并进行了试验验证。目前,该系统已被多家单位用于电子档案管理、多媒体情报管理,其功能和性能指标得到用户的认可。今后,为进一步提高系统的适用性和检索准确率,满足不同行业的应用需求,将从以下方面进行改进:
1)优化媒资内容分析关键技术
本文提出的媒资检索系统的核心是媒资内容分析,其中各项关键技术的性能直接影响整个系统的使用性能。目前,图像内容分析技术和视频内容分析技术都采用的是最基本的方法,还具有较大的提升空间,需要更加深入的优化和完善。
2)采用云计算体系架构
随着数据量的爆炸式增长,本系统采用的架构难以满足需求。目前,基于云计算的海量存储和计算技术已经相当成熟[7],可考虑在云计算体系架构下搭建本系统。
摘要:针对目前媒资管理系统依赖编目信息进行检索而出现的编目信息难以覆盖媒资数据的所有语义内容、由于人的理解不同而导致的编目信息不一致、媒资编目费力费时等问题,设计了不依赖编目信息的基于全文检索、语音识别、人脸识别、关键帧提取等的智能媒资检索系统,对媒资内容自动分析、媒资特征索引、媒资特征检索进行了阐述,并采用基于B/S的分布式架构进行了实现。结果证明,该方案设计具有较高的可靠性和稳定性,在媒资管理中得到了良好的应用。
关键词:媒资管理,智能检索,内容分析
参考文献
[1]吴迎春.媒体资产管理系统的应用解析[J].电视技术,2010,34(6):64-66.
[2]LEW M S.Multimedia information retrieval:best papers and expanding frontiers[J].International Journal of Multimedia Information Retrieval,2014,3(2):67-68.
[3]蒙诺,孟放.浅析媒体资产管理系统在广电系统的应用[J].电视技术,2012,36(14):66-68.
[4]MANNING C D.Foundations of statistical natural language processing[M].Cambrige,Massachusetts,USA:MIT Press,1999.
[5]SONKA M,HLAVAC V,BOYLE R.Image processing,analysis,and machine vision[M].Boston,Massachusetts,USA:Cengage Learning,2014.
[6]DIMITROVA N.ZHANG H J,SHAHRARAY B,et al.Applications of video-content analysis and retrieval[J].IEEE Multimedia,2002,9(3):42-55.
专利检索与服务系统 篇10
自然界存在着各种各样的声音, 对声音进行数字化处理得到的结果称为“音频”, 是一种重要的计算机多媒体信息。20Hz~20k Hz是正常的人耳能够感知合理频率范围。
音频信息中的一种重要类型为“语音”, 具有以下重要特征:
(1) 由高度抽象的概念交流组成的媒体形式, 主要由字、词、语法等语素组成。
(2) 语音信息的频率大约分布在300Hz~4000Hz之间, 主要组成部分为低频, 且频谱中心 (或亮度) 也处于低频段。
(3) 一般的语音信息中停顿点位于单词和句子之间, 且静音所占比例较高。
(4) 语音信息的特征结构为前部只要是由辅音引起的连续音节短摩擦周期, 后部是元音的较长间隔。在辅音引起的连续音节短摩擦周期内有较高的平均过零率 (ZCR) , 在ZCR上比音乐具有更高的可变性。
利用这些特征对语音信息进行特征提取, 是针对性的研究和探讨基于内容的语音信息检索技术的前提条件。
2 语音信息检索技术
利用语音处理技术检索感兴趣的音频信息成为语音检索。利用前人对语音信号数字化处理的研究成果, 进行改进和优化后可以应用于语音检索。建立语音索引进行检索的主要策略见图1和图2所示。
在建立语音索引进行检索的策略1中, 还应该包含语音中的发音者身份及其情绪等其它信息因素, 这样可以提高语音索引的建立及进行检索的效率和准确度;建立语音索引进行检索的策略2便于利用数字化的信息检索技术对语音信号进行处理, 这就是基于内容的音频检索技术的基本原理和方法。
以下主要具体探讨和总结几种目前比较成熟的语音信息检索技术和方法。
(1) 大词汇语音识别技术:利用自动语音识别 (ASR) 技术将语音转换为文本信息, 采用传统的文本检索方法进行检索。这种技术依赖于连续语音识别系统的识别率以及对语音信息的处理过程。在新闻广播等标准语音环境下可以达到90%以上的词语正确度, 但在实际应用由于存在说话人的差异和情绪等因素的干扰, 语音识别率较低。考虑到检索任务只是匹配包含在音频数据中的查询词句, 而不是追求一篇可读性好的完整文章, 所以ASR识别出来的脚本仍然对信息检索有用, 这种方法可作为语音检索的最初的模糊匹配, 为进一步的精确匹配奠定基础。Carnegie Mellon大学的Info media项目就是采用这种方法将电视电影中的声音转换为文本脚本, 经过数据分析整理后形成适合全文检索的形式和结构[1]。这种方法存在严重的缺陷是说话人地域及口音的差异会给识别带来困难, 目前只能通过对系统加大模式识别训练量及采用多级交叉识别的方法来保证一定的识别率。
(2) 基于子词单元检索技术:利用子词 (Subword) 索引单元处理不在系统的词库中的专业的词汇 (例如人名、地点) 。这种方法适合于处理各方面无限制主题的大范围语音资料, 可以提高识别率, 扩大范围进行进一步的识别搜索。在ETH Zurich的一个研究小组利用VCV (2个元音+2个辅音+2个元音子词单元) 的音节形式单元作为索引进行语音检索。例如, “information”这个词的VCV形式为“info”、“orma”和“atio”。进行检索查询时, 用户的查询条件首先进行分解形成子词单元, 然后将这些单元的特征与语音检索库中预先设定的特征进行匹配, 以完成检索任务。这种识别技术的仅针对英语语种, 存在一定的局限, 但可以作为设计其它语种进行的语音检索的一种思路和方法。
(3) 基于关键词发现的检索技术:关键词发现 (Keyword spotting) 指在无约束的语音中自动检测词或短语的一种技术[6]。该技术的原理和方法主要是在长段语音录音或音轨中识别或标记用户设定的兴趣事件或某些重要时间节点, 利用这些标记进行关键标记检索便可以获得用户所需结果。例如, 在足球比赛中通过检测比赛解说词中的“进球”词句并设定标记进行检索, 便可以得到相关进球内容的检索结果。该技术通常可以作为一种建立音频索引的基本方法和技术。由于该技术是利用预先确定的固定关键词句进行识别和索引的, 因此存在识别率低, 检索效率不高的问题, 为了提高检索效率, 可以将检索范围限定在某个特定领域。Cambridge大学的VMR组通过预先计算生成语音网格, 便可以在限定检索范围内实现无限制关键词发现, 从而提高了检索的效率[3]。
(4) 基于说话人辨认进行分割的检索技术:该技术仅根据说话人的语音差别进行说话人的身份识别, 而不对语音的内容进行识别。若在适当条件环境下可以达到较高的精确度, 因此目前较多应用于安保系统的语音识别身份确认领域。同时在语音信息处理领域, 运用该技术可以根据说话人的变化开展分割录音, 并建立说话人身份的录音索引, 从而可以再一段语音信息中将说话人进行分割, 为后继处理提供基础。目前常用该技术技术检测视频或多媒体资源的声音信息中的说话人变化情况及其身份, 从而建立相关的索引或依据需求确定某种类型的结构 (如对话) 。Xerox PARC就是利用该技术对会议录音进行分割并展开分析, 以说话人身份或声学类型 (如掌声、音乐等) 作为分割区段的依据。如果采用的用户界面是以时间线为坐标轴的形式展示分割区段, 则对长篇的会议资料进行快捷方便地直接浏览[4,5]。
3 自然语言的计算机信息处理技术
自然语言指主要受限于语法规则, 其它因素对其只有较少束缚, 属于非受控语言。若其的信息标引 (如词组等) 直接从原始信息中抽取, 则其信息标引的错误率较低、准确度高, 且具有较强的时效性。而且若使用自然语言检索则用户无需过多考虑检索规则就可以实现信息检索。但是自然语言也存在词义模糊、词间关系不清等因素造成漏检和误检, 从而导致检索效果不尽人意。解决的方法是在检索前建立系统内关键词词典、类进行预处理。
人工智能计算机是处理自然语言的基础, 主要的技术为自动分词技术、人名和机构名自动识别技术、自动标引技术等, 同时需结合自动文摘、文档自动分类、信息抽取、自动发现中文概念词以及概念词之间的语义关系的确定等复杂技术才能取得较好的处理效果。目前基于信息检索的自然语言处理技术仍只能针对简单语言的处理 (如确认词根和词组等) 。另外, 由于历史和政治等原因造成汉语计算机处理字符集和内码体系没有统一标准, 港澳台使用繁体而中国大陆和新加坡使用简体, 台湾主要为大五码 (big5) , 中国大陆为国标码 (GB) 等。这就使中文得自然语言处理技术必须解决编码自动转换与汉语自动切分两大难题。在这个领域比较成熟的是尤里卡中文智能搜索引擎[6], 其利用先进的自然语言理解技术, 成功突破了“表达差异”和“忠实表达”的难题, 实现了信息检索和导航服务的智能化, 用户只需输入口语化的查询请求, 便可以获得直接的、准确的和翔实的结果。
4 语音识别系统
简单的说, 自动语音识别 (ASR) 属于模式匹配范畴。一般ASR系统应该具有训练阶段和模式匹配阶段[7]。
(1) 训练阶段:ASR系统首先需采集大量的发音者的语音序列数据。具体步骤见图3所示。图中ASR系统提取的最小的语音单位为音素, 识别数据库包含音素模型集合、同义词词库和语法等要素。
(2) 模式匹配 (识别) 阶段:ASR系统对输入语音进行处理的方法与训练阶段相似, 通过对输入语音提取特征矢量, 在识别数据库中搜索与输入语音的特征矢量最匹配的特征矢量的单词序列, 从而通过模式匹配完成对输入语音的识别。
目前比较通用和流行的ASR模式匹配技术为:动态时间环绕技术、隐藏马可夫模型 (HMM) 和人工神经网 (ANN) 模型等。
其中应用较为广泛为基于HMM的技术。HMM技术的主要核心思想为:首先将每个音素分解为可持续超过一个帧时间 (一般设定为10ms) 的三个状态, 分别为输入状态、中间状态和输出状态;然后在训练阶段中使用训练语音数据为每个可能的音素构建HMM, 每个音素的HMM均输入状态、中间状态和输出状态三个状态, 并用状态转换概率和符号发生概率来定义。在该设定环境下, 为每个帧计算的特征矢量称为符号。由于时间的单向性特征决定了一些转换是不允许的。在训练阶段后期, 由不同的发音者、时间变化和周围的声音引起的变化均采用每个音素由捕获不同帧的特征矢量变化的一个HMM表示;最后的语音识别阶段中, 便可以按照帧的顺序来计算每个输入音素的特征矢量。识别的目的就是去发现哪个音素的HMM最可能产生输入音素的特征矢量序列, 从而进行匹配。HMM对应的音素被认为是输入音素, 由于一个单词含有大量的音素, 因此一般需将音素序列进行整体识别。计算HMM产生一个给定特征矢量序列的概率目前有多种算法, 常用Viterbi算法和前向算法。Viterbi算法主要应用在识别连续的语音, 前向算法主要应用于识别隔离的单词。
5 结束语
目前的语音检索技术还处于发展阶段, 还面临着诸多挑战: (1) 对检索结果准确性的判断:如果检索出来的结果较多, 那么用户必须对检索要求进行逐一判断, 对于用户来说比较麻烦, 而且需用较大的耗时成本去鉴别检索结果的准确性, 这是一个急待解决的难题。 (2) 需要制定更先进的和统一的编码标准:原始语音信息是无结构的, 如果在其数字化时就用结构化的编码标准去生成, 那么就可以直接进行检索。
语音信息检索是一个涉及较为广泛的研究领域, 达到人脑那样对语义进行自动理解仍然进行进一步深入和广泛的研究, 这是一个从实际认识向抽象理解不断发展的过程, 同时也是基于知识理解的应用研究, 属于多学科交叉的研究领域。在这个领域的研究和发展过程中, 我们将面临更多的挑战, 同时也会出现更多新的契机和机会。
参考文献
[1]Hauptmann.A, and Smith.M, Text, speech, and vision for video segmentation:The info media project, [C]AAA I Fall 1995 Symposium on Computational Models for Integrating Language and Vision
[2]M.Wechsler, P.Schauble, Speech retrieval based on automatic indexing[C], Proceedings of the MIRO work shop, Sep.1995
[3]M.G.Brown, J.T.Foote, G.J.F.Jones, K.SparckJones and S.J.Young, Video mail retrieval by voice:an overview of the Cambridge Olivetti retrieval system[, C]2nd ACM International Conference on Multimedia Work shop on Multimedia Data Base Management, San Francisco, U.S.A., 47~55, Nov.1994
[4]L.Wilcox, F.Chen, and V.Balasubramanian, Segmentation of speech using speaker identification, [C]Proceedings of ICA SSP94, vol.S1, April.1994
[5]D.Kimber, L.Wilcox, A coustic segmentation for audio browsers, [C]Proceedings of Interface conference, Sydney, Australia, July.1996
[6]王炳锡、屈丹、彭煊, 实用语音识别基础[, M], 国防工业出版社, 2005年第1版
专利检索与服务系统 篇11
当你因爱好、研究或其他应用需要查找某方面或某一类的档案信息时,但你却不知道这些档案的馆藏情况和馆藏地方,你可能就希望如果有一个像百度、谷歌那样的网站就好了。只要输入关键词,便可查询相关的信息。但是目前,虽然各地档案工作者已经做出了很大的努力,如很多档案馆建立了网上查询系统,公布了馆藏目录,发布了档案编研成果等,但是这些都是“单兵作战”,档案馆“各自为政”,功能比较少,水平比较低,还无法满足用户的上述要求。因此笔者建议建立一个导航式档案网上检索系统。
导航式档案网上检索系统就是一个基于广域网能够整合各个档案馆的资源,提供档案信息检索的服务系统。这一系统可以为各类档案利用者提供跨地域、跨行业、跨部门的档案信息,提供所需档案的数量、所在的地方、利用的方法、条件和联系方法以及其他档案等相关信息,发挥档案利用的索引导航作用,从而向多层次、广地域的公众档案利用者提供指引,让档案信息更加贴近普通公民,贴近需求者,实现档案信息资源的社会化。
导航式档案网上检索系统应该具备这样的功能:一要有一个关于档案信息的统一的网络检索界面,能让利用者方便的识别和利用这个系统;二要有一个强大的跨地区、跨部门、跨行业的档案信息资源数据库,保证能给公众提供大量的查询信息;三要能按一定标准提供检索结果,为利用者进一步利用提供指引。比方说某一利用者因研究徐悲鸿的需要,需查找有关徐悲鸿的档案资料,但又不知道该类档案资料在什么地方、在哪个档案馆有,如何去查询等。这时便可以利用这样的检索系统,通过输入“徐悲鸿”这一检索词,通过一个检索页面提供数据库中所有关于徐悲鸿的档案信息(包括收藏者链接和联系、查阅方法等),为进一步利用起到导航作用。
二、建立导航式档案网上检索系统是提升档案利用水平的必然
1、档案利用工作重点转变的需要。由国家档案局、中央档案馆于1997年2月颁发的《关于在全国档案系统加强社会主义精神文明的意见》要求各级档案馆充分发挥五个功能,即档案保管基地功能、档案利用中心功能、爱国主义教育基地功能、学术研究场所功能、文明服务窗口功能。然而这些功能的发挥都要通过档案的有效利用来实现,而先进的检索手段又是有效利用的必备条件。随着档案馆功能的拓展,档案利用群体也不再是以政府机关干部和学者为主体,作家、研究人员、创作编导、编史修志、政策制定甚至休闲欣赏等任何一个普通公众都有利用档案的可能性。这种利用者的“随意性”要求档案馆提供一种“通俗”、易操作的“傻瓜”式检索系统。
2、档案信息网络管理发展的需要。目前各档案部门为实现档案资源共享,正加大力度进行档案资源整合,加强数字化建设。全国大多数档案馆都建立了档案网站,提供了数量巨大的信息资源。要想利用这些资源,按目前状况需要到各个档案网站上去检索查询,这对于普通公众来说,存在两个问题。一是专业性的检索系统和各档案网站检索方式的多样性影响着档案信息的查准率和查询速度。二是档案信息“各自为政”存储在各个档案网站上,不能互相链接。作为完善的检索系统应该使公众尽可能直观、方便、准确的检索。因此信息网络管理工作不仅需要数字化的“虚拟档案馆”的内容,还需要以最简单的检索方式打开这所大门的钥匙,满足多样的检索利用需求。
3、档案利用范围扩大的需要。早在2002年9月召开的第十四届国际档案大会第三次全体报告会的议题是“档案馆在休闲利用社会中的作用”。英国著名档案学家迈克尔·库克指出整个社会应该把档案馆看作是一个文化机构,即使是贴上“文化娱乐”甚至“消遣”的标签也是无可厚非的。也就是说除公务需要外,档案开始和普通公民的生活兴趣、爱好、鉴赏等休闲活动联系到一起,人们有意无意地利用档案的随意性要求有一种宽范围的查询检索系统,能满足公众用户准确、快捷、方便地检索,找到所需的档案信息。
4、国内外档案网站已经出现了这样的雏形。笔者打开美国国家档案馆网页,发现不仅信息资源丰富,而且还拥有全国各种档案馆馆藏信息的联网数据库,实现全国档案信息资源集成化查询检索和利用,并通过目录式方法将有关档案部门链接起来。国内已经有部分网站或多或少地实现了或正在准备实现这样的一些功能。国内有一法律界人士建立的网站,与全国283个地市的律师合作,建立一个专业档案查询网,可以查询企业工商证照、房产、车辆设备资产及人员等方面的信息。浙江档案网在检索系统中提供国内外可检索的相关资源的链接,四川档案网则准备提供全省部分市、州的馆藏目录查询。这些网站提供这方面的服务已经体现了网上检索的方向,但基本还是区域性的、不完整的和初始的,实现真正的导航指引功能还有很长的路要走。
三、导航式档案网上检索系统建立的方法与要求
建立导航式档案网上检索系统需要对各档案馆的档案信息进行全面搜集、合理组织和有效利用。搜集各地档案馆的档案信息,整合成一个统一的检索资源数据库是一个关键环节和艰巨任务。那么,采取什么方法获取分散而又数量巨大的档案信息?这里可以借鉴和引进搜索引擎技术。
目前,搜索引擎基本分为两类:全文搜索和分类目录。全文搜索是利用“网络蜘蛛”软件,通过网络上的各种链接自动获取大量网页信息内容,并按规则分析整理形成数据库。分类目录是通过人工的方式收集整理资料,人工编辑审核后输入数据库,也叫目录搜索引擎。全文搜索引擎是一个自动过程,提供的查询结果量大、关联度低,而且通过网上自动抓取,前提是必须有足够量的网页内容。分类目录依靠人工收集整理,能提供更为准确的查询结果,但收集的内容有限。鉴于各地档案网络建设不平衡、提供利用的网页内容少,甚至没有可供利用的网页内容等情况,全文搜索引擎技术难以发挥应有的作用。再考虑到档案利用有开放与未开放的特殊性,不可能将卷宗内容全文在网页上反映出来,只能提供档案卷宗的基本信息,再加上对网站数据库建设的时间没有硬性要求。因此,笔者认为,建立导航式档案网上检索系统采用分类目录技术比较合适,同时考虑到各地档案网络的不断发展及网页内容的不断丰富,全文搜索技术可以作为补充。
建立导航式档案网上检索系统,从理论上讲可以由国家档案管理部门承担,也可以由社会机构承担,进行网络经营(就像谷歌、雅虎一样)。但目前各地档案网络建设水平较低,内容匮乏,不可能完全像谷歌那样依靠全文搜索技术获取大量可利用的档案信息,还需要各地档案机构密切配合,提供可供利用的档案信息来共同建设档案信息资源数据库。因此,就我国集中式管理体制而言,目前由国家档案管理部门牵头建设比较合适,有利于发挥职能作用、协调上下级关系、制定标准规范、发挥系统的最大效用。在具体运作上也可以采取市场化的方法。建立一个能充分发挥作用、运行有序的导航式档案网上检索系统还要做到以下几点:
1、要建立一个档案信息供给机制。由于各地档案网站利用方面内容不多,建立资源数据库目前除部分自动获取网页内容外,主要需各地档案馆提供可供利用的档案信息。我们可以同时采取行政管理手段和技术手段,建立起正常的档案信息供给渠道。同时,各地要加强档案信息资源建设,加快馆藏档案上网步伐,将馆藏档案目录信息全部上网,扩大检索范围,为实现全文检索(档案信息网上自动采集)创造条件。
2、要制定网上档案信息标准规范。在兼顾方便检索和档案自身特点的基础上,统一档案信息的格式,包括档案题名、档案号、主题词、形成时间、馆藏单位名称及链接、联系方法及阅档条件等信息内容,建立一个科学的资源数据库。
3、要有良好的检索功能。要支持自然语言、关键词、主题词三种检索语言;支持特征字段检索(如档案题名,档案机构名,档案号等);支持分类目录结构,按照特定属性进入相关类目,可以一层一层的查找,如艺术——美术——国画——画家——徐悲鸿。方便利用者准确、便利、快捷地查找所需的档案信息。
专利检索与服务系统 篇12
人类已步入21世纪, 随着计算机的普及, 计算机技术的进步, 计算机硬件配件的发展非常迅速, 而且还在不断加速发展, 基本上一年更新多次, 很多用户在配机时无所适从, 不知道该如何选择。对用户来说, 在购买计算机时如何跟上硬件发展的脚步是他们最关注的, 这就要求用户及时了解和掌握最新的硬件动态。
目前许多硬件信息管理仍停留在复杂的人工操作上, 重复工作较多, 工作量大, 效率低。因此, 迫切需要开发一种计算机硬件配件管理系统来提高效率。本文介绍的基于Delphi7.0与Access的计算机配件管理系统, 在计算机硬件的规范管理、科学统计和快速查询等方面具有重要的实用意义。它将提高管理工作的效率、提高信息的开放性, 极大地改善用户对其信息查询的准确性。
本文通过对计算机配件信息检索系统的分析与设计, 介绍了该系统的设计思想、设计方法和开发的步骤及成果。
(二) 系统设计目标
建立计算机配件信息检索系统, 采用计算机对硬件进行管理, 进一步提高工作效率。帮助广大用户实现配件信息管理工作流程的系统化、规范化和自动化。
·易于管理芯片设计厂商信息;
·易于管理芯片和配件制造厂商信息;
·易于管理配件参数信息;
·易于完成配件信息的查询, 报表打印。
(三) 系统开发模型
本系统充分考虑硬件信息管理数据量大、更新速度快的特点, 采用后台数据库管理模式, 增强了系统的相对独立性, 提高了系统可塑性、适应性、扩展性。其开发模型如图1所示。
在系统功能分析的基础上, 得到如图2所示的总体功能模块图。
(四) 开发工具的选用
本系统前端应用程序选用美国Borland Software Corporation公司的编程工具产品Delphi7.0, 它基于Pascal语言, 具有语法严谨、结构清晰、可读性强和代码执行效率高等优点;最重要的是, 它具有功能强大灵活易学、易用性以及在开发数据库和网络应用程序上的极大优势, 先后在低端战胜了Visual Basic, 在高端战胜了PowerBuilder, 成为了Windows平台下最好的以人为本的开发工具之一。后台选用Microsoft Access2003进行数据库的开发和管理, 使后台数据库管理具有多重安全性、可靠性, 同时也使得前台开发的应用程序具有面向对象、分布式、模块化、事件驱动等特点;在前端应用程序与后台数据库管理系统之间采用了ODBC的开放式数据库接口和ADO数据库引擎作为系统的数据驱动, 使系统具有开放性, 为系统今后的扩展提供了灵活的系统集成策略。
(五) 数据库设计
1. 数据库需求分析
针对计算机硬件配置信息检索系统的功能设计如下所示的主要数据项和数据结构:
·用户信息:用户名、密码、权限级别
·芯片设计厂商信息:名称、国家、地址、建厂时间、规模、主营业务、备注
·芯片和配件制造厂商信息:名称、国家、地址、建厂时间、规模、主营业务、备注
·配件信息:型号、类别、设计厂商、制造厂商、设计时间、制造时间、价格、基本参数、备注
2. 概念结构设计
根据数据库需求分析, 设计规划出的实体有:芯片设计厂商实体、芯片和配件制造厂商实体、配件实体等。
3. 逻辑结构设计
该系统需要设计4个数据表 (具体为系统用户表、芯片设计厂商信息表、芯片和配件制造厂商信息表、配件信息表) 。表1为芯片设计厂商信息表 (限于篇幅, 其它表与此类似, 在此从略) 。
(六) 系统前端应用程序的开发
系统主界面采用多文档窗口设计, 应用程序主界面如图3所示。
以下就是用Delphi7.0实现计算机配件信息检索系统前端应用程序的代码, 因篇幅所限, 仅列出数据库的查询代码片段。
(七) 结论
该系统使用方便, 可以方便快捷的添加硬件, 提高了硬件管理的效率, 为用户提供了全面而及时的计算机配件信息, 便于用户掌握和了解硬件发展动态。
摘要:计算机硬件的发展非常迅速, 现在一年更新多次, 很多用户在配机时无所适从, 不知道该如何选择。计算机配件信息检索系统就为用户提供一个方便查询和了解的平台。该系统的功能主要是实现配件信息的管理和检索, 包括系统管理、用户管理、配件信息管理、输入输出管理以及系统帮助等几个功能模块。
关键词:计算机配件,检索系统,Delphi,Access,数据库
参考文献
[1]黄梯云, 等.管理信息系统[M].北京:高等教育出版社, 2000.
[2]张海藩.软件工程[M].北京:人民邮电出版社, 2002.
[3]李禹生.Access数据库技术[M].北京:交通大学出版社, 2006.
[4]何鹏飞.Delphi7程序设计教程[M].北京:清华大学出版社, 2003.