网络信息检索结课论文(通用8篇)
网络信息检索结课论文 篇1
《信息检索》结课报告
学
院
电气工程与信息工程学院
专
业
电力系统及其自动化
姓
名
XXX
学
号
122080802XXX
引言
信息检索是利用文献获取知识、信息的基本手段。无论对读书治学和宏观决策的需要来说,都有着重要的意义。
首先,信息检索是读书治学的基本功。信息检索技能是智能的重要组成部分。无论是在求学还是在工作期间,都需要进行各种智能的培养和训练。掌握了信息检索方法如同有了打开知识宝库的金钥匙、泛舟书海的指南,它有助于指引读书治学门径,正如清代学者张之洞在《书目答问·略例》中所指出的:“读书不知要领,劳而无功;知某书宜读而不得精注本,事倍功半。”“得门而入,事半功倍。”可见掌握一定的信息检索知识─—目录学知识的重要性。《荀子·劝学篇》云:“不积硅步,无以至千里;不积细流无以成江海。”从信息检索角度来说,所谓“硅步”和“细流”就是信息检索技能及对检索工具书刊的鉴别、利用知识的积累。对在校大学生来说,正是接受这种技能训练的黄金时代。
其次,信息检索是科学研究的组成部分。科学研究首先是从课题调研掌握资料起步的。信息检索有助于掌握本课题研究的进展动态,开拓思路、避免重复劳动,把研究水平提到新的高度。科研成果的评估与鉴定,也需要通过信息检索──资料的查新活动,才能作出正确的结论。特别是在社会科学信息检索系统尚不完备的条件下,信息检索能力的高低,往往影响着科研成果的价值。
最后,信息检索是科学决策的先导。信息化时代的经济管理、政治控制、艺术创造乃至心理状态的演变等,均受到各种社会信息的影响。适时掌握有关信息才能实现有效的管理。因此说,信息检索是进行科 学决策的先行工作。邓小平同志“开发信息资源,为四化建设服务”的题词,不仅深刻地揭示了信息是宏观决策 信息检索
信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。人们获取信息源的方式主要有:①传统的信息检索方法,通过人工查询在图书馆等提供文献的机构进行文献的查询和获取活动;②联机信息检索相对于前者来说具有实时性、完整性、共享性、广泛性等优点;③网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。3本专业相关的核心期刊、EI源刊及SCI源刊
本人现在所学专业为电力系统及其自动化专业,就我所知,与本专业相关的核心期刊、EI源刊及SCI源刊有中国电机工程学报Proceedings of the CSEE、电力系统自动化Automation of Electric Power Systems、电工技术学报、电网技术 Power System Technology、电源技术杂志、高电压技术High Voltage Engineering、电工电能新技术Advanced Technology of Electrical Engineering and Energy、电力系统保护与控制、电力自动化设备、电力电子技术、高压电器、华北电力大学学报(社会科学版)Journal of North China Electric Power University(Social Sciences)、电机与控制应用、电气应用Electrotechnical Application、大电机技术、电测与仪表、照明工程学报等,具体详细信息如下文所述。
3.1中国电机工程学报Proceedings of the CSEE 刊名: 中国电机工程学报Proceedings of the CSEE 主办: 中国电机工程学会 周期: 旬刊 出版地:北京市 语种: 中文; 开本: 大16开 ISSN: 0258-8013 CN: 11-2107/TM 邮发代号: 82-327 现用刊名:中国电机工程学报 曾用刊名:电机工程学报 创刊时间:1964 3.2电力系统自动化Automation of Electric Power Systems 刊名: 电力系统自动化Automation of Electric Power Systems 主办: 国家电力调度通信中心;电力系统自动化杂志社 周期: 半月
出版地:江苏省南京市 中文开本: 大16开 ISSN: 1000-1026 CN:32-1180/TP 邮发代号 28-40 创刊年:1977 3.3电工技术学报 刊名:电工技术学报
周期:月刊,每月26日出刊。国内邮发代号:6-117 国外发行代号:1362BM 发行:天津市邮政局报刊发行处 订阅:全国各地邮局
3.4电网技术 Power System Technology 刊名:电网技术 Power System Technology 主办: 国家电网公司 周期: 月刊 出版地:北京市 语种: 中文;开本: 大16开 ISSN: 1000-3673 CN: 11-2410/TM 邮发代号: 82-604[1] 3.5电源技术杂志 刊名:电源技术杂志 周期: 月刊 出版地:天津
国内统一刊号:CN12-1126/TM 国际刊号:ISSN1002-087X 创刊年:1977 3.6高电压技术High Voltage Engineering 刊名: 高电压技术High Voltage Engineering 主办: 武汉高压研究所;中国电机工程学会 周期: 月刊
出版地:湖北省武汉市 中文开本: 大16开 ISSN :1003-6520 CN :42-1239/TM 邮发代号: 38-24 创刊年:1975 3.7电工电能新技术Advanced Technology of Electrical Engineering and Energy 刊名:电工电能新技术Advanced Technology of Electrical Engineering and Energy 主办: 中国科学院电工研究所 周期: 季刊 出版地:北京市 语种: 中文;开本: 大16开 ISSN: 1003-3076 CN: 11-2283/TM 邮发代号: 82-364 3.8电力系统保护与控制 刊名:电力系统保护与控制 主办: 许昌继电器研究所 周期: 半月
出版地:河南省许昌市 语种: 中文;开本: 大16开 ISSN:1674-3415 CN: 41-1401/TM 邮发代号:36-135 3.9电力自动化设备 刊名:电力自动化设备
主管单位:中国华电集团公司 主办单位:南京电力自动化研究所有限公司 国电南京自动化股份有限公司 ISSN: 1006-6047 CN:32-1318/TM 邮发代号:28-268 开本:16开 创刊:1973年 3.10电力电子技术 刊名:电力电子技术
主管单位:西安电力电子技术研究所 主办单位:西安电力电子技术研究所 主
编:吕庆敏
地
址:西安市朱雀大街94号 邮政编码:710061 国际标准刊号:ISSN 1000-100X 国内统一刊号:CN 61-1124/TM 邮发代号:52-44 3.11高压电器 期刊名称: 高压电器 创办日期: 1958年
主管部门:西安高压电器研院有限责任公司 主办单位:西安高压电器研院有限责任公司 刊
期:月刊 电
话:029-84221958,84225621 Email信箱:gydq@zgydq.com 国内统一刊号: CN61-1127/TM 国际标准刊号:ISSN1001-1609 3.12华北电力大学学报(社会科学版)Journal of North China Electric Power University(Social Sciences)刊名: 华北电力大学学报(社会科学版)Journal of North China Electric Power University(Social Sciences)主办: 华北电力大学 周期: 双月 出版地:北京市 语种: 中文 开本: 大16开 ISSN: 1008-2603 CN: 11-3956/C 3.13电机与控制应用 刊名:电机与控制应用 主办:上海电器科学研究所 周期:月刊 出版地:上海市 语种:中文 开本:大16开 ISSN:1673-6540 CN :31-1959/TM 邮发代号:4-199 创刊年:1959 3.14电气应用Electrotechnical Application 刊名: 电气应用Electrotechnical Application 主办: 机械工业信息研究院,电气时代杂志社 周期: 半月 出版地:北京市 语种: 中文 开本: 大16开 ISSN: 1672-9560 CN: 11-5249/TM 邮发代号: 82-341 3.15大电机技术 刊名:大电机技术
主管单位: 哈尔滨电站设备集团公司 主办单位: 哈尔滨大电机研究所 周期: 双月刊
出版地: 黑龙江省哈尔滨市 ISSN: 1000-3983 CN: 23-1253/TM 邮发代号: 14-11 3.16电测与仪表 刊名:电测与仪表
主办:哈尔滨电工仪表研究所(简称哈表所)编辑出版:《电测与仪表》杂志社
地 址:黑龙江省哈尔滨市松北区创新路2000号 150028 订购电话:0451-86611021(传真)国内刊号:ISSN 1001-1390/CN23-1202/TH 国外代号:M4150 邮发代号:14-43 广告许可证:哈2301070000001 订 阅:全国各地邮局 电子邮箱:dcyb@vip.163.com 3.17照明工程学报 刊名:照明工程学报 周期: 双月刊
国际标准刊号:ISSN 1004-440X 国内统一刊号:CN 11-3029/TM 邮发代号:0-4368 4 电力系统及其自动化专业常用数据库
作为一名理工科的在读研究生,需要经常检索、查询本专业的期刊、学位论文以及相关专利的数据,正确掌握本专业常用科技文献数据库并掌握如何正确地使用它们已经是我们不可或缺的一种能力,正确的信息检索技能会使我们的学习和科研事半功倍。据我所知,电力系统及其自动化专业相关的数据库有很多,常用的中文期刊类数据库有维普中文期刊和中国知网(CNKI);外文期刊类数据库有Springer LINK以及ACM电子全文期刊数据库;学位论文类数据库有万方数据库和兰州理工大学硕博论文库;专利说明书类数据库有中国专利信息网及中国专利信息中心。下面就我的了解,按照文献类型依次介绍并评价这些数据库。4.1 中文期刊类数据库 4.1.1 维普中文期刊
重庆维普资讯有限公司是科学技术部西南信息中心下属的一家大型的专业化数据公司,是中文期刊数据库建设事业的奠基人。自1989年以来,一直致力于期刊等信息资源的深层次开发和推广应用,集数据采集、数据加工、光盘制作发行和网上信息服务于一体,目前已成为推动我国数字图书馆建设的坚强支柱之一。
为了助推中国科技创新,倡导一种将科技服务于大众的信息文化,将电子期刊数据库推向多样化、层次化、专业化。从科技期刊到报纸、从中文期刊到外文期刊、从提供海量的期刊资源到提供更专业的行业信息资源系统服务,维普人一直在不断的开拓创新!迄今为止,维普公司收录有中文报纸400种、中文期刊12000多种、外文期刊6000余种;已标引加工的数据总量达1500万篇、3000万页次、拥有固定客户5000余家,在国内同行中处领先地位。维普数据库已成为我国图书情报、教育机构、科研院所等系统必不可少的基本工具和获取资料的重要来源。
作为中国数图事业的先行者,维普深谙“不进则退”这一至理,同时,也清楚地知道中国信息化建设大事业的成功必须依靠科技实力、群策群力,团结协作!2003年,通过重庆尚唯信息技术有限公司与武汉大学信息资源研究中心联合研制了《尚唯全文检索及海量信息内容管理系统》,将资源和技术很好地融合在一起,现已成功将该系统应用于《中文科技期刊数据库》、《外文科技期刊数据库》、《中国科技经济新闻数据库》和《医药信息资源系统》、《航空航天信息资源系统》等十几数据库产品。
今天的维普以更加蓬勃的生机,迎接新的挑战,对数字图书馆的未来,也抱定了更执著的信心。我们相信:在我国数字图书馆建设的道路上,维普将走得更远、更坚定!国际水准的技术保障以及高质量的科技人才储备,使得维普资讯能够始终走在时代科技的尖端。并不断进步,为中国的数字图书馆建设事业贡献力量。评价:中国数图事业的先行者,资源丰富。4.1.2 中国知网(CNKI)
国家知识基础设施(National Knowledge Infrastructure)的概念,由世界银行提出于1998年。在党和国家领导以及教育部、中宣部、科技部、新闻出版总署、国家版权局、国家计委的大力支持下,在全国学术界、教育界、出版界、图书情报界等社会各界的密切配合和清华大学的直接领导下,CNKI工程集团经过多年努力,采用自主开发并具有国际领先水平的数字图书馆技术,建成了世界上全文信息量规模最大的“CNKI数字图书馆”,并正式启动建设《中国知识资源总库》及CNKI网格资源共享平台,通过产业化运作,为全社会知识资源高效共享提供最丰富的知识信息资源和最有效的知识传播与数字化学习的平台。CNKI 由中国学术期刊(光盘版)电子杂志社、清华同方知网(北京)技术有限公司主办,是基于《中国知识资源总库》的全球最大的中文知识门户网站,具有知识的整合、集散、出版和传播功能。CNKI 亦可解读为“中国知网”(China National Knowledge Internet)的英文简称。
《中国知识资源总库》(简称《总库》)是中国知网的核心资源,是由杨振宁 先生担任顾问委员会名誉主任,众多院士、科学家、专家学者参与策划、编纂的我国知识信息资源的大规模集成体。其目标是:在三年内将我国80% 的知识信息资源数字化并通过互联网传播;通过知识元的提取,实现对各类知识资源的跨库、跨平台、跨地域检索和链接。目前,中国知网已实现了国内25% 的知识资源的数字化和网络化共享。如果说,历史上《永乐大典》和《四库全书》对中华文化的保存和传承做出了历史性贡献的话,那么,《总库》的建设对传播中华文化、加速知识共享、促进全民素质和创新能力的提高,更具有不朽的贡献。特别是在中文资源如此匮乏的互联网上,《总库》建设对扩大中华文化影响、对中国人在互联网时代的话语权,具有重要意义。所以说,基于《总库》丰富资源的中国知网,不是一般的新闻网站或综合信息网站,而是信息量远远大于现有互联网信息资源的,真正能够满足人们知识需求的知识门户网站。以学科分类为基础,兼顾用户对文献的使用习惯,将数据库中的文献分为十个专辑,每个专辑下分为若干个专题,共计168个专题。
CNKI 是全球信息量最大、最具价值的中文网站。据统计,CNKI 网站的内容数量大于目前全世界所有中文网页内容的数量总和,可谓世界第一中文网。CNKI 的信息内容是经过深度加工、编辑、整合、以数据库形式进行有序管理的,内容有明确的来源、出处,内容可信可靠,比如期刊杂志、报纸、博士硕士论文、会议论文、图书、专利等等。因此,CNKI 的内容有极高的文献收藏价值和使用价值,可以作为学术研究、科学决策的依据。
CNKI 是一个互联网出版平台。未来学家预测,在不远的将来,人类将会把所有的知识资源放在互联网上共享。传统出版走向互联网出版已经成为必然。CNKI 是国家新闻出版总署首批批准的互联网出版平台,可以二次出版所有传统出版方式已经出版过的内容,也可以直接通过网络进行一次出版,出版形式多种多样,包括文本、图片、音频、视频、动画、软件、网络课程、科学数据等多种媒体方式。目前,CNKI 已集结了7000 多种期刊、近1000 种报纸、18 万本博士 / 硕士论文、16 万册会议论文、30 万册图书以及国内外1100 多个专业数据库。其中博士/ 硕士论文、会议论文及部分数据库为一次出版,期刊、图书、报纸等为二次出版。如此大的网络出版规模在世界上也是绝无仅有的。
评价:网络出版规模在世界领先,资源丰富,检索方便。4.2 外文期刊类数据库 4.21 Springer LINK 自1996年推出以来,SpringerLink已是全球最大的在线科学、技术和医学(STM)领域学术资源平台。凭借弹性的订阅模式、可靠的网路基础、以及便捷的管理系统,SpringerLink已成为各家图书馆最受欢迎的产品。通过SpringerLink的IP网关,读者可以快速地获取重要的在线研究资料。SpringerLink更提供多种远端存取方式,包括通过IP认证、Athens或Shibboleth等认证方式。Springer是科学出版界的领导者,一直凭着其卓越表现而享有美誉。Springer已经出版超过150位诺贝尔奖得主的著作。目前,SpringerLink正为全世界600家企业客户、超过35,000个机构提供服务。SpringerLink的服务范围涵盖各个研究领域,提供超过 1,900种同行评议的学术期刊、以及不断扩展的电子参考工具书、电子图书、实验室指南、在线回溯数据库以及更多内容。
Springer出版1,900多种经同行评议的学术期刊,大部份拥有自1997年以来已出版的期刊内容。Springer的在线回溯期刊数据库提供自第一卷第一期起的所有期刊。Springer拥有大量的高水准ISI期刊,并不断新增学会期刊以及收购其他优质期刊,体现了Springer对提供高品质文献的承诺。
SpringerLink能够成为最受欢迎的在线科学平台之一,其中一个主要原因是Springer每天都会新增高品质的内容:学会刊物、参考工具书、会刊、专著、手册、实验室指南及更多内容。当然,这不仅仅是内容数量的多寡问题,Springer的内容全部提供参考文献链接、检索结果、社群书签以及最新的语义链接等功能,使用户可于更短时间之内获得更精确的搜索结果和相关内容。
SpringerLink平台拥有400多万份在线文献,每年提供超过1亿次的全文下载,Springer因此成为科学、技术和医学领域享有盛名的出版商。Springer成立于1842年,目前是全球最大的科学、技术和医学图书出版商之一。通过与世界各地300余家学术学会和专业协会的合作,提供一系列的在线产品和服务。Springer每年还出版1,900余种学术期刊和3,500种新书。Springer是Springer科学与商业媒体集团(SpringerScience+Business Media)的成员,在全球19个国家/地区拥有70家出版公司和约5,000名员工。Springer一直提供卓越的服务:截至目前,已有超过150 位诺贝尔奖得主通过Springer出版研究著作。Springer众多的出版物在其各自领域当中都备受赞誉、推崇,更获得了图书馆和大学、以及各个领域的研究人员和专家的信赖。
评价:全球最大的在线科学、技术和医学(STM)领域学术资源平台,更新快,技术领先,服务周到。
4.22 ACM电子全文期刊数据库
美国计算机协会(Association for Computing Machinery , 简称ACM)是一个世界性的计算机从业员专业组织,兴趣小组每年亦会在全世界(但主要在美国)举办世界性讲座及会谈,以供各会员分享他们的研究成果。近年ACM积极开拓网上学习的渠道,以供会员在空余或家中提升自己的专业技能。
ACM电子全文期刊数据库使用指南2007 ACM数据库出版物列表2006 ACM 创立于1947年,是全球历史最悠久和最大的计算机教育和科研机构。目前提供的服务遍及100余国家,会员达80,000多位专业人士,涵盖工商业,学术界及政府单位。它致力于发展信息技术教育、科研和应用,出版最具权威和前瞻性的出版物,如专业期刊、会议录和新闻报道;并于1999年开始提供电子数据库服务-ACM Digital Library全文数据库。在过去的几年里,ACM全文数据库增加了1950年代至今的所有出版物的全文内容,以及Special Interest Group的出版文献,包括快报和会议录。同时ACM还整合了第三方出版社的内容,全面集成“在线计算机文献指南(The Guide to Computing Literature)”,这是一个书目资料和文摘数据库,集合了ACM和其他3,000多家出版社的出版物,旨在为专业和非专业人士提供了解计算机和信息技术领域资源的窗口。
全文数据库内容包括:收录ACM全文期刊、杂志和汇刊共41种。SIG定期简讯(Special Interest Group Newsletters)超过220种会议录,超过2000卷;包括非ACM的会议录(ACM International Conference Proceedings Series)超过100卷。共50多年来全文文献,超过17万篇,8%为2005年新增包含在“在线计算机文献指南”中的900,000条引文信息,每年约新增20,000-25,000条记录ACM全文期刊(41种)。
评价:是全球历史最悠久和最大的计算机教育和科研机构,专业资源丰富。4.3 学位论文类数据库 4.3.1 万方数据库
万方数据股份有限公司成立于2000年,是由中国科技信息研究所以万方数据(集团)公司为基础,联合山西漳泽电力股份有限公司、北京知金科技投资有限公司、四川省科技信息研究所和科技文献出版社发起组建的高新技术股份有限公司。万方数据股份有限公司是国内首批以信息服务为核心的股份制高新技术企业,是在互联网领域,集信息资源产品、信息增值服务和信息处理方案为一体的综合信息服务商。
公司以客户为导向,依托强大的数据采集能力,应用先进的信息处理技 术和检索技术,为科技界、企业界和政府部门提供高质量的信息资源产品。在丰富信息资源的基础上,万方数据还运用先进的分析和咨询方法,为用户提供信息增值服务,并陆续推出企业竞争情报系统、通信、电力和医药行业竞争情报系统等一系列信息增值产品,以满足用户对深度层次信息和分析的需求,为用户确定技术创新和投资方向提供决策。
在为用户提供信息内容服务的同时,作为国内第一批开展互联网服务的企业之一,万方数据坚持以信息资源建设为核心,努力发展成为中国第一的信息服务提供商,开发独具特色的信息处理方案和信息增值产品,为用户提供从数据、信息到知识的全面解决方案,服务于国民经济信息化建设,推动中国全民信息素质的成长。
万方数据提供中国大陆科技期刊检索,是万方数据股份有限公司建立的专业学术知识服务网站。隶属于万方数据资源系统,对外服务数据由万方数据资源系统统一部署提供。
万方数据库是由万方数据公司开发的,涵盖期刊,会议纪要,论文,学术成果,学术会议论文的大型网络数据库。也是和中国知网齐名的中国专业的学术数据库。开发公司——万方数据股份有限公司是国内第一家以信息服务为核心的股份制高新技术企业,是在互联网领域,集信息资源产品、信息增值服务和信息处理方案为一体的综合信息服务商。
万方学位论文库(中国学位论文全文数据库),是万方数据股份有限公司受中国科技信息研究所(简称中信)委托加工的“中国学位论文文摘数据库”,该数据库收录我国各学科领域的学位论文。我馆已经签约购买55万篇学位论文全文,目前已经完成近45万篇本地镜像全文数据的安装。《中国学术会议论文全文数据库》分为两个版本:中文版、英文版。其中:“中文版”所收会议论文内容是中文;“英文版”主要收录在中国召开的国际会议的论文,论文内容多为西文。
评价:万方是国内首批以信息服务为核心的股份制高新技术企业,其数据库提供提供中国大陆科技期刊检索,检索方便。4.3.2 兰州理工大学硕博论文库
兰州理工大学创建于1919年,历史悠久,几易校名,几经迁徙,仍力保薪火相传。1958年,学校正式命名为甘肃工业大学,并在当时满目黄土的兰工坪上开始了大学建设之旅。其后的发展可谓千辛万苦,历经磨难。1998年,学校在国务院机构改革后实行中央与地方共建,以地方管理为主的管理体制,学校同年实现博士学位授予权零的突破。2003年,学校更名为兰州理工大学,同年,学校同时实现设立国家级重点实验室和博士后科研流动站零的突破。
兰州理工大学硕博论文库收录了从1980年开始的所有硕士、博士毕业论文全文,并提供检索和下载服务。内容涵盖马克思主义、列宁主义、毛泽东思想、邓小平理论、社会科学总论、政治、法律、经济、文化、科学、教育、体育、语言、文字、自然科学总论、数理科学和化学、天文学、地球科学、生物科学、医药、卫生、农业科学、工业技术、交通运输、航空、航天、环境科学、安全科学等学科。
评价:本校的硕博士论文库,具有很高参考价值,分类清晰,检索速度快,使用方便。
4.4 专利类数据库 4.4.1 中国专利信息网
国家知识产权局专利检索咨询中心成立于1993年,前身是中国专利局专利检索咨询中心,2001年5月更名为国家知识产权局专利检索咨询中心(以下简称“检索中心”),是国家知识产权局直属事业单位,是目前国内科技及知识产权领域提供专利信息检索、专利事务咨询、专利及科技文献翻译、非专利文献加工等服务的权威机构。
检索中心作为国家知识产权局提供检索服务的权威机构,为社会各界提供有关专利及科技信息的检索服务;为国家知识产权局专利局各审查部门提供STN、Dialog等商业系统的国际联机检索服务;以多款专业性高级分析软件和多种信息资源为基础,为客户提供全方位、专业化的检索、咨询和战略分析等高端服务。
受国家知识产权局委托,检索中心负责国家知识产权局客户服务中心的日常工作,其宗旨是为广大专利申请人、专利权人及社会公众提供优质的咨询服务,以当面咨询、电话咨询、信函咨询和网站咨询等多种方式无偿提供有关专利法律、法规咨询,各类专利事务办理咨询及公开、公告后的各种状态查询等服务。
检索中心承担了为社会各界提供外文专利及科技文献的翻译工作,拥有实力雄厚的专家和专业队伍,翻译的文献涉及自然科学的各个领域,语种包括英文、德文、日文、俄文、法文、韩文及西班牙文等多种语言。作为中立机构,检索中心为专利纠纷当事人提供与所涉及诉讼案件相关的外文专利及非专利文献翻译服务。
检索中心还负责对我国非专利最低文献量的科技文献进行深度加工,建立中国非专利文献数据库等工作。
检索中心拥有提供专利信息的综合性网络平台:中国专利信息网—于1997年10月建立,是国内较早提供专利信息服务的网站。网站具有中国专利文摘检索、中国专利英文文摘检索,以及中文专利全文下载功能,并采用会员制管理方式向社会公众提供网上检索、网上咨询、检索技术、邮件管理等服务。
检索中心成立20年来,各项业务不断拓展,所需各类人员不断增加,其学历、专业日益多元化。截至2008年底,中心共有各类人员227人,其中,研究生89人;博士生11人;博士后1人。其所学专业包括法律、经济、外语、管理、新闻、机械、光电、化学、医药、生物、生态、环境等,横跨了社会科学、自然科学多个领域。
随着我国知识产权事业的发展和知识产权战略的实施,检索中心将以高效务实、开拓创新的精神,在不断变化的经济形势下,加强队伍的建设和管理,提高工作质量,提升服务水平,为广大申请人、专利权人、社会公众、科研院所及各企事业单位做好帮手,为知识产权事业的发展做出更大的贡献。
评价:国家知识产权局提供检索服务的权威机构。4.4.2 中国专利信息中心
中国专利信息中心的前身是原中国专利局的自动化工作部,现在是国家知识产权局直属的事业单位,国家知识产权局赋予了中心专利数据库的管理权、使用权和综合服务的经营权。作为国家级大型的专利信息服务机构,中国专利信息中心以最新、最完整的专利信息资源,遍及全国各地的信息收集和服务网络、先进的信息处理技术为依托,为国内外用户提供快捷、优质的服务。
中国专利信息中心(简称信息中心)成立于1993年,是国家知识产权局直属的事业单位、国家级专利信息服务机构,主营业务包括信息化系统运行维护、信息化系统研究开发、专利信息加工和专利信息服务等。
经过十多年的不懈努力,信息中心现有职工403人,其中博士5名,硕士112名,本科生168名。凭借国家知识产权局(简称国知局)赋予信息中心专利数据库的管理权、使用权和综合服务的经营权,及信息中心遍及全国各地的信息收集和服务网络,通过先进的信息技术应用为国内外用户提供快捷、优质的服务。
信息中心于2009年7月23日正式通过ISO20000国际标准第三方认证机构加拿大TCIC公司和奥地利CIS认证机构审核,达到IT服务管理领域世界公认的领先水平,并于2010年6月26日正式通过了CMMI ML3认证。信息中心将以满足客户需求为主旨,脚踏实地、追求务实高效,建立强大的、以IT系统运行维护、软件开发和系统集成、专利信息服务和专利信息处理为支柱的现代化信息集团。
根据国家知识产权局的有关规定,中心的职能和职责是:承担局自动化系统建设;开展专利及其他知识产权信息的加工、传播、检索和咨询服务;开展专利技术的展览、中介、开发、实施和利用,组织专利产品的试生产及贸易;信息工程的开发和相关业务服务;上级交办的其他工作。
中国专利检索系统(CPRS):是一种仅在国家知识产权局局域网中使用的专利检索与全文浏览系统。该系统包含:1985年以来三种中国专利著录数据及发明、实用新型全文说明书;1975年以来美国专利著录数据及全文说明书;1993年以来日本专利和实用新型各种全文说明书。
评价:拥有最新、最完整的专利信息资源,遍及全国各地的信息收集和服务网络、先进的信息处理技术和快捷、优质的服务。
5结语
信息检索主要的目的是为了提高我们的信息素质,使使我们在增强信息意识的基础上熟悉检索工具和系统,掌握信息检索的方法和技巧,以提高我们的自学能力、研究问题和解决问题的能力。随着现代信息技术的快速发展,信息的数量急剧增长,信息的存储和传播方式方式发生了巨大的变革,信息的分散性、无序性也给人们利用信息增加了难度,影响了人们获取信息的质量与效率。于是在网络环境下有效地检索和利用信息成为科研工作者,特别是高等院校学生必备的知识和技能。因此,学习信息检索这门课程对我们来说是非常有必要而且非常之重要的。
网络信息检索结课论文 篇2
基于文本的检索是搜索引擎将网站、网页的内容索引为一系列的关键字, 当用户输入相应关键字后, 系统根据数据库中的倒排文档将关键字映射为网站或网页的地址。图像信息基于文本的检索技术, 即根据图像信息的文件名、路径名、ALT标签等, 将其标注为一系列关键字的描述, 然后通过检索这些描述以达到检索图像信息的目的。这种检索技术很不实用。首先, 由于目前的计算机视觉和人工智能技术都无法自动对图像进行标注, 要由人工完整地标注网络上的所有图像, 不但费时费力, 而且往往是不准确或不完整的;其次, 不同用户对于同一张图像的看法不尽相同, 导致对图像的标注没有一个统一标准;再次, 这种方法将注意力局限在图像的著录特征, 即文字描述上, 不能充分揭示和描述图像中有代表性的画面内容特征。所以基于内容的图像检索技术应用而生。
1 基于内容的图像检索技术
基于内容的图像检索一般是指静止图像的检索。这种图像检索技术通过分析图像的内容, 提取其颜色、形状、纹理等可视特征, 建立特征索引存储于特征库中, 在检索时, 用户只需把自己对图像的模糊印象描述出来 (绘制的草图或通过扫描仪等在线输入的图像) , 就可以通过多次的近似匹配, 在大容量图像库中查询到所需图像。基于内容的图像检索具有较强的客观性。
基于内容的图像检索算法涉及的相关技术比较多, 主要有:图像的分析与特征向量的提取技术、特征向量数据的组织与存储技术、图像数据的组织与存储技术等。
1.1 基于颜色特征的图像检索
颜色特征是图像检索中最基础的一种检索依据, 颜色是人识别图像的主要感知特征之一。在基于颜色特征的检索算法中, 通常用颜色直方图来表示图像的颜色特征。直方图能较好地反映图像中各颜色的频率分布, 横轴表示颜色等级, 纵轴表示在一个颜色等级上, 具有该颜色的像素在整幅图像中所占的比例。直方图可以对整幅图像进行最大匹配度检索。目前关于色彩的索引方法有两类:基于全局色彩的索引与基于局部色彩的索引。
全局色彩的索引就是按全局色彩的分布来索引图像, 计算每种颜色的像素, 检索出具有相同颜色内容的像素的图像。其中最为简单有用的工具是灰度直方图。利用图像的灰度直方图作为特征指标来描述图像, 一般是利用二维直方图, 如红—蓝直方图, 它是红光图像的灰度值和蓝光图像的灰度值的函数。利用色彩直方图进行检索的方法有许多, 如:比例直方图法、累加直方图法等。
色彩直方图还不能为像素在图像中的位置提供线索, 为了尽可能少地丢失信息, 提出了局部色彩方法。局部色彩的索引对象是局部相似的颜色区域, 它考虑了颜色的分类和一些初级的颜色特征。用形状面积、圆度、离心率等来描述形状的特征矢量。
1.2 基于形状特征的检索
形状是刻划物体的本质特征之一, 利用形状来检索可提高检索的准确性和效率。基于形状的检索不仅包括传统意义的基于二维形状的检索, 还包括三维形状的检索。
基于图像内物体形状的检索, 首要问题是采用合适的图像分割算法把不同对象从图像中分割出来, 关键是寻找符合人眼感知特性的形状特征。目前, 较好的方法是采用图像的自动分割方法结合识别目标的前景和背景模型来得到比较精确的形状特征。图像自动分割方法的具体思路是:将图像分块后, 将每个块看成是一幅小图像, 计算每个小图像的颜色直方图特征, 则每个块间的直方图是不一样的, 为分析边缘特征, 将相邻两个块构成一个比较对, 将每个块间的差值记录下来, 同时记录差值在一定范围内的数目, 这样就形成一个颜色特征差值表。图像对象空间位置发生变化, 其特征差值表也就不同。
1.3 基于纹理特征的检索
纹理是指图像在局部区域内可能呈现出不规则性而在整体上却表现出某种规律性。纹理特征是图像中难以描述的特征, 它是一种反映图像像素灰度级空间分布的属性。如果一个物体内部以灰度级变化明显而又不是简单的色调变化, 那么该物体就有纹理。
纹理分析的方法基本可以分为统计法、结构法、模型法和空间法/频率域联合分析法等4类。基于统计的方法是对图像中的颜色强度的空间分布信息进行统计, 主要用于分析像木纹、沙地、草坪等细致而不规则的物体;基于结构的方法将重点放在分析纹理元之间的相互关系和排列规则上, 适用于像布料或砖瓦等一类元素组成的纹理以及排列比较规则的物体;基于模型的方法是假设纹理按某种类型分布, 如Markov随机场模型、分形模型等。基于空间/频率域联合分析法主要包括Cabor变换法和小波变换法等。
1.4 基于知识的图像检索
基于知识的图像检索也是基于内容检索的重要方法之一。图像本身是一定数量的颜色像素点的集合, 人类能够识别出像素点集合的含义是人类以自身的知识赋予图像意义的过程。基于知识的图像检索系统为用户提供知识库, 针对一个图像需求, 搜索引擎依次调入每一幅图像的内容描述, 结合知识库中的相关知识, 以图像需求为目标进行推理, 如果需求目标得到满足, 则确定这幅图像符合检索要求。
2 基于内容的图像信息检索系统
目前, 基于内容的图像检索技术的研究取得了很大的突破, 较有影响力的有以下几个:
2.1 QBIC系统
QBIC (Query By Image Content) 是IBM公司于20世纪90年代研制的图像和动态影像检索系统, 其含意是“根据图像的内容进行查询”。由IBM Almaden研究中心开发, 是基于内容的检索系统的典型代表。QBIC在检索过程中用户无须提供文字检索词 (它也提供关键词检索) , 只要输入以图像形式表达的检索要求, 即可检索出一系列相似的图像。QBIC系统允许使用示例图像、用户构建的草图、选择的颜色与纹理模式、镜头与目标运动等, 对大型图像和视频数据库进行查询。
2.2 Photobook系统
Photobook系统是由美国麻省理工学院 (MIT) 的媒体实验室于1994年开发研制的用于浏览和搜索图像的一套交互式工具, 图像在存储时按人脸、形状或纹理特性自动分类, 图像根据类别通过显著语义特征压缩编码。
2.3 Virage系统
Virage是由Virage公司开发的基于内容的图像搜索引擎。与QBIC相似, Virage支持基于颜色、颜色布局、纹理和结构 (对象边界信息) 的可视化查询, 但Virage比QBIC更进一步, 它也支持由4个原子查询的任意组合, 用户可以根据他们自己的侧重调整4个原子查询的权重。
2.4 CORE系统
CORE是新加坡国立大学开发的一个基于内容的检索系统。其显著的技术特色包括:多种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。
2.5 Visual SEEK系统
由美国哥伦比亚大学图像和高级电视实验室开发。它实现了互联网上基于内容的图像/视频检索系统, 提供了一套工具供人们在Web上检索图像和视频信息。用户可以把顶部为红橙黄色区域、底部为蓝绿色区域, 这样的图像作为查询“日出”的草图, 使人们在Web上可以方便地搜索和检索图像和视频。
3 基于内容的图像检索体系结构
基于内容的图像检索系统与传统基于文本的检索系统完全不同。基于内容的检索系统一般通过可视化界面和用户进行频繁的交互, 以便用户能够方便地构造查询和改进检索结果, 用户通过选择具有代表性的一幅或多幅例子图像来构造查询, 然后由系统查找与例子图像在视觉内容上较相似的图像, 按相似度大小排列返回给用户, 即所谓的通过例子图像的检索 (Query By
Image Example) 。
基于内容的图像查询和检索是一个逐步求精的循环过程。其过程及各个模块如下:
3.1 图像的预处理
在特征抽象子模块里, 首先要进行图像的预处理, 包括图像格式的转换, 尺寸的统一, 图像的增强与去噪, 图像的边缘提取, 经过边缘提取获得图像的轮廓特征, 对其进行进一步轮廓清晰化处理等功能, 为图像的特征提取打下基础。
3.2 图像的目标标识
图像预处理后, 要进行图像的目标标识。目标标识为用户提供一种工具, 以全自动或半自动 (需要用户干预) 的方式标识图像中用户感兴趣的区域或目标对象, 以便针对目标进行特征提取并查询。当进行整体内容检索时, 利用全局特征, 这时不用目标标识功能。目标标识是可选的。
3.3 图像的特征提取与表达
图像特征的提取与表达是基于内容的图像检索技术的基础。对图像数据库进行特征提取, 提取用户感兴趣的、适合检索要求的特征。特征提取可以是全局性的, 即整幅图像, 也可以是针对某个目标的, 即图像中的子区域, 如人的面部特征或指纹特征等。
3.4 图像数据库
作为图像查询的后台基地, 生成的数据库由图像库、特征库和知识库组成。图像库为数字化的图像信息, 特征库包含用户输入的特征和预处理自动提取的内容特征。知识库包含专门和通用知识, 有利于查询优化和快速匹配, 知识库中知识表达可以更换以适用各种不同的应用领域。
3.5 图像的查询接口
在基于内容检索中, 由于特征值为高维向量, 不具有直观性, 因此必须为其提供一个可视化的输入手段。友好的人机交互界面是一个成功检索系统不可缺少的条件, 可采用的方式有3种:操纵交互输入方式、模板选择输入方式和用户提交特征样板的输入方式。另外, 查询返回的结果需要浏览, 应在用户界面提供浏览功能。
3.6 图像的检索引擎
检索是利用特征之间的距离函数进行相似性匹配, 模仿人的认知过程, 近似得到数据库的认知排队, 存在一些不同的相似性测度算法, 检索引擎中包括一个较为有效可靠的相似性测度函数集。
3.7 图像的索引/过滤
索引是用来提供快速、有选择性地存取数据库的一种机制, 它相当于一种映射机制, 将属性的值转换为相应数据地址域的地址集。过滤器作用于全部数据, 过滤出的数据集合再用高维特征匹配来检索。索引用于低维特征, 可以用R树来索引以加快检索速度。
基于内容的图像检索技术为用户提供了一个在网络上搜索感兴趣的图像信息资源的有效手段, 但基于内容的图像检索技术目前还存在许多有待发掘的内容, 因而, 基于内容的图像检索技术也需要随着网络技术、信息技术的发展而发展。
摘要:图像检索是网络信息检索中的重要的组成部分, 而其检索技术却相对滞后。基于内容的图像检索已成为网络信息检索技术的研究热点。本文分析并总结了图像检索的概念, 综述了基于内容的图像检索系统和相关技术。
关键词:网络信息检索,基于内容,图像检索技术
参考文献
[1]何惠芬.图书馆中基于内容的图像数据库检索技术[J].情报杂志, 2002 (7) .
浅析网络信息检索 篇3
【关键词】网络信息;检索
随着信息技术的高速发展,信息资源的越来越显得重要,而网络信息资源也逐步成为这个信息时代的核心资源。信息检索技术也很快得到发展,在此网络信息检索随着网络的发展也应运而生。网络信息检索,就是将描述特定用户所需网络信息的提问特征,与信息储存的检索标识进行异同比较,从中找出与提问一致或基本一致的网络信息的过程。相对传统文献检索,网络信息检索显现出了很多的优越性,如不受时间地点的限制,检索方式多样化,多元化等。但是我觉得网络信息检索的发展还不是十分完善,仍存在些问题,如目前检索工具在信息搜集缺乏统一的规范管理,检索过程会出现很多雷同,甚至无用的垃圾信息等。以下从网络信息检索目前存在的问题,及针对问题面临的以后的发展方向进行了探讨。
随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完善都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决逐一登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求等烦琐操作,基于网络检索工具的检索工具产生了。
目前这列检索工具只要有两种:集成搜索引擎和元搜索引擎。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业搜索引擎集成链接,深受特定用户群欢迎。如国内天网搜霸和百度搜霸,国外比较著名的有“搜索之家” “网际瑞士军刀”等。
另一个是元搜索引擎,用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。国外比较著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前国内现在还没有见到真正意义上的元搜索引擎。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。
从第一个元搜索引擎Metacrawler诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。由于元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家邢志宇将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语种,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。
Internet的发展使信息采集、传播和利用无论是从规模还是速度都达到了空前的水平。我觉得未来网络信息检索技术的发展方向如下:
1.智能化
现有的检索引擎存在着查全率和查准率低的问题,未来的搜索引擎技术必须具有能及时挖掘新信息和及时能链接新增的信息,多途径检索功能,用户可以交互式检索,搜索出满意的信息。提高网络信息检索技术水平并实现智能检索,智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索,智能检索技术就是采用人工智能进行信息检索的技术,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。最近几年,智能信息检索作为人工智能的一个独立研究分支得到了迅速发展,而且目前已有一些搜索引擎支持智能检索,但智能化程度还不高,这方面还有待进一步的发展。
2.标准化
现在的网站信息瞬息万变,杂乱纷繁,很是需要进行分类整理。目前虽然有大量的搜索引擎,但还没有一个统一严格的分类方法来管理,网络信息资源在组织分类上需要制定一个统一的分类标准。还要规范网络术语,提高资源共享的程度,这样可以有效保证用户的检索效率。
3.个性化
科技的发展要以人为本,随着科学技术的发展,个性化服务也将成为网络信息检索的一个发展方向。随着互联网的飞速发展,每个人的对信息的需求将不再满足于标准化、单一化的大众需求。不同的人需要不同的服务,如残疾人士对网络信息检索的要求就要区别于常人,要是信息检索能很好的识别语音检索就能很有效的满足他们的信息需求。如何使用户更方便、快捷地使用各种检索工具,满足用户各种检索要求,个性化服务也会成为网络信息检索重要的发展方向。
网络信息检索实验报告 篇4
09软件1 W班09144136张越
摘要:随着信息时代的到来,网上信息资源的数量、种类不断增加,电子信息资源日益丰富,互联网技术也日新月异、层出不穷,人们通过网络能够获取大量所需信息,如何在信息的海洋中快捷、准确地找出所需信息,网络搜索引擎就像图书馆目录能指引读者迅速找到所需图书一样,为人们在网络信息海洋中导航。而面对日益丰富的电子信息资源,如何有效的利用网络资源查找自己需要的信息,并对其进行熟练、灵活、有效地运用,已经被越来越多的人重视。
关键字:搜索引擎 信息检索 网络 发展趋势
随着信息技术的飞速发展,因特网已经继报纸、期刊、广播、电视等,成为当代信息存储与传播的主要媒介之一。因特网有着极其丰富的信息资源,但是浩如烟海的信息资源往往让信息使用者眼花缭乱。人们总是不能在最短的时间内找到自己需要的最有用的资源。因此,我们需要通过信息检索来解决这个问题。信息检索是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。信息检索分为两种,即广义信息检索和狭义信息检索。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻。本文主要研究的就是狭义的信息检索中出现的问题及解决策略。
一、搜索引擎及其基本原理
搜索引擎是Internet上具有查询功能的网页的统称,是获取知识信息的工具。随着网络技术的发展,搜索技术逐渐完善,搜索引擎已广为人们使用。任何搜索引擎的设计,均有其特定的数据库索引范围、独特的功能和使用方法,以及预期的用户群指向。它是一些网络服务商为网络用户提供的检索站点,它收集了网上的各种资源,然后根据一种固定的规律进行分类,提供给用户进行检索。
搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间进行搜索,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法,通常根据网页中关键词的匹配程度,出现的位置、频次,链接质量等计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
二、网络信息检索技巧
3.1加强对因特网的管理
从以上问题,我们可以看出,因特网存在着问题,很大一部分是因为网络监管的不利造成的。因此,国家要加强宏观政策调控,并制定相应的法律法规政策,以法律条文的形式强制性规范网络,从而维持因特网秩序,保护网络环境。同时我们也应该加强公民的思想道德教育,将以德治网和以法治网有机地结合在一起,不断促进网络安全的发展,进一步减少网络诈骗等事件的发生。
3.2选择合适的搜索引擎及关键词
因为每个用户的需求不同,所以在选择搜索引擎时要综合考虑自己的需求,不能盲目地选择。如前文所说,搜索引擎分为关键词搜索引擎和目录搜索引擎。而信息检索最基本的要求就是选择合适的关键词,尤其是在使用关键词搜索引擎的时候。如果输入的关键词和用户所需要的准确信息联系不大,则用户很难迅速地找到自己需要的信息。所以这需要用户选择 富有特色的、合适的关键词,不能使用太过宽泛的词,尽量接近自己需要的信息,同时也应尽量避免拼写错误等低级错误。
3.3提高使用者检索专业水平及选择适合的数据库
要提高使用者的检索专业水平,就要对使用者进行相关信息检索的专业培训。培训的目的主要在于让使用者跳出传统的检索思维范畴,熟悉并能熟练运用新的检索技术,不断满足使用者日益增长的信息检索需要。同时使用者对于检索的范围等要有一个大概的了解,如果搜索出来的结果较多,则要适当减小范围;如果检索结果很少,则适当增大范围,对自己的检索策略做出及时调整。另外,根据检索的内容的范畴来选择合适的数据库是很重要的环节。而现有的数据库种类繁多,这也需要用户进行合适的选择,并迅速地找到主题分类目录,进而更准确地进行检索。
三、在实践中充分利用丰富的网络信息资源
搜索前,首先要分析一下自己的搜索需求,然后再选择关键字。在搜索过程中,关键字的选择充满着反复性,在搜索的过程中,切不可急躁,应该不断的筛选,分析所选择的关键字,直到找到满意的关键字为止。在搜索收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。如果搜索都能做到这样,搜索效率会不断的提高,网络信息资源会得到更多和更好的利用。此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录,就是要分门别类地存放在相应的目录中,用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索。总之,在网络信息资源检索的过程中,要耐心、细致、多角度思考,不忽略每一个检索点,只有这样,才能圆满完成检索任务。
四、网络信息检索的发展趋势
(1)信息检索的多样化。其具体趋势表现为:网络检索信息的形态多种多样;多媒体信息检索变得普遍;网上检索工具向其他服务范畴扩展,以各种形式满足大众的信息需要。
(2)信息检索的智能化。智能化信息检索是当今信息检索技术研究的热点问题之一,也是未来信息检索主要的发展方向。可以使用户得到能够直接加以利用的信息,它是建立在一个或多个专家系统基础上的信息检索系统。
(3)信息检索的专业化。专业化信息检索是指面向某一特定专业或学科领域,提供高质量的专业信息的检索。可以提高检索速度,和信息专指度,加大检索深度、力度,从而提高全=面和准确。
参考文献:
[1]鄢百其等,网络信息检索技巧及析疑[J].武汉科技大学学报(社会科
《网络信息检索与利用》实习报告 篇5
实习报 告
学院 班级: 姓名 学号:
1、利用CNKI检索该课题:关于海南国际旅游岛制度建设方面的文献。
抽取检索词:海南 国际旅游岛 制度 体制
构建检索式:SU=(海南and 国际旅游岛)AND SU=(制度 or体制)
检索过程请截图示意:
检索结果(保留3条切合的题录
[1] 孟建力.海南国际旅游岛旅客购物离岛免税制度研究[D].海南大学,2011 [2]钱新梅.海南国际旅游岛离岛免税购物法律制度研究[D].海南大学,2012 [3] 邹立刚.海南国际旅游岛购物制度及其完善[J].海南大学学报(人文社会科学版),2011
2、利用万方数据库检索该课题:关于大学英语四级和六级方面的学位论文。
抽取检索词:大学英语四级 大学英语六级
构建检索式:SU=(“大学英语四级”)or(“大学英语六级”)
检索过程请截图示意:
检索结果(保留3条切合的题录)
[1] 陈建蕊.基于语料库的大学英语四级与六级作文中的态错误分析[D].河北师范大学,2011.[2] 黄萍.大学英语六级考试成功通过者考试策略个案研究[D].扬州大学,2011.[3] 宋艳.英语专业四级与大学英语六级听力理解难度对比研究[D].西南交通大学,2010.3、利用维普数据库查找对袁行霈主编的《中国地域文化通览》各省、自治区、直辖市分卷的书评。
检索过程请截图示意:
检索结果(保留3条切合的题录)
[1]李建平[1,2],地域文化研究的重要收获--评《中国地域文化通览·广西卷》.沿海企业与科技,2014,(1)
网络信息检索结课论文 篇6
中国文献信息资源及其检索工具体系
大体了解中国文献信息资源的数量:2-3页;
类型:图书、期刊、报纸、会议论文、学位论文、研究报告、政府出版物、档案文献等。
按加工情况分,可有一次文献、二次文献和三次文献;按载体形式分,可有书写文献、印刷文献、缩微文献、音像文献、机读文献等;按内容的学科范围分,则有社科文献、科技文献等。
把握一次文献、二次文献、三次文献的概念,3页;
工具书的概念:工具书是一种汇集、编著或译述的材料,按特定的方法加以编排,以供解疑释难时查考之用的图书。4页;
其与普通图书的区别:内容的概述性、编制的查考性、条目排列的易检性;
理解数值型数据库、事实型数据库、文献型数据库等基本概念:6页;
检索工具的三大特点:电子版检索工具的五大优势:
三大特点:从内容上看,检索工具强调比较全面系统地汇集、记录某一方面的知识或材料;从编排上看,检索工具强调必须按照特定的方法对内容加以组织编排;从编纂目的上看,检索工具强调主要是供人们有目的地检索查考,而不是系统阅读。简单地概括,检索工具在内容上具有完整性,在编排上具有易检性,在目的功用上具有查考性。P6
五大优势:具有强大的检索功能;检索工具和文献信息资源本身二位一体,一次文献和二次文献零距离;强化了对文献信息资源内涵和内在联系的深度揭示;提供全方位、立体化的信息;内容更新周期短、速度快。P7 使用检索工具的基本技术方法
掌握重点概念:印刷版工具的主要排检方法
A.检索词:10页。包括字段词和任意词:11页。结合实例理解扩大检索次遴选范围的方法:循环衍生法(定义衍生法、语素衍生法、语境衍生法):13页。
B.二次检索:13页
C.布尔逻辑检索(逻辑“与”、逻辑“或”、逻辑“非”以及具体的应用)、截词检索(前截断、后截断)、嵌入检索(符号“?”和“!”)、位置检索(在检索系统中的应用)。14页。
D.自然语句检索21页、相关检索22页;搜索引擎结果输出限定方法23页;
相关度:相关度是指检索结果与输入的检索语词在内容上关联的疏密程度,由计算机根据词语主题关联分析技术自动处理完成。24页;
文献信息资源利用中的学术规范
文献信息资源利用学术规范及其基本原则是什么? 九项基本原则
答:所谓学术规范,是指学术共同体内形成的进行学术活动的基本伦理道德规范。一般地讲,它涉及学术研究的全过程,学术活动的各方面。基本原则:(1)所有的专门性研究,都应该依据已有的文献对相同或相关方面的研究成果、研究状况作出概略性的说明介绍;(2)对已有文献任何形式的引用,都必须注明出处;(3)原则上不采用间接引用方式;(4)引用以必要、适当为限;(5)引用不得改变或歪曲被引内容的原貌、原义;(6)引用原则上使用原始文献;(7)引用原则上使用最新版本;(8)引用标注应完整、准确地显示被引作品的相关信息;
(9)引用网络资源注意其“动态性”。P24~30
把握文献信息资源利用的引证标注方法(3种情况:注释、引文出处、参考文献)31页;
对于中国三大规范,要了解各自基本规定、特点和局限,会具体使用,能够对别人的使用加以评价。
了解相关概念:、文献类型及载体类型标识(熟悉常用标识)、电子文献的可获得地址。
第2章 辞书资源与汉语字词的查考
中国辞书的演进源流
了解基本概念:字典、词典、语文性字典词典、学科词典、专名词典、辞书、字书、韵书、训诂书等;
较为完整的中国辞书体系形成的标志:
基础性、权威性汉语语文辞书已经形成系列,汉外对照的双语辞书基本覆盖了所有实用语种,学科性辞书基本覆盖了所有主要学科,辞书的品种、类型多样化,辞书的功能。效用特定化,辞书的社会认知程度明显提高。P46
了解中国辞书发展演变的概略线索:古代形态的字书向近代形态的字词典转化的标志、以字带词分条释义的编纂方法、较为完整的中国辞书体系基本形成的标志、中国辞书发展的新趋势——电子词典、网络词典。
中国辞书的结构体例与编纂传统
特别是以字带词(统领字、被统领字)、分条释义、书证和例证、三段标注法、反切等概念。
中国特色的编纂传统是什么?
答:以字带词:汉语语文字典、词典对词条的编排组织,一般采用“以字带词”的方式——先列出单子词条,然后带出一系列包含了该单字的词语词条。分条释义:一个义项作为一条,分别列举,逐一解释。一般是本义居前,然后引申义、假借义依次排列; 书证和例证:语文字典、词典对单位字词每一个义项的解释,一般都要求举例,以证明该字词确有该意义。引自书面文献的例证,一般称为“书证”;引自当代口头通行语的例证,直接称为“例证”或“例句”; 因声求义:汉字的现代读音和古代读音的标注,古代读音标注采用三段标注法、反切等; 总之,从编排体例上看,中国的字典、词典在古代字书阶段就已形成了先注音、后释义,以及字义有序排列、释义列举书证等规范,并且在义项排列、引用书证等方面形成了优良的传统。发展到现代字典、词典阶段,编纂体例上的最大变化是形成了“以字带词,分条释义”的表现形式,中国字书编纂的优良传统在这一形式中得到了继承和发展。
掌握有关电子词典的深度开发以及网络词典的特点。
代表性中国辞书
了解课本本节中介绍的几种辞书在中国辞书发展史上的重要地位和重要价值,及其最突出特点。
《新华字典》、《现代汉语词典》、《辞源》、《辞海》、《汉语大字典》、《汉语大词典》、《康熙字典》、《说文解字》 掌握电子版词典(以《汉语大词典》、《康熙字典》为例)的基本使用方法及其主要特点和优势;理解与电子版词典有关的特殊概念:关联字、字信息、正笔顺、逆笔顺。
《辞海》和《辞源》的特点 答:
《辞海》的主要特点:在选收词语上,以解决一般人在学习、工作中质疑问难的需要为主,并兼顾各学科的固有体系;在释文内容上,以介绍基本的知识为主,并注意材料与观点的统一。P57 《辞源》的主要特点:在收词上,以语词为主,兼收百科,以常见为主,强调实用;在释义上,结合书证,重在溯源。“溯源”是《辞源》的本质特点。通过对文献证据(尽可能是出自“始见书”的证据)的梳理分析追溯词语意义发展演变的源流,义项排列反映字词本义、引申义、通假义的发展递变,书证排列严格以出现先后为序,标注统领字的古代读音,这些都是《辞源》“溯源”特点的鲜明体现。P58
第3章 古籍资源与基本古籍的查考
中国古籍资源
对古籍资源本身要有一个大概的了解,了解经史子集等概念
图书分类法的演进
十三经、二十六史
基本古籍的全文检索系统
十三经、《十三经索引》,文句索引
重点掌握文渊阁四库全书电子版和“二十五史”全文阅读检索系统的基本概况和基本检索方法(全文检索),二十六史的人名索引、地名索引、书志索引、综合索引能够灵活应用,特别注意汉字关联功能的开启与关闭。
了解二十四史、二十五史、二十六史、正史等概念,了解四库全书、四库全书总目的概念,四库全书简明目录和四库全书总目的关系等。
《四部丛刊》的基本情况
古籍流传与古籍版本
中国目录“辨章学术、考镜源流”的传统、划时代意义的古籍目录(《汉书·艺文志》,《隋书·经籍志》),《四库全书总目》、古籍版本,善本的界定;善本的判断标准“三性九条”、《中国古籍善本书目》、《中国善本书提要》基本情况 古籍版本:是指一部古书经过多次传写或刊印所形成的不同的书本形态。
古籍丛书与类书
丛书定义、《中国丛书综录》的基本情况、了解类书的定义及其特点、代表性的类书。
类书的作用:
答:要点:(1)系统收集参考资料;(2)查考词语和典故出处;(3)校勘考证古籍,辑录古籍佚文;P123~124 P105(要展开论述)
“以韵统字、以字隶事”的含义:
以韵统字,说的是类书的整体架构不是一个分类系统,而是一个按古韵目的既定成规统摄同韵单字的韵目系统;以字隶事,说的是类书汇聚的具体资料,不是隶属于分类系统的类目之下,而是隶属于韵目系统中由韵脚字构成的词语之下。P1
21第4章近代以来的图书资源与查考
书目检索工具
国家图书馆联机公共目录查询系统148页;中国高等教育文献保障系统(CALIS)150页;“词临近”150页。了解民国时期总书目、中国国家书目的内容、特点、功用。
电子图书系统
明确电子图书与电子图书系统的概念,掌握电子图书系统的特点。155页;
电子图书:电子图书是指利用计算机阅读平台或手持阅读设备阅读的数字化图书。
掌握教材上介绍的4大代表性中文电子图书系统的特点、优势、区别。
答:方正Apabi数字图书馆:数字版权保护技术;超星数字图书馆:目标将所有有价值的图书数字化,不仅仅提供获得作者直接授权的电子新书;书生之家数字图书馆:以提供1999年以后出版的数字化中文新书为主要特色;中国数字图书馆:主要依托国家图书馆的文献资源进行数字转化。
掌握电子图书系统的使用方法,注意三大步骤。159页;
掌握中文电子图书系统的检索功能,注意目次检索162页与全文检索163页。
了解电子图书系统专用阅读器的功能164页;
现代百科全书
了解百科全书的概念169页、分类172页;了解百科全书发展的三个阶段169页;
我国百科全书检索工具体系基本形成的标志:
答:以综合性百科全书为主体,以专业性和地方性百科全书为两翼的百科全书体系初具规模,代表国家水平的综合性百科全书与国际惯例接轨的连续修订制度已经建立起来;百科全书的品种、类型、载体形式已经呈现多元发展的格局,基本可以满足不同的利用需求。P17
2重点、深入掌握百科全书的特点(概述知识条目化173页、条目编排词典化174页)
百科全书的特点:
要点:简单地概括:概述知识条目化,条目编排词典化 概述知识条目化,包含:(1)百科全书的内容是对知识体系中的知识点进行总结性概述。(2)概述知识的基本单元是条目。百科全书的条目一般由条头、释文和参考书目构成。(3)条目应该是独立的概念或完整的知识主题(4)条目必须具有检索意义。条目编排词典化:(1)条目按标题的字母顺序排列(2)有完备的参见系统(3)有完备的检索系统 P173~175(要展开)
理解掌握百科全书与百科词典、类书的区别175页;了解三种代表性百科全书各自的主要特点176页-180页
第5章 报刊资源与论文资料的查考
数字化报刊资源及其检索系统
掌握5大代表性数字化报刊资源检索系统的内容、特点、功能及使用方法,注意彼此间的比较。181-204
需要注意的检索方法:类聚检索185页、检索词字段(或称索引词字典)187页、同义词扩展、检索词的优先处理、关联检索、检索结果排序
掌握检索式的形成和理解:能把问题变成数据库系统可以执行的检索式;面对检索界面显示的检索式,能理解其含义,明白检索的结果是什么,知道如何进行检索。
报刊引文检索系统
引文索引:引文索引是一种通过文献的引证关系检索相关文献的索引。
208页,理解有关引文检索的一些基本概念:被引率、自引率209页、总被引次数、影响因子、即年指标、被引用半衰期、出版时滞211页、来源文献检索213页、被引文献检索251页。
掌握中文社会科学引文索引(CSSCI)212页、中国科学引文数据库(CSCD)217页的内容、特点、功用
第6章 时事信息资源与事实、数据法规的查考
网站资源及其检索利用
网站资源检索的策略与方法:
答:
1、要从整体上了解不同类型的网站容纳的信息资源的不同特点;2需要了解网站中文献信息资源的组织结构和方法;3充分利用网站提供的检索功能。(适当展开论述)P232-239
网站资源检索的策略与方法如下:
第一步:分析检索主题,从而决定从何处开始进行检索。
分析检索主题可以从以下几个方面着手进行:
检索主题中是否含有专有词汇或短语?不含有专有词汇,只有那些容易导致检索结果不符合检索要求的较普通的、泛指的词汇和短语。检索主题涉及的主题范围较宽泛。检索主题是关于某一较宽主题范围的某一方面。使用的检索词有同义词、近义词,或是有词形变化。
第二步:选择合适的网络检索工具。
根据不同的检索需求,选择使用搜索引擎、主题指南或者专题数据库,有时可能还要请专家帮忙,解决检索问题。如果以上都不可能实现,检索专家告之的最后一招就是凭运气搜索,其实这里所谓的凭运气就是边检索边学习边摸索,谁在一开始都不可能是检索能手,只有不断操作实践,才能真正领悟检索的奥秘。
第三步:边检索边学习。
不要认为在检索之前你就知道你要查找的所有东西,最应该做的工作是看一看上一次的搜索结果,是否还需要对已构造好的检索词或检索式进行必要的修改。
第四步:学会放弃那些没有效果的检索策略。
搜索引擎、主题指南可灵活换着使用,也可以使用与检索主题相关的专题指南,或者使用数据库。
第五步:回过头去试一试前面的检索策略。
经过多轮检索策略的修改和应用,也许在前面使用的检索策略比较有效,那么再回过头去试一试前面的检索策略。总之,该网站的特点是学术性强,适合于学生及专业人士浏览。它是众多著名大学所开辟的介绍检索知识的站点中最为出色的一个网站。
年鉴资源及其检索利用
年鉴:是一种全面记述事业的年度发展,系统汇集年度重要时事文献信息,逐年编辑、连续出版的资料工具书。特点;240页 年鉴的栏目与条目243页;年鉴条目的要求;年鉴条目的基本特征和基本属性243页
了解电子版年鉴的主要优势251页和中国年鉴资源全文数据库的特点257页
法律资源及其检索利用
了解法律资源分布情况261页;了解法律数据库的检索特点265页。目录、索引、文摘属于(B)A.A.一次文献B.B.二次文献C.C.三次文献正确
2.(B)是中国古代字书发展史上第一部明确以“字典”命名的字书。
A.A.《辞源》B.B.《康熙字典》C.C.《说文解字》D.D.《汉语大字典》
3.下列哪个不是构成查考清代乾隆年间以前中国古籍的具有“划分阶段”意义的三道重要关卡。(D)
A.A.《汉书•艺文志》B.B.《隋书•经籍志》C.C.《四库全书总目》D.D.《古今图书集成》
4.查考1911~1949年间国内出版图书的总结性书目的工具书是(C)
A.A.《中国国家书目》B.B.《中国古籍善本书目》C.C.《民国时期总书目》
5.下列逻辑运算次序最优先的是(C)
A.A.逻辑“与”B.B.逻辑“非”C.C.放入符号“()”(半角)中D.D.逻辑“或”
6.年鉴的条目必须是(A)
A.A.事实主题或资料主题B.B.语词主题C.C.知识主题D.D.概念主题
7.在年鉴标题制作的技术方法上,一般遵循(A)原则
浅析网络环境下信息检索技术 篇7
1 在开放的网络环境之下所采取的信息检索方法
1.1 目录型网络资源检索工具
该种类型的网络检索手段其实就是通过网络检索技术工作对信息资源的分类、选择与整理,而研制出的一个款既具备信息资料查询功能同时也可以进行网页浏览的软件。之所以能够实现这项功能是因为于专业技术工作者在后台构建了一个巨大的信息资料检索中心,然后对目标信息数据进行分类、整理,紧接着将它们录入信息资料中心,满足网络使用者的氺索所求。随着社会的进步,技术工作者在录入网络数据资料的时候,要将目录的范围进行精简,能够提高使用者在检索信息数据过程中效率。这种检索措施由于有技术工作者的控制,所以整个氺索过程具有很强的关联性,不过由于某些因素的约束,构建的信息资料中心依然比较小,所以其能够容纳的信息资料十分有限,不利于系统管理工作者的工作能力的提高。
1.2 索引型网络信息资源检索工具
在所有的检索行驶中该种类型的检索方式最为常见,也就是网络使用者将与搜索目标相关的关键词输入到搜索引擎中就能在最短的时间内找到与其期望的相关知识,只需要稍微加以选择就能得到自己想要的信息数据。和前面两种检索方式相比,这种检索方式而言具有明显的优势,简单节省时间,并且搜索的范围所受限制较小,可以让使用者在同时获得大量相关信息。
2 信息检索时存在的问题
2.1 长时间只适用 1~2 个搜索引擎
现阶段,随着信息技术的飞速发展与不断进步,互联网中已经有多种类似的搜索方式不断地涌现,并且每一种软件都具有不同的优势。不过在网民网游的时候,一般都会弹跳出1~2个搜索引擎,作为网民的信息查询方式,在了解不深入的情况下影响检索的效果。
2.2 很少使用或者并不了解布尔运算符号和高级搜索语法
通常情况下,网民在进行数据资料查询之前,首先要做的是键入一个问题,所以搜索引擎不但要满足网民对数据资料查询的要求,还要经过提前对相关信息数据进行划分。在键入问题的时候,软件设计中的布尔运算符号要做到及时合理地对键入的问题进行分配组合,一边网民能够以最高的速率找到需要的信息数据,不过现在,很多网民对此并不了解,所以在查询资料的时候不大使用该种方式。
2.3 粗略查看已搜索到的信息资源
网络使用者在利用搜索引擎查询数据资料的时候,会有很多相关信息出现,按照通常习惯他们只会注意到排列在最靠前的几条,这就导致后面一些有价值的条列根本无法引起注意。
3 搜索引擎的工作原理
我们可以将该项工作的原理简洁地概括为 :网页抓取→索引信息中心的构建→搜索排序。网页的抓取利用能够从互联网上自动收集网页的Spider(又名为 :Robot,Crawler,Worms,Wanders)系统程序,方便与自动信息回应,然后搜索蜘蛛会从主要网页爬到相关网页上,不断地重复这一活动,实现所有相关网页的集合。
查询方式 :(1)正确抓住关键词。因为搜索软件毕竟跟人的智力无法比较所以它在功能上具有一定的固化性,只能对一些关键性的词语比较敏感,所以,这种匹配相对比较盲目,在关键词的确定过程中只能按照预先设定好方式来进行,只有这样做才能提高检索效果。(2)为了提高准确率可以将双引号应用到其中。若是信息查询者需要对一个词语进行检索,那么他可以把这个词语用双引号或者是括号进行处理,那么他的检索结果在一定的程度上能够提高准确性。(3)为了限制查询的范围,检索者可以在关键词上加号(+)、减号(-)以达到限定范围的作用。在需要搜索的内容前加上(+)表示在搜索的结果中必须要包含这个词语,用减号(-)表示搜索结果中不能出现该内容。(4)使用逻辑词辅助查找。通常可以在大型搜索引擎的使用者中可以看到该种方式的使用,常用的有 :AND(和)、OR(或)、NOT(否)及NEAR(两个单词的靠近程度),使用这种方式能够提高搜索结果的精准性。
4 网络环境下信息检索技术
4.1 选择合适搜索引擎
信息科学技术的不断发展,高科技更新换代的速度也在不断地提高,市面上有越来越多搜索引擎不断地涌现出来,不同的款式其性能各不相同,在这种情况我们如何才能挑选出真正适合自己的一款那?有很多互联网使用者可能会有这样的想法 :只要能够让我查询到想要的信息使用哪一款其实根本无所谓,但是这种想法其实并不正确。这是因为,不同的搜索引擎因为规格的不同所以其中所含数据库囊括的信息数据规模也不同,有的大有的小。但尽管如此,大型的搜索引擎的数据库在互联网上所占据的空间还不到30%,所以我们在信息查询中可以选择不同的引擎来查询信息,但是不同的款式其最后的查询结果也会有所不同。
4.2 编制正确合理的检索表达式
现阶段,有很多互联网使用者在氺索信息资料的时候,通常使用搜索引擎的方式都是首先键入关键词,然后通过这种方式来找到更多的相关资料,从而达到信息检索的目的的,为了能够更快获得你想要的信息资料,同时还能保证资料的正确性与时效性,首先要做的是正确编制出一个检索表达公式。通常情况下,一个完整的检索表达公式由以下三个要素构成,这三个要锁分别是主题词、辅助词、外部特征限制。三者缺一不可,必须同时具备才能保证检索结果的准确性
4.3 灵活使用搜索引擎的特色服务
就现在的发展状况来说,在互联网中款式不一样的搜索引擎其所能发挥出的效能也有所不同,有的搜索引擎还增加了天气查询功能以及货币置换等多种作用,这些功能的增加为我们获得更多知识与信息数据提供了方便。
5 结束语
在互联网为我们提供的服务中,信息检索其实是规模最大,性能最好的一项。随着知识经济时代的到来,互联网搜索引擎为我们提供了一个快速便捷的渠道来获得所需的知识,方便我们的生活、工作和学习。虽然随着电脑的不断普及越来越多的人开始选择通过这种方式来进行学习,了解社会,了解生活,但是人们对搜索引擎的认识也只是停留在使用阶段而对其的理解并不多,并不能够更准确、更快的获得信息。本文希望通过这次分析能让更多的人对此有一个理性客观的认识,以便更好的使用这一学习渠道,获得自己所需要掌握的信息。
摘要:随着时间的推移,我国经济技术的快速发展,互联网技术的普及,现在,人们越来越离不开互联网,人们也逐渐的在网络上通过信息检索的形式获得自己想要的信息,这样不仅可以解决查找的时间,同时还能准确的获取相关的知识。文章对网络环境下对信息检索技术进行简要论述。
网络信息检索结课论文 篇8
关键词:Prefuse 社会网络 知识图谱 信息检索 合作网络
中图分类号: G254.9 文献标识码: A 文章编号: 1003-6938(2012)05-0079-06
近年来,随着多种知识图谱分析工具的出现,一些研究者利用知识图谱软件(主要是CiteSpaceⅡ)对信息检索学科进行了分析,如Rorissa A和Yuan X(2011)在2000~2009年数据的基础上用CiteSpaceⅡ对信息检索学科进行知识图谱构建和学科分析[1];国内同样有学者利用该软件对信息检索的子领域进行分析,但这些研究存在数据源时间跨度短、在一定程度上依赖于知识图谱软件的功能,而且未对信息检索学科合作网络进行分析研究。通过上述考虑,本文尝试一种新的知识图谱框架,基于该框架通过社会网络算法构建信息检索合作网络并进行解读,以便为国内外从事信息检索研究的有关学者提供参考借鉴。
1 基于Prefuse的知识图谱系统设计
2005年,Heer J、Card SK、Landay JA三人共同撰文提出了Prefuse的信息可视化框架[2]。Prefuse为数据建模、数据可视化以及用户交互提供了丰富的软件库,可以支持表格、图和树显示,还具有支持动态显示、动态查询等功能。Prefuse基于传统的MVC架构进行开发,其可视化时需要经过如下处理过程[3]:
(1)抽象数据(Abstract Data)。Prefuse对数据进行可视化的首要步骤是获取数据,并为数据提供了指定的接口和程序,可以显示表、图和多种树形结构。本文主要使用XML格式的数据,通过把数据转化成XML格式,如DOITrees、GraphML、TreeML格式,完成抽象数据的处理过程。
(2)数据过滤(Filtering)。主要是将抽象数据进行提取、转化,使其适用于显示。首先选取要进行可视化的一系列元素,如一个图形或显示在散点图上的重点区域。然后形成一些可视化的属性(称为VisualItems),如源数据中显示的文字、数字,显示时的坐标点、颜色、大小等等。然后通过Action提供为上层组件。
(3)数据渲染(Rendering)。即图形绘制的过程,可视化元素(VisualItems)通过渲染器(Renderers)绘制到屏幕上,其中用到上面形成的组件如颜色、位置、大小等等。Prefuse实现了一些基本渲染器,通过渲染器工厂RenderFactory进行管理。
(4)交互显示(Interactive Display)。功能由Display组件完成,用于显示ItemRegistry中注册的组件。可视化交互功能通过ControlListener接口实现,主要是提供对鼠标、键盘的监听功能。
本文通过对数据的预处理、数据抽取、矩阵形成,进行聚类或社会网络以后,把生成结果转化成Prefuse可支持的TreeML、GraphML格式,借助Prefuse可视化框架,完成聚类显示、社会网络显示的功能。
2 信息检索学科分析的知识图谱构建
2.1 数据源获取
本研究数据来源于Web of Science的SCI-EXPANDED、SSCI、A&HCI、CPCI-S、CPCI-SSH数据库,用“Information Retriev*”作主题检索,检索时间选择20世纪50年代至今(截止至2011年11月25日),词形还原打开,得到的检索结果共计46561条记录。以此作为构建信息检索学科知识图谱的数据集,以下简称为“数据集”。
2.2 数据处理
(1)提取作者数据。在原数据库中,通过数据表paper的“authors”字段,可以获得每篇文献的作者数据,在作者字段中,为方便去重和区别不同作者,每个作者姓名以数据集中提供的全名进行表示,当文献是合作文献时,作者之间以分号进行分隔。选择paper的“authors”字段的所有数据,通过编程对获取的每个作者条目进行切分,从而得到所有作者数据。
(2)构建合作者对应关系。建立表author_author,其中包括两个字段“firstauthor”和“secondauthor”。通过处理,共得到548,182条作者与作者对应数据。在构建“作者——作者”对应表时,第一作者与第二作者及其他作者不分权重,即所有作者的重要程度相同。构建作者与作者对应关系表时,通过对步骤一获得的每一条合作者数据进行遍历,得到作者与作者对应关系。
(3)生成合作者数据。对表author_author中的数据,根据“firstauthor”字段进行分组合并,对“secondauthor”进行合并,合并过程中剔除重复元素,“secondauthor”对应数据以分号进行连接,同时统计出每个作者的合作次数,然后将合作者数据插入表coauthor中。
处理完成后,共得到96,778个作者的合作者信息,其中与其他作者合作频次最高的为Bryant, Stephen H.,合作频次为245。与其他作者合作频次达到200次以上的作者共22人(见表1)。
2.3 合作者网络构建
由于本文的研究重点是确定合作者中的团体和其研究内容,所以文中采用无向无权网络,构建过程如下:
(1)定义社会网络数据结构。合作者网络的定义包括节点、边和社会网络三个部分。节点包括aid和aname两个字段,为网络中最基本的构成元素,由类Node表示;边由节点和与该节点关联度为1的节点的集合构成,其中与该节点关联的节点数即为该节点的度,由类Edges表示;社会网络由节点的集合和边的集合两部分构成,其中社会网络还可以获取子网络,由类SocialNetwork表示(见图1)。
nlc202309032218
(2)构建合作者网络。合作者网络的构建根据数据库中的合作者表coauthor和作者文献产量表author_paper进行构建,合作者网络的节点基于合作者的合作频次和每一位作者的文献产量进行选择,然后根据其合作情况提取边信息。在coauthor表格中有96,778条合作者信息,表author_paper中存储有数据集中所有作者的文献产量信息,共100,985条。
由于本文的研究目的是提取代表性的合作者社团及其研究方向,所以在合作者数据中作者提取了合作频次超过53的前300条合作数据;另一方面,为了减少网络复杂度高从而导致信息表征的不足的影响,仅提取文献产量在10以上的作者,共407位高产作者。
以上步骤具体由类SocialNetworking完成(UML结构见图2)。通过合作者网络构建,共得到142个节点和71条边。
(3)获取合作者群体。在得到的合作者网络中,每个子网络代表一个合作群体,通过获取子网络,可以得到合作者网络中最大合作群体以及其他合作群体。通过对各群体中的节点数、各节点的度、以及作者、作者发表的文献特征进行提取,可以获得各个合作群体的研究重点、研究特征等特性。
本文对合作群体的获取,通过社团结构搜索算法进行,算法具体在SocialNetworking类的getSubNetWorkNodes方法完成,经过对合作者网络的合作群体进行搜索,共得到21个合作群体,节点数最多的合作群体包括45个节点,节点数为22的群体有1个,节点数为11的群体有2个,节点数为5的群体有2个(见表2)。
[子网节点数\&45\&22\&11\&5\&4\&3\&2\&\&子网数\&1\&1\&2\&2\&2\&9\&4\&共计21个\&][表2 合作群体数及相应节点数]
2.4 知识图谱生成
对社会网络的可视化基于GraphML文件和Prefuse可视化框架进行。首先需要把上一步生成的合作者网络转化为进行可视化的GraphML文件,然后通过Prefuse框架提供的可视化接口,对GraphML进行读取、渲染以及最后的展示。详细流程为:
(1)生成可视化表征文件。采用GraphML进行图形描述。GraphML格式最初由GML转化而来,符合XML语言规范。通过编程将得到的合作者网络数据进行转化,转化为GraphML格式的文档(结构见图3)。
(2)知识图谱显示。生成代表类别的GraphML文件以后,就可以通过Prefuse所提供的可视化组件进行图谱显示了,完成信息检索合作者网络的知识图谱绘制。
从整个合作者网络图(见图4)可以看出整个网络图可以分为不同的子图,对其中各个子图的节点分布并不均衡,最大的子图有45个节点(见图5),位于图中央,依次是有22个节点的子图(见图6),最小的子图仅仅2个节点,位于整个图的边缘。
3 信息检索合作网络知识图谱的解读
3.1 整体合作网络特性分析
其中,fj表示合著者人数为j的论文数;N表示论文总数,k表示合著者人数的最大值。
经过统计,在得到的46,561条数据中合著文献数达到38,506条,占文献总数的82.70%,所以合著率为82.70%。其中合著人数最多的文献有54个作者,合作者人数分别为2人、3人和4人的文献数及所占合著文献比例如表3所示,这三种情况共占合著文献的79.13%。通过计算得到其合作指数CI为2.99,说明篇均作者2.99人。
3.2 最大子网络分析
针对合著网络中的节点最多的两个子网络进行具体分析,包括节点的度分析和子网络中的合著子群分析。
通过编程统计,得到两个子网络中每个节点的度,表4显示了节点数为45和22的子网络中度数较高的前10为作者。
图7中以径向图形式显示了节点数为45和22的合著网络子图,结合表4,可以从图中直观的看到以Zhang, L、Sprink, A和Schacter, DL为中心,组成了网络中规模较大的科研群体。节点数为22的子图中形成了整个网络中节点数最多、边最为密集的凝聚子群,在这个凝聚子群中,节点度数最少的是Kohler, S和Markowitsch, HJ,度值为3,Tulving, E和Cabeza, R节点度值最大为9,共有10个节点,平均节点数为6.2,该凝聚子群是信息检索领域凝聚力最强的合作群体,是信息检索研究的重要科研群体。
[节点数为45的子网络\&节点数为22的子网络\&节点姓名\&节点度\&节点姓名\&节点度\&Zhang, L\&8\&Cabeza, R\&9\&Spink, A\&8\&Tulving, E\&9\&Zhang, Y\&6\&Houle, S\&9\&Huang, HL\&6\&McIntosh, AR\&8\&Li, J\&5\&Schacter, DL\&7\&Ma, WY\&5\&Craik, FIM\&6\&Zhang, J\&4\&MOSCOVITCH, M\&5\&Liu, Y\&4\&Nyberg, L\&5\&Chen, J\&4\&Nilsson, LG\&5\&Zhang, HJ\&3\&Rugg, MD\&4\&][表4 节点数为45和22的子网络
nlc202309032218
中度数较高的前10为作者]
3.3 合作网络研究者分析
评价科学家在网络中的地位及其影响力通常有:发表文献数、文献被引次数、度值、中间中介数等指标。本文选用发表论文数、作者被引次数和节点度值三个指标。表5显示了发表论文数、作者被引次数和作者节点度值较高的研究人员,通过表格可以看出,Sprink A发表论文数和网络中的节点度值都位于前列,Tulving E的作者被引次数和节点度位于前列,其他的28位研究人员并不存在同时在高产、高被引和高合作群体同时出现的情况,所以通过表格可以反映出信息检索研究人员在高产、高被引和高合作群体中不存在很强的一致性。
[作者\&产出\&作者\&被引次数\&作者\&节点度数\&Chen, HC\&60\&Salton G\&4145\&Cabeza, R\&9\&Spink, A\&54\&Tulving E\&1494\&Tulving, E\&9\&Zhang, J\&42\&Baezayates R\&1084\&Houle, S\&9\&Crestani, F\&39\&Belkin NJ\&1054\&Zhang, L\&8\&Schacter, DL\&38\&Vanrijsbergen CJ\&965\&Spink, A\&8\&Del Bimbo, A\&36\&Deerwester S\&767\&McIntosh, AR\&8\&Jarvelin, K\&35\&Robertson SE\&717\&Schacter, DL\&7\&Snasel, Vaclav\&35\&Squire LR\&633\&Zhang, Y\&6\&Zhang, HJ\&33\&Porter MF\&569\&Huang, HL\&6\&Rugg, MD\&32\&Anderson JR\&558\&Craik, FIM\&6\&][表5 发表论文数、作者被引次数和节点度值统计表]
4 结语
本文主要对信息检索领域的合作网络进行知识图谱构建和解析。通过数据预处理提取构建合作者网络的合著数据,然后通过社会网络算法构建合作网络,再通过编程将网络转化为GraphML格式的文件,提供给Prefuse可视化接口进行知识图谱显示,完成合作网络的知识图谱构建。在此过程中自行实现社会网络算法,实现合作者网络的提取。借助构建知识图谱和数据统计,对信息检索的合作网络进行分析,分析了合作网络的整体特性、最大的两个合作者网络、凝聚性最强的合作网络,然后对信息检索的合作网络研究者与高产作者和高被引作者进行了综合分析。
参考文献:
[1]Rorissa A, Yuan X. Visualizing and Mapping the Intellectual Structure of Information Retrieval[J]. Information Processing and Management, 2011,(48):120-135.
[2]Heer J,Card SK, Landay JA. Prefuse: A Tookit for Interactive Information Visualization[C].CHI,Portland, 2005:
421-430.
[3]Chu H. Research in Image Indexing and Retrieval as Reflected in the Literature[J]. JASIST, 2001, 52(12):1011-1018.
[4]刘鹏.科研合作复杂网络模型的研究[D].广州:暨南大学信息科学技术学院数学系, 2011.
[5]Suyeon Kim, Euiho Suh, Hyunseok Hwang. Building the knowledge map:an industrial case study[J].Journal of
Knowledge Management,2003,7(2):34-45.
[6]Ding Y, Yan E, Frazho A etc. PageRank for Ranking Authors in Co-citation Networks[J].Journal of the American Society for Information Science and Technology,2009, 60(11):2229-2243.
[7]林莉. 科研论文合著网络结构与合作关系研究[D].长春:吉林大学社会医学与卫生事业管理, 2010.
[8]李亮,朱庆华. 社会网络分析方法在合著分析中的实证研究[J]. 情报科学,2008,26(4): 549-554.
[9]张英杰,冷伏海. Twitter类网站微信息组织及用户关系网络研究[J].图书情报工作,2010,54(16):116-119.
[10]Hsinchun Chen[EB/OL].[2012-03-20].http://en.wikip
edia.org/ wiki/Hsinchun_Chen.
[11]王知津等. 十五年来我国网络信息检索研究述评[J]. 情报科学,2004,22(4):385-389.
[12]王智红等.近十年来我国网络信息检索研究主题分析[J].情报杂志,2009,28(7):1-6.
作者简介:唐蓓(1979-),女,硕士,上海工程技术大学图书馆馆员,研究方向:信息可视化;夏秋菊(1985-),女,硕士,上海工程技术大学图书馆助理馆员,研究方向:知识管理。
【网络信息检索结课论文】推荐阅读:
网络信息检索10-21
网络信息资源检索方法05-09
网络信息检索发展趋势05-10
网络信息资源检索研究08-25
网络资源与信息检索实习报告05-22
网络信息增长论文05-26
网络信息保护论文06-04
网络信息管理论文07-01
网络与信息论文07-24
网络信息技术管理论文06-28