搜索系统(共12篇)
搜索系统 篇1
随着雷达技术的快速进步, 现代雷达的种类越来越多。不同类型的雷达需要安装不同的雷达终端系统, 搜索雷达重点关注空域中的飞机、导弹等目标, 为指挥决策人员提供目标空域的空情信息。计算机技术已在雷达系统中得到广泛应用, 雷达的数据处理、目标分类、资源调度、故障监测等都由计算机自动处理完成。雷达终端系统是一套完整的计算机系统, 主要完成雷达系统中的显示和控制功能。本文介绍了一种搜索雷达的终端系统, 该终端系统由目标指示窗口和控制窗口两个部分组成, 可以满足简易搜索雷达对终端系统的要求。
1 终端系统的功能与组成
雷达终端系统主要完成目标参数录取、数据处理、显示和控制等基本功能。是雷达系统中重要的人机交互界面, 是雷达操作员的主要控制设施。主要由显控处理机、信息显示器和输入装置三部分组成。
显控处理机由主处理机、图形控制器、通信网络接口、I/O接口组成。一般采用高性能计算机作为主处理机, 它具有较强的数据处理能力和支持网络通信接口、I/O接口的扩展能力。
信息显示器用于态势显示、状态显示、表格显示等。该显示器被设计为单台显示器, 一般使用高分辨率、彩色、液晶、加固的平板显示器。
输入装置主要包括数据输入装置、控制输入装置等。数据输入装置主要包括字符数字键盘, 用于系统初始数据输入、表格调用及控制台上的自由格式信息输入。控制输入装置包括各种控制按键。
显示和控制系统作为雷达指挥控制系统的主要人机交互界面, 一方面它将经综合后的各种情报信息以图形、数据、文字、信号及图像的形式提供给雷达操作员, 同时也接受操作员的决策和控制指令。终端系统在雷达的各个状态都是监视和控制中心。
现代雷达终端系统要在雷达信号处理的基础上判定目标的位置, 还要显示信号处理上报的目标距离、角度、经向速度等信息, 还需要对目标的信息进行滤波处理, 形成目标航迹。由于雷达终端系统是由雷达操作员控制, 因此, 雷达终端的设计要尽可能简单、使用方便。
2 终端软件设计
2.1 开发工具介绍
本文介绍的搜索雷达终端系统的软件是由Delphi7开发完成的。Delphi是美国Borland公司开发的可视化软件开发环境, 提供了方便、快捷的Windows应用程序开发工具。Delphi7的集成开发环境主要包括主窗口、组件面板、工具栏、窗体设计器、代码编辑器、对象观察器和代码浏览器7个部分。Delphi7最显著的特点是高效性和稳定性, 主要体现在以下4个方面:可视化开发环境的性能;编译器的速度和已编译代码的效率;编程语言的功能及其复杂性;丰富的VCL。
2.2 显示设计
本雷达终端系统采用单显示器, 软件显示窗口包括目标指示窗口和控制窗口。其中目标指示窗口主要显示目标的航迹信息, 控制窗口显示控制命令、选定目标信息和系统状态。
目标指示窗口分为两个子窗口, 其中一个界面显示目标方位和距离信息, 另一个界面显示目标的俯仰和距离信息。通过这两个界面可以得到目标的三维信息。
控制窗口分为参数设置、目标信息和系统状态三个子窗口。其中参数设置窗口由雷达操作员控制, 可以控制雷达系统的工作状态、寂静设置、工作频率、数据保存和数据回放。其具体参数如表1所示。
工作状态中的“快速扫描”是指雷达天线采用最快的转速, 这种情况下, 雷达的数据率较高, 适合目标较近, 需要快速刷新目标信息的情况。“正常工作”是指雷达运转在正常模式下, 天线转速适中, 雷达的数据率适中, 适合常规警戒时使用。“远区搜索”是指雷达天线采用最慢的转速, 这种情况下, 雷达数据率较低, 但是雷达信号积累时间延长, 雷达可以检测出更远距离的目标, 适合目标较远, 需要更早发现目标的情况, 或者是目标较小, 需要准确测量目标信息的情况。
而对于目标信息显示窗口, 在目标指示窗口中的方位距离子窗口选定目标后, 俯仰距离子窗口显示相应目标的俯仰与距离的关系, 同时目标信息显示窗口显示选定目标的距离、方位、俯仰、速度、目标类型等信息。
系统状态窗口显示搜索雷达的工作状态, 也可以在此窗口中预留扩展接口和菜单。
2.3 显示效果
经过上面的论述, 利用Delphi7开发的软件终端显示界面如图1所示。
从图1可以看出, 这种搜索类的终端界面左侧和右上部分为目标指示窗口, 其中左侧为方位距离子窗口, 右上部分为俯仰距离子窗口。右下部分为控制窗口, 分为参数设置、目标信息和系统状态三个子窗口。点击相应窗口栏显示相应的窗口信息。
3 结语
本文介绍了一种搜索雷达终端系统的设计。该终端界面采用Delphi7开发, 分为目标指示窗口和控制窗口两个部分。可以显示搜索雷达的探测范围, 导入地图信息后, 可以真实体现雷达的巨大功能。该终端系统设计简单, 操作方便, 可以满足简单的搜索雷达需求。
摘要:笔者设计了一种搜索雷达终端系统。该系统是重要的人机交互界面, 笔者在分析了搜索雷达终端系统的功能和组成后, 介绍了此终端系统界面的开发工具Delphi7。该终端界面分为目标指示窗口和控制窗口两个部分, 在说明了每个部分的功能后, 给出了整个终端界面的显示效果图。
关键词:搜索雷达,终端,delphi
参考文献
[1]杨长春.Delphi程序设计教程[M].北京:清华大学出版社, 2008.
[2]刘代.基于Direct Draw的雷达终端设计[J].火控雷达技术, 2009 (1) :97-100.
[3]王泽伟, 贾宏进.搜索雷达建模与仿真研究[J].雷达与对抗, 2005 (2) :7-11.
搜索系统 篇2
1 系统概述
随处可见的视频监控,无非就是摄像头不停地抓拍录像。然而,一旦须要检索视频中的特定目标,人们面对的往往是在成千上万个小时的海量视频中大海捞针,传统上须要投入的人力和时间,简直让人不敢想象,也很不现实。因此,如何通过计算机程序快速从海量视频中搜索特定目标,已经成为当前视频检索和视频侦查迫切须要解决的问题。
当前市场存在的视频侦查系统,普遍仅仅是依赖于传统局限的“帧差法”、“背景建模法”、“颜色分类法”等,从视频中检测所有运动目标,开发出的系统大多停留在“视频摘要”、“视频浓缩”、“拌线检测”、“人车分类”等非常初期、浅显的检索阶段,并没有进行特定目标的搜索,在海量视频检索任务中,人工筛选工作量仍然非常巨大,甚至无法接受。此类视频检索系统,尽管有关公司宣传如何地增强案件侦查能力,实际应用效果却非常有限,经受不住实际案件的检验。
因此,近年来,越来越多的开发者将重点投入到“以图搜图”这一热点主题的研究上,希望能够取得明显进展成果。然而,因技术方面主要存在很大的困难和挑战,如同类别差异、视点变化、光照差异、遮挡问题、复杂背景等,指望单纯通过“以图搜图”计算的“图像相似度”搜索海量视频中的特定目标,研究进展举步维艰,实际应用效果也非常局限,满足不了复杂多变的海量视频侦查任务。
作者完全自主研发的“梯度视频搜索系统”,继承并突破传统图像处理技术,允许用户根据实际情况,自定义视频侦查任务,创新性地提出并构建“级联检测器检测+验证器校验”的多级多个神经网络组成的神经计算专家系统,实现海量视频“多目标多场景”的同时搜索。系统特点
不同于单纯的“以图搜图”,“梯度视频搜索系统”根据侦查任务的N(N≥1)个已知场景或M(M≥1)张已知图像,提取、处理和扩充已知视频或已知图像中的特征图像序列,将其作为样本集合训练侦查系统内核(多级多个神经网络组成的神经计算专家系统),实现海量视频“多目标多场景”的同时搜索,并且根据案件侦查的深入推进,支持已知场景的增加、删除和修改等。
“梯度视频搜索系统”首先根据已知的嫌疑人视频场景片段(已知场景可通过“梯度视频浓缩系统”检索等其它辅助方法得到),自动提取关键特征图像序列,并经一序列预处理和后处理,将关键特征图像序列扩充成不同光照、不同角度、不同变形等多种情况,形成更多的特征图像序列,将其作为样本集合,模拟人类大脑思维训练人工神经网络,最后使用经过训练的侦查系统内核,对海量视频执行搜索任务。运行环境
CPU:推荐Intel Core i5 M 460 @ 2.53GHz或更高主频的处理器或兼容处理器; 海量视频搜索与视频侦查系统
内存:2GB及以上内存,推荐8GB; 硬盘:1GB空余硬盘空间,推荐1TB;
键盘:标准101/102键或Microsoft自然PS/2键盘; 鼠标:普通或光电鼠标; 显示:14寸以上显示器;
平台:Windows XP及以上操作系统,推荐64位Windows 7。使用说明
4.1 定义侦查任务
启动“梯度视频搜索系统”,首先进入第一个页面“定义侦查任务”,如图4.1,该步骤主要是定义侦查任务根目录、任务名称和任务描述。
定义侦查任务时,请确保根目录所在磁盘有足够的空间,并确保任务名称的唯一性。任务描述则是供填写有关任务的简介和案情,这可以根据具体情况酌情填写,也可空白不写。
图4.1 定义侦查任务 海量视频搜索与视频侦查系统
4.2 定义已知场景
在图4.1中,单击“下一步”按钮,进入第二个页面“定义已知场景”,如图4.2,该步骤主要是为侦查任务定义已知场景,“梯度视频搜索系统”支持“多目标多场景”的同时搜索。
定义已知场景时,场景编号必须唯一,场景描述内容允许空白不写。
场景列表中的“视频”、“起始帧”和“终止帧”,开始时为空,其内容和取值是在后面第三个页面“选取视频片段”中定义的。
图4.2 定义已知场景
4.3 选取视频片段
在图4.2中,单击“下一步”按钮,进入第三个页面“选取视频片段”,如图4.3.1,该步骤主要是为已知场景定义视频片段。
首先单击“打开视频”按钮,选定好已知场景的视频,然后调节播放到起始帧所在的位置,单击“设为起始帧”按钮,完成起始帧的定义,如图4.3.1。继续调节播放视频,待到终止帧所在的位置时,单击“设为终止帧”按钮,完成终止帧的定义,如图4.3.2。海量视频搜索与视频侦查系统
图4.3.1 选取视频片段 – 设定起始帧
图4.3.2 选取视频片段 – 设定终止帧 海量视频搜索与视频侦查系统
4.4 预处理已知场景
在图4.3.2中,单击“下一步”按钮,进入第四个页面“预处理已知场景”,如图4.4,该步骤主要是为第五个页面“分割目标区域”做准备工作。
预处理已知场景时,单击“开始”按钮,程序全自动运行所有预处理工作。
这里,“梯度视频搜索系统”支持对M(M≥1)张已知图像(非视频片段)的预处理,可单击“从目录增加”和“从文件增加”按钮,直接增加已知图像,程序自动对其进行所有预处理。
图4.4 预处理已知场景
4.5 分割目标区域
在图4.4中,单击“下一步”按钮,进入第五个页面“分割目标区域”,如图4.5,该步骤主要是手动框取待搜索的目标在图像中的区域。
分割目标区域时,请耐心多框取一些目标区域,样本框取的多与少、好与坏,将直接影响后面的搜索速度和准确度。海量视频搜索与视频侦查系统
图4.5 分割目标区域
4.6 后处理已知场景
在图4.5中,单击“下一步”按钮,进入第六个页面“后处理已知场景”,如图4.6,该步骤主要是对手动分割的目标区域进行后处理,批量生成可供人工神经网络训练用的样本集。
后处理已知场景时,单击“开始”按钮,程序全自动运行所有后处理工作。
这里,旋转角度默认为“0,-5,5,-10,10”,裁剪因子默认为“0.5”,区域默认为“0,0,1,0.8”,可根据实际须要修改调整。
另外,在单击“开始”按钮后弹出的询问“裁剪背景边界?”对话框,多数情况下,单击“否”按钮便可,即在后处理过程中,不再自动修剪背景,保持手动框取待搜索的目标在图像中的区域不变。海量视频搜索与视频侦查系统
图4.6 后处理已知场景
至此,一个已知场景的定义全部完成。
如果还想继续定义已知场景,请单击最下方导航栏中间的“跳转”按钮,在弹出的快捷菜单中,单击“定义已知场景”,程序将直接跳转到第二个页面“定义已知场景”。
4.7 训练神经网络
定义好所有已知场景后,在第六个页面(图4.6)“后处理已知场景”中,单击“下一步”按钮,进入第七个页面“训练神经网络”,如图4.7,该步骤主要是训练多级多个神经网络组成的神经计算专家系统。
训练神经网络时,学习次数默认为1000,可根据须要调整,学得越久,将来的系统搜索准确率越高。单击“开始”按钮后,程序全自动运行所有训练工作,该过程可能须要持续数分钟,实际训练时间取决于计算机软硬件配置条件的优劣不同。海量视频搜索与视频侦查系统
图4.7 训练神经网络
4.8 执行搜索任务
在图4.7中,单击“下一步”按钮,进入第八个页面“执行搜索任务”,如图4.8,该步骤主要是应用训练过的神经网络专家系统,执行海量视频中特定目标的批量搜索和侦查。
搜索过程可能须要较长时间,实际搜索速度取决于计算机软硬件配置条件的优劣不同。搜索结束后,单击“忽略同物”按钮,进行重复同物目标图像的剔除。海量视频搜索与视频侦查系统
图4.8 执行搜索任务
4.9 浏览搜索结果
在图4.8中,单击“下一步”按钮,进入第九个页面“浏览搜索结果”,如图4.9,该步骤主要是对程序自动批量搜索到的目标进行人工筛选,形成最终的搜索结果。
浏览搜索结果时,可以根据须要过滤显示不同得分等级和排序顺序的目标图像,并可以双击每张目标图像,程序自动定位到该图像对应的原始视频位置,并可以进行倒退和前进播放,实现图像到视频的定位和回放,对人工筛选工作起到非常重要的辅助作用。海量视频搜索与视频侦查系统
图4.9 浏览搜索结果
4.10 生成报告视频
在图4.9中,单击“下一步”按钮,进入第十个页面“生成报告视频”,如图4.10,该步骤主要是对搜索结果图像进行视频剪辑处理,生成缩略报告视频。
“延时帧数”默认为100,即使用搜索结果图像在视频中前后各100帧的图像子集生成缩略报告视频,该值可根据须要修改,比如改为200。海量视频搜索与视频侦查系统
图4.10 生成报告视频
4.11 播放报告视频
在图4.10中,单击“下一步”按钮,进入第十一个页面“播放报告视频”,如图4.11,该步骤主要是播放观看缩略报告视频。
播放报告视频过程中,可以“跳转原视频”,并可对视频截取、合成和编辑。海量视频搜索与视频侦查系统
图4.11 播放报告视频 案件实测
截至2014年08月31日,“梯度视频搜索系统”已先后经过3个案件的实测:2013年04月06日江夏杀妻抛尸案、2013年08月07日武昌小区盗窃案、2014年04月11日武汉大学强奸案。
5.1 2013年04月06日江夏杀妻抛尸案
该案共有73GB约292小时的监控视频,视频格式全部为.mp4,画面质量模糊。
实测中,采用一台普通i7台式计算机,运行2个进程,搜索时间分别为:4.1小时、4.5小时,平均搜索时间为4.3小时。
在这73GB约292小时的监控视频中,通过传统人工方法检索受害人和嫌疑人,共找到6处。“梯度视频搜索系统”的搜索结果为:搜到6处,遗漏0处。
搜索结果如图5.1,第1张为受害人2013年04月05日00:49:54出来捡垃圾的截图,第2张为嫌疑人2013年04月05日00:53:01穿着短裤出来看他妻子捡垃圾的截图,第3张为受害人2013年04月05日海量视频搜索与视频侦查系统
02:52:46捡完垃圾回家的截图,第4张为嫌疑人2013年04月06日16:08:02从外面回家的截图,第5张为嫌疑人2013年04月06日19:49:29提着他妻子尸体出来的截图,第6张为嫌疑人2013年04月06日19:52:49骑电动车抛尸的截图。
图5.1 2013年04月06日江夏杀妻抛尸案搜索结果(6处)
5.2 2013年08月07日武昌小区盗窃案
该案共有90GB约117小时的监控视频,视频格式全部为.mp4,画面质量高清。
实测中,采用一台普通i7台式计算机,运行2个进程,搜索时间分别为:5.4小时、6.2小时,平均搜索时间为5.8小时。
在这90GB约117小时的监控视频中,通过传统人工方法检索嫌疑人,共找到20处。“梯度视频搜索系统”的搜索结果为:搜到21处(其中,人工已找到的有17处,人工未找到的有4处),遗漏3处。
搜索结果如图5.2(其中带有红色边框的为传统人工检索未找到的4处截图),第1张为嫌疑人作案前在第2路摄像头第1次出现的截图,第2张为嫌疑人作案前在第2路摄像头第2次出现的截图,第3张为嫌疑人作案后在第2路摄像头第3次出现的截图,第4张为嫌疑人作案前在第3路摄像头出现的截图,第5张为嫌疑人作案前在第5路摄像头第1次出现的截图,第6张为嫌疑人作案前在第5路摄像头第2次出现的截图,第7张为嫌疑人作案前在第6路摄像头出现的截图,第8张为嫌疑人作案前在第7路摄像头第海量视频搜索与视频侦查系统
1次出现的截图,第9张为嫌疑人作案前在第8路摄像头第1次出现的截图,第10张为嫌疑人作案后在第8路摄像头第2次出现的截图,第11张为嫌疑人作案前在第9路摄像头第2次出现的截图,第12张为嫌疑人作案前在第10路摄像头第1次出现的截图,第13张为嫌疑人作案前在第10路摄像头第2次出现的截图,第14张为嫌疑人作案前在第10路摄像头第3次出现的截图,第15张为嫌疑人作案后在第10路摄像头第4次出现的截图,第16张为嫌疑人作案前在第11路摄像头第1次出现的截图,第17张为嫌疑人作案前在第11路摄像头第2次出现的截图,第18张为嫌疑人作案前在第12路摄像头第1次出现的截图,第19张为嫌疑人作案前在第13路摄像头出现的截图,第20张为嫌疑人作案前在第15路摄像头第1次出现的截图,第21张为嫌疑人作案前在第15路摄像头第2次出现的截图。
图5.2 2013年08月07日武昌小区盗窃案搜索结果(21处)
遗漏3处分别为:嫌疑人作案后在第7路摄像头第2次出现(图5.2.1)、嫌疑人作案前在第9路摄像头第1次出现(图5.2.2)、嫌疑人作案前在第12路摄像头第2次出现(图5.2.3)。
“遗漏3处”的主要原因在于拍摄条件和已知场景的差异较大,这可以通过“二次搜索”解决,即:将第一次搜到的21处场景全部作为已知场景,再次执行搜索任务,便可搜到“遗漏3处”的嫌疑人目标。
“梯度视频搜索系统”支持“多目标多场景”的同时搜索,可根据案件侦查的深入推进,增加、删除和修改已知场景,执行“N次搜索”,确保搜索到的嫌疑人目标及其时空轨迹的完整性。海量视频搜索与视频侦查系统
图5.2.1 嫌疑人作案后在第7路摄像头第2次出现
图5.2.2 嫌疑人作案前在第9路摄像头第1次出现 海量视频搜索与视频侦查系统
图5.2.3 嫌疑人作案前在第12路摄像头第2次出现
5.3 2014年04月11日武汉大学强奸案
该案共有221GB的监控视频,包含.264、.mp4、.csv5、.dat等多种视频格式,画面质量既有高清,也有模糊。
实测中,采用两台普通i7台式计算机,每台运行2个进程,共4个进程,因硬件配置差异和视频分配不均,搜索时间分别为:7.6小时、8.9小时、11.3小时、16.9小时,平均搜索时间为11.2小时。
在这221GB的监控视频中,通过传统人工方法检索嫌疑人,共找到4处。“梯度视频搜索系统”的搜索结果为:搜到3处,遗漏1处,搜到另外2处疑似。
“遗漏1处”的主要原因在于拍摄条件和已知场景的差异较大,这可以通过“二次搜索”解决,即:将第一次搜到的3处场景全部作为已知场景,再次执行搜索任务,便可搜到“遗漏1处”的嫌疑人目标。
“梯度视频搜索系统”支持“多目标多场景”的同时搜索,可根据案件侦查的深入推进,增加、删除和修改已知场景,执行“N次搜索”,确保搜索到的嫌疑人目标及其时空轨迹的完整性。
图5.3.0为已知场景(1处),图5.3.1至5.3.3为搜到结果(3处),图5.3.4为遗漏结果(1处),图5.3.5至5.3.6为疑似结果(2处)。海量视频搜索与视频侦查系统
图5.3.0 已知场景(1处)
图5.3.1 搜到结果(3处)-第1处 海量视频搜索与视频侦查系统
图5.3.2 搜到结果(3处)-第2处
图5.3.3 搜到结果(3处)-第3处 海量视频搜索与视频侦查系统
图5.3.4 遗漏结果(1处)
图5.3.5 疑似结果(2处)-第1处 海量视频搜索与视频侦查系统
图5.3.6 疑似结果(2处)-第2处
5.4 实测总结
案件实测表明,“梯度视频搜索系统”值得推广应用,通过计算机程序快速从海量视频中搜索特定目标,大大提高案件侦查效率。
今后,“梯度视频搜索系统”将在“增大检测率的同时减小误判率”上加以改进和升级,进一步提升软件系统的搜索性能。联系方式
作者:李瑞鑫 网站: 邮件:ruixin_1981@sina.com
让系统默认搜索支持PDF文档 篇3
Foxit PDF IFilter是Foxit pdf工作室推出的一款搜索插件,用户并不需要使用Foxit pdf阅读器即可使用该插件。下载并安装Foxit PDF IFilter以后,在控制面板中找到“索引选项”一项(若用户的控制面板中无法找到此项,可以选择界面上方的“查看方式/小图标”显示全部选项)。接下来点击“修改”按钮(如图1),选择自己存放PDF文档所在的分区,确认之后关闭“索引位置”对话框。
如果用户没有固定存放PDF文档的分区,可以忽略此步,但由于系统为所有的磁盘分区建立索引需要耗费太长的时间,因此建议大家将自己的PDF文档都保存在同一个分区下。
再返回“索引选项”对话框,依次打开“高级/高级选项”对话框,并切换到“文件类型”选项卡,找到“pdf”扩展名的项目,将该项目设置为“为属性和文件内容添加索引”(如图2)。
设置完成后关闭“索引选项”,当用户在该分区下的Windows窗口的搜索框中以某个关键词执行搜索操作时,很快就可以搜索到内容符合搜索条件的PDF文档了。
硬盘搜索系统设计与实现 篇4
随着计算机技术的发展, 本地和互联网上的信息量越来越大, 想要获取有用的信息相当困难。传统的人工筛选方式容易出错且效率很低, 因而在庞大的数据中进行人工筛选越来越不现实。随着个人计算机硬盘的不断扩充, 本地计算机硬盘上的信息量也相当巨大, 如果按照过去人工的方式去搜索信息显然费时费力效率低下, 因而需要借助桌面搜索软件来辅助人们的工作。显然, 使用搜索系统可以快速找到需要的信息, 从而节省劳力并且提高工作效率。作为现代信息获取技术的主要应用, “搜索引擎”对于计算机相关人员来说是非常必要的。虽然google和百度等搜索巨头已经开发出了几款非常优秀的桌面搜索工具, 但是他们所开发的搜索工具往往是功能强大但使用起来并不方便, 同时占用着比较大的系统资源。因此设计出操作简单易用、占用系统资源小的硬盘搜索系统是相当有必要的, 它能为用户提供一个快速、准确检索信息的解决方案。
1 系统功能设计
根据需求分析, 搜索系统模块可分为两个主模块:索引模块和搜索模块。索引模块包含系统设置、建立索引和帮助3个子模块;搜索模块包含搜索关键字和自动生成目录2个子模块。系统的功能模块如图1所示。
1.1 索引模块设计
主要包括正常索引、暂停索引和重新索引功能。
正常索引的主要功能:按照系统的默认设置来建立索引。如果索引已经建立完成则是暂停状态, 但当文件系统发生变化时, 会对发生变化的文件进行索引或删除索引文档。如果当前正处于暂停索引状态, 则取消暂停索引状态, 转为继续索引。
暂停索引的主要功能:暂停当前正在进行的索引操作, 如果索引已经建立完成, 则无论文件系统是否发生变化, 都不对其进行索引或删除索引文档。
重新索引的主要功能:删除索引目录, 按索引设置对文件系统进行重新索引。
创建索引流程:首先, 获取系统时间, 将其作为建立索引开始时间, 对文件逐一进行分析, 读取ini文件获取索引文件的标志, 如果为ture, 则将其标志字串设置为该类型文件的后缀名, 否则标志字串为空;然后, 通过文件的后缀名判断是否建立索引, 同样通过文件的后缀名决定是否进行文本转化, 如果是纯文本文件, 则直接构造文档, 将文件位置字段、文件名字段、文件后缀名字段和内容字段加入到文档中, 如果是Word或Excel, 就提取其中的文本转换为txt临时文件, 将实际文件位置字段和临时文件内容字段加入到文档然后删除临时文件, 如果是不容易转换为文本文件的文件, 则仅将其位置字段、文件名字段、文件后缀名字段加入到文档中;最后, 再次获取系统时间作为建立索引结束时间。
1.2 搜索模块设计
主要功能包括普通搜索和高级搜索两个功能。
普通搜索功能:按照索引关键字对索引文件的默认搜索字段进行搜索并显示搜索结果。
高级搜索功能:在普通搜索的基础上增加搜索的条件限制, 如可选择搜索文件名或是文件内容等, 筛选出最符合用户需要的搜索结果。
搜索关键字流程:首先, 用户输入关键字;然后, 获取系统时间作为搜索开始时间, 从索引文件内容和标题字段搜索关键字, 获得结果形成一个数据集。接着, 再次获取系统时间作为搜索结束时间, 使用循环将数据集读出, 然后将读出的结果经过处理后显示给用户, 对于能直接打开的文件可直接打开, 对于不可直接打开的文件可选择打开文件所在的文件夹;最后, 显示搜索用时和搜索到的结果数。
当搜索系统的索引文件建立好后, 系统的搜索模块就可以利用已经建立好的索引对关键字进行查询, 查询关键字的过程如图2所示。整个查询和返回结果都是通过搜索引擎接口实现的, 用户给出要查询的关键字, 通过搜索引擎接口构造查询表达式, 然后再通过查询解析器对查询表达式进行解析处理, 最后把查询到的结果放入到队列中, 如果队列中有合适的记录, 则通过搜索引擎接口返回给用户。
2 系统实现
2.1 建立索引
建立索引的第一步是提取文本, 首先要知道对哪些文件进行索引, 即要知道索引的目录路径。本系统将所要索引的目录路径保存在名为config.xml的文件中, 故在建立索引前应该先读取该文件, 获得要建立索引的文件目录范围。
成功读取文件后, 对文件类型进行判断, 判断该文件是否可以直接对其内容进行索引, 因为对于某些文件来说, 可以直接提取文本, 而对于某些非文本文件 (如Word、Excel等文件) 来说, 若要对其内容进行索引, 则需要先将文件转换为txt临时文件, 然后再对转换后的txt文件进行索引, 索引完成后应该立即删除txt临时文件。
构建文档:对于所有文件来说, 有些文件可以对其文件内容进行索引而有些文件无法对其文件内容进行索引。只要是文本文件或可转换为文本文件的文件, 都可对其内容进行索引;而对于无法转换为文本文件的文件, 则不对其文件内容索引, 而只是对文件名、路径和大小建立索引。建立索引的主要代码如下:
2.2 查询关键字
打开搜索界面首页index.aspx, 默认情况下是进行普通搜索。在输入框中输入关键字, 输入框下提供可选择的查询文件类型, 默认情况下是搜索所有文件。单击“提交”按钮, 整个表单将提交给search.aspx页, 在search.aspx页进行查询并返回查询结果。
高级搜索与普通搜索相比, 主要区别在于增加了搜索条件, 也就是增加了搜索关键字, 而这些增加的关键字都是一般文件所具有的属性, 也就是说, 高级搜索就是用户从一些固定关键字中选择若干关键字并与所查询的关键字组合成要搜索的关键字, 然后查询此新的关键字。此项功能主要在于选择筛选的条件。
按照指定的关键字进行查找之后, 就需要把搜索结果很好地呈现给用户。有时查询结果的记录条数可能不只一条, 而是成百上千条, 这时就需要对查找结果进行分页显示。
在本系统中, 搜索结果将逐条显示在Web页面上。
将搜索结果逐条显示在页面上的主要代码如下:
3 结语
本系统具有界面友好、操作简单、易于维护等特点, 主要实现了建立索引、搜索关键字和自动生成目录等功能, 基本满足了用户的要求, 达到了预期的设计目标, 方便了用户搜索和管理本地硬盘。
参考文献
[1]殷泰辉, 张强, 杨豹, 等.C#编程从基础到实践[M].北京:电子工业出版社, 2007.
[2]李刚, 宋伟, 邱哲.征服Ajax+Lucene构建搜索引擎[M].北京:人民邮电出版社, 2006.
[3]吴众欣, 沈家立.Lucene分析与应用[M].北京:机械工业出版社, 2008.
[4]邱哲, 符滔滔.开发自己的搜索引擎:Lucene 2.0+Heritrix[M].北京:人民邮电出版社, 2007.
搜索系统 篇5
[1]胡刘学,牛淑贤,薛柏桥.地理信息系统(GIS)与森林资源管理[J].陕西林业科技,2010,(2):61-65.[2]苏蕻,谭贵发,闫晓旺.地理信息系统在森林资源档案管理中的应用[J].吉林林业科技,2010,39(2):45-49.[3]高宏伟, 安慧, 高振叶, 张韬, 陈云飞.地理信息系统在森林资源监测和管理中的应[J].陕西林业科技,2009,(2):130-132.[4]庆元县人民政府.创建“林权IC卡”破解林业五大难[J].浙江林业,2010,(8):24-25.[5]赵海根,杨燕琼,苏引江,梁耀.广东珠江三角洲地区森林资源连续清查管理系统的设计与开发[J].中南林业调查规划,2010,29(4):19-24,29.[6]杨明龙.基于3S技术的林业信息系统设计[J].西部林业科学,2010,39(3):85-88.[7]郭旭,刘兆刚.基于ArcGISEngine帽儿山森林多资源管理系统的研建与实现[J].森林工程,2011,(3):23-27.[8]武国华,文益君,周璀.基于ArcGIS的森林防火应急资源管理系统设计[J].林业调查规划,2010,35(1):23-27.[9]汪璀,吴保国.县级森林资源信息管理系统中数据更新方法的探讨[J].农业网络信息,2010,(8):38-40,54.[10]沈维智,马兴义,李滢.试论森林资源管理系统在旬阳县林业工作中的应用[J].陕西林业,2011,(22):22-22.[11]罗书发,赵顺民.森林资源管理信息系统在林业工作中的应用 [J].现代园艺,2011,(15):117-118.[12]李春艳,杨存建,周其林,补志强,王琴.森林防火减灾信息系统的设计开发[J].陕地球信息科学学报,2010,12(5):695-698.[13]高宏伟, 安慧, 高振叶, 张韬, 陈云飞.地理信息系统在森林资源监测和管理中的应[J].陕西林业科技,2009,(2):130-132.[14]谢小魁,苏东凯,代力民,周莉,于大炮,欧阳锴.森林经营决策支持系统的设计与实现及在采伐中的应用[J].生态学杂志,2011,30(10):2381-2388.[15]陈家.林业资源监管信息系统应用研究[J].安徽农学通报,2011,17(16):93-94.[16]陆小辉,马岩鹤,景淼,李宁,周定辉,熊静,刘姝颖.基于WebGIS的辽宁省森林资源信息管理系统[J].内蒙古林业调查设计,2010,33(5):93-895.[17]魏安世,李伟,杨志刚,丁胜,黄宁辉,陈鑫.基于RS、G IS的森林资源监测信息系统设计与开发[J].广东林业科技,2010,26(1):44-50.[18]刘永宽,姚绍文.基于J2EE的森林资源管理信息系统分析与设计[J].西部林业科学,2010,39(1):21-30.[19]李章.基于GIS的森林资源信息管理系统建设技术[J].山东林业科技,2011,(2):94-97.[20]周定辉,马岩鹤,刘立国,穆喜东.基于ArcIMS的辽宁省森林资源基础信息平台的设计与实现[J].林业调查规划,2011,36(2):1-3.
搜索系统 篇6
相信很多朋友都已经用上了WindowsVista,它的搜索功能极为强大,除了可以在开始菜单的搜索框直接搜索之外,如果按下“win+F”组合键打开搜索浏览器,并且切换至高级搜索模式,那么可以手工指定搜索位置、日期、大小、名称、标记、作者等条件,这样可以在更短时间内定位搜索目标。
其实,我们还可以进一步提高Windows Vista的搜索效率。这里以VistaSP2为例进行说明:
技巧一:快速更新搜索结果
实际工作中,我们可能经常需要在某个固定路径下搜索不同格式的文件,但如果每次都重新设置搜索条件,确实也是相当的麻烦。其实,我们可以创建多个不同的搜索结果文件,以后直接双击即可更新搜索结果:
例如在完成对于“.zip文件格式的搜索之后,单击工具栏上的“保存搜索”按钮,此时会弹出“另存为”对话框,文件名和保存路径可以自行指定,至于保存类型则不用更改,保存之后我们可以得到一个扩展名为“search-ms”的文件,以后直接双击该文件,即可获得最新的搜索结果,比起重新搜索,效率自然高出不少。
如果希望更换搜索格式,可以用记事本打开搜索结果文件,找到“operator=“oontains”value=”.zip”。将其中的“.zip”更改为“.rar”。保存生效后退出。以后,只需要直接双击“名称.zip.search-ms”这个搜索结果文件,可以发现搜索结果内容已经发生了变化。
技巧二:同时搜索两种格式的文件
只要对搜索结果文件稍作改造,即可同时搜索两种格式的文件:
例如需要同时搜索.pdf或.jpg两种不同格式的文件,仍然首先在“名称”框输入“.pdf.jpg”,注意这里请以英文半角的空格进行分隔。单击工具栏上的“保存搜索”按钮,确认之后会获得相应的XML文件。用记事本打开这个搜索结果文件,按下“Ctrl+H”组合键打开替换对话框,将“andCondition”替换为“orCondition”,保存更改之后退出。双击这个修改后的搜索结果文件,可以看到搜索结果中已经同时包含两种不同格式的文件,如果需要搜索其他的格式,可以按照同样的方法进行更改。
技巧三:启用自然语言
我们知道,谷歌、百度都提供了“或”的搜索功能,可以同时使用两个以上的关键词进行搜索,其实WindowsVista也有这样的功能,只不过默认设置下被禁用而已。
搜索引擎的网络信息审计系统 篇7
目前,政务网和大型企业的内网建设已具有一定规模,虽然大多数单位都已认识到信息安全的重要性,部署了防火墙、IDS/IPS等设备,但对于信息监管的效率仍旧较低,很难从海量的网络信息中发现敏感信息,尤其缺少对单位内部信息泄漏的有效监控、取证、审计的能力。
与互联网相比,企业内网有其独特之处:1、内网中大量的信息公开网站和业务系统大都采用或即将采用B/S模式,因此内网流量中超过80%的流量为HTTP协议的数据流量。2、内网中有大量的孤岛信息,由于很少有链接指向这些地址,如个别单位未经审批私自开设网站等,因此监管部门不易发现和管理。3、企业内部使用的系统,往往是由总公司统一部署,总部自然具有垂直管理的权限,能够直接从数据库获取所有的信息。
当前业界普遍采用的信息审计系统,大多采取关键字匹配或数据挖掘技术,这些都要求有强大的计算环境支撑,普通的服务器难以承受上百万条记录的信息审计,常常出现执行超时等情况。
针对上述特点和问题,本文提出一种基于搜索引擎的网络流量信息审计系统,尝试改变传统单一依赖关系型数据库的局面,引入开源的sphinx搜索引擎技术,提高了对文本信息的分析速度,丰富了信息审计功能。通过改进信息审计系统结构,在探针和审计服务器之间增加了高速缓冲阵列,有效减少前后端系统的同步压力,提高了整个系统的效率。
2. 系统结构
本系统由流量采集和协议还原引擎、高速网络缓存和信息审计引擎构成,如图1所示。与传统信息审计引擎不同,没有在进行流量采集的同时进行关键词的匹配,而是经过协议识别、过滤、还原为页面快照后,由信息审计引擎执行信息索引,由于这一步的速度相对较慢,为了避免由模块间同步带来的性能损失,在高速信息采集后,增设了一级高速网络缓存,用于暂时存放文本信息,并产生任务队列,便于后端慢速的搜索引擎抓取信息。
3. 关键技术分析
3.1 流量采集手段
根据管理的需求和信息类型不同,监管部门和业务提供单位可采取不同的数据采集方法,目前主要有旁路镜像、网站爬虫和服务器探针三种数据采集技术。它们的特点如下:
1)旁路镜像技术适合在网络节点处部署,通过端口镜像或分光,从核心交换机和路由器获取流量,能在不影响原有设备的传输和性能的前提下,精确记录所有报文的流量信息,是一种高效、安全的布控方式和手段;
2)爬虫技术适合对信息发布站点、留言板等信息公开场所实施信息审计。通过指定一组URL列表,网络爬虫自动抓取所有的网页,以网页快照的方式展示和存档。但对于一些孤立的站点很难实施自动采集;
3)服务器探针是直接安装在各种Web服务器上的软插件,监听服务器上的所有http通信,能够有效的获取通过压缩、加密等手段保护的HTTP通信。
在本系统中结合三种方式的优点,以旁路采集为基本手段,将网络流量还原为页面快照,利用爬虫对采集中发现的孤岛站点地址进行主动探测。而服务器探针则可以通过行政手段,强制安装在由总公司统一管理的服务器上,直接对其服务器甚至后台数据库监控。
3.2 HTTP协议还原
协议还原是指对获取的数据按照TCP/IP的标准进行重组和剖析,根据不同端口对应的协议分别进行还原,包括协议命令和协议传输的内容(如Web网页),将满足应用功能的数据交给应用功能部分(如网页的文本化信息)。HTTP协议由R FC1945(HTTP1.0)和R FC2616(HTTP1.1)标准定义,采用请求/响应模型。通常HTTP消息包括客户机向服务器的请求消息和服务器向客户机的响应消息。这两种类型的消息是用ASCII文本携程,每行以一个CR LF符结束,最后一行有一个额外的CRLF符。由一个起始行,一个或者多个头部行和附加的消息体组成。
请求消息的第一行包括方法字段、URL字段和HTTP版本字段,方法字段包括GET、POST、HEAD等方法。头部行中常用的字段如HOST,指定请求资源的主机地址,和前面的UR L字段共同组成完整的UR L。响应消息的第一行包括HTTP字段、Status_code字段等,如状态200表示处理成功,403表示没有找到指定的页面等。
请求消息和响应消息都可以包含实体信息,实体信息一般由实体头域和实体组成。实体头包括Content-Type、Content-Length等字段,分别表示实体内容的类型和长度。对于请求数据来说,可以认为数据内容以GET、POST、HEAD、HTTP开头的即为起始数据片。对于请求信息结束的一定方法有两种情况:若请求信息中含有content-length域,则可根据其值依次取出规定数目的内容,即可确定结束数据片:若请求信息中不含有content-length域,则可以以两个CRLF作为结束标志。对于响应数据来说,在设计时可以认为数据内容为“HTTP”的即为起始数据片。对于响应信息结束的判定方法同样也有两种情况:若响应信息、中含有content-length域,则可根据其值依次取出规定数目的内容,即可确定结束数据片;若响应信息中不含有content-length域,则可根据该数据片是否设置了FIN标志来确定。而后判断实体内容的数据类型,通过判断“content-Type”“charset”等域信息,我们可以判断该数据包传送的信息类型,采用什么编码方式。如“content-Type:text/html”“charset=gb2312”可以确定为文本信息,采用gb2312编码方式。
为提高处理效率,避免重复处理相同的页面数据,我们建立白名单,记录已经访问过的网址。在分析HTTP头时将GET请求的URL保存在白名单中,若后面发现有请求相同URL的会话,则不再对该会话后续的响应信息做处理。
3.3 高速网络缓存
协议还原后产生了大量的页面数据,文献中提出将数据保存成TXT或HTML类型的文件。然而根据Google在2010年的统计数据表明,不含图片、脚本、CSS等内容的网页平均大小仅37.31KB,频繁文件存储会带来过多的I/O操作,严重影响系统性能。为了提高处理速度,应该让尽可能多的工作都在内存中完成,我们构建了一个高速的网络缓存,主要利用了Memcached和Starling两款开源软件来实现。
Memcached是一个高性能的分布式内存对象缓存系统,基于C/S结构,允许不同主机上的多个用户同时访问这个缓存系统,它通过在内存里维护一个统一的Hash表,以key-value的形式存储和获取各种格式的数据,客户端使用memcache协议进行通信。该协议十分简单,基本的操作仅两条:set、get,并且支持多种语言接口。Starling是一个支持memcache协议的队列服务器,同样为C/S模式,支持多用户访问,实现效率非常高。很多著名网站如新浪、Twitter等,都在其产品中广泛使用了这两款软件,以应对巨大的访问量。
由于这两款软件都是将数据完全放在内存中,避免了磁盘读写瓶颈,因而能够到达很高的处理速度。我们用Memcached作为页面快照存储,用Starling存储key序列,协议还原引擎采取如下步骤存储数据:
1)协议还原引擎经过IP分片重组、流重组、协议识别、协议过滤、还原后,得到原始的HTML数据流和post数据集,保存在http_content结构体中,并将该结构体序列化;
2)以源IP地址、目的IP地址、源端口号、目的端口号为元素,计算出一个16bit的HASH值,作为key;
3)连接Memcached服务器,发送set命令,将key和http_content存储;
4)连接Starling服务器,发送set命令,将key添加进任务队列;
5)调度系统定时从缓存中取出一组key和http_content,进行索引和存档,并及时清理过期的数据。
可见前端在保存数据期间并不需要考虑与后端的同步问题,降低了系统模块间的耦合度,提高了系统的灵活性。随着流量信息的增长,当审计系统的处理能力无法满足需求时,只需简单的增加审计服务器就能够提高处理缓存数据能力,不需要考虑各种同步等问题。
4. 基于搜索引擎的信息审计系统
4.1 sphinx搜索引擎
页面数据流含有大量的文本信息,传统的处理方式是对采取关键字匹配的方式对流量进行监控。这种方式受匹配算法的影响,随着关键字数量的增加匹配性能递减。而搜索引擎在对海量文本信息的查询和统计方面,有着先天的强大优势。大多数搜索引擎基于倒排索引原理,以词作为索引的Key值,对非结构化的自然文档内容进行分词、索引,这是关系型数据库无法做到的,因此搜索引擎有着极高的关键字查询速度。
Sphinx开源搜索引擎是由俄国人Andrew Aksyonoff开发,支持从包括My Sql、Postgre SQL等数据库、XML数据文件中获取检索数据,提供PHP、Python、Perl、C++等语言的API接口,具有良好的搜索性能。Sphinx本身不支持中文分词,目前主要采用Lib MMSeg实现中文分词。现在国内已有对二者进行整合和优化的中文搜索引擎Coreseek,我们将基于该引擎构建信息审计系统。
4.2 海量数据流准实时查询系统
随着系统的运行,不断有新的数据加入,当索引增长到一定规模后,就会影响到搜索效率。因此,需要定时对索引进行维护。由于Sphinx进行索引重建的时间通常远远多于合并索引的时间,我们采用“存档索引+增量索引”模式来实现准实时更新索引。对应的Mysql数据库系统也采用类似的管理模式,使用如下任务调度策略:
1)调度进程从队列缓存中循环取出一组页面快照Key(100条);
2)调度进程根据页面快照Key,从数据缓存中读出页面快照和会话信息,写入后台Mysql数据库的增量表和主表中。主表用于永久存储抓到的页面,按100万条(平均页面文件通常不超过40k,共需约40G)记录进行分区,保证数据库查询性能。
3)调用sphinx对数据库增量表进行抓取,更新增量索引。Sphinx的增量索引与数据库增量表成对应关系,以统一的HASH ID作为全库的主键。经测试Sphinx建立索引的速度大约为6.5MB/s,从而可以设置约10秒更新一次增量索引。
4)经验表明,当Sphinx增量索引的文档数超过38万后,进行索引更新的时间将大增。因此根据数据的增长速度,间隔一段时间(几小时或1天)进行一次合并索引操作,保证My SQ L增量表的记录数只有数万条至十几万条,以加快Sphinx增量索引的更新速度。在进行合并操作时,必须暂停向增量表写入新的数据,并且在合并完成后,立即清空增量表。
经测试,在Xeon 2.4GHz CPU,4G内存的服务器上,3000万条索引记录的条件下,平均查询时间低于0.1秒,最新的流量数据30秒内便能反映在查询结果中。
另外,企业数据库中存有大量的信息,大型企业往往部署有多级业务系统,有时并不能从网站页面上进行全面的信息审计。在条件许可的情况下,直接使用Sphinx读取数据库,不但可以有效实现对论坛、留言系统等的信息审计,而且避免了无关信息的干扰,提高了执行效率。
5. 结束语
本文提出一种基于搜索引擎的信息监控和审计系统,通过改进流量获取和协议还原系统,能够有效采集网络中大量的HTTP协议信息,结合搜索引擎独有的文档索引功能,较好的解决了传统信息审计系统面对海量数据查询效率低下的问题,实现准实时的信息监控功能。【下转第117页】通过建立三级结构,系统具有良好的弹性,随着网络规模和流量的增加,可以简单的进行扩展以提高系统的处理能力,为今后的进一步研究提供了良好基础。
参考文献
[1]协议流量监测[EB/OL].http://www.cert.org.cn/.
[2]Sphinx[EB/OL].http://sphinxsearch.com/.
[3]姜卓彦.大流量主干网络中实时网络监测[D].电子科技大学,2005(19).
[4]陈志军,王丹.支持内容分析的网络监视器的设计与实现[J].沈阳航空工业学院学报.2004.21(5).
[5]吴刚,王旭仁,张信杰.高速邮件监控审计研究[J].计算机工程与设计,2010,31(6),1195.
[6]Web metrics:Size and number of resources[EB/OL].http://code.google.com/intl/zh-CN/speed/articles/web-metrics.html.
[7]Memcached[EB/OL].http://memcached.org/.
关于红外搜索系统作用距离的研究 篇8
红外系统在军事、医疗、电力等各个方面都有广泛的应用, 而红外系统作用距离是红外系统的主要技术指标。它与总体光学系统透过率、探测器性能参数、调制系统效率、信息检测系统信噪比等有着直接的关系, 并且受大气传输、目标特性情况的影响, 尤其是受天气影响严重, 应该引起红外系统设计者足够的重视。
二、点辐射源
当目标系统对系统的张角小于系统的瞬时视场时, 系统不能分辨, 这时可将目标看作点辐射源。红外系统接收点辐射源的能量与其间的距离有关, 距离越远则接收到的能量越小, 与接收到最小可用能量相应的距离称为系统的作用距离。
三、系统为探测器噪声所限制的情况下的作用距离方程
如果光学系统的瞬时视场为ω, 光学系统的等效焦距为f, 则探测器的面积为:
用数值孔径表示光学系统:
式中: (NA) 为光学系统的数值孔径;D0为光学系统的通光孔径的直径。
再考虑到光学系统有A0=πD02/4, 代入这些, 则距离方程变为:
为了更清晰地看出各种因素对探测距离的影响, 把上式中各项重新组合成如下形式:
由于 (5) 式可以看到, 红外系统的作用距离是由目标辐射、大气传输、光学系统性能, 探测器性能以及系统特性和信号处理系统的质量等因素所决定的。下面分别予以分析:
第一项是目标的辐射强度和沿视线方向的大气透射比。它反映了所观测的目标辐射和大气传输的特性, 是设计者无法控制的两个量, 可以做的是根据实际情况设计红外系统选取不同的工作波段。
第二项涵盖了表征光学系统特性的所有参量。从中可以看出红外系统的作用距离不是与入射孔径直径D0成正比, 而是与D0的平方根成正比。因此, 增大光学系统的直径, 就要按比例增大焦距。焦距变长了, 为了保持视场不变, 探测器的尺寸也要相应增大。
第三项属于探测器的特性。目前, 许多探测器已经十分接近D的理论极限, 因此, 依靠进一步改进探测器使探测距离大幅度增加的希望不大。
第四项包括说明系统和信号处理特性的因素。它表明, 减小视场或带宽可增加探测距离, 但由于这些因子的幂次都是非曲直1/4, 故增加得不快。而且, 由于频带宽变窄了, 对于急剧变化电子系统来不及响应, 因而增加了探测距离却牺牲了信息速率。
四、不同大气环境下在波段3~5μm处喷气式飞机探测距离的计算
探测距离方程为:
其中:Ii为红外辐射强度;τα为大气透过率;τ0为光学系统透过率;D为通光口径;NA为光学系统的数值孔径;D为探测率;ω为视场角;Δf为系统带宽;Us/Un为信噪比。
在这里, 我们选择的探测器和光学系统参数分别为:
分辨率:320×240 (像元30μm)
(一) 晴朗天空:T=25℃, RH=20%。通过查阅《红外技术》知在3~5μm波段范围内, 飞机的辐射强度:
大气透过率为大气中水蒸气透过率与大气中CO2中透过率的乘积即:
相对湿度为空气中试样水蒸气含量与饱和时水蒸气含量比值:
经查表知25℃饱和水蒸气的质量为ρS=22.80 g/m3, 则:
又因为高度为h的水平距离乘以所具有的透射比等于长度为X0的等效海平面上透射比, 即:
其中:P为高度为h处的大气压强;P0为水平面上的大气压强;K为常数。
对H2O系统k=0.5, 对CO2系统k=1.5。又因为根据已知有h=10km d=20km, 则:
经查表得当h=10km时,
根据以上数据可求得对于水蒸气全路程可凝结水的毫米数:
经查表可得在3~5μm范围内, 可凝结水毫米数为40.911mm的透过率对所有数值进行加和取平均:
对于CO2的等效海平面的水平距离为:
(二) 浓雾天空:T=30℃RH=90%。经查表得T=30℃时, 饱和空气中水蒸气质量为30.04g/m3。
则水蒸气全路程可凝结水的毫米数为:
经查表可得在3~5um波段范围内, 可凝结水的毫米数为242.56mm的透过率平均值为:
有浓雾的大气透过率:
取信号因子σ=0.67
系统宽带Δf=26.12×103HZ
在浓雾时搜索系统的作用距离为:
五、结语
红外系统作用距离是红外系统的主要技术指标, 本文推导了目标在点源情况下, 且系统为探测器噪声所限制的情况下的作用距离方程, 并对方程中各量作了分析。最后计算了不同大气环境下在波段3~5 m处喷气式飞机探测距离。本文推导的作用距离方程和计算结果, 对红外系统的设计与评估具有一定的指导意义。
摘要:本文推导了目标在点源情况下, 且系统为探测器噪声所限制的情况下的作用距离方程, 并分析了影响作用距离的各个因素。最后通过实验测试, 计算不同大气环境下在波段35 m处喷气式飞机探测距离。
关键词:红外搜索系统,点源目标,作用距离,大气环境
参考文献
[1]刘彤宇.红外系统作用距离计算方法研究[J].光电技术应用, 2008
[2]石晓光, 王彬, 杨进华.红外系统[M].北京:兵器工业出版社, 2005
[3]小哈得逊.红外系统原理[M].北京:国防工业出版社, 1975
搜索系统 篇9
IPTV即交互式网络电视, 是一种利用宽带有线电视网, 集互联网、多媒体、通讯等技术于一体, 向家庭用户提供包括数字电视在内的多种交互式服务的崭新技术。IPTV业务在国内外已经发展多年, 目前国内累计IPTV用户已超过2 000万。然而, 随着视频内容量的急剧增加, 用户迫切希望通过一种快捷的手段迅速找到需要观看的视频内容, 因此如何快速准确地从海量视频库中找到感兴趣的视频内容己经成为视频信息领域发展中的关键问题之一。
目前, 传统的搜索引擎多属于普适性的水平型搜索, 有明显的局限性, 在视频内容搜索领域, 通用搜索引擎的检索必然会带来“信息过载”、“搜索噪音”、“信息冗余”等一系列负面结果, 不能真正实现高效与便捷。为了解决以上一系列问题, 应采用针对视频内容领域的智能搜索技术, 以提高用户搜索过程的准确度[1]。
本文首先分析了现网IPTV视频搜索系统存在的问题, 提出并实现了一套IPTV智能搜索系统, 引入智能化搜索算法, 增强搜索的准确度和首屏命中率。实验结果证明:该套智能搜索系统显著提高了IPTV视频资源的搜索准确度及首屏命中率, 大大提升了用户搜索速度。
2 IPTV视频搜索存在的问题及需求
目前IPTV视频搜索系统主要采用的是片名文字搜索方式, 其搜索引擎是普通水平型搜索系统, 没有考虑视频内容具有以下特点:
(1) 兴趣度:即用户在搜索视频内容的时候, 是有一定兴趣取向的, 一般来讲, 搜索的内容多以影片和电视剧为主, 而目前现网IPTV搜索没有考虑兴趣度, 在搜索时会给出一些用户一般不会关心的内容, 如新闻类、财经类内容, 而且排序往往靠前, 用户需要多次翻页才能找到其感兴趣的内容;
(2) 热度时效:用户在搜索视频内容时, 大多数情况下, 会与当下热门的内容相关联, 如近期热播的电视剧或者新上映的电影, 在IPTV系统中, 也可以统计到目前热播的电视剧和电影情况, 但是在现网搜索系统中, 却没有将热度内容做排序优先的考虑。
以现网IPTV搜索为例, 用户拟搜索影片“武侠”, 在搜索页面内输入“WX”, 共搜索到205个视频结果, “武侠”出现在第8页, 具体情况如图1。
针对上述存在的现网问题, IPTV搜索新系统需要完成以下优化功能:
(1) 提供热词搜索提示功能;
(2) 影片、电视剧等排序优先;
(3) 根据运营数据, 对热点内容优先排序。
3 IPTV智能搜索系统设计与实现
IPTV智能搜索系统主要分为信息采集器、索引器、搜索引擎、搜索服务器。图2标示IPTV智能搜索引擎的平台架构, 并且标示出用户从发起请求到返回结果, 各系统处理请求的整个服务流程:
(1) 用户发起搜索请求;
(2) 负载均衡器接收到用户搜索请求, 根据用户所在地理区域与集群中服务器的当前状态, 将分配最优服务节点来处理此请求;
(3) 搜索服务器收到请求, 将进行三个步骤:
(1) 获取关键字的Key;
(2) 根据搜索key到Cache中检测, 若此关键字已经被搜索过并且缓存中Cache未超时, 则从Cache中取出搜索结果返回给用户;若此关键字未被搜索过或缓存中Cache超时, 则进行第c) 步;
(3) 搜索服务器向搜索引擎集群发起搜索请求, 搜索引擎根据既定的算法从索引库得出最符合规则的搜索结果, 并将此结果返回给搜索服务器, 同时将搜索结果写入Cache中。
(4) 从信息采集系统取得数据, 索引器将建立好的索引分发到搜索引擎集群中的索引库。
具体核心模块功能描述如下:
(1) 数据同步:监听元数据平台是否有数据变更, 实时采集最新数据, 将数据异步发送到MQ中;
(2) 高/标清搜索:提供高清搜索服务的入口, 向IPTV管理平台请求鉴定用户权限, 将搜索结果返回给高清机顶盒;
(3) 索引维护:提供给运维人员手动维护索引库, 系统定时重建索引, 索引分发等功能;
(4) 索引器:索引子系统, 负责索引的创建、更新、删除以及索引库的分发;
(5) 搜索器:搜索子系统, 实现搜索算法、排序算法、过滤规则。
(6) 队列服务器MQ:用作缓冲索引器、数据库的压力, 存储未建索引的元数据、各系统的操作日志。
目前该套智能搜索系统已开发上线运营, 界面截图如图3。
由图3可以看到, 输入“WX”之后, 左边有热词提示, 片名“武侠”已出现其中, 同时右边也显示了一些相关联的搜索结果。“武侠”这部片子已在首屏命中。
4 IPTV智能搜索核心算法
(1) IPTV智能搜索核心算法流程
IPTV智能搜索流程如图4所示, 具体实现流程描述如下:
(1) 用户在搜索框内输入字符, 通过字符匹配, 在热词提示中, 显示相关热词信息, 供用户选择;
(2) 用户完成搜索词选择, 启动搜索;
(3) 系统将用户搜索词进行分词处理, 根据分词结果触发多条搜索路径, 并利用TF/IDF算法、兴趣度算法、聚类算法等算法, 计算出相应的搜索结果;
(4) 由于分词会分出多个搜索路径, 其结果也必然会出现重复的情况, 因此需要做合并去重工作, 将前述计算子路径进行合并去重[3];
(5) 排序显示搜索结果, 这里将引入权重, 将电影、电视剧的权重设置较高, 并考虑播放热度权重, 将电影、电视剧、热片中的搜索结果, 优先显示;
(6) 将排序后的搜索结果给到前台页面, 供用户选择。
由于TF/IDF算法和聚类算法是Lucene搜索引擎的标准算法这里不再赘述, 后文将对兴趣度新方法重点阐述。
(2) 兴趣度算法
(1) 浏览时间及点击次数转化为兴趣度的方法
用户的浏览时间和平均浏览时间是用户兴趣的重要体现。但如何用浏览时间衡量用户兴趣大小是一个很关键的问题。传统的将浏览时间转化为兴趣度的方法比较多, 比如根据用户在页面上的停留时间来判断用户对页面是否感兴趣。但这些方法只是普遍认为只要停留时间大于零, 就判断用户对该内容感兴趣, 即只要用户点击浏览了某个页面就认为用户对影片感兴趣;有些方法只认为只有当停留时间大于5秒时, 才认为用户感兴趣。所有这些兴趣度值转化方法转化以后的结果都不能很好地反映用户的兴趣和浏览时间长短的对应关系。因此提出一个将点击次数转化为兴趣度的方法:
(2) 对影片感兴趣的计算
我们给出一种将用户点击次数和播放时间转化为兴趣度的计算方法, 该方法保证了较高的点击率和较长浏览时间对应的兴趣度也较高, 而且很好的单调分布在0到l之间, 为后续的计算提供方便, 其计算模型为:
其中, Ii为用户对第i个影片的兴趣值, ti为第i个影片的用户播放时间, averagetime为用户平均播放时间, π为圆周率。
5 IPTV视频搜索系统测试
测试人员从影片库中分别等量抽取X个 (X的值根据影片库统计情况确定) 作为最后测试样本, 例如:一字影片300个、两字影片300个、三字影片300个。
本次测试选取300个四字影片名作为样本, 分别记录顺序输入1字简拼、2字简拼、3字简拼、4字简拼时搜索结果的显示情况, 统计首屏命中显示的个数及概率, 得到以下数据。
通过记录数据与300个样本库进行计算得到:
通过测试, 可以看出新系统对比老系统 (含高清和标清) , 有显著的效率提升, 特别是输入2个字简拼时, 新系统已经能够实现高达54%的首屏命中率, 输入3个字简拼时, 超过90%可以首屏命中。
6 小结
本文通过分析现网IPTV搜索系统存在的问题, 结合现网业务需求, 提出了一套适合IPTV业务场景的智能搜索架构及方法, 并在现网ITV系统中进行了上线运营。现网试验测试证明了这套新搜索系统的有效性, 不仅提高了首屏命中率, 而且大幅缩短了用户搜索时间, 提升用户体验。目前这套系统刚刚上线运营, 在热词提示排序、以及搜索结果展示时, 还是会出现一些冗余干扰信息, 这些信息的剔除, 需要根据现网实际运营数据, 自适应调整排序权重值, 进一步优化系统搜索准确度和效率。
参考文献
[1] 王梦溪, 王斌.基于标签的垂直搜索研究及在视频搜索中的应用.仪表技术, 2011, 5:59~65
[2] 王新, 刘晓霞.基于关联规则挖掘的垂直元搜索引擎研究, 计算机工程, 2011, 37 (4) :76~80
搜索系统 篇10
红外搜索系统是通过探测和接收目标的热辐射, 获得目标的红外信息从而解算出目标的方位、俯仰信息。在探测过程中红外系统自身不发射任何辐射, 能够更好的隐蔽自己, 发现敌人, 大大提高了其生存能力;在强电子干扰环境下, 可以替代或辅助雷达搜索跟踪目标, 是在复杂环境下探测目标的首选探测方式, 在未来的战场应用中需求量巨大。
从目前国内外的红外搜索设备研制的情况看, 目前主要还存在以下不足之处:
(1) 在目前的探测器水平条件下, 红外热像仪视场普遍偏小, 故而单帧图像空间覆盖范围小, 仅从单帧图像无法有效对载体周围空情、地情进行有效评估;
(2) 在小视场的条件下, 要快速完成大区域搜索, 必须进行快速搜索, 而在快速搜索时, 红外图像变化过快, 单帧图像基本无法有效提供给操作员观察, 丧失了红外探测能提供昼夜可视图像的突出优点。
红外图像拼接技术可实时将多帧图像拼接成大视场全景图像, 用于解决小视场红外搜索不利于观察的问题;同时通过图像拼接技术, 可获取全景图像, 可在红外搜索阶段加入操作人员观察判断, 能有效降低红外虚警干扰, 提升红外探测的优势, 红外图像拼接技术在红外搜索系统中有广泛的应用前景。
2 图像拼接算法的一般流程
一般来说, 图像拼接的过程由图像预处理, 图像配准, 图像合成三步骤组成[1], 其中图像配准是整个图像拼接的基础, 也是图像拼接技术的关键。
2.1 图像预处理
图像预处理的目的是改善图像的质量, 从而保证下一步图像配准的精度, 包括对图像对比度拉伸、噪声点抑制 (如直方图处理、图像的平滑滤波) 等。对于一些存在几何畸变或者像旋的图像还要进行校正。如果在图像质量不好的情况下直接进行图像拼接, 容易造成误匹配。
2.2 图像配准
图像拼接的质量主要依赖图像的配准精度, 其核心问题是寻找一个变换, 找到待拼接图像中的模板或特征点在参考图像中对应的位置, 根据模板或者图像特征点之间的对应关系, 可以计算出数学模型中的各参量值, 从而建立两幅图像的数学模型, 使图像间相互重叠部分对准, 将待拼接图像转换到参考图像的坐标系, 以此构成完整的图像。精确配准的关键是要有很好描述两幅图像之间的转换关系的模型。
图像配准方法一般可分为基于区域和基于特征两种方法。基于区域的配准方法是利用的是图像的大部分灰度进行匹配, 配准精度高, 但运算量巨大;基于特征的方法则是通过提取图像中的点、边缘、轮廓等特征进行匹配, 运算量相对较少, 受噪声的影响较小, 常用的特征提取算法有SIFT特征提取算法[2]、Harris角点检测算法[3]以及Canny边缘检测算法[4]等, 基于特征的配准方法存在图像特征点提取及匹配困难, 特别是作为单色的红外图像利用特征点匹配存在较大的匹配误差风险。
2.3 图像合成
当准确计算出图像之间的转换参数之后, 我们需要根据求出的参数把多张原始图缝合成一张大的全景图。由于图像配准的结果存在配准误差, 因而不可能在每一点上都精确配准, 因此, 图像合成的策略是尽可能地减少遗留变形以及图像间的灰度差异对合并效果的影响。合成的目标包括:拼接图像的画出, 光度的调整混合, 确定重叠区域和消除拼缝。
2.4 全景图像的生成和视频显示
当结合红外目标信息的红外图像合成以后, 即可生成全景视频图像的编码显示, 每当一个搜索周期结束后, 利用新一周期的空间红外图像实时替换前一周期对应的空间红外图像, 即可生成实时全景红外图像, 能有效的解决红外探测设备快速搜索阶段红外图像无法观察的不足, 突出红外设备探测结果的可观察性的优势, 便于作战人员对战场的直观判断。
3 红外搜索系统图像拼接算法设计
红外图像拼接的算法有多种, 根据红外搜索系统获取的红外图像都具有稳定的像空间位置变化信息的特点, 本文提出了一种结合图像位置信息变化和模板匹配的红外图像的拼接算法, 算法流程如 (图1) 。
为避免红外探测器盲元、坏元点和图像噪声的干扰, 本算法在红外图像获取后即对其进行预处理, 主要的算法为中值滤波[5]和灰度直方图处理[5]。
在完成图像预处理后根据公式 (1) 计算出所需拼接连续图像的重叠区域大小。
式中A为重叠区域的行或列数, V为红外热像仪的搜索速度, f为红外图像帧频, α为红外探测器单个像元对应视场角。
确定重叠区域大小之后, 对参考图重叠区域的灰度进行分析, 提取其灰度梯度的分布情况, 进而选择原图像中一定大小灰度梯度较大的区域 (区域大小根据热像仪视场大小及探测背景复杂程度选取) , 将选取的这一部分区域图像作为拼接的模板, 在待拼接图像的重叠部分中可能匹配的区域进行图像灰度匹配运算 (可能匹配的区域应根据搜索精度确定) , 完成模板匹配算法。由于前后两帧图像亮度的差异, 若在灰度匹配时只将灰度值进行匹配, 必然会造成一定得匹配误差, 特别是当重叠区域图像灰度特征不明显时, 误差会较大, 故而加入了结合灰度比值匹配的方法, 利用图像中两列像元的灰度比值作为模板, 在待拼接图像中找到最优的匹配位置, 大大优化了模板匹配的算法效果, 且计算量小, 速度快。在前后两帧图像基本无灰度特征时 (如热像仪针对均匀的天空背景成像时) , 主要根据红外搜索系统的伺服控制位置信息进行匹配, 解决了无特征图像匹配的技术难题。
图像完成配准后, 再开展图像合成, 若直接进行重叠区域灰度平均, 会造成一定的拼缝和灰度差异, 本算法采用了高斯灰度加权平均的方法[6], 将两幅图像灰度值按照公式 (2) 进行了灰度叠加, 叠加后的图像进行灰度均衡形成最终的合成图像。
式中a为随重叠位置高斯分布的加权系数, I1为参考图的灰度值, I2为待拼接图的灰度值, R1是参考图中未重叠区域, R12是参考图和待拼接图的重叠区域, R2是待拼接图中未重叠区域。
该算法的优点主要有:
(1) 算法设计简单, 计算速度快:利用红外搜索系统图像具有稳定空间位置信息的特点, 只对两帧图像重叠区域进行分析, 并只选择灰度变化梯度较大的区域充当匹配模板, 在与待拼接图像匹配时, 又根据搜索精度的大小确定了可能匹配的位置, 计算量大为减少, 提高了匹配速度, 解决了模板匹配运算量大的问题。
(2) 匹配精度高:结合红外搜索系统高精度的特点, 在待拼接图像匹配区域选择上, 根据红外搜索系统伺服控制精度, 匹配前已设定了匹配运算的可能区域, 在灰度匹配的同时加上了灰度比值匹配, 大大提升了匹配精度。
(3) 适用性强:算法中涉及到的各参数均可根据搜索精度、热像仪视场及成像背景的复杂程度确定, 基本适用于所有的红外搜索系统, 适用性强。
4 算法试验验证结果
4.1 配准算法的仿真结果
根据基于区域特征、基于点特征 (SIFT特征和Canny边缘检测算法) 和本文提出图象配准算法利用同一套图像采集仿真器 (TI-DM642) 对一动态位置控制精度为0.5· (控制精度一般) 的平台搜索阶段采集到的两帧图像 (如图2、3) 进行了配准仿真计算, 各算法的仿真计算时间及精度见 (表1) 。
从 (表1) 可以看出本文提出的配准算法相对于基于区域特征和基于点特征的算法在计算时间和计算精度上都有很大的改善, 且本文采用的搜索平台精度不高, 若采用高精度的控制平台, 本文的配准算法将在计算时间和精度上进一步提高。
4.2 本文提出的图像拼接算法仿真结果展示
根据本文提出的红外搜索系统图像拼接算法, 对某红外搜索平台采集到的连续视频图像进行了试验验证, 验证效果如图4所示。该图为关于某野外树林的连续多帧红外图像的拼接结果, 从图中可以看出该算法较好的实现了一定空域的连续多帧视频图像拼接。
5 结语
本文针对红外搜索系统的特殊性, 提出了一套图像拼接的算法, 从仿真的结果看, 拼接效果较好, 已初步达到工程应用的水平, 成功的解决了传统图像拼接匹配算法运算量大和匹配精度不理想的问题, 运算速度快, 且匹配精度高。
参考文献
[1]SZELISKI R, SHUM H Y.Creating full view panoramic image mosaics and environmentmaps[A].Proc.of SIGGRAPH'97[C], Los Angles, 1997, 251-258.
[2]LOWE D.G.Distinctive image features from scale-invariant keypoints[J].International Journal of computer Vision, 2004, 60 (2) :91-110.
[3]HARRIS, C.&M.STEPHENS.A combined corner and edge detector[C].England:Processing of the 4th Alveyvision Conference Manchester.1988.Pp.147-151.
[4]JOHN CANNY, MEMBER.IEEE.A conputational apporoach to edge detetion.IEEE Trans.Pattern Analysis and Machine Intelligence.Vol.PAMI-8, No.1, 679-697, 1986.
[5]C.Gonzalez, Richard E.Woods著.数字图像处理[M].阮秋琦, 阮宇智等译.第二版.电子工业出版社, 2010.70-81, 93-98.
应用内搜索满足移动搜索「快感」 篇11
然而在移动端,这个模式正在被改写。
如果你的手机正好安装了百度的light app或者下载了豌豆荚应用,此时你只需要打开它们中的任意一个,然后输入你需要的内容,那么你得到的结果就是直接进入某家视频进行观看。
搜索的流程正在变快变短,浏览器也不再是唯一的搜索入口。而让这些发生改变的,是“应用搜索内技术”的全面来袭。
2004年4月,曾经的应用分发渠道豌豆荚,召开“应用搜索内技术发布会”,在号召第三方应用都来进驻平台的同时,还宣布了自己的移动搜索战略:全面准确、直达行动、情景化。
事实上,提出“应用内搜索技术”概念的,豌豆荚并不是唯一一家企业。2012年百度也提出针对自有App资源的应用内搜索,2013年底奇虎360和谷歌也相继发布过“应用内搜索”策略,试图在移动搜索领域打开新局面。就在近日,谷歌又宣布将要推出“深度链接”广告,让广告主能够将智能手机用户引向其设备上的应用,其背后也运用了“应用内搜索技术”。从业者们在这方面的布局,让行业竞争越发激烈的同时也说明,用户对移动搜索的需求正在变得越来越强烈。
长久以来,因为手机屏幕过小导致操作不便,加之网速、或者转码技术的桎梏、抑或网页内容与App内容混乱出现在搜索结果中等种种因素的限制,使得我们对移动端的搜索结果不满意。而且,移动互联网时代,大部分内容都隐藏在了App当中,导致大量信息孤岛的存在,而“应用内搜索技术”的出现就是为了解决这些难题。其核心点在于通过搜索结果呈现隐藏在App之中的内容资源,让用户快速从应用中获得并且消费内容,真正满足消费者在移动搜索时代的“快感”要求。
“在桌面互联网,我们大部分的时间都花在浏览器上。而在手机上,80%的用户时间是在应用里。”豌豆荚创始人王俊煜的看法有力地解释了为何大佬们纷纷布局于此的缘故,也解释了为何豌豆荚开始抢占移动搜索入口的原因。据悉,豌豆荚发布垂直搜索产品“应用内搜索”是在2011年,两个月之后,收录应用数22个,截至今年2月,这个数字已经达到140万。大批量的应用增长背后,是用户对移动应用搜索的精确性需求。而仅有百度、谷歌、360等几家大佬布局的行业现状,也给了豌豆荚这类从业者们进军移动搜索的信心。
搜索系统 篇12
关键词:技术情报,搜索
本文著录格式:[1]杨东朋, 徐厚宝.技术情报搜索与跟踪系统的设计与应用[J].软件, 2013, 34 (10) :36-38
0 引言
技术情报搜索与跟踪系统以科技论文数据、技术专利数据、互联网数据等为主要对象, 对技术情报信息、商业情报信息、政策法律情报信息进行自动识别、获取、跟踪和监测, 实现多数据源异型异构技术情报数据的预处理、清洗、转换和集成, 实现对相关技术的专利、论文、互联网数据的实时动态监控, 获取相对初始的情报数据, 为情报分析和预警判断做好数据积累。
1 系统架构与功能设计
如图1, 技术情报搜索和跟踪系统由信息搜索、信息监控、信息采集、信息清洗四大底层模块组构成, 后台业务数据与元数据独立存储、分别管理。信息搜索模块主要针对SCI论文数据、中文核心期刊数据, 中国、美国、欧洲、世界知识产权组织的专利申请数据、授权数据、法律状态数据、专利权转移数据、同族专利数据、引证数据, 互联网数据进行搜索;信息监控模块利用搜索模块的功能, 针对技术、机构、人员、国家的相关数据进行监控, 发现各类信息的异动;之后, 由信息采集模块完成数据采集;信息清洗模块基于元数据库中的关于各数据源的存储特征数据进行采集数据的清理, 进而提取结构化与非结构化的数据入库。业务数据包括用以完成各类信息情报分析任务的项目数据、监测任务数据、采集数据、清洗数据以及用以进行系统维护和授权的系统设置参数数据、用户数据, 元数据包括各类数据源的存储特征数据、分析字典数据等内容。
1.1 数据采集流程设计
对于不同来源的数据, 采用网络爬虫技术设计搜索和跟踪的后台程序, 后台程序不间断的扫描搜索和监测任务, 一旦采集条件成立, 启动采集, 获取包括html、xml、txt格式的原始数据, 然后由信息抽取程序抽取相应的格式化数据经过ETL转换存入到情报数据库中。同时, 为了提高情报数据分析和查询的效率, 建立情报数据的索引数据, 整个搜索采集的过程如图2所示。
1.2 系统功能设计
系统的功能设计如图3。
1.3 数据库结构设计
在数据库的设计上, 搜索系统的后台数据采用My Sql, 共建表47个, 视图10个。表间关系是以搜索任务为核心的业务表与元数据管理表关系, 任务由用户设定, 与用户的搜索条件一一对应, 每个任务下可以包含来自一个数据元的任意多个专利, 多个任务构成一个分析项目;每个任务根据其数据的来源设定任务所采用的处理方案, 每个方案对应一个数据源的数据结构特征、数据清洗方案、数据分析方案, 属于元数据的一部分。
2 部分算法的设计举例
2.1 论文与专利搜索算法举例
对于专利和科技论文的搜索, 应用POST和GET技术与数据库服务器进行交互, 下表分别列出了POST和GET的核心代码实现以及各个数据源搜索的入口, 搜索服务器地址、交互方式等。部分核心代码如下:
2.2 互联网搜索算法设计举例
互联网中的网页相互连接, 彼此连同, 构成一个巨大的网络结构, 相对于专利和论文来说, 对其进行搜索, 技术难度略大。对于互联网数据则要采用网络搜索算法进行网页的深度搜索。
深度优先搜索所遵循的搜索策略是尽可能“深”地搜索网页节点。在深度优先搜索中, 对于最新发现的网页顶点, 如果它还有以此为起点而未探测到的链接边, 就沿此边继续汉下去。当网页结点的所有链接边都己被探寻过, 搜索将回溯到发现网页结点那条边的始结点。这一过程一直进行到已发现从源网页结点可达的所有网页结点为止。如果还存在未被发现的网页结点, 则选择其中一个作为源结点并重复以上过程, 整个进程反复进行直到所有结点都被发现为止。
部分代码如下:
3 小结
本研究对技术情报信息的搜索与跟踪进行了初步的探讨和研究, 提出了系统架构的设计方法, 并给出了部分实现代码, 为技术情报分析与设计提供了一种思路, 并奠定了一定的理论和实践基础。
参考文献
[1]李国秋.企业竞争情报盖伦[M].华东师范大学出版社.2004.
[2]田志明, 杨雪松.一种新颖的小型化VHF贴片天线[J].新型工业化, 2011, 1 (11) :72-76
[3]薛燕波.Web文本分类计数在企业竞争情报分析中的应用[J].情报科学.2004 (3) .