信息搜索模式(精选9篇)
信息搜索模式 篇1
引言
随着互联网普及, 网络搜索成为一种最快捷、最有效的信息获得手段, 用户可以通过登录网络搜索平台, 键入查询关键字搜索和收集需要的信息。在享受网络搜索技术便利的同时, 搜索结果中的大量垃圾信息也给用户带来极大的不便, 用户经常需要大量点击搜索结果来获得有效信息[1]。
利用行为模式技术, 搜索平台通过对垃圾信息统计出的不同行为特征, 对搜索结果信息进行过滤, 来增强信息搜索的准确率。
1 网络搜索引擎技术
1.1 搜索器
衡量搜索引擎的一条很重要的标准, 就是搜索到信息的海量性。为了实现这一条标准, 通常需要一种强大的搜索器作为支撑, 一般称为为“网络蜘蛛”。
“网络蜘蛛”即Web Spider, 是通过网页的链接地址来寻找网页, 从网站的某一个页面开始, 读取网页的内容, 找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页, 这样循环下去, 直到把这个网站所有的网页都抓取完为止。在抓取网页的时候, “网络蜘蛛”一般有两种策略深度优先、广度优先。通过内容提取技术获取网页上文本信息[2]。
1.2 搜索结果中垃圾信息
在用户通过定义的关键字实施信息搜索时, 经常会获得大量的搜索结果, 从这些海量信息中提取有效信息经常会浪费用户大量的时间和精力。对于用户来说, 没有利用价值的信息可以认为是无效搜索信息, 而在这其中还存在很大一部分由于某些网站为增加点击率而故意篡改信息产生的垃圾信息。
搜索引擎Inktomi认为是垃圾信息的主要内容为:隐藏的、欺骗性的、以及与网页内容不相关的文字;META标签中的内容并非网页内容的真实描述;没有明确的目的有意设计重新指向的URL;利用程序使得在搜索结果中出现大量同样的网页;有意设置让人误解的链接;并不反映网站真实内容的入门网页或者隐藏的网页;自动产生大量无关的垃圾链接。
2 行为模式识别技术实施信息过滤
2.1 行为模式识别技术
行为模式是从大量实际行为中概括出来作为行为的理论抽象、基本框架或标准[3]。行为模式识别技术的思想是通过基于对大量信息样本进行的统计、分析和计算, 建立行为模式数学模型, 利用这种具有极高行为特征的模型, 对新的信息进行分析判定[4]。
2.2 数据挖掘
数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些信息是可能有潜在价值的, 支持决策, 可以为企业带来利益, 或者为科学研究寻找突破口[5]。
对于垃圾信息行为模式进行信息挖掘, 主要是针对相关WEB信息的数据挖掘。主要包含WEB内容挖掘, WEB结构挖掘, WEB用法挖掘。
WEB内容挖掘:针对垃圾信息WEB的内容、数据、文档发现共同信息, 从资源查询角度挖掘非结构化的文档。
WEB结构挖掘:Web结构挖掘的对象是垃圾信息WEB的超连接, 即对Web文档的结构进行挖掘。对于给定的Web文档集合, 应该能够通过算法发现他们之间连接情况的有用信息, 文档之间的超连接反映了文档之间的包含、引用或者从属关系, 引用文档对被引用文档的说明往往更客观、更概括、更准确。
WEB用法挖掘:Web使用记录挖掘, 对垃圾信息WEB使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。来发现用户访问Web页面的模式, 分析垃圾信息WEB的规律。
2.3 主元分析
它是一种对数据进行分析的技术, 最重要的应用是对原有数据进行简化。正如它的名字———主元分析, 这种方法可以有效的找出数据中最“主要”的元素和结构, 去除噪音和冗余, 将原有的复杂数据降维, 揭示隐藏在复杂数据背后的简单结构。它的优点是简单, 而且无参数限制, 可以方便的应用与各个场合[6]。利用主元分析技术对于垃圾信息的不同行为模式, 利用应用线形代数知识进行科学求解, 最大程度去掉冗余和干扰, 找到垃圾信息的主要行为模式。
2.4 基于行为模式的垃圾过滤模型
通过行为模式识别技术对网络搜索结果中的垃圾信息进行过滤, 其思想是对大量垃圾信息样本进行分析, 建立垃圾信息行为特征模型, 利用这个特征模型对搜索的结果信息进行分析、判断, 过滤其中的垃圾信息。整个垃圾信息过滤模型, 基于信息——知识———智能理论指导, 采用数据挖掘方法提取垃圾信息的行为规则, 从而建立垃圾信息过滤模型。信息表示事物状态变化方式, 知识表示事物状态变化规律, 智能表示根据已知事物变化规律指定对未知事物检测的规则。
智能模型建立步骤:
首先大量收集不同搜索结果中包含的垃圾信息;根据Inktomi对垃圾信息定义对搜索的信息进行分类整理, 并进行垃圾信息预处理, 通过数据格式和内容调整使数据更符合数据挖掘的需要;根据数据挖掘算法对垃圾信息行为模式进行挖掘;利用主元分析理论, 对垃圾信息的行为特征进行计算分析, 找到数据中最主要的元素和结构;将垃圾信息的主要行为进行知识表示;从生成的知识中生成求解问题的策略和规则;利用生成的策略和规则建立垃圾信息过滤模型, 从而解决所面对的实际问题。
建立模型需要解决的关键问题:
垃圾信息的收集是否全面, 能否采集到准确, 真实的数据来是研究基础;垃圾信息中得到的数据适应性, 是否能对这一类垃圾信息真实全面反应;对垃圾信息的行为模式进行数据挖掘时采用的算法;提取垃圾信息各种行为中的主要元素的方法;对垃圾信息的行为模式特征的分析, 产生垃圾信息过滤的规则集。
3 信息过滤系统
如图1所示, 为信息过滤系统结构图, 在原有的网络搜索引擎系统中, 通过将文本索引中包含的索引信息发送给过滤服务器, 通过索引信息中链接查询相关WEB, 分析该WEB的行为特征, 与垃圾信息行为特征库中不同类型的垃圾信息的行为特征进行比较, 清理掉被判定为垃圾信息的搜索结果信息, 将正常行为信息存入索引数据库。
其中, 过滤服务器需要完成4方面的工作, 包括信息采样、行为解析、特征比较、信息过滤。信息采样:提取文本索引中的信息, 包括链接, 文本信息等信息。行为解析:对不同信息进行分析, 提取主要行为特征。特征比较:将不同WEB中信息的行为特征与垃圾信息的行为特征进行比较。信息过滤:过滤到与垃圾信息的行为特征相同的信息。
4 信息过滤系统的特点
提高搜索的准确性:由于垃圾信息和正常信息在特征上存在很多差别, 利用行为模式识别技术实现信息过滤可提高信息搜索的准确性。系统部署方便:对于文本索引中的信息, 进行信息过滤, 不改变原有网络搜索引擎结构, 相对独立, 易于升级维护。搜索结果相对公平:由于过滤系统相对独立, 可由第三方开发商设计指定, 避免网络搜索提供商出于自身利益等考虑而为用户提供的搜索结果。节省用户信息搜索时间:由于垃圾信息减少, 节省了用户需要大量打开不同链接查询信息的时间。先进的过滤技术:传统采用内容关键字过滤时, 由于某些网站随意修改关键词内容, 这样原有的词库不能找到匹配的关键词, 从而无法过滤垃圾信息, 而行为模式识别技术从垃圾信息的特征行为进行判定, 即使进行了关键词内容修改仍可以判定垃圾信息。
5 总结
搜索结果中的垃圾信息, 对于用户和搜索引擎自身都带来了极大的负面影响, 传统的信息过滤技术已经不能满足对垃圾信息的过滤, 通过先进的行为模式识别技术来设计过滤系统, 可以增加垃圾信息过滤的准确性, 提高搜索结果的正确性, 从而满足用户对信息获得的要求。
参考文献
[1]黄晓斌, 邱明辉, 网络信息过滤系统研究, 情报学报, 2004.6 (23) .
[2]金益, 基于网络蜘蛛原理的搜索引擎技术剖析, 电脑学习, 2007.10 (5) .
[3]J.Michael Reed, Recognition Behavior Based Problems in Species Conservation, ANN.ZOOL.FENNICL, 2004.10.
[4]Xuan Zhang, Jianyi Liu, Yaolong Zhang, Cong Wang, Spam Behavior Recognition Based on Session Layer Data Mining, Fuzzy Systems and Knowledge Discovery, 2006.10.
[5]Andy Tseng Ilias Petrounias, A Complete Framwork for Web Mining, IEEE, 2003.7.
[6]Lan Jolliffe, Principal Component Analysis, Encyclopedia of Statistics in Behavioral Science2005.10.
信息搜索模式 篇2
(1)知识目标:了解搜索引擎的使用,并根据自己需要的内容来确定搜索的关键词。培养学生在网上查询信息的能力,以及对信息进行加工的能力。
(2)技能目标:培养有效的地获取信息的能力,以及对所获取信息的鉴别与评价能力。培养在网络环境下,探究性学习,自主学习和多途径的学习能力
(3)情感目标:养成信息共享的意识。教学重点:运用关键词进行搜索的方法与技巧。
教学难点:关键词的选择与组合,搜索方法的灵活运用。
二、教学过程
1、课前热身——激趣导入
在信息社会,高速的获取信息是每个中学生必备的素养之一,同学们,平时你在生活中都是通过哪些方法来获得你想得到的信息的呢?(上网,电视,书本等),可见,在现代社会,我们搜集信息的方法非常多,那如何来高效的获取信息呢?今天这节课我们就一起来学习在互联网上利用搜送引擎搜索信息。(板书:信息的搜索)
首先,请大家欣赏一段视频音乐——神奇的九寨。这首歌的名字叫什么?你们去过九寨沟吗?大多数同学都没去过呀啊,看来我们特有缘分,老师也没去过。九寨沟是一条纵深40余公里的山沟谷地,因周围有9个藏族村寨而得名,九寨沟四季景色都十分迷人,春时嫩芽点绿,瀑流轻快,夏来绿荫围湖,莺飞燕舞,秋至红叶铺山,彩林满目,冬来雪裹山峦,冰瀑如玉。老师没有机会带大家一起去九寨沟观光旅游,详细了解,但是我们一样能了欣赏九寨沟的美景,了解九寨沟的详细情况,那就是利用:互联网。
2、自主总结——搜索引擎的定义与分类
好了,老师今天呀带来了几个问题,需要你在网络上找到答案。第一个问题:九寨沟的具体位置在哪里?快速的去寻找你的答案。(抽学生回答)第二个问题:九寨沟有哪些珍稀动物?(抽学生回答)现在看一下,你是用什么工具找到你所需要的答案的?(百度、搜搜、谷歌等)。我们来一起看一下(课件出示图片)百度、谷歌、搜狐等是不是这些都是我们用来找到答案的工具。这些工具有一个共同的名字,叫做————————(搜索引擎)。那什么是搜索引擎呢?自己总结一下(抽学生完整表述),课件出示搜索引擎定义:在互联网上,用来查找和搜索信息的网站叫做搜索引擎。
好了,刚才我们查找的两个问题,现在你来回想一下,你用的是哪个搜索引擎?有些同学用的是百度,有些同学用的是谷歌,还有用雅虎的,同学们请看你的显示器上,课件出示:搜索引擎可以分为两类:全文搜索引擎和目录搜索引擎。全文搜索引擎我们已经很熟悉了,那目录搜索引擎是什么意思呢?我们来举一个例子,中国雅虎,看一下他的左侧是不是显示的像我们课本上的目录呀,如果要查找NBA的相关信息,应该选择——体育——NBA。
3、自主探索——关键词的提炼
好了,今天我们就以百度为例来进一步探索搜索引擎的使用,现在请同学们回想一下,刚才我们的两个问题,我在搜索答案的时候,我要在百度对话框里输入什么?(关键词),那第一个问题,九寨沟的地理位置在哪里?你输的关键词是什么(九寨沟 地理位置),第二个问题:九寨沟的珍稀动物有哪些?你输的是?关键词,它的提炼是搜索快慢的重要因素之一,那如何提炼关键字呢?请听下面的问题,我需要你快速的回答:第一题,沙尘暴形成的原因是什么?首先我们找出最主要的一个关键词(沙尘暴),如果我需要多个关坚持呢?(成因),我找一个同学说!我可以这样说:沙尘暴和成因吗?可以吗?不可以,我们以前学过,多个关键词,我们应该用空格隔开。那在这里两个关键词应该怎么输入:(沙尘暴 空格 成因)。第二个问题:刘德华的歌曲有哪些?最主要的关键词是(刘德华),那多个关键词呢?(歌曲)。应该怎样输入:(刘德华 空格 歌曲)第三个问题:成都到北京的火车时刻表,关键词有哪些?考虑考虑,我找同学来回答:(成都 空格 北京 空格 火车时刻表)。非常好,开来大家对关键词的提炼非常准确。
4、合作交流——关键词的灵活运用
下面进入竞赛环节,我看谁完成的最快!准备好了吗?第一个问题:九寨沟的主要景点有哪些?快速完成:想一想,你用的哪个搜索引擎,你提炼的关键词是什么?我都需要你来回答!完成的就举手。(抽学生回答)你们都找到九寨沟的景点了吗?那你们都是用什么搜索引擎找到的呢?用百度的举手,还有用其他的吗?好,那你搜索的关键词是什么呢?(九寨沟 空格 景点),非常好,下一个问题:找一找关于九寨沟的诗歌,请把收集的有关资料诵读给同学们听,快速查找。如果在搜寻的过程中遇到什么困难或问题的话,可以问问你的同桌,也可以举手请教老师啊!(抽学生诵读关于九寨沟的诗歌。如果有时间,老师也读一首)
我相信其他同学也读得非常的好,但是由于时间关系,我们继续下面的搜索。九寨沟景色十分迷人,请你找出有关九寨沟的风景图片,展示给大家!关键词是什么?开始!现在要找的是图片了,你能找到你最喜欢的图片吗?提问:你用的是哪个搜索引擎?你搜索的关键词是什么?搜索图片和文字的方法一样吗?好了,现在谁来说一说高速搜索信息的技巧,你是怎样快速找到答案的?来给大家分享一下。我们一起来看一下:(课件出示:
1、关键词的提炼。
2、确定搜索内容的类别。
3、选择一个合适的搜索引擎。
5、自主探究——减去无关信息
好了,这节课我们在快乐中快速的找到了我们需要的信息,同学们,想不想搜一首音乐来欢庆一下呢?在网上搜索歌曲是经常的事情,如果只在输入框中输入歌名,搜索结果可能会很多,这些结果可能包括MP3和其他各种格式,还可能包括不同歌手唱的同一首歌,遇到这种情况,需要把一些无关信息去掉,在输入框中用—号就能够减掉无关信息。现在请同学们打开教材27页,2、减去无关信息的查询,一边看书,一边试着操作,看看你会在搜索过程中减去无关信息吗?如果在操作过程中遇到什么困难就举手示意啊!好了,同学们,你们都学会了吗?下面我们一起来试一试,比如,我们搜一首歌,不要RM格式,就在输入框中输入歌名——空格——减号——再加上不要的格式RM,最后回车。看,我们想要的结果就出来了。同学们,你们学会了吗?
6、课堂小结
网站信息搜索技术与技巧 篇3
关键词:网站信息,搜索技巧,检索工具,搜索引擎
在网络时代, 网络的信息海量存在, 人们已经渐渐习惯在网络上看新闻, 查资料, 找答案。网上信息资源具有如下几个特点:1、信息资源非常丰富, 覆盖面广;2、提供信息资源的方式多样;3、价格低廉, 有时甚至是免费的;4、涉及的内容和用户广泛, 有时甚至可以直接进行交流;5、网上的内容一般是非正式和自由发表;6、信息内容海量、分散、无序, 难以控制;7、信息的可靠性、真实性、合法性无法得到保证。在浩如烟海的网络资源中, 如何快速准确地找到自己想要的资料, 这需要使用一定的技术与技巧。
在网络中检索网络信息的一般方法是浏览网页, 偶然可以发现感兴趣或是有价值的信息, 然后顺着相关链接而继续浏览相关的网页内容, 这种检索方法随意性很大, 有时看了大量的网页, 还是没能找到你需要的资料, 所以这种方法效率很低, 除非是无目的地上网浏览, 否则, 大多数人都会利用检索工具来帮助查找自己所需的资料。所谓的检索工具, 一般可以分成三类:1、目录型检索工具 (主题指南) ;2、搜索引擎;3、网络导航等。人们根据自己所找的资料的性质不同可以选择不同的检索工具来帮助自己搜索所需的资料。下面分别阐述各种检索特点和优缺点。
一、目录型检索工具
为了帮助Internet上用户方便地查询到所需要的信息, 人们按照图书馆管理书目的方法设置了网上目录。网上目录一般以主题方式来组织, 大主题下又包括若干小主题, 这样一层一层地查下去, 直到查到比较具体的信息标题。这就是目录型检索工具, 也称主分类站点目录, 专题目录, 主题指南, 站点导航等, 它是按等级排列的主题类索引, 排列的方法有字母顺序法、时间顺序法、地点法、主题法等等, 或者各种方法综合使用。它是将网络信息资源搜集后, 以某种分类法进行整理, 并和检索法集成在一起的检索方式。它能让用户通过主题浏览Web站点列表、检索相关信息。
网络目录一般采用人工方式和机器自动处理方式结合进行, 在效率和效果上求得平衡。目录型检索工具的使用方法是:1、选择目录大类中的项目, 然后一步步地缩小范围;2、用一个含义较广的关键词 (如科学、教育技术、高职高专等) 查询, 然后继续点击更详细的标题;3、如果一个目录不能给你合适的结果, 可以用另一个试试。通常目录间会有很大的差别。
目录型检索工具的优点是:1、目录结构人工选择;2、学术性强;3、分类浏览直观, 适合新手;4、适合目的不明确的检索;5、降低了检索结果不相关的可能性;6、同一主题下的信息相对集中。缺点是:1、数据库的规模相对较小, 检索到的信息数量有限, 收录不全面;2、更新、维护速度或周期慢, 死链较多;3、分类体系不一定为用户熟悉。综上所述, 目录型检索工具一般适合于查找综合性、概括性的主题概念, 或是对检索准确度要求较高的课题。常用的目录型检索工具有:国内:中文雅虎http://cn.yahoo.com/;搜狐:http://dir.sohu.com/;"所有Soyou"http://www.soyou.com.cn等, 国外:http://www.yahoo.com;http://www.galaxy.com;http://www.vlib.org等。
二、搜索引擎
搜索引擎 (search engine) 是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息, 在对信息进行组织和处理后, 将处理结果信息显示给用户, 是为用户提供检索服务的系统。搜索引擎使用自动索引软件来发现、收集并标引网页, 建立数据库, 从使用者的角度来看, 搜索引擎以Web形式提供给用户一个检索界面, 供用户输入检索关键词、词组或短语等检索项;通过浏览器提交给搜索引擎后, 搜索引擎就会返回跟用户输入的内容相关的信息列表, 从而代替用户在数据库中找出与提问匹配的记录;返回的结果会按一定的相关度排序输出。搜索引擎又称网络资源的关键词索引, 强调的是检索功能。
搜索引擎优点是: (1) 信息新颖, 数量巨大。搜索引擎的最大的优点是在WWW上的综合覆盖面大, 信息新颖。 (2) 可检索到部分高质量、专指性强的信息。利用搜索引擎还可以检索到部分高质量的学术期刊和论文, 其中有些刊物和论文仅以电子版发行。搜索引擎最擅长检索那些处于"灰色地带"、不易归类的主题以及一些专指性很强的词汇。 (3) 可检索到相关性高的信息。搜索引擎能够将其认为相关性高的检索结果排列在前。此外, 不同的搜索引擎具有不同的检索功能和特色。总体来说, 在用户需要进行范围广泛的查询, 而且有时间筛选检索到的大量信息的情况下, 搜索引擎具有极高的价值。
搜索引擎缺点是: (1) 信息质量不高。这是搜索引擎的主要缺点。检索到的资料缺乏权威性, 缺乏像书刊出版社一样的审查录用机构对资料的质量把关, 资料不准确, 过时等, 搜索引擎对检索到的资料不提供任何解释, 也不提供任何质量方面的标识。 (2) 信息内容重复。搜索引擎的检索结果中还经常重复出现同一信息资源的不同部分。 (3) 费时费力。与商业性联机检索数据库相比较, 利用搜索引擎检索常常要花费大量时间进行搜索、浏览、筛选, 因此比较费时费力。此外, 搜索引擎通常仅限于检索WWW上的信息, 检索其他信息则需要考虑使用其他检索工具。
由此可见, 搜索引擎比较适合于检索特定的信息及较为专、深、具体或类属不明确的课题。
搜索引擎代表:1、Google:http://www.google.com;2、百度:http://www.baidu.com/;3、天网:http://e.pku.edu.cn。
搜索引擎通过描述资源信息的特征来定位索引的资源, 使用方法如下:1、通过关键词索引 (所有词条、术语、词条的组合) , 这是最普遍最常用的一种方法。2、通过网页标题索引。3、通过资源的定位 (URL) 索引。4、通过网站的属性索引。5、通过文档的类型 (Filetype) 索引等等。下面以搜索引擎Google为例, 根据不同检索的方法, 说说相关的搜索技巧。
在没有任何限定情况下, Google自动分解输入的检索词。
例如检索:梅县教师进修学校, 该词组会被自动分解为:梅县、教师、进修、学校四个词, 四个词的任意组合的短语 (术语) 都被认为是检索词, 并进行检索。当然, 同时包含这四个词的相关网页会排在最前面, 然后再根据相关关系的紧密程度来排列。
实际使用过程中我们可以活用Google搜索技巧。
1、使用双引号。
使用双引号表示强迫搜寻完整词组, 在想要进行确定短语搜索, 而不进行自动关键词拆分的时候使用。范例:在检索框中输入:"国庆旅游", 将以 (国庆旅游) 四个字, 作为完整的关键词来查询, 不再拆分关键词组。
2、使用「+」或「空格」。
当想要查询两个关键词都包含的网页时使用。范例:在检索框中输入:C语言课程设计或C语言+课程设计, 就可以找到有关C语言课程设计相关资料的极大值。注意使用「+」时不可以有空格。
3、使用「-」。
当想要缩小搜索范围, 从关键词1检索结果中取出含有关键词2的部分资料时使用。范例:拖拉机-游戏, 这时就不会出现拖拉机游戏、网上拖拉机等不相关的网页资料。注意使用时在「-」号之间要先空一格。
4、使用「OR」。
当要查询与关键词1与关键词2的相关数据时使用, 使用方法是:「关键词1」+「空格」+「OR」+「空格」+「关键词2」。范例:四级OR CET4, 会按照「四级」→「CET4」→「四级CET4」这样的检索词顺序显示检索结果。注意使用时OR一定要大写。
5、使用「site」。
当要查询单一网站中的资料或是限定查询资料的网页国籍时使用。使用方法是:「关键词」+「site」+「:」「网站名称」or「国别」。范例:MPA site edu.cn, 表示在教育网中查找有关MPA的网页资源。注意使用时在查询的网站前面不可加上「http」以及「www」的网址部份连结的网页。
6、使用「inurl」。
当想要更精确定位在网页中的资料, 针对特定连结做搜寻时使用。使用方法是:「inurl」+「:」+「关键词1」+「空格」+「关键词2」。范例:inurl mp3神话, 检索出所有资源URL中含有mp3、网页中还有"神话"的网页资源。注意使用时「inurl」后面续接的关键词不可以有空格。
7、使用「intitle」。
当要查询特定标题网页中的资料时使用。使用方法是:「intitle」+「:」+「关键词1」+「空格」+「关键词2」。范例:intitle:免费软件下载, 将检索出所有资源网页Title中含有免费软件下载的网页资源。注意使用时「intitle」检索语与关键词间不可以有空格。
8、使用「filetype」。
当要查询特定类别的文献资料时使用。使用方法是:「filetype」+「:」+「档案类型」+「空格」+「关键词1」。范例:filetype:DOC高校教师继续教育, 检索出所有资源内容包含"高校教师继续教育"的Word文档资源。注意使用此检索方式之前, 确定其网的文献资源的扩展名。
9、利用google的一些特色服务, 查询特殊的信息结果, 例如:
货币转换;计算器;股票查询;英汉互译;天气查询;邮编区号;手机号码;定义等。
综上所述, 当需要在网络中查找所需资料时, 适当采用一些搜索技术去帮助搜索, 可以比较快速准确地定位到你想要查找的资料, 起到事半功倍的效果。
参考文献
[1]谭启慧, Google搜索引擎功能及其使用技巧[J].科技情报开发与经济, 2007 (15) .
[2]邹小筑, 搜索引擎的选择与使用技巧, 图书馆研究, 2002.第5期
[3]李艳梅, 浅议搜索引擎google, 现代情报, 2003.7
[4]李育嫦;搜索引擎中完善关键词检索功能的探索[J];图书与情报;2003年05期
《信息搜索进阶》说课稿 篇4
大家好!今天我说课的内容是《中国人要不要过圣诞节——信息搜索进阶》。这一节的内容主要是学习信息搜索。下面,我将从教材分析、教法学法分析、教学流程、设计理念等方面阐述这节课的教学设计和理论依据。
一、教材分析
1、教材的地位和作用
《中国人要不要过圣诞节——信息搜索》是华师版初中《信息技术》第二册第一章第二节的内容。
本章的主要内容是信息搜索与交流的基本概念与方法。这次课是在上一节课《信息就在你指尖——信息搜索入门》的基础上对信息搜索的进一步的学习。本节内容是第一节内容的深化,同时为本章第三节(下载软件)内容的学习奠定基础。
在网上搜索自己所需要的信息,是我们获取信息的基本途径之一。学习本节,对于提高学生信息素养,提高学生自我学习、自我探究的能力具有十分重要的意义。
2、教学目标的确定及其依据
根据《中小学信息技术课程指导纲要》,信息技术课程的主要任务是通过信息技术课程使学生具有获取信息、传输信息,处理信息和应用信息的能力,培养学生良好的信息素养的理念,确定以下“知识与技能目标”
⑴进一步熟悉不同的“搜索引擎”。
⑵能正确使用各种符号缩小搜索范围,准确搜索信息。
根据《指导纲要》中:要教育学生正确认识和理解与信息技术相关的文化,伦理和社会等问题,负责任地使用信息技术。注重培养学生创新精神和实践能力,确定以下“情感态度价值观目标”
① 增强学生在信息交流中的责任心和道德观。
② 培养学生自主学习和合作探究学习的意识。
③ 在学习活动中,增强学生的集体荣誉感。
教学重难点:培养学生运用恰当的方法,快捷而准确地搜索信息的能力。能灵活运用搜索策略。
二、学情分析及学法指导
学情分析:学生目前已掌握了计算机操作基本知识,也具备了一定的逻辑思维能力,单从本节课知识性内容来看,并不复杂,学生能较快的掌握。但从信息技术的工具性及课程的实践性来看,给学生“自主实践”的机会是关键。为此:我将本课的学法指导设计为:
1、问题联想、自主学习。利用“该不该过圣诞节”的辩论,指导学生发现生活中的问题,能运用信息技术解决问题。
2、综合实践、能力牵引。信息素养涉及到不同学科、不同知识。本节课借“过圣诞节”这一青少年学生中的“新文化现象”展开辩论,使语言文字表达能力、数字逻辑推理能力、地理历史中的试记能力、政治、美学中的不同文化的鉴赏能力,牵引到信息收集、整理、鉴别、发布等信息素养上。让学生在实践中自觉整合各学科知识和能力。
3、自主探究、贯穿练习。本节“辩论”必定涉及原有的计算机基本操作、涉及对上一节的“搜索工具”的应用。以及以后各章节的信息下载、信息发布等内容。指导学生对已经学习内容的应用以及没有接触的知识的探究是重要的学法指导之一。
三、教法分析
为适应信息课具有的发展性、综合性、实践性、创造性等特点,培养学生良好的信息素养,考虑到学生层次的个体差异,结合初中学生对外来文化的好奇心理,勇于竞争的博异心态,基于对教材的分析和对学科特点的理解,我采用了如下教学方法。
① 情境激趣法:如动画导入,激发兴趣等。
② 任务驱动法:本节课以“中国人要不要过圣诞节”为“任务”主题,整节课以一场“辩论赛”为活动主体,在辩论的过程中,正反两方会不断生成不同的“任务”。
③ 评比激趣法:“辩论”需要有说服人的材料,材料来自信息的“准确搜索”,辩论的过程就是评比的过程,只是评比的裁判不是老师,而是同伴、是对手、是学生。
④ 合作探究法:正反两方的小组,只有通过组员的全力合作,才能在网络上搜索到有利于胜辩对方而不重复的材料。
四、教学流程分析
㈠情境激趣,导入新课.播放关于圣诞节的动画,激发兴趣,引导学生简单讨论:中国人要不要过圣诞节?从而导入新课。
设计意图:动画导入,能激发学生兴趣,营造良好的课堂氛围。
㈡教师引领,知识导航.教师简要讲解本课知识点:
⒈ 阅读搜索结果的前几条信息.⒉ 缩小搜索范围.① 合理运用关键词.② 运用高级搜索.③ 使用逻辑操作符AND.④ 使用引号连接字符.⑤ 利用“+” “-”起限定作用。
设计意图;紧紧扣住学生感兴趣的话题展开学习活动,引导学生主动探求知识。老师的讲解伴随着示范,让学生更快的了解相关方法。为后面的自主探究作铺垫。
㈢自主探究,展开辩论
⒈分组合作,搜索素材
教师分发信息记录卡,并在大屏幕上示范“如何合理运用关键词”。
学生根据老师的讲解,就本节课的话题,自己练习搜索。学习用不同的方法搜索信息。
设计意图:以知识导航,让学生对准确搜索的方法有所了解;教师起示范引导作用,学生练习为下面的自主探究做铺垫。
⒉理性思考,各抒己见
学生加工整理搜集的信息,理性思考,得出观点;教师适时评价点拨,把握学生辩论的方向。
本环节是学生展示自己才华和能力的关键环节,学生会争先恐后的发言,教师特别要注意引导。帮助学生进行针锋相对的辩论,学会根据对方的辩词及时开始新的搜索,明确活动中生成的新任务。并能快速应对。
特别重要的是:提醒发言的学生说明信息的来源及其搜索方法。
设计意图:以辩论会的形式展开活动,可以提高学生的搜索热情,激发他们的集体荣誉感。且正反两方各有合作,学生互帮互学,反复练习,有助于他们生成能力。教师要求他们说明信息来源及方法,可以帮助巩固知识,也可以进行信息技术道德观的教育。全面提高他们的信息素养。
㈣归纳小结,自主完善
请学生从本课的辩论话题和本课的学习内容两方面作小结,用一句话谈谈自己的收获。
设计意图:对话题的小结关键是从价值观的角度给学生一个正确的引导;学生谈收获,实际上是小结了本课的知识,起到巩固知识点,实践与理论相结合的目的。
㈤拓展延伸,关注生活
设计一项课外作业:在中外节日中,任选一个你感兴趣的节日,搜索其由来、特色、风俗等,制作成一份电子板报。
设计意图:给学生一个空间,继续巩固搜索的相关知识,同时锻炼学生的创造性思维。引导学生把信息技术与生活实践结合起来,把信息技术作为支持终身学习和合作学习的手段。
五、设计理念
在设计这节课的时候,我比较注重体现以下几个思想:
⒈坚持“以学生为主体”的原则。让学生在主动探究中反复练习,生成能力。
⒉坚持“情景与任务驱动相结合”的原则,创设了要不要过圣诞节的情景,让学生在参与辩论的热情驱使下主动积极去搜索。
⒊坚持“自主探究与合作学习相结合”的原则。在辩论中,学生既要自主独立完成,又要根据辩论的内容,不断调整搜索内容,操作能力强的学生帮助能力较弱的学生,达到共同进步的目的。
搜索引擎与个人信息安全 篇5
从1990年第一个互联网FTP资源搜索工具Archie发展至今,搜索引擎在近二十年的发展完善,可以用精、广、深来概括近几年搜索引擎技术的发展。智能化技术、数据加工技术以及个人行为分析技术的发展,使搜索结果精度越来越高;搜索引擎除了对文字进行检索外,还对视频、音频、地图、博客、论坛等进行检索,收集范围越来越广;搜索技术可以深入挖掘数据,受密码保护的数据、数据库数据都能被检索到。地理信息系统、自然语言处理、数据挖掘等技术使搜索引擎能直接为用户提供越来越多、越来越精确的内容。搜索引擎作为一种信息服务产业,呈现出智能化特征;搜索手段多元化并适应人类自然语言查询,同时还具备了交互功能,可以通过集成化形成个人整体形象。正是由于这些发展,使个人信息的被收集、加工、集成和披露成为隐私权益的一个极容易被侵害的领域。主要是某些人未经许可对个人隐私信息进行收集加工后,通过网站进行营销;另外也有很多论坛以及博客将搜索到的各类信息进行整理后发布,一些广告服务商利用一些技术,比如Cookies进行个人网络跟踪等,现在可以将搜索到的人们各方面的数据并整合成一体,从而确定被检索对象的身份。而越来越深的挖掘技术,使人们可能访问到受密码保护的内容,侵犯个人隐私。搜索引擎的使用与我们的信息安全息息相关,因此我们有必要了解我们的信息是如何泄露出去的。
1 搜索引擎原理
搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google的googlebot,一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息、内容和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向网站派出“蜘蛛”程序,扫描网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,更多的外部链接能让搜索引擎有更多机会找到并自动收录你的网站。
当用户以关键词提交查询信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法———通常根据网页中关键词的匹配程度,出现的位置、频次、链接质量等———计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
2 个人信息泄露的途径
2.1 搜索行为
当用户打开搜索引擎的搜索框,键入需要查询的内容,期望搜索引擎给予我们正确的答案,同时已经告诉搜索引擎用户目前大致在关心、注意的一些东西,目前所处的位置。搜索引擎同时记录用户搜索的时间、内容,点击的URL、以及其他一些用户相关的信息。搜索是一个毫无保障的泄密途径,搜索引擎是很多在线活动的起点,用户访问主要的搜索引擎并且相信自己能被引向最好的结果,但是结果有时候并不是这样:尽管用户键入了正确的域名,仍被指向一个不正确的网站,受操纵的搜索引擎会将人们引向一些恶意网站或者钓鱼网站。
2.2 搜索遗留痕迹
网络浏览器每次访问网页、图像或者其他对象的时候,都会在网络服务器上日志上留下一些纪录。一个简单的网络服务器日志记录了用户网络地址、本地日期时间、访问者的HTTP GET请求,同时用户的浏览器传递了查询的URL、浏览器的版本以及其他一些计算机操作系统的详情。
记录的IP地址信息可以用来帮助确定用户的IP地址,在很多情况下ISP都能精确定位他们的有线用户的位置。大型搜索引擎每个月接待数百万不同的访问者,它可以创建一个巨大的与IP地址关联的动态数据库。
网络浏览可能在服务器上产生cookie文件,网络服务器使用cookie来标记带有识别信息的网络浏览器,帮助提供无缝的浏览体验,通过向网络浏览器提供唯一的cookie,网络服务器便可以识别用户并准确的向各个用户提供适宜的服务。Cookie唯一标识了某个特定用户可能经常用的一个浏览器和账号的组合。通过cookie,在线公司能映射同一用户使用的不同网络或同一地址下的不同用户。主要搜索引擎的cookie有效期各不相同:AOL Search是1年google是2年,ASK是2年,MSN LIVE是13年YAHOO!是29年。到期时间越长,在线公司可以跟踪特定cookie的周期越长。
2.3 广告和嵌入式内容
许多网站在网页中嵌入了第三方内容。第三方内容采用合法的图片和视频代码段,也可在用户上网时用户跟踪用户。广告商和网络分析服务为网管提供了诱人的分析工具和广告收益,作为交换他们要求在网页中增加一小段HTML和Javascript代码片段。用户的网络浏览器会自动访问这些第三方服务器,第三方服务器记录下用户的访问并用cookie给浏览器打上标记。这些第三方的广告和嵌入式内容具有严重的隐私泄露和基于网络的信息泄露风险,广告网络越大,网络公司拥有关于用户在线活动的能力越大。
2.4 Spider程序
Spider程序时搜索引擎获取信息的主要途径之一。该程序使用HTTP请求网页、图片和文档,并将数据反馈给后端处理器和数据库。搜索引擎存储这些对象的副本并对他们进行缓存、本地维护并在用户提出请求时作为搜索结果的一部分返回,并从搜集到的网页提取出来链接来帮组确定搜索结果中的网页排行。当Spider复制一个文件时,信息泄露就无法避免。在公开可访问的网页上,试图让网页内容躲过搜索公司是完全不可能的。Spider搜索并获取网络中全部公开可用的信息,包括人们放在网上的无关的和敏感的信息。现在的Spider程序能阅读电子邮件、跟随链接、填表、监控网站、下载文件以及捕获图片,只要信息在网上可用,迟早被Spider程序获取。
3 最大化防止信息泄露
3.1 用户安全补丁
对于用户而言,处理网络信息泄露问题的最好的补丁和对策就是提高自身知识水平,成为一名有知识的用户,必须不断的评估威胁,才能保护个人信息的隐蔽性。
自我保护意识。首先用户应当提高自我的隐私保护意识,认识到问题的存在,知道哪些是最关键的问题,意识应该提高到何种程度。同时必须:清楚自己泄露的东西,自己评价每种工具并懂得它何时会泄露你的个人信息,意识到“世界上没有免费的午餐”,没有一家网络公司会真正免费的提供工具和服务,这些都必须以你的个人信息和行为做为代价来进行交换;思考一下对共享信息一方的信任度是多少;想想正在共享的东西有多少是与自己身边的人共享过的;仔细阅读网站的隐私政策,明白其中的言外之意;浏览器设置为每次结束会话删除cookies,尽可能不使用第三方cookie;以泄露最少的信息量来完成一项工作;时刻记住你的网上行为可能经由第三方广告以及网络流量分析软件在许多站点间被跟踪。
可用的安全性。保护基于网络的的信息泄露要求可用的安全措施,通过生成涉及可行、高效、可理解的可用安全措施保护人们维护安全性。这种系统只在用户需要作出决定的时候打扰用户,在正确的时候提供正确的信息,安全保护有效而不可见。但是这种保护失败的例子较多,比如说使用一个SSL加密的网站时,用户在后台得到了充分保护,但是当证书和站点域名没有匹配时用户就会收到莫明奇妙的报错信息,由于错误出现频繁,大多数用户会忽略这种信息,导致安全保护的失效。
3.2 技术保护
用户需要用工具提供技术支撑来实现信息保护的目的,全面的技术保护方案包括:限制cookie、减少泄露、适当的加密等,许多解决方案以网络浏览器为中心。
1)控制cookie:最简单有效的的对策就是减少或者删除用户计算机上积累的cookie。Cookie存在有两种类型,一种是进存在少量时间(会话cookie),另一种是可以存在很长时间(永久cookie)。现代浏览器对cookie的控制提供了许多智能的选择,能够选择性的接收来自网站的cookie,可以选择cookie保存的时间,可以选择性拒绝来自第三方站点的cookie,支持许多扩展设计来补充浏览器的隐私和安全特性。但是阻止和删除cookie也会带来一些不便,在许多情况下,删除cookie会丢失之前在网站上配置的参数选项,每次访问你都将作为新用户出现,网站无法为你进行适当的定制。
2)减少泄露:通过部署代理可以避免你的浏览器被插入一个或者多个第三方网站的内容而留下足迹。代理在用户网络浏览器和目标网站中间充当中介,具备修改用户注入和流出通信的能力,用户可以用代理将流出和注入的通信调节成自己关系的内容,从而实现内同过滤功能,减少信息泄露。
通过使用具有改进的历史记录功能的软件能够监控自己的长期以来泄露的自己的精确信息,从而提升用户的自我保护意识。最好的自我监控解决方案不应当只包括搜索查询,还应当包括大多数类型的信息泄露的可见显示和汇总。基于浏览器的方法是最好的工具设计方法,设计良好的工具能够为用户显示自己访问过的网站上所有的泄露、与浏览器完美结合、保护用户本地存储的数据。
通过输入干扰搜索项也能有效保护自己的个人信息。当使用搜索工具时,用户提供的是无干扰的信息流,如搜索项或者映射地址,这样做才能容易识别合法行为。干扰则是在搜索栏中输入不必要,无效或者用户并不关系的信息提交给搜索引擎,在信息流中包括虚假的或者误导行为,来隐藏自己真正的行为和动机。
3)加密:密码学和加密通常被认为是解决大多数安全性问题的好办法。使用加密的安全HTTP协议SSL可以增加窃听的难度。但是SSL不能用于保护所有形式的在线行为,因为加密算法会增加处理开销,降低交互并要求更多的服务器资源。
3.3 策略保护
技术解决方案、用户自我保护意识和知识性提高不是保护个人信息、减少个人信息泄露的唯一途径。用户可以使用按个人级、组织级和国家级实现的良好策略和行为计划来支撑一些策略,策略解决方案包括多种解决方法,包括禁止跟踪(do-not-track)列表、可行的使用策略、对隐私组织的支持、数据匿名化、有限的数据保存与生存等。
除了以上几种办法,其他如网络地址保护、删除注册账号、最小化存储计算机上的敏感数据等措施也能有效减少个人信息的泄露。
4 关注搜索引擎带来的信息安全问题
我们必须意识到搜索引擎的发展的确方便了用户,但是一些不良搜索对个人隐私信息进行收集加工后,通过网站进行营销,个人信息被收集、加工、集成和披露,这已经成为一个隐私权益极易被侵害的领域。搜索引擎不但会泄露个人隐私,甚至有一些不良搜索背后聚集了黑客和商业欺诈组织,更是危及消费者安全。安全厂商Mark Monitor的研究人员调查发现,75%的网络钓鱼组织通过搜索引擎来寻找存在漏洞的站点,并对所找到的站点进行网络钓鱼攻击。信息安全危机不是来自某一个互联网服务提供商或内容提供商,而是来自于用户遗留在网上的信息。公众应当养成良好的网络习惯,掌握一些个人信息安全的技术防护知识,注意保护自己的隐私;政府部门应当对搜索引擎的个人隐私保护尽快出台相应的司法解释。从国际上看,搜索引擎的法律问题日益受到关注,相关立法研究也很活跃,其中关键是要明确搜索引擎在侵权纠纷中是否承担连带责任问题,如何承担。搜索引擎的发展给我们带来便利的同时对我们的信息安全造成了一些威胁,利弊之间的权衡自然是仁者见仁智者见智,技术的发展永远都是一把双刃剑。
参考文献
[1]Schrenk M,Spiders W,Scrapers S.A Guide to Developing Internet Agents with PHP/CURL[M].北京:No Starch出版社,2007.
[2]Zalewski M.Silence on The Wire A field guide to passive reconnaissance and indirect Attacks[M].北京:中国水利水电出版社,2007.
[3]林闯,尹浩.网络安全控制机制[M].北京:清华大学出版社,2008.
[4]Conti G.Googling Security-How much does google know about you[M].北京:机械工业出版社,2010.
[5]不良搜索危害个人信息安全搜索引擎面临信任危机[EB/OL].http://society.people.com.cn/GB/1062/7932344.html.
会计信息搜索模拟与利用研究 篇6
关键词:会计信息系统,信息搜索,信息传递
现行的会计信息系统主要是针对会计数据的加工和存储等功能而展开, 对于会计信息的输出部分缺乏研究, 特别是在信息搜索功能上还有很大的发展空间。本文所指的会计信息搜索, 即是在会计信息系统中建立类似于搜索引擎的模块, 对数据库中的信息资源进行搜集整理后供用户查询。由此, 本文模拟在会计信息系统中增加信息的内部搜索功能, 并对如何应用信息搜索等相关问题进行研究。
一、实现会计信息搜索的必要性
从会计职能的角度来看, 会计的基本职能包括“反映”和“控制”。当前的会计信息系统主要是利用特定的计量标准和专门的会计方法对数据进行综合处理, 很少能做到“反映”职能中所要求的总括和评价会计信息, 而“控制”职能则更难实现。从最初的手工会计发展到今天的信息系统, 单纯的处理数据已经不能满足时代要求, 如何利用这些信息才是关键。信息搜索功能就提供了这样一个平台, 它对数据库中的相关信息进行归类整理, 再按照搜索需求提取并以特定的顺序反映。这就打破了传统会计信息系统中各模块单独的纵向查询, 而是对综合信息进行横纵结合的搜索。如此一来, 不仅能总括会计信息, 也能在充分反映和关联信息的基础上服务于会计控制。
从会计实务工作来看, 现行的会计信息系统通常根据业务流程分为不同模块, 这虽然便于会计业务处理, 但对于信息查询而言则十分不便。例如, 如果在原系统查询某产品的进销存情况, 需依次进入采购、销售和库存模块分别查询, 而所得结果也是相互独立的。然而建立信息搜索之后, 只需输入类似于产品名称等简单信息就可以查询到数据库中所有的相关内容, 亦可以根据需求录入多个关键字并对结果排序。这不仅大大简化查询步骤, 提高了工作效率还能获得更多、更全面的信息。因此, 无论是站在理论分析还是实际工作角度, 构建会计信息搜索都是十分必要的。
二、会计信息搜索应用
本文构建的会计信息搜索以原有会计信息系统数据库为资源, 为用户提供查询服务。一个企业的信息系统拥有庞大的数据资源, 如何将这些信息组织起来, 帮助使用者快速准确地找到所需信息并提高使用效率, 是目前亟待解决的问题, 也是会计信息搜索的核心。
一是信息传递模式。现代信息技术为我们提供了多种多样的信息提取和传递方法, 从“信源”与“用户”的关系来看, 可以分为“信息推送”和“信息拉取”两种模式, 前者是信息源主动将信息推送给用户, 后者则是用户主动从信息源拉取信息。会计信息搜索就是以此为基础, 采取推拉结合的方式向用户传递信息。
用户可以主动拉取信息, 在搜索模块中提交查询关键词, 系统自动在数据库中搜索, 并由索引器为搜索到的信息建立索引, 再由检索器根据用户的查询输入检索索引库, 并将结果按固定格式反馈给用户, 用户根据搜索结果的指引就能快速、直接查看所需信息。然而, 在用户拉取信息的搜索过程中, 根据用户输入的查询条件, 系统也可以主动推送相关信息。例如, 用户查询某供应商的信息, 在匹配完毕后, 系统也可将同地域或提供同类产品的供应商信息提供给用户, 增大用户信息量。
另一方面, 系统可以根据用户所属部门和级别主动推送有关信息, 或者根据用户最近搜索的记录推送信息。信息推送作为实现主动信息服务的关键, 要求系统从数据库中获取信息, 按照指定的时间间隔分别推送给各个信息搜索者。这样不仅能保证信息的相关性, 也能更及时将信息传递给用户。在会计信息系统中, 这种模式的优点尤为突出。例如, 在企业库存管理中, 当某种原材料的库存量低于标准时, 系统就可以将该信息自动发送至库管部门和采购部门, 在提醒库管部门开具采购申请的同时, 也为采购部门的工作安排预留准备时间。
二是会计信息搜索的利用。对于管理者而言, 使用会计信息搜索能更直接更快速的提供所需信息。在传统纸质模式下, 管理者所关注的信息需要由负责人整理归纳再层层上报, 而信息搜索系统则省去了这一系列工作所耗费的时间和人力。此外, 管理者也不用局限于现有会计信息系统中单一的查询结果, 信息搜索既能带来更大的信息量也能减少人工干预;对于会计部门而言, 将信息集中进行搜索查询, 从一定程度上加大了信息的公开度, 进而起到了增强内部监督的作用。随着会计信息系统的不断完善, 会计工作也会进一步深化发展, 为企业经营决策提供更多服务。
三、实施中待解决的问题及建议
会计信息搜索作为传统信息系统与搜索技术结合的新兴项目, 虽然在提高工作效率、节省企业资源上具有显著优势, 但是缺乏实践考验, 在功能完善方面也存在一些不足, 值得进一步研究。
一是搜索中的信息安全问题。由于会计信息的重要性和特殊性, 确保信息安全是首要考虑的问题。建立内部搜索后, 信息的输出方式较先前更灵活, 但仍需限制用户权限。企业要加强系统内部控制, 明确用户分级授权, 拒绝非法访问。而数据库资源也应设置严格的读写限制, 避免用户不当操作或恶意篡改而导致错误。此外, 用户搜索信息时的浏览记录也应有选择性的独立存档, 既为进一步提供搜索服务做准备, 又要避免数据冗余给系统带来负担。
二是用户缺乏相关信息技术。虽然会计信息系统的普及在一定程度上帮助会计人员提高了信息技术水平, 但是建立内部搜索后, 这一要求将进一步提升。因为搜索时很难用简单的关键词或关键词串来准确表达需检索的内容, 所以用户需要了解有关信源信息系统的背景知识, 掌握查询技术, 才能充分利用搜索功能准确高效的获取所需信息。
三是硬件升级与系统维护。虽然信息内部搜索建立在原有系统之上, 但是其运行模式有别于其他会计模块。为保障系统的有效运行, 企业应根据情况适当调整硬件设施。而对于已开发系统的维护则是一项持久的任务, 应该定期检查和监控应用程序和系统软件的可靠性, 不定期进行正确性抽查。企业需慎重选择符合自身需要、能及时提供日常维护、版本升级等要求的软件。
四、结束语
总之, 建立会计信息系统下的信息内部搜索, 是在原有系统上的一次飞跃。它进一步融合于互联网中, 不仅为企业内部系统的开发提供了新思路, 也将成为信息系统发展的必然方向。当然, 信息搜索在提高财务管理效率的同时, 自身的风险也在加大。因此, 我们应该积极分析信息化条件下的会计信息搜索面临的主要问题并提出建议, 促进信息搜索的实施与完善。J
参考文献
[1].纪绪财, 褚学军.提高网络会计信息系统的安全防范策略[J].经济师, 2010, (9) :150-151.
[2].师清盛.会计信息化时代下会计信息系统的安全性分析[J].财会审计, 2010, (7) :87-88.
[3].张婷.浅谈网上拉取与推送技术[J].图书情报工作, 2006, (增刊) :146-149.
[4].刘豫.“信息海洋”与“平台壁垒”——网络时代个性化会计信息服务的两大障碍[J].商业IT, 2005, (10) :89-90.
明复信息进军移动语音搜索领域 篇7
手机搜索发展迅速, 入口重要性提升
随着智能手机性能不断提升、价格进一步降低, 加上移动流量资费的下调, 网民手机上网的比例逐渐提升。2013年7月, 中国互联网信息中心发布了第32次《中国互联网络发展状况统计报告》。报告显示, 截止至2013年6月30日, 我国手机搜索网民数达3.24亿, 较2012年底增长了11.3%。手机搜索是仅次于即时通信的第二大手机应用, 使用率为69.9%, 在网民日常生活中占据着重要地位。
互联网行业巨头纷纷涉足语音搜索领域
手机搜索一方面来自于电脑搜索需求的延伸, 另一方面来自于人们碎片化时间里在各种场景的信息搜寻需求。手机搜索输入变得多元化, 不仅有文字图片输入, 还有语音、拍照、扫描等输入方式。手机搜索的迅速发展, 各搜索企业更加重视移动搜索技术的研发和推广, 同时重视各种手机搜索入口, 力求在手机搜索领域占据一席之地。
互联网行业巨头纷纷涉足语音搜索领域。2010年, 苹果以2亿美金收购Siri, 通过与全球最大的语音识别厂商Nuance合作, Siri实现了语音识别功能, 成为i OS的一部分。2012年10月Google推出语音识别搜索引擎, 随后大陆也相继推出各自语音搜索引擎和应用, 如百度浏览器、SOGOU浏览器等。
明复语音搜索APP“明搜索2.0”前景良好
上海明复信息技术有限公司自2005年推出手机搜索引擎, 为中国11亿无限用户提供移动搜索服务。利用自然语言搜索技术的优势, 此次推出基于Android平台的语音搜索App“明搜索2.0”。自此, 明复已形成以SMS搜索为核心的包括WAP、IM、App以及语音搜索等构成的移动搜索业务体系。明复信息的创始人兼CEO汪丛青 (Alvin Wang Graylin) 表示:“语音搜索将是未来移动搜索的主要发展趋势, 明复此次将自己数年来在自然语言辨析技术上的经验和语音搜索结合, 是希望带来一个实用性和精准度兼顾的语音搜索产品, 优化用户体验, 简化操作过程。”不同于PC端搜索的海量信息提供, 移动搜索的卖点在于信息的准确性, 以及操作的便捷性。例如用户在开车途中, 想要搜索自己所需的餐厅信息, 他没有时间也无法一边开车一边进行手机进行搜索操作、浏览海量信息并进行排除。
基于文本的网络图像信息搜索技术 篇8
关键词:文本搜索,网络图像信息,搜索技术
在当今社会的网络信息存储中, 图像方面的信息占据了越来越重的比例, 根据之前的调查表明, 互联网上有80%的信息都来源于图像, 网民们对于图像的搜索需求越来越高。就目前的技术来看, 图像的搜索技术主要是基于文本和基于图像内容两种方法。在这两种技术方法中, 基于文本的网络图像搜索技术的不断发展, 更加符合绝大多数人的搜索习惯, 对于关键字的描述也相对准确。
1 基于文本的图像检索技术
1.1 什么是基于文本的图像搜索技术
基于文本的图像搜索, 就是指在收集图像的时候, 把这个图像周围的文本也一同收集了起来, 或是在搜索过程中, 图像中存在的文本被识别出来, 作为对于该图像的定量描述。基于文本的图像检索也就是通过关键字来进行图像检索, 非常地简便并且易于实现。
1.2 基于文本的图像检索技术索引数据库的建立
在基于文本的图像搜索技术中, 最关键要素就是索引数据库的建立。建立起这个索引数据库, 首先就要提取出跟图像的所有有关的信息, 比如图像的格式、名称和尺寸等。
1.3 基于文本的图像搜素技术的特点
根据当前的事情来分析, 基于文本的搜索存在着两方面的困难:一方面就是通过文本上的描述并不能准确表达图像的全部内容, 因为文字的描述能力有限, 它只能是通过定向的词语或句式来表达。一旦图像中出现了类似不规则形状或不常见的纹理时, 就很难应用文本对其进行解释。再有就是通过文本描述离不开会出现主观因素的形象, 当图像的内容过于丰富, 就会使内容上的描述具有很大的主观性, 那么这样的搜索方法会出现歧义。
但是基于文本的图像搜素技术也有很多优点, 比如说可以把图像的搜索转为了与图像相适应相符合的文本检索, 这样更加利于实现。另一方面, 由于文本搜索是人工来控制操作的, 所以它的查准率非常高, 可以用来辅助其他图像的搜索技术。
2 如何用文本的方法对图像进行搜索
2.1 图像关联文本的选取
基于文本的图像搜索, 其实就是找到与这个图像有关连的文本, 来对图像进行索引和标注。跟图像有关联的文本主要包括了文件的拓展名和超文本文件的图像标记符号。文件的拓展名就是图片的存储格式, 常见的有gif.、jpg.等, 根据这些文件的拓展名, 我们可以很好地定位图像信息。而超文本文件的图像标记符号其实就是让我们在实际的搜索中应用到超文本标记语言和可拓展标记语言。
2.2 文本匹配技术
当一个需要被搜索的图像里所有的文本都提取出来时, 就要根据这些文本的特征进行排序。不同的排序标准往往会出现不同的搜索结果, 比如根据图片的类型来进行文本搜索, 那么我们可能会搜索出特定的图片, 但如果是根据这个图片的内容在网站中进行搜索, 那么搜索的范围也会缩小。
3 如何对图像中的文字进行提取
3.1 基于文本区域空间频率特征的纹理方法
基于文本区域空间频率特征的纹理方法, 又称为纹理图像分割法。主要是采取了平稳离散的小波变换来对图像进行着分解, 由于纹理图像在局部的区域内是呈现不规则性, 但在整体中又表现出了规律性, 因此可以对其进行分割。这样的方法可以准确检测到字符与背景的对比度较小的文本, 但是也有一定的缺点:由于它产生的文本区域常常和附近的其他边缘轮廓相互黏接, 所以说不能得到文本区域的精确位置。
3.2 连通区域方法
根据图像进行连通区域的方法可以有效确定出文本区域的精确位置和大小, 但和基于文本区域空间频率特征的纹理方法相反的是, 它不能够检测到字符与背景的对比度较小的文本, 因此也有着自身的约束性。
3.3 神经网络方法
由于区域空间纹理法和连通区域法都有着自身的局限性, 所以提出了一种新的方法——神经网络方法。这种方法将纹理法和连通区域法进行了巧妙的融合, 通过整幅的彩色图像色调的直方图来对图像的颜色进行分类, 当字符和背景的对比度较小时, 根据图像中的其他像素颜色, 文本和背景的颜色就会在神经网络中形成一个绝大值。在实际的搜索中, 会用纹理法将图像分隔成一个个可能会包含着文本的图像块, 然后用区域法来确定文本的大小和具体位置。
神经网络的方法改进了纹理法和连通区域法中存在的不足, 是目前为止应用最为广泛的图像中文字的提取方法。
4 结论
其实基于文本来对图像进行搜索, 从根本上说就是利用文本的特征来准确搜索到图像, 在这里文本就是起到了桥梁的作用。在今后的生活中, 互联网将会是一个多媒体的网络, 除了文字外, 图像、音频、视频都在扮演着越来越重要的角色。随着基于文本的图像搜索技术发展水平越来越高, 也有着非常大的现实意义。但是技术的发展并不是一朝一夕可以完成的, 在现阶段的搜索技术力还有这很多问题, 显得不够成熟, 我们应该通过分析文本的图像搜索技术的优点和不足, 找出今后的发展方向, 推动检索技术更加成熟化发展, 给人们创造出更多的价值。
参考文献
[1]赖庆.基于文本的网络图像信息搜索技术[J].民营科技, 2008, (11) :30-32
[2]王占一, 徐蔚然, 郭军.智能文本搜索新技术[J].智能系统学报, 2012, (01) :40-49.
[3]阿斯艳·哈米提, 阿不都热西提·哈米提.基于文本的图像检索与基于内容的图像检索技术的比较研究[J].首都师范大学学报 (自然科学版) , 2012, (04) :6-9.
[4]韩泉叶, 杨晓健.文本信息搜索模型研究[J].兰州铁道学院学报, 2002, (01) :27-29.
搜索引擎的网络信息审计系统 篇9
目前,政务网和大型企业的内网建设已具有一定规模,虽然大多数单位都已认识到信息安全的重要性,部署了防火墙、IDS/IPS等设备,但对于信息监管的效率仍旧较低,很难从海量的网络信息中发现敏感信息,尤其缺少对单位内部信息泄漏的有效监控、取证、审计的能力。
与互联网相比,企业内网有其独特之处:1、内网中大量的信息公开网站和业务系统大都采用或即将采用B/S模式,因此内网流量中超过80%的流量为HTTP协议的数据流量。2、内网中有大量的孤岛信息,由于很少有链接指向这些地址,如个别单位未经审批私自开设网站等,因此监管部门不易发现和管理。3、企业内部使用的系统,往往是由总公司统一部署,总部自然具有垂直管理的权限,能够直接从数据库获取所有的信息。
当前业界普遍采用的信息审计系统,大多采取关键字匹配或数据挖掘技术,这些都要求有强大的计算环境支撑,普通的服务器难以承受上百万条记录的信息审计,常常出现执行超时等情况。
针对上述特点和问题,本文提出一种基于搜索引擎的网络流量信息审计系统,尝试改变传统单一依赖关系型数据库的局面,引入开源的sphinx搜索引擎技术,提高了对文本信息的分析速度,丰富了信息审计功能。通过改进信息审计系统结构,在探针和审计服务器之间增加了高速缓冲阵列,有效减少前后端系统的同步压力,提高了整个系统的效率。
2. 系统结构
本系统由流量采集和协议还原引擎、高速网络缓存和信息审计引擎构成,如图1所示。与传统信息审计引擎不同,没有在进行流量采集的同时进行关键词的匹配,而是经过协议识别、过滤、还原为页面快照后,由信息审计引擎执行信息索引,由于这一步的速度相对较慢,为了避免由模块间同步带来的性能损失,在高速信息采集后,增设了一级高速网络缓存,用于暂时存放文本信息,并产生任务队列,便于后端慢速的搜索引擎抓取信息。
3. 关键技术分析
3.1 流量采集手段
根据管理的需求和信息类型不同,监管部门和业务提供单位可采取不同的数据采集方法,目前主要有旁路镜像、网站爬虫和服务器探针三种数据采集技术。它们的特点如下:
1)旁路镜像技术适合在网络节点处部署,通过端口镜像或分光,从核心交换机和路由器获取流量,能在不影响原有设备的传输和性能的前提下,精确记录所有报文的流量信息,是一种高效、安全的布控方式和手段;
2)爬虫技术适合对信息发布站点、留言板等信息公开场所实施信息审计。通过指定一组URL列表,网络爬虫自动抓取所有的网页,以网页快照的方式展示和存档。但对于一些孤立的站点很难实施自动采集;
3)服务器探针是直接安装在各种Web服务器上的软插件,监听服务器上的所有http通信,能够有效的获取通过压缩、加密等手段保护的HTTP通信。
在本系统中结合三种方式的优点,以旁路采集为基本手段,将网络流量还原为页面快照,利用爬虫对采集中发现的孤岛站点地址进行主动探测。而服务器探针则可以通过行政手段,强制安装在由总公司统一管理的服务器上,直接对其服务器甚至后台数据库监控。
3.2 HTTP协议还原
协议还原是指对获取的数据按照TCP/IP的标准进行重组和剖析,根据不同端口对应的协议分别进行还原,包括协议命令和协议传输的内容(如Web网页),将满足应用功能的数据交给应用功能部分(如网页的文本化信息)。HTTP协议由R FC1945(HTTP1.0)和R FC2616(HTTP1.1)标准定义,采用请求/响应模型。通常HTTP消息包括客户机向服务器的请求消息和服务器向客户机的响应消息。这两种类型的消息是用ASCII文本携程,每行以一个CR LF符结束,最后一行有一个额外的CRLF符。由一个起始行,一个或者多个头部行和附加的消息体组成。
请求消息的第一行包括方法字段、URL字段和HTTP版本字段,方法字段包括GET、POST、HEAD等方法。头部行中常用的字段如HOST,指定请求资源的主机地址,和前面的UR L字段共同组成完整的UR L。响应消息的第一行包括HTTP字段、Status_code字段等,如状态200表示处理成功,403表示没有找到指定的页面等。
请求消息和响应消息都可以包含实体信息,实体信息一般由实体头域和实体组成。实体头包括Content-Type、Content-Length等字段,分别表示实体内容的类型和长度。对于请求数据来说,可以认为数据内容以GET、POST、HEAD、HTTP开头的即为起始数据片。对于请求信息结束的一定方法有两种情况:若请求信息中含有content-length域,则可根据其值依次取出规定数目的内容,即可确定结束数据片:若请求信息中不含有content-length域,则可以以两个CRLF作为结束标志。对于响应数据来说,在设计时可以认为数据内容为“HTTP”的即为起始数据片。对于响应信息结束的判定方法同样也有两种情况:若响应信息、中含有content-length域,则可根据其值依次取出规定数目的内容,即可确定结束数据片;若响应信息中不含有content-length域,则可根据该数据片是否设置了FIN标志来确定。而后判断实体内容的数据类型,通过判断“content-Type”“charset”等域信息,我们可以判断该数据包传送的信息类型,采用什么编码方式。如“content-Type:text/html”“charset=gb2312”可以确定为文本信息,采用gb2312编码方式。
为提高处理效率,避免重复处理相同的页面数据,我们建立白名单,记录已经访问过的网址。在分析HTTP头时将GET请求的URL保存在白名单中,若后面发现有请求相同URL的会话,则不再对该会话后续的响应信息做处理。
3.3 高速网络缓存
协议还原后产生了大量的页面数据,文献中提出将数据保存成TXT或HTML类型的文件。然而根据Google在2010年的统计数据表明,不含图片、脚本、CSS等内容的网页平均大小仅37.31KB,频繁文件存储会带来过多的I/O操作,严重影响系统性能。为了提高处理速度,应该让尽可能多的工作都在内存中完成,我们构建了一个高速的网络缓存,主要利用了Memcached和Starling两款开源软件来实现。
Memcached是一个高性能的分布式内存对象缓存系统,基于C/S结构,允许不同主机上的多个用户同时访问这个缓存系统,它通过在内存里维护一个统一的Hash表,以key-value的形式存储和获取各种格式的数据,客户端使用memcache协议进行通信。该协议十分简单,基本的操作仅两条:set、get,并且支持多种语言接口。Starling是一个支持memcache协议的队列服务器,同样为C/S模式,支持多用户访问,实现效率非常高。很多著名网站如新浪、Twitter等,都在其产品中广泛使用了这两款软件,以应对巨大的访问量。
由于这两款软件都是将数据完全放在内存中,避免了磁盘读写瓶颈,因而能够到达很高的处理速度。我们用Memcached作为页面快照存储,用Starling存储key序列,协议还原引擎采取如下步骤存储数据:
1)协议还原引擎经过IP分片重组、流重组、协议识别、协议过滤、还原后,得到原始的HTML数据流和post数据集,保存在http_content结构体中,并将该结构体序列化;
2)以源IP地址、目的IP地址、源端口号、目的端口号为元素,计算出一个16bit的HASH值,作为key;
3)连接Memcached服务器,发送set命令,将key和http_content存储;
4)连接Starling服务器,发送set命令,将key添加进任务队列;
5)调度系统定时从缓存中取出一组key和http_content,进行索引和存档,并及时清理过期的数据。
可见前端在保存数据期间并不需要考虑与后端的同步问题,降低了系统模块间的耦合度,提高了系统的灵活性。随着流量信息的增长,当审计系统的处理能力无法满足需求时,只需简单的增加审计服务器就能够提高处理缓存数据能力,不需要考虑各种同步等问题。
4. 基于搜索引擎的信息审计系统
4.1 sphinx搜索引擎
页面数据流含有大量的文本信息,传统的处理方式是对采取关键字匹配的方式对流量进行监控。这种方式受匹配算法的影响,随着关键字数量的增加匹配性能递减。而搜索引擎在对海量文本信息的查询和统计方面,有着先天的强大优势。大多数搜索引擎基于倒排索引原理,以词作为索引的Key值,对非结构化的自然文档内容进行分词、索引,这是关系型数据库无法做到的,因此搜索引擎有着极高的关键字查询速度。
Sphinx开源搜索引擎是由俄国人Andrew Aksyonoff开发,支持从包括My Sql、Postgre SQL等数据库、XML数据文件中获取检索数据,提供PHP、Python、Perl、C++等语言的API接口,具有良好的搜索性能。Sphinx本身不支持中文分词,目前主要采用Lib MMSeg实现中文分词。现在国内已有对二者进行整合和优化的中文搜索引擎Coreseek,我们将基于该引擎构建信息审计系统。
4.2 海量数据流准实时查询系统
随着系统的运行,不断有新的数据加入,当索引增长到一定规模后,就会影响到搜索效率。因此,需要定时对索引进行维护。由于Sphinx进行索引重建的时间通常远远多于合并索引的时间,我们采用“存档索引+增量索引”模式来实现准实时更新索引。对应的Mysql数据库系统也采用类似的管理模式,使用如下任务调度策略:
1)调度进程从队列缓存中循环取出一组页面快照Key(100条);
2)调度进程根据页面快照Key,从数据缓存中读出页面快照和会话信息,写入后台Mysql数据库的增量表和主表中。主表用于永久存储抓到的页面,按100万条(平均页面文件通常不超过40k,共需约40G)记录进行分区,保证数据库查询性能。
3)调用sphinx对数据库增量表进行抓取,更新增量索引。Sphinx的增量索引与数据库增量表成对应关系,以统一的HASH ID作为全库的主键。经测试Sphinx建立索引的速度大约为6.5MB/s,从而可以设置约10秒更新一次增量索引。
4)经验表明,当Sphinx增量索引的文档数超过38万后,进行索引更新的时间将大增。因此根据数据的增长速度,间隔一段时间(几小时或1天)进行一次合并索引操作,保证My SQ L增量表的记录数只有数万条至十几万条,以加快Sphinx增量索引的更新速度。在进行合并操作时,必须暂停向增量表写入新的数据,并且在合并完成后,立即清空增量表。
经测试,在Xeon 2.4GHz CPU,4G内存的服务器上,3000万条索引记录的条件下,平均查询时间低于0.1秒,最新的流量数据30秒内便能反映在查询结果中。
另外,企业数据库中存有大量的信息,大型企业往往部署有多级业务系统,有时并不能从网站页面上进行全面的信息审计。在条件许可的情况下,直接使用Sphinx读取数据库,不但可以有效实现对论坛、留言系统等的信息审计,而且避免了无关信息的干扰,提高了执行效率。
5. 结束语
本文提出一种基于搜索引擎的信息监控和审计系统,通过改进流量获取和协议还原系统,能够有效采集网络中大量的HTTP协议信息,结合搜索引擎独有的文档索引功能,较好的解决了传统信息审计系统面对海量数据查询效率低下的问题,实现准实时的信息监控功能。【下转第117页】通过建立三级结构,系统具有良好的弹性,随着网络规模和流量的增加,可以简单的进行扩展以提高系统的处理能力,为今后的进一步研究提供了良好基础。
参考文献
[1]协议流量监测[EB/OL].http://www.cert.org.cn/.
[2]Sphinx[EB/OL].http://sphinxsearch.com/.
[3]姜卓彦.大流量主干网络中实时网络监测[D].电子科技大学,2005(19).
[4]陈志军,王丹.支持内容分析的网络监视器的设计与实现[J].沈阳航空工业学院学报.2004.21(5).
[5]吴刚,王旭仁,张信杰.高速邮件监控审计研究[J].计算机工程与设计,2010,31(6),1195.
[6]Web metrics:Size and number of resources[EB/OL].http://code.google.com/intl/zh-CN/speed/articles/web-metrics.html.
[7]Memcached[EB/OL].http://memcached.org/.
【信息搜索模式】推荐阅读:
信息搜索教学设计08-31
实时信息搜索技术论文06-06
网络营销实验报告1_网络信息的搜索查询07-30
搜索模式02-01
模式搜索算法06-21
搜索算法07-19
主题搜索07-20
搜索方法07-20
搜索雷达01-18