现代采集技术(共8篇)
现代采集技术 篇1
植物标本(Herbarium)是植物学家长期从事科研活动的积累和人类自然遗产的永久记录之一。它包含着一个物种的大量信息,诸如形态特征、地理分布、生态环境和物候期等。但是,传统植物标本的采集相当困难而且制作方法比较繁琐,耗费大量的人力、物力和财力;随着现代科学技术的发展和交通设施的完善,野外采集条件有了很大改观,植物标本的制作技术也发生着重大变革。在另一方面,传统的植物标本的保存都是保存在标本馆里,查询需要到指定地点,这给标本的使用带来很大的不便,但随着人们需求的增加,单纯的标本储存和使用已经不能满足人们的需要。本文将结合植物标本采集过程中现代技术及采集的主要内容谈谈这方面的新技术和新特点。
1 植物标本的采集
1.1 植物标本及其采集的意义和作用
植物标本就是将新鲜植物的全株或一部分用物理或化学方法处理后保存起来的实物样品。而现代对于植物标本的定义有所扩展,植物标本可以分为植物实体标本与植物数字标本,其中数字化标本是这个时代一大特点。
植物标本的采集与制作有着重大的意义和作用。首先,植物标本在教学中有着重要的作用,在生物教学中标本能帮助教师讲授教材中的重点、难点并帮助同学们理解、掌握课堂教学内容。其次,在植物标本的采集过程中,教师带领学生到野外调查、采集标本,实地了解到植物与人类的密切关系,可培养学生热爱大自然、热爱生物学、研究生物学的兴趣。更为重要的是植物标本中隐含着重要的信息,是植物学研究工作者不可少的研究材料,对植物形态学、植物分类学、中草药工作者来说尤为重要。同时,植物标本对于珍惜种的保护和研究也有着重要意义。
1.2 野外条件的改善对采集工作的意义
为保证采集到的植物标本尽量为未受人为干扰的原始状态,更准确地反映出植物的各种信息,野外工作十分重要。但是过去的野外采集工作十分复杂,路途艰辛,有的地方住宿及饮食条件很差或不具备,有的地方受道路和交通工具的影响根本无法到达的,而导致相当多野生植物无法采集到。野外采集还是一项具有挑战性的工作,崎岖的山路、陡峭的山峰,容易迷失方向,且深山里易遇各种无法预料的危险,对采集者的人身安全存在很大威胁。
随着技术的进步以及有关部门对野外植物标本采集条件重视性的提高,采集者的采集条件有了非常明显的改善。采集者可以去采集地所属的行政部门申请帮助,如军用越野车、武装人员及山路地图或合法带路人等,保证了野外标本采集者的人身安全及采集工作有效进行。现在的交通更为畅通,采集旅途大大减短。而且,市面上的各种野营用具较为齐全,大大改善采集者野营的条件。
1.3 采集工具的革新
植物标本的采集需要到野外,随着科学技术的发展和较为发达的交通系统及运输工具,采集效率提高了很多,比起以前的采集工具,我们可以拥有有各式各样的枝剪,较长的枝剪可以方便的采集到高处的标本,锋利的枝剪可以很方便的剪断硬的树枝,还可利用发达的定位技术方便的定位出所采集的标本的准确位置,如GPS定位系统,罗盘等,记录更加详尽的标本和环境信息。
根据人们的需求以及现代科技的发展,我们可以使用拍照、录像等手段记录植物数字信息,使今后的植物分类研究以及植物物种的辨析更加准确,还能利用计算机将这些图像用数字的形式存储在相应的数据库进行更有效的管理和使用(图1)。
1.4 采集制作流程的变革
过去的采集流程为:采集新鲜样品压制或烘干→杀虫→保存。
由于现代对于标本的定义有所扩充,出现数字标本,因而采集流程也有所改变。现代的采集可以为植物数字信息的采集而不仅限于植物实体的采集(图2)。
1.5 现代植物标本的数字信息采集
利用照相机或录像机等摄像设备,将植物的图像,生境记录下来,输入数字标本数据库,避免了野外采集时背负沉重的压制工具和繁琐的纸质信息记录表,减轻了野外采集后复杂的标本文字信息与影像资料的对应整理工作。可减少许多体力劳动和繁杂的手工制作过程以及避免因消毒、防虫过程中与有毒物质的接触(图3)。
2 植物标本的制作
2.1 植物标本的压制
标本压制是个需要耐心和细致工作,这个环节除了问题,采集工作就可能前功尽弃。目前研制了一种便于携带的红外辐射植物蜡叶标本快速干燥器。该干燥器压制标本时,不需要人工频繁地更换和晾晒吸水纸,所需时间仅为传统的1/10新增的同步红外辐射杀菌、防虫和防霉变特点有利于植物蜡叶标本的永久保存(图4)。
2.2 植物标本的保色
传统的植物标本为直接压制,通过自然风干。这种方法制作的植物标本时间一长会退色,影响标本质量。目前比较简便易行的保色方法为用一种特殊的保色液处理。经过保色处理后的标本,分子结构比较稳定,不受阳光或其他外界因素影响而退色。因此,在使用和收藏时不需要避光,长期使用不退色。另外,目前也有单位采用过塑的方法,利用过塑机给植物蜡叶标本过塑,效果很好,易于保存。
3 植物标本的保存
3.1 防虫保存的技术改进
在生物标本室常常发现一些好端端的植物标本被虫咬坏。目前采用的杀虫方法多为微波杀虫法及熏蒸法,常用熏蒸药物有敌敌畏、氢氰酸等不易燃、不易爆的药物。
3.2 标本使用模式的改变
植物标本的使用,传统的方法都是拿出实物标本进行观察学习和研究,前面已经提到这样对于植物标本会有很大的损害。随着计算机技术的发展,我们现在可以采用一种数据库存放植物标本,方便数据信息的提取,且不易损害。
4 结语
现在的植物标本采集和制作技术都有了很大的改善,对于植物标本的采集和保存都有很大的帮助,但也正随着采集地的可达性和采集强度增加,采集时对物种破坏和环境的影响是个值得深思的问题。现代网络技术发达,人们也越来越倾向于使用网络,而且网络更便捷,且可以节约空间、时间和植物资源,所以新型的运用网络技术手段来实现植物标本的采集和使用将有着广阔的空间和美好的应用前景。
参考文献
[1]刘晓霞,张金环.植物标本的采集、制作与保存[J].陕西农业科学,2008(1):223~224.
[2]韦迪兴.过塑制作和保存植物蜡叶标本[J].生物学杂志,1993,2:47~48.
[3]黄肇宇,蒋波,谭雪梅.植物标本原色泽的保色技术研究[J].玉林师范学院学报(自然科学),2006,27(3):126~128.
[4]闫海忠,汤飞,李冬冬,等.植物标本信息采集与管理系统设计与实现[J].电脑编程技巧与维护,2009,11:68~71,87.
[5]王玉欣,李传学.植物标本保存法的改进[J].生物学教学,2001,26(6):32~33.
[6]尹秀玲,张凤娟.几种特殊植物标本的采集与压制[J].生物学杂志,1997,14(75):37~39
[7]叶远明.植物标本的虫害防治[J].生物学教学,1990,4:24~25.
[8]吴国芳,冯志坚,马炜梁,等.植物学[J].北京:高等教育出版社,1983:1~3.
[9]Lin Q.The Collection Production and Management of Specimens of Higher Plants[M].Chang sha:Hunan Science Press,2000.
[10]Chen SM(陈三荗),Tian YL (田晔林).Digital herbarium,the trend of herbarium development in the 21st cen-tury(21世纪植物标本的发展方向~数字植物标本馆)[J].J Bei j ing A g2ric Coll(北京农学院学报),2003,18(3):208~210.
[11]贾岚.Access数据库应用教程[M].北京:北京希望电子出版社,2003:32~38.
[12]林春蕊,刘演,何成新,等.广西植物标本馆标本数字化信息统计与分析[J].广西植物Guihaia,2008,28(2):278~284.
用电信息采集系统关键技术研究 篇2
关键词:用电信息采集;电力企业;电网系统;关键技术
中图分类号: TM93 文献标识码: A 文章编号: 1673-1069(2016)35-159-2
0 引言
随着我国社会经济的发展,社会生产对电网系统不断提出更高的要求。智能电网的构建是为了满足电力用户的更多需求,实现电力运输以及电力控制的信息化、智能化,提高电网运行系统的安全可靠性,提升电力行业的经济效益。更进一步地说,我国在推行智能电网这一标准方案下,全力建设用电信息采集系统,以实现及时的采集数据、准确的数据计量、高效的服务方式等,全方位地实现电网系统与用电用户之间实时互动的电力信息业务。
1 用电信息采集系统基本概述
用电信息采集系统是电力系统营销管理体系中的重要环节,也是该体系中关键的自动化系统部分,主要负责监测用电用户的实时用电情况。其主要功能包括:电力数据的自动采集、数据计量、数据处理、数据在线监测以及电力质量的在线管控等。依据系统的构成划分,用电信息采集系统主要由主站系统、终端设备、电能表以及通信系统构成。主站系统是集“集抄系统、负控系统、配变检测系统”于一体的,满足“全覆盖、全采集、全预付费”功能需求的系统。终端设备包括负控终端、集中器、采集器。电能表包括变电站关口表、台区表和居民用户表[1]。
2 用电信息采集系统关键技术分析
2.1 通信技术
2.1.1 本地通信技术
本地通信网络用于现场终端与电表计量的通信连接,主要包括RS485通信、低压电力线载波、M-BUS总线和微功率无线通信四种方式。下面依次做出简要介绍。①RS485通信。此种通信应用较为广泛,是采用电表与多个采集的并向连接,通过两条RS485线将计量表与终端设备直接连接在一起,实现采集设备与电表之间的通信。其优点是:传输速率高、抗干扰性好,可应用于多种传输系统。其不足之处是:如长距离布线带来的不便、线路容易受损而很难定位故障点等。②低压电力载波。在用电信息采集系统中,对电能表中数据的采集时依靠载波采集设备进行采集的,低压电力载波将采集到的数据传输到主站系统进行数据的处理。此种通信具有投入成本低、维护成本低的优点,其缺点是受负载影响大、信号衰减大等,此种通信适用于偏远农村或偏僻的别墅区。③M-BUS总线通信。此种通信方式较为开放,可实现电能计量表的自动抄表,与RS485较为类似,且具有通信效率高、抗干扰性强等优点。④微功率无线通信。此种通信与低压电力载波相似,采用数字信号单片射频收发芯片将数据信号通过调制、解调、放大、滤波等数字处理后转换为高频交流的电磁波进行传输。主要适用于农村中单户单表的情况。
2.1.2 远程通信技术
远程通信网络主要应用于集中采集器与主站系统之间的传输,目前较为广泛应用的是无线公网、有线通信和光纤通信,下面做出具体介绍:首先是无线公网。无线公网即GPRS通信技术,在用电信息采集终端安装SIM卡,便可产生通信编号与地址,来进行与主站系统之间的通信,并可快速与主站进行数据传输。此种通信技术具有广阔的发展前景。其次是有线通信。有线通信即有线电话通信,是利用分频技术将电话线分为三个独立的通道,增加其抗干扰能力,通过调制调节器拨号有线电话,将采集到的电能数据传送至主站系统,同时等待主站系统下达的指令。最后是光纤通信技术。此种技术是具有光波载体的信号传输,可有效满足电能数据的大量传输以及长距离传输,并且具有很好的抗干扰能力,保证电能的传输质量。无线通信和光线通信也是智能电网发展的主流方向。
2.2 数据处理技术
2.2.1 集群技术
集群技术同样是输用电信息采集系统中的核心环节,通过集群技术将多台独立网络中的计算机连接成整体,进行统一管控,最终实现电能数据的大运量计算,可面对大量数据的共同访问,对数据流量进行合理分配,有效提升了信息数据的计算效率,并可保证其准确性。
2.2.2 内存数据库技术
内存数据库技术是提升对信息采集数据处理能力的有效途径,内存数据库技术即从内存中直接进行采集数据的存储,优化了采集数据的信息读写能力,有效提升了数据信息的访问性能,最终实现电能数据的实时查询,很好地完善了用电信息采集系统的数据处理能力,尤其是对大批量数据的集中处理。在对大批量数据进行集中处理的同时,还要对数据库的SQL语句以及数据库的表结构进行优化处理,比如说,对每个数据表格中的数据限定在2GB的存量范围,并将数据信息进行分类存盘保管,以方便后期的查询等。
2.3 设备关键技术
在设备关键技术中重点介绍用电信息的安全防护技术。用电信息采集系统所面对的电力数据信息量较大、其覆盖范围较广,在系统运行过程中可能会接触到众多的安全隐患问题,因此,针对系统各阶段面临的安全隐患,对用电信息采集系统摄入了安全防护技术。此项技术主要是由系统主站、密码机和采集终端三部分构成。在系统主站中设置具有高速运行特点的密码机,用来完成主站系统数据的加密、解密,具体是进行身份识别认证、核心数据的加密解密、密钥的协商和更新以及数据信息的校验等功能。除此之外,还要对系统的采集终端、智能电表和集中器中设置密码加密模块,用来完成主站、采集终端和电表之间的身份认证、核心数据的传输,以及系统内部数据的加密、解密等,总体来讲就是保证了系统数据的安全性和保密性。这里密码加密机和终端系统的加密块都是由国家密码管理局认定的密钥加密算法和硬件加密,此外,安全防护系统使得采集终端的监控功能、数据传输功能以及数据交换功能等更加完善,有效起到了防御预警作用。
2.4 业务处理技术
业务处理技术主要介绍智能费控技术和移动作业技术。第一,智能费控技术。用电信息采集系统中智能费控技术的运用主要是实现用电用户先交费后用电的管理模式,通过系统对用户用电量的采集监控,在电费余额不足时提醒用户充值缴费,并在余额为零时自动跳闸停止使用。智能费控技术与安全防护技术同样,贯穿系统主站、采集终端和智能电表中,其中主站费控技术主要适用于居民用户和各类专变用户,采集终端费控技术适用于专变用户,智能电表费控技术适用于居民用户,并在用电量大的情况下减轻主站的压力。除此之外,费控技术对本地通信的电力线载波通信的工作要求较高,载波通信工作必须具有极强的可靠性、稳定性以及实时性,才能为费控技术提供有效的技术支持。第二,移动作业技术。传统的电表计量作业是在打印好工作单的基础上采用人工抄表的形式进行数据登录,其工作效率低,且不能保证准确性,而现阶段广泛应用的是移动作用支持系统,移动作业平台可实现电表抄收、电表计量以及业务办理等功能,有效降低人员的劳动力,提升了工作效率,实现了计量作业的精细化管理。
3 结束语
本文通过对用电信息采集系统的各环节以及各项关键技术的研究得出,用电信息采集系统是构建智能电网系统的必然要求,可更好地实现电力营销业务的自动化处理,做到优化资源配置,提升电力企业的工作效率。因此,继续加强用电信息采集系统的技术研究具有重要的现实意义。
参 考 文 献
血样采集技术 篇3
做雏自痢、鸡伤寒的平板凝集试验可用全血进行, 这样, 每只鸡采一滴血即已足够。方法很简单, 即用左手把鸡的两翼向上握住, 拔去翅膀内侧数根羽毛, 即可看见静脉, 右手执尖细手术刀, 与血管纵行, 以刀尖迅速向血管一刺, 即可见有一滴血冒出。这时, 可用末端做成圆圈形的细铜丝采取, 与平板上的抗原混合进行检测。此法简易实用, 但是, 采血时要小心, 刀要尖细锋利, 同时刺插血管时刀与血管须纵行, 如果横向刺插会切断血管, 操作熟练了不但采血速度快, 而且鸡遭受的痛苦也小 (注:国内常用经消毒的注射针头代替本文所说手术刀进行此项采血工作) 。上述方法不适于其他的血清学反应而进行的采血。现在常用的微量测验法 (microtest) 或酶联免疫吸附试验 (ELISA test) 等, 因为每个微量反应板里有96个滴孔, 而每个滴孔直径只有6 mm, 即代表一个试管, 所以应用的血清不多, 由翼静脉以注射器抽血已足够。此项操作最好是使用3 m L的注射器, 20号口径和2.5 cm长的锋利消毒针头。现在通常使用一次性 (用后即弃) 的塑料制品。如果采取血样不太多, 以注射器抽出所需的血液容量后, 再多吸一些空气, 然后平放着, 在温暖的天气里 (不要晒太阳) 不久就有血清析出。这样, 这吸筒也当试管应用了。不过, 在采血数目很多的时候, 还是要用试管。现在通常使用小型 (3 cm长) 有盖的塑料试管, 管的下部渐尖, 这种设计使血清更容易析出。用注射器抽取血液后, 除去针头, 注入试管。这些塑料试管也是只用一次即抛弃, 这不但免掉清洁消毒的劳动力, 而且免除传播疫病的可能性。
当冬季气温在8℃以下时, 血清不易析出, 因此, 在这种场合, 血液采得后立即就要放在8℃以上的温箱里。温度在26~37℃之间血清最易析出, 但在这样的温度下不能放置太久, 以免腐败。
试管架也是操作中的必要工具, 试管和试管架都要用记号笔 (不易被擦掉) 明确地写明鸡群、鸡舍和鸡场号码。否则, 化验出来的结果就没用了。采应的针头要确保清洁无菌, 以免危害鸡群。因此, 使用一次性即用后弃去的针头是有必要的, 不应看成是浪费。
在4周龄以上的鸡, 由翼静脉抽取1~2 m L的血液是完全没有问题的。鸡的固定也由左手提握双翼, 除去少许翼内侧羽毛, 为使静脉显露, 可用酒精棉在静脉处表面磨擦消毒并使静脉怒张, 有时要用左拇指压住静脉的回路 (靠近鸡体, 即近心端) , 或用右手指弹击, 使静脉明显怒张后, 右手执注射器, 无菌针头的针锋斜面向上, 与静脉纵行, 针尖由近心端向远端斜刺入血管, 刺入血管后即见有血液涌入注射器, 这时不可继续同一方向插入, 面要将注射器后端放低使针头平行进入血管, 否则针头会穿过对面血管壁而不能采到血液。这时要注意的是抽血要慢而稳定。同时尽力使针头保持原有位置。
以现代的血清操作技术, 抽取2~3 m L血就十分够用了。抽血完毕要拔出针头时, 用左拇指按住针口, 抽出针头, 拇指继续按压片刻, 使血液凝固在针口, 这不但可停止出血而且可以防止感染。注射器除去针头后, 将血注入塑料试管时, 速度要慢, 不要使血液起泡沫和损破红细胞。如果试管是有盖的, 则注入血液后, 盖上盖且平放在桌上, 在普通室温里30~45 s左右血液就会凝固, 在血液凝固前不要将试管竖立。在一般的情况下, 这样都会得到相当多的血清, 只有在不适当的气温和某些其他情况下, 才需要使用离心机。假如需要大量的血液, 则一定要由离心机抽取了。心脏采血有两种方式。多数人喜欢由前面从鸡的“V”字骨刺入到心脏, 我则惯予在侧面龙骨与龙骨突之间的缝隙处向前方斜上在肝脏前插入。不过, 抽取大量血液_一般不在鸡场而常在试验室进行, 这里不多谈了。
在极寒冷的天气里, 血样容易冰冻。冰冻后血清就不能析出。在一般的气温下, 要经12~18 h血清才可以完全析出。如果血液是在试管竖立的方式下凝固的话, 血清大部不能析出。如果红细胞受到破损, 血红素析出也使血清深红而不能应用。所以采血是需要耐性的。性急了针头插不中血管, 即使插入了也因抽吸太猛而抽不出血;将血注入试管太快会破损红细胞, 使血红素析出;如果血清析出不完全, 白细胞和其他杂质未沉到底部而连同血清倒出时, 这样的血清也不理想, 往往影响检验结果。
有时血样要寄到远处的化验室做血清学试验, 而所需血清甚少时, 可用刺翼法取血, 然后用1.3×20 cm的吸水纸吸取溢出的血, 再在室温下空气流通处阴干30 min后, 即可以胶袋封好邮寄, 化验室收到后即将血清析出作血凝抑制 (HI) 或病毒中和 (VN) 等血清学试验。
现代采集技术 篇4
智能交通系统 (Intelligent Transportation System, 简称ITS) 能够有效地发挥作用的一个重要基础和前提是及时准确地获取动态变化的交通信息。目前常用的方式有感应线圈、视频、GPS浮动车等, 相对于这些传统的采集技术, 利用车辆用户手机在移动通信网络中的定位信息来分析推算动态交通状况是一种新兴的动态交通探测技术[1,2]。该技术利用普通手机作为检测器, 同其它采集技术相比, 节约了大量的前期基础设施投入, 而随着手机普及率的增长, 也使得手机采集技术获取的交通信息能够得到更为广泛的应用。值得注意的是, 随着现代交通管理对实时交通信息质量与数量的需求, 使用单一类型的交通信息采集方式已经不能充分满足应用的需要, 多源交通信息融合在数据种类以及时空覆盖的互补性上逐渐吸引了人们的关注[3,4]。
文章采用两种交通信息采集方式, 即手机采集和车载GPS采集, 获取道路的交通状态信息。这两种采集方式均属于浮动车采集方式, 但是前者受环境的限制, 在某些情况下会对精度造成影响, 而后者存在空间覆盖范围较为局限的问题。为改善上述情况, 结合两种交通信息采集方式的优点, 本文引入Dempster-Shafer数据融合方法, 建立了道路交通状态的估计模型, 通过对两种采集方式的结果进行合理的分配、组合, 从而获取对交通状态更合理、更准确的认识。实地验证结果表明:相比于单一数据源来说, 该模型能够提供时空覆盖面更广, 精度更高的实时道路交通状态信息。
2 数据采集方式简介
交通信息的服务和应用旨在为社会公众提供满足出行所需的信息, 其中包括了道路交通的拥堵信息。交通状态是对道路交通拥堵情况的一种直观描述, 通常分为畅通、拥挤和阻塞三种情形, 在每种情形下, 道路交通具有不同的拥堵表现形式, 并通过交通参数反应出来。
不同出行者对道路交通拥堵程度的感受是不一样的, 从广义的角度上来说, 通常对道路交通拥堵情况的描述为:
畅通, 表示道路交通流处于自由流或者无阻碍状况, 交通流中的车辆操纵受到的阻碍不明显。
拥挤, 此时道路交通流量稍有增加就会引起延误的明显增大、行程速度的大幅下降, 交通流中的车辆操纵受到较大限制, 交通流的一些波动, 例如车辆插入或者变换车道等, 都会引起排队现象。
阻塞, 道路交通流中的车辆处于持续的排队状况。
2.1基于手机采集
利用手机移动通信网络中的定位信息来分析推算动态交通状况是一种新兴的广域动态交通探测技术, 该技术在覆盖范围和成本两方面都有着显著的优势。此类技术通常分为模糊定位和精确定位两种, 模糊定位的精度一般介于50到300米之间, 精确定位的精度可以达到5到30米。
基于手机的交通信息采集处理系统, 利用移动通信信令采集卡在GSM网络信息平台的相关接口上采集移动通信系统的交换机信令信息, 从中提取出含有手机位置信息的数据, 对提取的手机原始数据进行过滤、去噪、地图匹配等处理, 最后经过处理得到道路交通信息。
基于手机的交通信息采集处理技术的流程如图1所示:
2.2 基于车载GPS采集
车载GPS利用安装了GPS系统的行驶车辆, 获得车辆运行状态数据, 以反映实际道路的交通状态。GPS数据处理算法主要分为三个环节:GPS数据过滤、地图匹配、模型计算。首先, 原始GPS数据 (包含了每个上报GPS点的位置信息、角度、速度、车辆状态等信息) 和交通路网基础数据作为GPS算法的输入, 算法先要对原始GPS数据进行过滤处理, 滤除那些不满足后续处理需求的无效GPS数据。其次, 经过过滤处理后的GPS数据将被地图匹配算法匹配到现实的交通路网的具体路段、具体位置上, 这一环节是GPS数据处理算法的关键技术之一, 地图匹配的效率与精度直接决定了系统对路网交通状态判断的效率与准确性。最后, 算法将在经过地图匹配后的GPS点中, 挑选满足算法需要的样本, 进行路段行程时间和行程速度的计算。
基于车载GPS的交通信息采集技术的算法流程如图2所示。
3 基于DS融合方法的交通状态估计
信息融合, 或者又称为数据融合, 是一种多源信息的协调处理技术, 在不同的问题领域, 其实现方法、步骤和准则都不相同, 需要根据具体的系统来理解并提出相应的方法。其基本原理是充分利用不同的信息来源, 按照某种准则进行合理分配、组合, 以获取对被观测目标的更合理或者更准确的认识。
3.1 Dempster-Shafer证据推理方法
Dempster-Shafer证据推理方法 (简称DS方法) 是一种给予不确定性和未知因素更多关注的理论。其基本原理是Dempster合并法则:多个数据源可以根据自己定义的证据函数, 在同一识别框架下做出各自的判断, 并且可以通过一定的方法将合理的判断合并在一起。DS融合方法具有运算简便、可靠性高、实用性强的特点, 在交通数据融合中得到广泛的应用[5]。
DS方法中有4个基本概念, 即识别框架、证据函数、信任函数和似然函数, 分别定义如下:
识别框架:关于融合对象分类的所有互斥且完备的基本属性值空间, 记为: 的幂集合, 即的所有子集的集合记为U。F证据函数:, 具有性质:
证据函数: 具有性质: φ表示空集;
m () 的值表示赋予的信任程度。对证据函数的定义还没有一个通用的方法。
信任函数: 表示所有直接支持的信任程度之和。
似然函数: 表示所有不直接反对的信任程度之和。
假设两个数据源的可靠性都是一样的, 定义合并法则为:
DS输出的决策方法通常有两种, 即: (1) 最大信任函数法:融合的输出即为使得信任函数最大的Λi: 以及 (2) 最大似然函数法:融合的输出即为使得似然函数最大的Λi 两种方法任选其一即可。
3.2 交通状态融合技术
道路交通状态划分为拥堵、缓行和畅通三类, 因此定义其识别框架表示为:Ω- (1, 2, 3) 。其中数字1表示畅通, 2表示缓行, 3表示拥堵。计算证据函数的方法描述如下:对两个数据源, 通过比较各自的输出状态与实际状态 (通过实地观察获取) 得到各自的混淆矩阵:
其中 表示第k个数据源提供的交通状态为j, 而实际交通状态为i的个数。这样, 第k个数据源输出数据的总体精度可以通过下式给出:
第k个数据源输出第j种交通状态数据时, 推测该数据源输出状态为r, r=1, 2, 3的可信度, 即证据函数可以根据混淆矩阵定义:
在实际计算中, 要将各证据函数归一化, 即
然后根据Dempster合并法则, 即式 (1) 计算融合后的证据函数, 并计算信任函数Bel。最后比较信任函数, 融合的输出即为使得信任函数最大的那一个状态。
3.3 实证分析
挑选上海市徐汇区小木桥路上的三个路段作为分析路段, 即:清真路到斜土路、斜土路到零陵路和零陵路到中山南二路。计算混淆矩阵的数据采自于2009年7月15日早上8点整到11点20分和下午4点30分到5点40分的交通信息采集系统输出结果;验证模型的时间段为2009年7月16日早上10点16分到11点18分。
两个数据源的混淆矩阵如表1所示。
选取验证时间段内三个路段的GPS和手机交通状态数据作为融合的输入。根据表1中的混淆矩阵计算各数据源的归一化证据函数, 然后按照公式 (1) 进行融合, 最终输出结果如表2所示。
从表2中看出:在融合的时间段内, 路段1的融合输出避免了手机不可靠数据的干扰;路段2融合后的结果准确度比GPS结果高出19.36个百分点, 比手机结果高出6.46个百分点, 同时, 当其中一个数据源 (手机采集数据) 缺失时, 能够从另外一个数据源 (GPS采集) 获得可靠的数据进行补充, 从而保证了时空的覆盖率。路段3上的手机数据有很高的准确度, 而GPS数据的准确度却非常低, 但是融合后的结果并没有受到GPS数据源的影响, 仍然比手机数据的准确度高出了3.23个百分点, 提高了最终输出结果的精度。
4 结论
随着现代城市的高速发展, 人口和机动车的激增带来世界性的城市交通拥挤问题。ITS能够有效地利用现有交通设施改善交通环境、降低环境污染、提高交通安全、提高运输效率, 而交通智能化的前提则是交通信息化。在充分发挥现有交通信息采集技术工作能力的同时, 开发运用新型的交通信息检测技术, 并利用多源交通信息检测技术的互补性, 通过数据融合的方式对实时交通信息进行高效整合, 挖掘出更加有价值的实时交通状态信息似乎是一项可行的研究方向。
文章采用一种新兴的交通信息采集方式:基于手机的采集方式, 获取道路的交通信息, 利用Dempster-Shafer证据推理方法, 融合了GPS浮动车采集的交通数据, 提供覆盖面更广, 准确度更高的道路交通状态估计。挑选上海市徐汇区小木桥路上的三个路段进行估计模型的验证检验, 结果如表2所示, 从中可以看出:采用文中给出的方法, 保障了道路状态信息输出的准确度和覆盖度。
参考文献
[1]Qiu, Z., Cheng, P.and Ran, B..Investigatethe Feasibility of Traffic Speed EstimationUsing Cell Phones as Probes.InternationalJournal of Services Operations and Informatics, 2007, 2 (1) :53-64.
[2]Qiu, Z., Jin, J., Cheng, P.and Ran, B..State of the art and practice:Cellular ProbeTechnology Applied In Advanced TravelerInformation System, the 86th TransportationResearch Board Annual Meeting, WashingtonDC, USA, 2007.
[3]吴小俊, 曹奇英, 陈保香, 刘同明.基于Bayes估计和加权数据融合算法的交通量检测方法.系统工程理论与实践, 2000 (, 7) :45-48.
[4]任英伟, 陆键, 王海燕, 项乔君.交通量观测数据处理的模糊融合算法[J.]公路交通科技, Vol.23, 2006 (9) :85-89.
用电信息采集系统通信技术 篇5
自2010年智能电能表推广应用和用电信息采集系统建设全面推进以来, 安装了大量智能电能表, 截至目前, 智能电能表应用覆盖率居全国第一。随着用电信息采集系统接入用户数量的快速增加和系统功能实用化的稳步推进, 通信信道的传输速率、稳定性、可靠性等已成为提升用电信息采集系统建设应用效果的关键点。
通信技术是用电信息采集系统功能实现的重要基础, 通信技术的性能、承载能力保证了用电信息采集系统功能的多样性和数据的安全性, 在整个系统中起着至关重要的作用。用电信息采集系统采用的通信信道可分为远程通信信道和本地通信信道两类, 远程信道主要有GPRS无线公网、CDMA无线公网、光纤专网、230MHz专网等, 本地信道主要有窄带载波、宽带载波、RS-485通信、微功率无线等。用电信息采集系统应用的通信技术类型多样, 通信效果参差不齐, 各种通信方式差异性较大, 系统功能实用化效果也存在一定程度的差异。为实现用电信息采集系统“全采集”的目标, 本文通过比较各类用电信息采集通信技术的优劣, 在不同环境下, 对各类本地通信方式进行测试和分析, 提出了用电信息采集通信信道应用的意见。
影响用电信息采集通信的因素
智能电能表是智能电网的重要组成部分, 用电信息采集系统是营销业务应用重要的数据支撑平台。用电采集系统主站是对电力用户的用电信息进行收集、处理和实时监控的核心, 可实现用电信息的自动采集、计量异常监测、电能质量监测、用电分析和管理、相关信息发布、分布式能源监控、智能用电设备的信息交互等功能。
远程通信技术
远程通信信道是指各类采集终端与采集系统主站之间的通信接入信道。远程通信技术包括:GPRS/CDMA无线公网、光纤专网、230MHz无线专网等。
无线公网通信是指利用网络运营商 (移动、联通、电信等) 的无线网络和终端产品完成电力用户用电信息采集, 主要是采用GPRS和CDMA网络, 并有少量的3G网络。无线公网使用简单, 快捷方便。截至目前, 用电信息采集系统96%以上的数据都是采用无线公网通信的方式上传到采集主站。
230MHz是根据国家无线电管理局国无管【1991】5号《关于印发民用超短波遥测、遥控、数据传输业务频段规划的通知》技术要求所使用的频段, 其中分配给电力负荷监控系统使用的有十五对双工频点和十个单工频点, 这些频点在其它系统不许使用, 为230MHz无线专网通信系统的可靠性、实时性提供保证, 是十分宝贵的频率资源, 详细频点见表1。
主站系统和变电站、开关站等站点之间已基本建成SDH光纤骨干网。采集系统远程通信光纤专网的建设重点就是建设EPON光纤接入网, 将光纤专网从变电站、开关站等重要站点向下延伸至开闭所、环网柜、开关柜和台区变压器等, 这些地方也是放置集中器和ONU的地方。OLT放置方式比较灵活, 可以根据情况选择放置在变电站, 也可以向下延伸放置在开闭所, 这样可以进一步拓展EPON网络的覆盖范围。
本地通信技术
本地通信通道是指各类采集终端与电能表之间的通信信道, 本地通信方式包括:电力线载波通信技术 (分为窄带、宽带两种) 、微功率无线技术、RS-485总线等。
电力线载波通信 (Power Line Communication) 简称PLC, 是指利用电力线作为通信介质进行数据传输的一种通信技术, 它是将所要传输的信息数据调制在适于电力线介质传输的低频或高频载波信号上, 并沿电力线传输, 接收端通过解调载波信号来恢复原始信息数据。
微功率无线通信技术采用自组织网络构架, 其发射功率不大于50m W, 工作频率为公共计量频段470MHz~510MHz。用电信息采集微功率无线通信系统具有7级中继深度, 在低功率发射的情况下, 开阔场地点对点通信距离可达300米, 在实际的居民用电环境中, 通过多级中继路由, 有效通信覆盖半径达到300~1000m。
RS-485是将专变采集终端、载波采集器、无线采集器, 或II型集中器与电能表之间采用两线制建立连接, 实现数据通信的符合TIA/EIA-485串行通讯标准的总线协议。
用电信息采集通信技术分析
远程通信技术分析
远程通信技术包括: (1) 无线公网 (GPRS、CDMA、3G) ; (2) 无线专网 (TD-LTE230MHz、230MHz) ; (3) 光纤通信技术 (EPON通信技术) 。多种远程通信技术性能比较如表2所示。
远程通信技术性能指标综合对比
无线公网优劣分析
优势: (1) 无需建设网络, 网络建设由运营商投资; (2) 初始投资低, 通信SIM卡费用约每年60元/张; (3) 网络资产归属运营商, 电力企业无需承担网络运维; (4) 无线网络接入方便, 在信号覆盖区域内, 即插即用。
缺点: (1) 长期、大规模应用将产生大量的租用费用, 数据流量统计不透明; (2) 部分区域GPRS/CDMA等无线公网终端在线率较低, 不能很好的满足费控等实时性要求较高的业务; (3) 业务应用依赖于运营商提供的网络资源, 应用水平和推广进度受制于公网建设程度, 部分区域通信未覆盖; (4) 公网通信首先满足公共用户业务应用, 无法保障实时性、延时等服务质量要求, 且运营商网络维护并不通知电力公司, 电信业务语音优先; (5) 存在公网系统升级换代风险, 目前使用的GPRS/CDMA是2G网络, 未来运营商将网络升级至3G后, 运营商2G网络资源会大幅下降, 服务质量更难以保证; (6) 网络覆盖区域与供电区域不完全一致, 有可能导致漫游费用; (7) 用电信息采集终端安装位置存在无线公网覆盖盲点; (8) 随着终端数量的不断增加, 存在用户密集区域无线公网信道接入能力有限, 造成终端争抢信道现象, 使该区域终端稳定性下降, 采集成功率下降。
专网优劣分析
用电信息采集系统远程通信方式采用专网的技术有光纤专网、无线专网。
优势: (1) 可限制流量使用, 节约运行费用, 长期效益明显; (2) 灵活度高、可扩展性强, 可以根据电力业务需求, 自由规划网络; (3) 实时性强, 电网可以根据不同业务等级, 灵活自定义业务优先级, 确保实时性业务获得最优信道资源; (4) 安全性保障机制完善, 可采用认证、加密等多种安全机制, 保障业务安全性; (5) 可承载更多电力业务, 如移动作业、应急抢修等业务, 附加价值高; (6) 光纤专网及无线宽带专网传输速度快、距离远、抗干扰能力强、后期扩展能力强, 支持未来双向互动业务。
缺点: (1) 投资成本高, 运行维护较复杂; (2) 无线专网和载波技术标准不统一, 缺乏相关文件支撑。
本地通信技术分析
各种本地通信技术在性能指标方面差异化较大, 在技术实现, 工程实施、运行管理等方面也存在一定差异, 具体性能比较如表3所示。
本地通信技术性能指标综合对比
优势: (1) 电力线窄带载波方式安装方便, 适用于城网表计分层安装小区, 可满足当前基本业务需求; (2) RS-485通信方式从实时性、可靠性方面均优于其他通信方式, 适用于城网表计集中安装小区, 更利于下一代采集业务的拓展; (3) 电力线宽带载波方式支持并发, 业务承载能力强, 可承载双向互动业务; (4) 微功率无线通信方式业务承载能力较强, 一般采用蜂窝状组网方式, 可实现分散用户的用电信息采集。
缺点: (1) 电力线窄带载波局限性较多, 受低压线路走向和运行状况制约较大, 不能很好承载用电信息采集业务; (2) 通讯设备布点密集, 设备运维和RS-485通信电缆敷设工作量较大; (3) 电力线宽带载波方式受频率限制, 传输距离较短, 设备布点数量大, 运维工作量大; (4) 微功率无线通信方式由于存在多级路由, 传输时延较大。
各类通信方式采集应用效果分析
目前, 用电信息采集系统远程通信方式主要采用GPRS无线公网和光纤专网, 本地通信方式主要采用电力线窄带载波、微功率无线和RS-485。
各类远程通信方式应用比较
用电信息采集系统远程通信方式效果比较主要是通过采集终端在线率进行分析, 具体情况如表4所示。
通过表4对比分析, 可以看出, 目前采用光纤专网通信的采集终端数量较少, 只覆盖了变电站、部分居民小区用户和专变用户, 通信可靠率较高, 能够基本满足用电信息采集系统建设和应用需要, 但是光纤通信的资金投入较大, 且在居民小区内施工困难较多, 且后期运维成本较大, 无法实现大面积推广应用。
采用GPRS无线公网通信的采集终端数量较多, 但采集终端在线率只有88.43%, 主要原因是有些偏远地区GPRS信号未覆盖、采集终端GPRS模块故障、SIM卡质量问题等, 但是GPRS无线公网通信的资金投入相对较少, 使用方便, 可以大面积推广应用。
各类本地通信方式应用比较
用电信息采集系统本地通信方式效果比较主要是通过智能电能表采集成功率进行分析, 具体情况如表5所示。
电力线窄带载波通信方式具有安装方便、投资少的特点, 该种方式应用与城市表计分层安装小区, 但采集成功率较低, 主要原因为窄带载波通信模块信号输出功率太低、电力线载波通信信号衰减严重、现场线路与用户对应关系错误、通讯速率较慢等, 导致采集成功率较低。如果能将上述影响电力线窄带载波通信方式的问题解决, 该种本地通信方式是将具有较大的竞争实力, 可以大范围推广应用。
微功率无线通信方式是在三种本地通信方式中占比最大, 因为该种方式具有业务承载能力较强、组网方式先进、实时通讯速度加快的特点, 目前农网用户全部采用该种方式进行采集, 但采集成功率未达到国网公司要求, 主要原因有: (1) 受GPRS信号制约, 部分偏远地区集中器离线; (2) 各品牌模块与集中器无法实现互联互通, 制约上线调试工作; (3) 系统中客户档案存在问题, 下发至集中器后无法对电能表进行采集。该种通信方式的应用应结合台区现场运行情况而定, 建议在农村地区或用户较为分散地区使用。
RS-485通信方式具有实时通信速率快、稳定性高等特点, 但设备安装和RS-485通信电缆敷设工程量较大。目前采用该种通信方式主要用户城市表计集中安装小区, 但受到GPRS信号覆盖、现场接线、SIM卡故障等因素制约, 该种方式采集成功率也未达到要求, 该种通信方式建议在城市单元表计集中安装小区使用。
结语
彝文网页信息采集技术研究 篇6
随着网络技术的发展, 少数民族语言文字的信息也随之在网络上出现, 彝文网页就是其中之一。而由于彝文信息处理技术处于起步阶段, 缺乏相应的搜索引擎, 互联网上的彝文信息常常处于“孤立状态”, 给用户的查找和获取带来较大的困难。
彝文作为彝族地区传播科技知识的主要工具, 其独特的人类文化价值和社会价值在彝族地区所发挥的巨大作用是不可估量的。进入网络和计算机技术高速发展的信息时代, 古老的彝文字正经历着一场严峻的考验, 能否在数字化时代被更好的应用和发展。如果不能, 它就会逐渐丧失其作为彝族文化灵魂的深层内涵, 会在当今的数字化时代销声匿迹。
1 网页采集原理
网页的采集也是当今信息检索和数据挖掘的一个研究热点, 尤其针对目前还没发现通用的彝文搜索引擎的情况下, 论文提供的实验平台提供了一种获取网络信息资源的思路和方法, 同时也便于对网上彝文资源库的整理, 进而达到保护、弘扬彝族文化, 促进实现汉、彝族资源互通共享的目标。
网页信息采集, 是指使用一个或多个采集器 (俗称爬虫) 通过Internet某一个或多个Web页面开始, 按照Web页面之间的链接关系, 从Web上自动地获取页面信息, 并随着链接不断向所需要的Web页面扩展的过程[1]。可以说, 网页的自动采集主要是靠网络爬虫实现的, 爬虫程序是网页信息采集的核心部分。
1.1 网络爬虫
1.1.1工作原理
网络爬虫按照系统结构和实现技术, 大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。本文中采用聚焦网络爬虫来实现彝文网页信息的采集。
网络爬虫 (Crawler) 是一个自动提取网页的程序, 它为搜索引擎从互联网上下载网页, 并沿着网页的相关链接实现在web中采集资源, 是一个功能很强的网页自动抓取程序, 也是搜索引擎的核心部件[2]。搜索引擎的性能, 规模及扩展能力很大程度上依赖于网络爬虫的处理能力。网络爬虫也被称作网络蜘蛛 (Spider) 或网络机器人 (Robot) 。
网络爬虫从一个或若干初始网页的URL开始, 获得初始网页上的URL, 在抓取网页的过程中, 不断从当前页面上提取新的URL放入队列, 直到满足系统的一定停止条件[3]。图1为网络爬虫的系统结构。
这个爬虫其逻辑框架主要包含网页获取模块、页面解析模块、网页判断和重复消除模块、URL数据库模块和web数据库模块等部分。
(1) 获取模块使用HTTP协议获取URL代表的页面。响应并传送某网页链接地址的HTTP请求至对应WEB站点的服务器, 根据请求得到的消息状态码的返回值确定下一步策略。
(2) 解析模块提取文本和网页的链接集合。解析模块负责获取网页的标题、正文、编码、URL等各类信息。
(3) 判断和重复消除模块决定网页解析出来的链接是否能够存入URL数据库。该模块将判断页面提取的URL地址是否存在于待处理的列表中, 若存在则去重, 终止该线程, 否则按照一定的判定规则对链接进行过滤, 并把符合条件的URL存放在URL数据库中。
(4) URL数据库包含爬虫当前待抓取的URL。根据URL数据库里面URL的链接内容抓取各类网页。
(5) web数据库模块负责对抓取的内容进行存储。用来存放经过提取出来的正文内容、主题和摘要等, 以备建立索引等应用。
1.1.2 网页搜索策略
网页的抓取策略可以分为深度优先、广度优先和最佳优先三种[4]。深度优先在很多情况下会导致爬虫的陷入问题, 目前常见的是广度优先和最佳优先方法。由于目前彝文网页相对较少, 本文选用广度优先搜索策略。
广度优先策略基本方法是从起始页开始, 对先获得的链接先抓取。就是先抓取起始网页中链接的所有网页, 然后再选择其中的一个链接网页, 继续抓取在此网页中链接的所有网页。进行循环式爬行, 直到满足一定的停止条件[5]。这种搜索策略的覆盖率很广, 采集的网页比较多。广度优先搜集策略实现方便, 不需要存储大量的中间节点, 可以并发执行, 从而提高整个程序的效率, 目前并被广泛采用。图2为广度优先策略的遍历图。
广度优先搜索是从图的顶点A出发, 在访问A之后, 依此搜索访问A的各个未被访问过的邻接点B、C、D… (在本文中是该页面的链接) , 然后顺序搜索访问B、C、D…的各个未被访问过的邻接点。即从A开始, 由近至远, 按层次依此访问与A有路径想通且路径长度分别为1, 2, …的顶点, 直至连通图中所有顶点都被访问一次[6]。这种方法保证了对网页内容的有效控制, 避免遇到一个无穷深层分支时无法结束的问题。
根据以上表格, 我们可以得出以下结论路径图:
路径1 =->A;路径2 =-> B-> C->D;路径3 =-> E-> F->G->H;路径4 =->I->J->K->L
1.2 网页采集的流程
Internet是Web的基础平台, Web是基于Internet的超文本 (hypertext) 系统, 是Internet平台上的一种应用层服务, 它将各种信息资源链接起来, 使得人们能够方便、快捷地发布或获取信息[7]。互联网从结构上去分析, 可以看作是一个巨大的网格图, 每个网页是图中一个节点, URL就是链接所有节点的弧。
网页采集系统通常首先从一个种子URL集开始, 利用某些网络协议和端口, 依次访问并获取每个URL所链接的页面;接着再分析这些已采集到的页面, 从中提取出新的URL, 将它们继续放入到待处理的URL列表中;然后一直不断地重复上述操作, 直到采集线程根据自己的搜索策略结束整个过程为止[8]。
2 彝文网络信息采集平台的设计
开发环境的选择, 对彝文网络信息获取平台的建设至关重要。本文选取C#编程语言开发程序, 使用Microsoft Visual Studio2010软件开发平台, 运用ACCESS数据库。
2.1 设计思路
彝文网络信息获取的研究, 是指对网络中包含彝文信息的相关网页的分析采集。由于目前彝文信息处理技术的现状和国家对少数民族网络信息安全的关注和重视, 因此本文在对彝文网页分析的基础上, 实现彝文网页的判定和文本内容等信息的获取。本文在对彝文网络信息获取和网页文本内容的存储的研究中, 主要分为四个功能模块:彝文网页判定模块、网页去重模块、网页信息提取模块、网页信息存储模块。基本思路如下:
(1) 设计彝文网络获取的相关算法和爬虫, 利用判定算法, 对相关的彝文网页进行采集。
(2) 对抓取的网页的部分关键信息提取, 提取的主要内容包括网页的文本标题、正文、日期以及链接 (URL地址) 等关键信息, 并存入数据库。
(3) 将提取的彝文文本信息在判断编码后转换成统一的编码形式存储, 便于下一步彝文数据分析的工作。
本文以中国彝学网为例, 进行网络信息获取技术的研究。流程如图3所示。
2.2 网页判定模块
2.2.1 URL获取
对彝文网络信息获取, 首先初始化URL, 本文通过选取中国彝学网为例, 获取彝文版的网页和超链接信息, 来进行彝文网页抓取和采集。中国彝学网彝文版首页的URL格式为:http://222.210.17.136:81/zgyx/indexyi.html。
首先获取首页地址内容;在此基础上获取该页面的所有的有效URL, 并将URL添加到数据库中。
核心代码如下所示:
所有有效URL已保存到ACCESS数据库后, 下面需要采集网页内容。
2.2.2 URL 判定
在采集网页内容之前, 需要筛选已保存的URL是否是文章页面的URL链接, 并判断是否已经采集过该URL。代码如下:
2.3 网页去重模块
网页信息采集模块的实现中, 网络爬虫遍历了整个空间的网页, 这也就是说所有的网络爬虫都会遍历一个新网页的所有内部链接, 而在这种搜刮式的网页遍历下, 网络爬虫难免会搜索到许多相同的网页, 不但因为其本身没有判别重复网页并实现排重的能力, 而且不同的网络爬虫之间也没有互相通讯识别的能力。因此, 需要将网络爬虫采集的初始网页进行排重识别, 从而剔除一些重复冗余的网页, 以便大幅度地减少网页的数量, 提高网页搜索的效率, 降低后续操作的工作量和复杂度。
2.4 网页信息提取模块
通过对采集的彝文页面信息进行解析, 对网页的标题、发布时间、来源、URL、正文的信息进行判断和提取, 并把提取的信息转换格式存储到统一的ACCESS数据库中, 便于下一步检索等相关工作的开展。为了实现以上功能, 本文系统在识别页面中URL字符串的过程中使用正则表达式进行匹配。网页的提取可以利用正则表达式提取网页内容。
本部分从下载的网页中抽取到相关的信息, 并保存到自定义格式的文本文件中, 以便对网页信息的存储。
2.4.1 网页标题提取
网页标题能够直接反映网页的主题信息。本文通过正则表达式的方法提取彝文网页的标签, 并逐个处理得到的标签, 通过get Regex Str () 方法得到网页的标题, 并写入ACCESS数据库中。正则表达式表示为:
核心代码如下:
2.4.2 网页发布时间及来源的提取
网页的发布时间和来源是查看网页的重要属性。代码如下:
2.4.3 网页正文提取
2.5 网页信息存储模块
通过对存储的网页信息提取, 将具体内容包括网页标题、网页发布时间、网页来源、正文数据段、网页URL和关键词 (导向词来源) 等信息存储采集到的数据库中, 并保存到文本文件。图4为ACCESS数据库存储信息。
核心代码如下所示:
2.6 性能测试
网络爬虫采集算法测试和评价有很多指标, 其中有两个重要的通用指标:查全率和查准率。
查全率:
查准率:
在本文中, 爬虫所抓取的范围限制在中国彝学网范围内, 因此在性能测试中, 网站所包含的相关文档总量等同于文档总量。故两个指标是相同的, 在这里我们用查全率来表示。
通过彝文网页信息采集平台, 中国彝学网中采集到的URL总数为92, 即系统中相关文档总量为92;存储到TXT的正文文档数为62, 即采集的相关文档量为62。因此:
查全率 = 查准率 = = 67.39%
由测试结果可知, 对中国彝学网 (彝文版) 进行采集, 采集准确率不高, 通过分析发现产生的原因主要是由于部分彝文网页是图片格式和彝文网站过少, 导致了采集结果不理想的情况。
3 总结和展望
本文以少数民族文字彝文网站 (中国彝学网) 为例, 对彝文网页信息进行采集和获取。首先阐述了网页信息采集和网络爬虫的工作原理, 分析和用于彝文网页;其次构建彝文网页信息采集模型, 并进行设计和研究, 分别对彝文网页判定模块、网页去重模块、网页信息提取模块、网页信息存储模块共四个模块进行了介绍;最后对彝文网页信息采集性能进行了测试, 通过查全率和查准率得知, 采集效果达到67%左右。
本文对彝文网页信息采集技术做了一些研究, 取得了一定的成果, 但是由于时间和精力有限, 仍存许多不足, 需要今后进一步加以改善, 在彝文网页判别等方面还要更一步的研究, 提高查全率和查准率, 为以后的彝文分词、分类打好基础。
摘要:本文通过对中文网页采集流程、网络爬虫工作基本原理的分析, 再结合彝文网页的特点, 对彝文网页信息的采集技术进行了研究, 通过聚焦网络爬虫来实现彝文网页信息的采集, 并依此来建立一个内容全面的彝文网页信息资源库。
关键词:彝文网页,网络爬虫,信息采集
参考文献
[1]吴丽辉, 王斌, 余智华.一种通用Web信息采集系统的设计与实现[J].计算机工程, 2009, 31 (3) :123-124.
[2]罗刚, 王振东.自己动手写网络爬虫[M].北京:清华大学出版社, 2010:16-47.
[3]王思丽.藏文网页自动发现与采集技术研究[J].西北民族大学, 2010.
[4]Carlos Cobos, Henry Munoz-Collazos, Richar Urbano-Munoz.Clustering of web search results based on the cuckoo searchalgorithm and Balanced Bayesian Information Criterion.Information Sciences 281 (2014) 248–264.
[5]吴虎子.中文网页获取及自动分类技术研究[D].武汉理工大学硕士论文, 2007.
[6]陈杰.主题搜索引擎中网络蜘蛛搜索策略研究[D].浙江大学硕士论文, 2006.
[7]Enver Kayaaslan, B.Barla Cambazoglu, Cevdet Aykanat.Docume nt replication strategies for geographically distributed websearch engines.Information Processing and Management 49 (2013) 51–66.
熊猫牌蜂蜜采集技术规程 篇7
1 中华蜜蜂养殖历史和栖息地概况
长青自然保护区地理坐标东经107°25′~107°45′,北纬33°26′~33°43′,周边与9个行政村接壤,现有人口5 087人,人口密度为5~9人/km2。管护森林面积3万hm2,大部分是大熊猫的冬春栖息地,是秦岭大熊猫保护重要的组成部分。洋县中蜂分布于海拔700~2 200 m之间,中蜂相较洋蜂个体小,适宜在蜜源分散的山区生活。中蜂飞动敏捷,嗅觉灵敏,勤奋、抗病、耐寒、耐热力强,但产蜜量和分泌王浆的能力略低于洋蜂。洋县山区开花植物上千种,但是分布不均,特别是山茱萸(Cornus officinalis),早春开花,对中蜂种群影响大。该区域属季风性气候,季节性变化明显。全年具有雨热同季、温暖湿润、雨量充沛等特点,气候随海拔升高而呈垂直变化。海拔700~2 200 m年均降雨量850.0~996.6 mm,年均气温5.1~12.3℃,>10℃积温2 125.7~3 490.4℃,年均无霜期182~208 d。日照春夏多、秋冬少。
2 熊猫牌蜂蜜运作模式
选择大熊猫保护区原产地条件,调查蜜源植物。在各项质量指标检测的基础上,制定熊猫牌蜂蜜质量控制标准。制定蜂蜜送检样本的采集规程,蜂蜜采收、储存及运输规程,认证无公害绿色食品“熊猫牌蜂蜜”。提高养殖技术与管理水平,采用高质高价策略。
3 蜂蜜送检样本的采集规程
一是每个蜂场分别送样;每份送检样品从原蜜中采集约500 m L。二是容器材质可以用无毒塑料,必须无毒、无异味,使用前必须清洗消毒,用清水反复冲洗干净,高温蒸煮过后,日光晒干。三是将盖口拧紧密封,以避免运输中的二次污染。将样品快递至中国农业科学院蜜蜂研究所进行检测。
4 蜂蜜采收、储存及运输规程
4.1 采收的见证、溯源
采收全程应有养蜂人和熊猫蜂蜜项目负责人同时在场。项目负责人在现场起到见证采收蜂蜜信息的作用,以及所负责地区蜂蜜采收的汇总及溯源跟踪。负责人在采收时拍摄每个蜂场、生产者的照片;并制作蜂蜜采收汇总表。
4.2 采收机具
采收所需要的各种机具,都必须无毒、无异味。使用前必须清洗消毒。消毒用75%的酒精,如果条件不具备也可用清水反复冲洗干净,高温蒸煮过后,日光晒干备用。要选用不锈钢、全塑或木质的无污染分蜜机;选用不锈钢割蜜刀;一定不能选用铁桶,或有生锈部位的摇蜜机或割蜜刀。
4.3 采收操作现场
采收操作现场必须清洁干净无积水,消除污染源及苍蝇孳生地,工具、容器摆放齐整,备有清洁水和灭菌消毒器具。
4.4 采收
采收的蜜脾应该完全封盖;蜂蜜水分含量应低于20%。操作时间应在上午进行,尽可能避开采集高峰期和不良天气,操作时气温以不低于14℃为宜。采收后需用60目以上的筛网将蜂尸等杂质滤出。
4.5 装桶
应使用蜂蜜周转专用桶,无毒、无害、无异味。专用桶如是铁桶,需经附着力强的无毒、耐酸食品漆(环氧树脂)做特殊处理;也可选用陶、瓷罐(缸)或木桶无毒塑料桶。容器使用前要用清水冲洗干净。蜂蜜装入周转专用桶后,桶口一定要封紧。每桶盛装不可过满,应留有20%左右的空档,以防转运时震荡受热外溢或膨胀爆裂。
4.6 产品信息标签
在现场经生产者和见证人同时确认后,填写附件2信息标签,一式2份:一份以不易损坏的方式固定在包装容器的侧面;另一份作为专用桶口封条。标签中的蜂场GPS点位、水分含量、波美度、重量等信息,用标准仪器测量。专用桶编号以项目区为单位连续编号。
4.7 储存
蜂蜜严禁露天存放,储存要设专用库,按品种分等级分别存放,并堆码齐整,放置平稳。库房内要保证清洁阴凉、干燥通风,防潮湿、防爆晒、防风沙、防止温度急剧升降。库温以5~10℃为宜,一般不要超过20℃,空气相对湿度一般不得超过75%。蜂蜜要远离污染源,杜绝与有毒、有害、有异味、不卫生及腐蚀性强的物品同库、同处贮存。储存期间应经常开库检查,及时纠正处理引起质量变化的各种不利因素。
4.8 运输
运输工具要清洁干净,装运过毒品的车辆、船只未经冲洗消毒前不得装运蜂蜜,不得与有异味或有毒品同载混装。运输途中蜜桶要叠好、捆牢,避免颠簸和日晒雨淋。
5结语
通过制定熊猫牌蜂蜜技术规程,探索以生态公平产品为载体,引入社会参与,最终实现生态价值链,多方受益的保护新模式。
摘要:总结了熊猫牌蜂蜜技术规程,包括熊猫牌蜂蜜运作模式、蜂蜜送检样本的采集规程、蜂蜜采收、储存及运输规程,探索以生态公平产品为载体,引入社会参与,最终实现生态价值链,多方受益的保护新模式。
关键词:中华蜜蜂,熊猫牌蜂蜜,技术规程,长青自然保护区
参考文献
[1]李智,张福盈.土特产品,洋县志[M].西安:三秦出版社,1996.
[2]樊贤,潭垦,和绍禹.河南省5个地点中华蜜蜂的初步调查[J].蜜蜂杂志,2005(3):28-29.
[3]吕云岭.黑龙江省野生中华蜜蜂调查报告[J].农业科学,2010(12):110-111.
[4]余林生,韩胜明.中华蜜蜂群体越冬及数量动态特征[J].应用生态学报,2003,14(5):721-724.
[5]余林生.栖息环境和种竞争对中华蜜蜂群体分布的影响[J].应用生态学报,2003,14(4):553-556.
[6]曹义锋,余林生,丁健,等.皖南山区中华蜜蜂个体发育特征的研究[J].蜜蜂杂志,2006(10):3-5.
[7]张波,麻友琴,袁朝晖,等.中华蜜蜂种群趋势与影响因子[J/OL].西北大学学报(自然科学网络版),2011,9(6):10-14.
[8]卫生部.食品安全国家标准蜂蜜:GB14963-2011[S].北京:中国标准出版社,2011.
地震采集设计技术的新发展 篇8
地震勘探的工区越来越复杂, 表现在表层条件和地下地质结构上。传统方法是, 在地下水平结构假设条件下进行地震采集观测系统设计。其结果必将造成很大的偏差, 从而影响对地下有效反射信息的接收, 这将给后续地震处理成像带来更大的困难。根据工区已知信息, 通过建立模型, 对场波的运动学和动力学特征进行正演模拟, 是指导地震采集观测系统设计的有效手段。以下主要介绍几个现在常用的野外三维勘探设计方法
1基于模型射线追踪的方法来模拟和优化野外三维采集设计
Laura Carcinone等利用基于模型射线的方法来模拟和优化野外三维采集设计, 尤其是对一些复杂勘探区域显得更有效。利用以往的地质及地震资料建立块状模型, 在这种模型中, 地层的力学特性 (如:P波和S波的传播速度、各向同向介质的密度、各向异性介质参数等) 通过分段光滑函数来表示, 如不同岩石型边界的间断点也通过光滑函数来清楚地模拟, 一维、二维及三维模型通过3次B样条函数给出。在模拟时, 能记录炮检距和方位角的分布、反射点的位置、初至波的方向和振幅、偏移振幅分布的密度和强度及其他射线属性等。偏移振幅分布的密度和偏移振幅分布的强度, 这两个概念的采用比以往的覆盖次数更直观。在人机交互的模拟中, 以上属性均是可视化的。利用这些工具, 可以设计一些实际的观测系统, 在计算机上模拟放炮, 来取代昂贵的野外试验, 同时还可以模拟不规则的观测系统等。
2三维物理模型模拟方法
荷兰Delft Unigersity of Technology的Cerrit Blacqure教授等介绍了该大学地震和声学实验室利用三维物理模型来模拟地震记录的情况。目前进行地震模拟的方法有数字模拟。从计算的观点来看, 使用数字模拟计算工作量相当大, 且当今三维完全弹性还难以实施, 因此采用物理模型进行模拟, 且物理模型在地层及观测系统方面比较直观。
3基于封闭块的复杂三维模型设计方法
目前勘探区域已从平原、戈壁、沙漠走进了山地, 而山地地表及地质构造非常复杂, 大部分属于高陡构造地区, 要设计出适合于这样地区的观测系统, 凭简单的设计是达不到要求的, 因此需要借助计算机及先进的设计软件才能搞好勘探设计。
采用模型正演指导观测系统设计的核心是复杂三维模型的建立和快速有效的射线。传统方法是, 采用层状结构来描述模型, 其特点是简单方面, 但不能描述复杂结构。用封闭块的概念来描述三维模型结构, 它能够描述包括正逆断层、尖灭、侵入体等各种复杂地质现象, 满足实际的需要;在射线追踪正演方面, 利用基于封闭块三维模型结构的迭代快速算法, 速度较传统打靶法提高两个数量级。在模型正演得基础上进行共反射点面元分析, 指导观测系统得优化设计。
为满足对复杂三维模型结构的描述, 提出三维封闭块的概念, 即由地层层面、断层面和边界面围成具有相同速度、密度属性的三维空间体称为一封闭块。一个三维模型可由多个彼此相连接的封闭块组成, 这样用三维封闭块的概念可实现包括正逆断层、尖灭、侵入体等各种复杂地质现象的三维模型描述。三维模型的建立过程可描述为:
通过构造图或地震解释剖面获得有地层层面控制点数据和断层面的控制点数据;由地层层面的控制点数据构建出地层面, 由段层面控制点数据构建出段层面;在三维空间中由构建的空间面求出面于面之间的相交线, 并对形成的新的 (子) 层面进行再定义;由相交面形成封闭单元, 即得到一个封闭块, 所有封闭块组成了三维封闭结构模型。
在简单层结构下进行三维射线追踪是非常方面和快速的, 但对于复杂结构下的三维射线追踪就不容易了, 地层的起伏、缺失、尖灭等, 加上各种断层 (如正逆断层、局部断层、全局断层、交叉断层等) 使得地下情况变得非常复杂, 要准确地追踪一条射线路径是非常困难的, 且非常耗时。因此, 三维射线追踪的核心是要发展既有效又快速的追踪方法, 对于三维封闭结构模型, 模型的拓扑关系清楚, 模型内部块间的数非常明确, 针对这种结构提出了逐迭代的三维射线方法, 实践证明是非常有效的。其原理如图1-1。
在图中, A点为射线的始发点, 经过介质1到达地层 (断) 面S, 在S面发生透射进入介质2达到终止点B, A→P→B为初始射线路径, A→P1→B为最终射线路径, 根据射线走时最小原理, 用Taylor展开取一次近似。可实现由初始射线路径获得最终射线路径。点A, B, P, P1和地层 (断) 面是空间坐标 (x, y, z) 的函数, 假定初始射线路径的旅行时为T (x, y, z) 则有:
式中, v1, v2分别为地 (断) 层面S的上下速度, 确定了旅行时间时T最小, 有:
式 (1-2) 在P点Taylor取一次近似, 可得到面上S上P点附近修正量 (△x, △y, △z) , 由P点和修正量得到P1点的坐标, 获得最终射线路径。
以上是射线经过一个地层 (断) 面S的情况, 对于已知炮点和检波点, 根据初始路径, 分段进行计算, 逐个对透射点 (包括反射点) 修改, 一般通过3-5次迭代修改过程, 就可以获得准确的全射线路径。
用三维封闭块的概念建立三维模型, 实现了对复杂的地质结构 (如正逆断层、尖灭、侵入体等) 的准确的描述, 克服了层状结构模型方法只能建立相对简单的地质结构的缺点, 满足了复杂区勘探的需要。封闭块模型更有利于人机交互实现。由于封闭块模型没有地层层面的概念, 因此可通过人机交互方式随意地定义、编辑、修改界面, 而不受概念的约束, 模型建立好后再根据人们的习惯定义地层名称。封闭块模型拓扑关系更有利于实现正演模型计算, 采用的逐段迭代射线追踪具有速度快、精度高的特点, 较传统打靶法提高很多, 从而使模型技术进入实际应用阶段。在模型正演的基础上, 进行CRP面元属性分析, 指导观测系统的设计, 并通过交互多次修改调整炮点、检波点和正演模型模拟, 逐步优化观测系统, 这是解决复杂勘探区最有效的手段。
结论
综上所述, 由于计算机技术的突飞猛进的发展, 地震勘探设计上原来不可能的实现的设计变得可以实现, 可以成功完成对复杂地质条件下地震勘探, 极大地提高了勘探的精度和准确性, 大大降低了勘探成本和周期, 为寻找新的矿产提高了可靠的地质依据和方法。
摘要:本文主要介绍了地震采集技术在新世纪的发展, 简述了基于模型设计的三种方法、聚焦射线束分析三维地震采集和转换波采集技术设计的原理、优点及适用范围。其中主要介绍了目前有一定应用梁的基于模型设计的三种方法, 主要应用于复杂地区的封闭块的复杂三维模型设计是目前在复杂地区比较成熟的一种设计方法。
关键词:地震,采集技术,新发展
参考文献
[1]赵殿栋, 郑泽继, 吕公河等.高分辨率地震勘探采集技术.石油地球物理勘探, 2001, 36 (3) :263-271.
[2]蒋先艺, 贺振华, 黄德济.地震数据采集新概念.物探化探计算技术, 2003, 25 (2) :130-134.