查询分析

2024-12-02

查询分析(精选12篇)

查询分析 篇1

目前ARP系统的发展逐渐由数据采集,数据规范化整理进入到数据应用阶段。各个研究所自2006年系统上线以来积累的大量数据已经成为中国科学院发展过程中宝贵的资源。因此,如何使用好这些数据成为当前推进ARP应用的重中之重。

经过数年的辛勤工作,ARP系统开发和运维团队针对多个数据查询分析工具进行了自主创新性的开发和研究工作,并且形成了稳定的工具维护和升级机理,基本满足了终端用户的数据查询需求。无论是Discoverer、Report Plat还是润乾报表等工具都具有特定的终端用户群,为数据利用发挥着积极作用,同时中国科学院系统中涌现出了许多能对这些工具进行熟练掌握的优秀终端用户,极大提高了科研管理水平。

本文将通过对目前使用的ARP数据查询分析工具的优缺点的讨论,建议为研究所层级的终端用户建立数据查询公用平台。

首先明确研究所终端用户的分类及需求,大致可以把研究所层级的终端用户分为三类。

(1)所级领导:需要以图形图表的直观方式向此类用户展现研究所人、财、物,总体状况和发展趋势,需要特定数据模型为他们制定研究所总体战略规划提供依据。展示基本状况的数据模型需要涵盖研究所运行的各个方面,并且能够通过网页方式快速生成。这些数据模型一部分根据研究所领导自己提出的统计需求而设计,更多部分是由研究所各科研管理部门的业务人员结合实际工作情况为所领导需求考虑设计。因此,所领导只关心数据结果,不寻求产生这些结果的方式和过程。

(2)研究单元负责人:ARP系统除了日常公共事务涉及到研究所全体员工之外,可以把数据应用只定义到研究单元负责人这一层级,如同所领导需要了解研究所运行的全面信息一样,研究单元负责人也需要了解本研究单元的全面信息,他们需要掌握的数据更为繁琐和细致。这类用户可能既关心整个研究单元的总体经费余额,又关心小到每一个课题单笔支出的情况。,研究单元负责人只有全面了解自己部门的人、财、仪器状况后,才能合理调配本研究单元的科研资源。因此,他们不但需求数据结果,同时还需求自己能够对这些数据进行加工组合。他们不关心产生数据结果的工具,但是可能需要设定各类参数,并希望数据以动态网页的方式根据自己设定的参数展现结果。

(3)科研管理业务人员:此类用户是ARP应用的中坚力量。他们既是ARP数据的生产者又是ARP数据的使用者,既要为研究单元负责人提供项目运行服务又要为研究所领导提供决策支持服务,此类用户使用ARP系统的水平要求也是最高的。作为数据的生产者,他们需要保证录入数据的质量;作为数据使用者,他们需要依靠业务经验从数据中提取有用信息。此类用户既要懂得数据产生过程,又要会使用各类数据查询工具,并且利用这些工具进行数据加工。其它两类用户需求的大部分数据模型都是由科研管理业务人员设计完成的,他们是以上两类用户的业务和技术保障者。但是,鉴于科研业务管理人员不具备IT开发能力,因此ARP系统开发人员需要为他们创造一个良好的公用平台,转化他们设计的数据模型,准确表达他们的管理思想。

目前,ARP系统对三类用户分别设置了不同的信息查询方式,具有针对性强的优点。从ARP系统上线之初对数据的简单处理到目前以多种形式进行有效分析,从中国科学院信息办、ARP中心到研究所的广大基层人员一直努力使ARP系统在科研管理上发挥更大作用。

然而,多工具多形式查询也出现一些问题。例如,使用Discoverer工具,需要对业务数据有深刻理解并具有一定的统计知识和数学函数知识才能做出具有实质内容的表格。至于使用润乾软件制作报表,就更要求具有数据库知识,这也是当前对润乾报表软件缺少技术支持的情况下,它没有发挥应有作用的原因。

而且,即便是具有相同操作水平的人员,使用同一种查询工具,由于责任的不同造成系统工具提取数据的数据源和机理不同,产生的数据结果也具有差异。以一个常见的任务来说明此种差异:让一名财务人员和一名科研项目管理人员都用Discoverer做某一特定课题当前会计期间可用资金余额。科研项目管理人员只能用Discoverer中‘PA_课题收支总表’文件夹下的选项做出课题余额,步骤和结果如图1和2所示。

当然,科研项目管理人员乃至研究单元负责人也可以从信息资源管理与服务平台中财务查询功能里查找到此课题当前期间的经费余额,如图3所示。

财务人员只能用Discoverer中的‘FI_子课题收支结余’或‘FI_子课题可用资金(实时)’这两个文件夹中的数据项查询结果。两个人员查询的分歧就此产生,财务人员与科研项目管理人员虽然设定了同样的约束条件和同样的查询方法,但是查询的速度和结果却存在差异。从图4看出财务人员利用Discoverer查询时间较慢,系统提示查询需要两至三分钟才能完成,而科研项目管理人员在不到一秒的时间内即可得到查询结果,但是两个人员查询到的数值竟然也是不一致的。因此财务人员使用另外一个查询工具Report Plat来完成此任务,用以验证查询结果,方法如图5所示。

采用Report Plat可以在不到一秒的时间内完成查询,查询方式可以选择包含未过账查询和不包含未过账查询,得到的结果分别与财务人员Discoverer查询数据和科研项目管理人员Discoverer查询数据相互一致。通过对这几种查询工具完成同一任务的比较可以看出:数据查询结果和查询时间与查询机理以及查询的数据源密切相关。以下分别对这几种数据查询工具的查询机理和数据源做出说明:

1.财务人员使用Discoverer查询课题可用余额是反映当前时点全部课题资金状况的一种查询方法,它的数据源是查询了课题发生财务账目以来至查询时点为止所有财务凭证,它是实时查询,但却存在查询时间非常缓慢的弊端。

2.科研项目管理人员用Discoverer查询课题可用余额的数据源是通过涵盖了已全部关闭的会计期间内所发生的过账后的会计凭证生成的可用资金实体化试图。直白的讲,它并非是实时可用资金,然而,生成可用资金实体化试图这种方式,数据查询速度非常快,又因为实体化试图中的课题号图4‘FI_子课题收支结余’查询时间信息能直接关联科研项目模块其它课题信息,科研项目管理人员可以利用它制作出多维度课题信息资金报表。

3.财务人员使用的Report Plat工具查询课题可用余额的数据源是每财年过后,年结凭证结转完成的课题余额加上年初至查询时点的所有发生的凭证的金额,它查询速度快并且是实时资金查询。但是,在每年末至下年初财务部门进行年结和财务年度新开帐期间,由于账目中增加了年结凭证,这时采用Report Plat查询课题余额就是不准确的,但是这个时段就恰恰是科研管理部门和研究单元最需要查询资金余额的时段。

4.研究单元负责人所用的信息资源管理与服务平台中的课题余额查询,数据源是ERP总账会计模块中截止到查询时点,包含了已关闭会计期间和正在打开的会计期间中全部已过账凭证的数据,不包含未过账数据,因此产生的数据结果又有可能和以上那些查询方法产生差异。

通过这些分析,做出如下说明:第一、各种数据查询方式针对同一任务产生的数据结果存在差异,但是每个结果都不能被认为是错误的。第二、查询机理和数据源对查询响应时间产生较大影响。即便每种查询结果都没有错误,但是在终端用户之间却产生了较大歧义。举研究所实际发生的案例:其一、财务人员也需求带有课题信息的课题经费数据,由于ERP根据责任权限对数据查询权限进行划分,财务人员反而往往需要从科研项目管理人员那里得到带有课题信息的课题收支表或是研究单元经费总体状况等。但是,财务人员对经费信息要求极为精确,查询差异会导致财务人员对系统的质疑,虽然已经解释了差异原因,但是财务人员总是质疑是否得到了准确的经费信息。其二、研究单元负责人通过信息服务平台查询到的课题经费余额与网上报销系统中计算课题经费余额的方法不同,差异直接影响到了课题组报销借款。研究单元负责人查到的经费余额只统计了包含过账后的经费余额,而网上报销计算课题经费余额是包含过账、未过账、借款未冲销的经费,因此当课题组人员查询某课题还有经费余额时,他们进行网上借款,系统却提示经费已经出现赤字,于是科研人员对ARP系统产生质疑,甚至认为财务核算有错误。所以,如果能对各类终端用户统一查询平台,汲取各种查询工具的优点,避免它们各自缺点,那么ARP的数据应用就能发挥更大效益。

目前的多种查询工具,哪一种经过深入开发更适合作为公共查询平台?

Discoverer由于是Oracle直接产品,与ERP系统关联性强,开发人员容易更新业务区种子,数据查询灵活性高,用户制作查询表格的方式非常方便,可扩展性和易用度也很强,经过培训,容易上手使用。但是Discoverer是客户端软件,无法实现网页集成。只有科研管理人员才能使用,研究单元负责人和所领导既无法也没必要使用Discoverer。而且它的用户权限划分也很严格,查询数据的范围是直接和ERP系统中的责任相关联的,通过它关联各模块共用数据项比较麻烦,因此不适合作为公用数据查询平台。

Report Plat是一种固定数据查询模式,用户无需查询技巧,查询速度比较快,但它也是客户端工具,使用用户范围更为狭窄,不能集成于网页上,也不适合作为公用数据查询平台。

润乾报表工具能够被集成于网页中,表现形式是开发人员发布的带有用户可选择参数的动态网页,能向所有用户开放查询权限。但是,当前各研究所使用版本的润乾报表,对用户业务水平和技术水平要求都比较高,因此它的推广使用程度也是最低的。然而,通过对润乾报表查询机理和数据源分析,润乾报表是有可能成为公用数据查询公用平台的。

润乾报表最大的优势就是不再受ERP系统责任的制约,可以给用户重新分配数据查询权限。业务人员只需设计业务模型,可以向开发人员提出需要哪些ERP中不属于本模块范围的数据项,而不用关心如何得到这些数据项。数据管理员利用后台的开发工具重新建立数据集来满足业务人员需求的数据项。当前版本润乾报表的查询机理如图7示例。

润乾报表可以建立各个模块业务人员的共用数据集,例如:人员基本信息数据集(这里包含了人员所属组织,人员职称、职级变动信息等),课题基本信息数据集(包括了课题所属组织,课题负责人,课题类型,经费来源等),研究所收入支出类型与科目对应数据集,固定资产大型科研仪器数据集等等。当这些共用数据在ERP系统之外进行重新组合,业务人员就可以设计出以前希望得到却又无法实现的创新性数据统计模型。例如:1.人事部门可以调用个人和研究单元的课题信息、经费信息,再结合自有的人事信息,做出研究人员成长评估,展现出研究人员是否随着职称的变动,科研成果也在持续增长,而且还可以把个人关联入研究团队,对整个研究团队做出绩效评估。2.课题管理部门在管理先导项目中,及时获得参与先导项目的人员信息、科研装置信息、支出类型经费信息等,更加主动的管理先导项目,使之按照科学工程规范推进。

建立公用数据查询平台以后,本文之前提出的经费查询问题也能得到有效解决,由于润乾报表在ERP系统外重新组合了数据集,终端用户可以根据自己需要的查询时点和经费要求选择相同的数据源,因此做到了查询数据的一致性。

建立公用数据查询平台后,对于终端用户的技术性要求降低了,中国科学院业务人员可以把注意力集中于如何创造业务数据模型,而从模型到查询的实现再到网页显示可以完全交由开发人员完成。业务人员只需要利用诸如excel等方式列出查询任务需要的数据项和阐明任务目的,开发人员就可以通过技术手段直接在网页上实现。针对所级领导这类终端用户,润乾报表在网页上生成的图形图表,可以直观展现他们需要了解的信息。对于研究单元负责人这类终端用户,润乾报表具有较强的参数设置功能,而且参数都可以通过动态网页形式实时设置,以满足他们的查询需求。

建立公用数据查询平台后,全院业务人员的培训也会更加具有层次化了,今后针对业务人员的培训涉及客户端工具使用的技术问题会更少,而专注于系统本身的业务功能的培训会更深入。但是在研究所层次也需要培养既懂业务又懂技术的高端人才,对这一部分人员需要加强培训,使之成为研究所业务人员和ARP中心开发人员之间的沟通桥梁,以便更好完成对业务需求的开发。

结语:数据应用是ARP核心价值的体现,伴随着ARP系统的不断成长,无论是对现有的工具升级改造建立公用数据查询平台,还是根据需求发展新的工具,ARP数据应用必将呈现蓬勃发展的态势。

摘要:本文通过对ARP系统现有数据查询工具中数据源和查询机理的分析,总结了各种查询工具的优缺点。在此基础上,建议利用其中的一种查询工具——润乾报表,建立一套ARP系统公用数据查询平台。

关键词:ARP系统,数据查询,公用平台,共用数据,润乾报表

查询分析 篇2

戒烟产品广告投放记录查询与分析

1.查询戒烟产品的投放记录

打开开眼数据官网,在产品介绍里面打开AdRada,注册开眼数据库通行证并登入。搜索戒烟产品,在分类中点击投放记录。

2.查询戒烟产品的投放记录

广告主—真味如烟电子公司

投放媒体—39健康网男性频道

广告主—山东百事得保健品科技有限公司

投放媒体—IT部落图库.分析投放用意

(1)真味如烟电子公司

科学戒烟程序,四步安全无痛苦戒烟

有志戒烟的吸烟者可以通过“真味如烟”“真味如烟”专用雾化烟弹根据吸烟者不同程度的需求设计出无、同时避免因突然戒烟引起的内分泌失调和戒断综合症,这是以往的烟替代品或戒烟产品都无法做到的。

(2)

查询分析 篇3

一、现金管理基本情况

(一)网点和人员设置情况

截止2013年末,宁蒗县共有4家银行业金融机构,14个固定营业网点和10个约时服务营业网点对外办理现金收付业务,其中:农业银行1个,办理现金业务人员11人,管理库房现金和后台ATM自助设备人员为6人;邮政储蓄银行网点5个,办理现金业务人员16人,后台管理ATM自助设备人员12人;农村信用联社固定网点7个,约时服务网点10个,办理现金业务人员28人,管理后台ATM自助设备和库房现金人员16人。农业发展银行未对外办理现金业务。

(二)机具设备配置情况

2013年末,宁蒗县银行业金融机构共配备点钞机98台。其中农行为A类点钞机11台,具备较强的防伪功能和冠字号码采集查询能力,占所有点钞机的11%;而信用社、邮政的87台B类点钞机均不具备冠字号码采集查询功能,且防伪能力也不强;配备清分机9台,其中农行2台,信用社7台,其中具备冠字号码采集查询功能的8台,占所有清分机的89%;配备取款机18台,均不具备冠字号码采集功能;配备存取款一体机8台,均具备冠字号码采集查询功能,占比100%。

二、存在的问题

(一)办理人民币收付业务的机具设备配置不足,设备运行管理不到位

一是柜面点钞机具配置过低,未能达到现金管理要求。根据检测假币机具的功能高低不同,点钞机分成A级、B级和C级机。因A级机具有5磁头,8组红外,外加1个图像传感器,且点钞速度大于900张每分钟,具备冠字号码采集查询功能,防伪能力强,主要是专供银行、证券等现金流大的金融单位。B类机不具备冠字号码采集查询功能,且点钞速度慢,防伪能力滞后。我县银行业金融机构配备的点钞机主要是A、B两类,无C类机。从宁蒗县银行业金融机构柜面点钞机具配备情况来看,除农行宁蒗县支行配置了11台A级机外,宁蒗县农村信用合作联社、宁蒗县邮政储蓄银行配备的87台点钞机均为B级机,B类机具不能满足现金管理的要求。二是取款机软硬件更新不及时,跟不上反假防伪的要求。由于各银行业金融机构为了降低成本,加之未积极加强与其上级行的沟通联系,不能及时完成取款机的更新换代工作,金融机构配置的18台取款机均不具备冠字号码采集查询功能和最新防伪能力,达不到相应的工作要求。另外,我县目前运行的自动取款机和存取款一体机,都存在一个共同的缺陷,出钞(取款)时,机具不具备识别假币的能力。三是清分机配置不足,清分能力有限,清分现金不能满足对外支付需求。目前宁蒗县农行配备的两台清分机,其中型号GLORY USF-1OO为2口机,因故障已暂不能使用;另一台可使用的清分机型号GLOR UW-500为4口机,每个工作日最大清分量是200~300万元左右,每台ATM机每天的现金用量40万元,仅县城5台取款机每天的现金加钞就需要200万元,即清分机处理的钞票刚好只能满足ATM机的用钞需要,不能为柜员提供经清分的钞票;宁蒗县农村信用社为每个营业网点配备了一台清分机,每天每台清分机的现金清分量100~200万元左右,所清分款项也只能满足ATM加钞,其他回笼现金只能由临柜人员简单分拣后对外支付,手工分拣的现金经常出现夹杂残损人民币,甚至出现假币流入流出银行的现象,无法保证对外支付现金的质量。

(二)未设立专门的现金清分中心,未配备专门人员处理现金清分业务,对外支付把关不严

银行业金融机构因人员紧缺,未设立专门的现金清分中心,无专职人员处理现金清分业务,都是兼职人员在参与清分。目前只能对100元券的人民币进行清分,50元及以下票面的人民币只能由柜员手工清分后对外支付,上介到人民银行发行库的回笼券除纸质100元券经清分机清分过外,其余券别的回笼券都是由柜员手工分拣。而柜员办理存取款业务平均每笔为3分钟,最快的仅1分50秒,由于柜员往往需要连续办理业务,难以对回笼款进行有效挑剔,造成网点收到的部分不宜流通人民币重新流向市场。

(三)对外宣传力度不够,老百姓维权意识淡薄

宁蒗县属少数民族聚居地,人口素质偏低,尤其是偏远山区因金融网点缺失,有73.33%以上乡镇和56.72%的人口享受不到现代化的金融服务,对金融知识的了解渠道较少,导致大部分群众对冠字号码查询工作不了解,也从未在ATM机或其他机具上查询和打印过冠字号码凭条,即使在ATM机上取到假币,也因没有凭据而无从维权,使客户对银行产生不良印象。

三、对策建议

(一)合理科学配备机具设备,明确责任和人员管理机具运行

各银行业金融机构要积极与上级行联系,加快对点钞机、ATM机具设备的更新换代工作,并增加配备必要的清分机,早日达到冠字号码采集查询的工作要求,营业网点配备能记录冠字号码的A类点钞机,确保柜面现金冠字号码记录的覆盖面达100%。

(二)设立专门的现金清分中心,配备专门的现金处理人员,严格把关对外支付

现金全额清分和冠字号码查询工作是有机结合的整体,银行业金融机构要统筹考虑,要严格按照人民银行现金管理要求,结合本机构实际情况,设立专业的现金清分中心,调配业务能力强、工作认真负责的人员,配备合格的清分设备,加大现金清分力度,按照工作进度,按期实现全额清分和冠字号码查询工作各阶段目标。另外督促银行业金融机构做好人民币反假工作,完善反假设备,提升反假手段和反假技能,要以假币“零容忍”的态度,为人民群众提供“放心钱”,有效解决银行对外误付假币问题;以冠字号码查询为手段,解决银行涉假纠纷的举证和责任认定问题,以维护消费者权益,树立银行的良好形象。

(三)加大对偏远农村金融知识的宣传力度

长期性做好金融知识的宣传、普及工作,重点加大非现金结算及反假货币知识的宣传力度,把人民币收付基本知识带到人民生活的最基层,让金融知识真正走进农村、走近农民,使广大人民群众学会安全用卡、放心用卡,从而逐步减少现金在流通环节中的使用。

(四)人民银行分支机构要加强对金融机构寇字号码查询工作的监督检查

人民银行分支机构每年至少组织一次对辖内金融机构冠字号码查询工作开展情况的全面检查或重点抽查,对被检查金融机构出具检查意见书,要求该金融机构限期整改。对于检查中发现重大业务风险、违规行为的金融机构,应及时约谈其职能部门负责人,并将相关情况上报其上级行。金融机构应根据人民银行出具的检查意见书,严格落实整改,并在指定时间内形成整改报告,报当地人民银行分支机构。

中国人民银行宁蒗县支行课题组

课题组长:周继明

课题成员:和顺贵 孔祥银 刘永华

分析查询数据的十大亮点 篇4

一、书面表示

只要入职一家银行, 不管担任业务职位还是技术职位, 跟数据打交道是少不了的, 利率、计息天数、开销户日期等, 比比皆是。如果是对历史业务进行管理, 查询数据更是必不可少。查询数据是指委托前台柜员合法查询, 或者后台统计报表。一般不是当事人自己操作, 而是书面委托, 俗称过手, 或第二手资料。因此, 查询结果数据的分析成了银行数据查询分析的亮点。

二、牵带历史问题

面对查询数据, 银行业务人员流行一句话, “只要该要的数据都在报表上, 该勾稽的关系能够找得到, 账是平的就行, 多出来的数据不用管。”这种分析查询数据的态度是过不了计算机技术关的。计算机查询数据有时会带来新的数据, 虽然不是直接发生的交易数据, 却能反映数据的累计勾稽平衡关系, 因此同样应该予以重视。如今日积数=昨日积数+今日余额=SUM (i) (昨日余额i) +今日初始余额+今日发生额=SUM (j) (今日余额j) , 在查询数据清单上多列出积数这一项数据, 就起到了阶段性地稽核调账起始点的佐证作用。积数可以凭月结划段平账, 也可以红字冲正调整, 但是要把所有调账的科目、账户的积数都配平, 做到积数平账是很困难的, 冲账和补正的日期不是同一天就更难。分析积数、发生额和余额的累计关系, 就可以发现一些计算机技术掩饰不了的问题。这是分析查询数据的亮点之二。

三、语义解释

在银行录入数据的时候, 分段分档处理数据是分析查询数据的亮点之三。如上年度固定资产净值和本年度固定资产评估市值, 两者相加并不是本年度固定资产净值, 而应该冲账上年度固定资产净值, 补正本年度固定资产市场评估值, 得到本年度固定资产净值;或者上年度固定资产净值, 加本年度市场评估增值, 等于本年度固定资产净值。这一项目的查询数据需要对录入数据的语义做明确的说明和账面表示, 才能分析出真实反映银行数据的结论。

四、程序细节

在银行数据进入计算机技术的过程中, 设立标志符标志位错位时, 往往带来查询数据的歧义分析。因此分析查询数据需要懂一点计算机程序, 这是亮点之四。如委托贷款的利率标志符重叠设置“-1”在利率字段, 以区别于正常贷款, 这种计算机技术做法使得分析查询数据时不小心将“-1”理解成倒贴利率贷款。如果设立的每一个标志符都占据一个字段的标志位, 则账目记录的字段数太多, 使得数据库变得复杂。

五, 不咎历史

在一行数据报表中最可贵的是今天做交易的人只管今天的日初余额、日发生额、日末余额能够平账, 对于历史账目是否调整过不做柜台当次交易追究, 查账时更是如此。因此, 前面历史交易累计至今, 即使发现差错, 也会像脏数据一样留在报表上变成痕迹, 绝不可能抵赖。分析查询数据的人对报表上冗余的脏数据必须做到见一个抓一个, 保持公正开明的科学态度。在遇到截然矛盾的查询数据时, 如定期存款的利率是1年期利率, 到期日却是3年期到期日, 又如计算机表示是3年期的定期存款, 存折表示是半年期的到期日和利率打印记录行, 这时分析查询数据的重要历史凭证就成了唯一举证的质物。这是亮点之五。

六、衍生数据

分析查询数据的另一个高深的问题就是衍生数据, 它不是中间数据存放问题, 而是决策数据产生的源泉。比如分配系数表在管理费分摊的过程中, 调整任何一个百分基点, 都会带来巨额利润走向, 甚至关联到经营盈亏的分析结论。因此, 前期分析数据的诚实可信往往比后台决策数据更能顶起一片天, 输入数据不诚实, 带来的一连串统计和分析的失真, 导致决策模型的基础不稳。这时分析查询数据必须避免唯数据论的思想。这是亮点之六。

七、反方数据

分析查询数据, 特别值得注意的是小组成员中保留反对票席位。在一个小组审批中, 保留一票专门收集反方调查数据的席位, 它能提醒所有审批小组成员存在风险, 但是往往常被小组表决以少数服从多数为理由而忽略。其实, 反方数据是潜在风险的提示, 在分析查询数据时必须给予相同权重的考虑, 这是亮点之七。

八、主观数据

分析查询数据时要注意不同系统之间的拼凑数据, 以及查询人参与的主观数据, 这是亮点之八, 它是本文的重点。业务员经常喜欢提炼关键字、摘要、特写以及锁定亏蚀的极值点, 有时还设立起步的初值或位移, 这些断点换了人手去分析, 如果没有特别说明和解释, 都会被当作出错的奇异点, 导致完全背离事实。举例来说, 柜员机要求输入密码的次数大于等于两次, 就用星号确认代替汉字“成功”确认, 这让查询数据分析过程中涌出一连串的问号。比如钞币币种的数字代码表示、英文简写代码表示、俗称代码表示和新闻币种表示, 这4个代码表示之间的换算和解释, 都让计算机技术多了个代码空间, 也让报表多了个汇兑、小计、合计、总计的栏目空间, 这些“差之毫厘, 报之千里”的语义让查询数据分析工作因为报告人的主观数据偏离常规而陷于被动。

九、非法数据

分析查询数据中的不合法数据, 如空格充抵非空字段、标准长度的账号短尾升级成科目号、住宅地址省略房间号码后面的“室”字、路牌地址省略门牌号码后面的“号”字, 都让分析查询数据时产生逃避正规取值范围的嫌疑, 收集像是查询中的别称, 通字符成了分析查询数据的背景经验之一。问题五花八门, 不能当作程序出错的偶然事件, 而要视为蓄意错误。这是分析查询数据的亮点之九。

十、领导意思与抄报人职责

查询分析 篇5

近年来,人民银行为履行账户管理和征信管理职能,相继开发了人民币银行结算账户管理系统和企业信用信息基础数据库及个人信用信息基础数据库,两系统投入使用以来,对人民银行履行结算账户管理和信贷征信管理职能起到了切实的推动作用。但是,由于两系统中存储着企业和个人的账户、贷款等信息,可以大大节省司法机关及有权机关办理案件和履行管理职能的时间和费用,因此,越来越多的司法机关及有权机关涌向各级人民银行,要求人民银行提供相应的信息查询。由于我国立法对于人民银行分支机构协助执行问题一直没有明确规定,人民银行各基层行遇到此类问题只能层层上报至总行。由于法院等部门处于事实上的优势地位,人民银行基层行常常置身于执行总行决定和被司法机关采取强制措施的两难境地。2009年2月11日,人民银行总行与最高人民法院联合下发了《关于在全国清理执行积案期间人民法院查询法人被执行人人民币银行结算账户开户银行名称的通知》(法发[2009]5号,以下简称《通知》),首次就人民银行为法院系统查询账户做出了规定,责成人民银行各省级机构统一受理法院的查询申请,在一定程度上缓解了基层行与法院间的矛盾。但是,人民银行是否有义务协助有权机关查询及与之相关的一系列问题仍困扰着人民银行的各级分支机构。笔者对近年来人民银行、最高人民法院等机关制定的关于金融机构协助有权机关查询的文件进行了梳理,对法院等部门查询的依据和可行性进行了分析,提出了了人民银行应与其它部门在实现信息共享方面加强合作,从而降低行政管理成本,提高政府管理效能的意见建议。

一、法院查询的依据及可行性分析

现行的法律、行政法规中没有关于人民银行协助有权机关查询的直接规定,无论是在人民法院与人民银行之间,还是人民银行内部对人民银行是否有义务协助查询始终存在着不同的观点。《通知》下发之前,人民银行基层行在法院查询时一般提供总行与法院等相关部门联合下发的文件,以文件没有将人民银行纳入协助查询义务机关为由拒绝法院的查询,或者以人民银行关于对外查询方面的禁止性规定为由予以拒绝。法院等单位则或因为缺乏相关知识,常常引用法律、行政法规和规范性文件中与商业银行相关的条文要求人民银行履行协助义务,造成双方各执一辞,进一步使问题复杂化。

支持人民银行应予协助法院查询的观点主要法律依据在于《民事诉讼法》第65条和《刑事诉讼法》第45条规定,即人民法院有权向有关单位和个人调查取证,有关单位和个人不得拒绝,尤其是民诉法第103条规定,对于有关单位或者银行有拒绝协助行为的,人民法院有权采取司法强制措施。法律对人民法院要求人民银行协助查询问题没有直接规定,是因为法律具有高度的概括性和普适性,没有必要也不可能逐一列举什么是“有关单位”以及有关单位如何履行提供证据的义务。即使人民银行制定的包括部门规章在内的规范性文件对人民银行不予协助有规定,由于这些规定的法律位阶低于《民事诉讼法》和《刑事诉讼法》,其法律效力不能与二者相比,对人民法院也没有约束力。

笔者认为,为构建诚信社会、保护公民权利,从解决法院执行难问题的大局出发,人民银行应协助法院查询。具体原因有四点:

一是政治制度。我国与西方实行“三权分立”的国家不同,在我国,司法权与行政权并不完全是对立关系,法院行使司法权和人民银行行使行政权并不是为了部门的自身利益,国家权力在我国更体现了对公共利益的维护,从这一点来说,法院和人民银行在维护金融经济秩序方面有共同的目标。

二是信息共享。《政府信息公开条例》已经颁布实施,即使是公民都有权利用政府信息,因此没有必要将国家的司法机关排除在政府信息使用者范围之外。司法和行政本质上都是“执法”,信息共享是当代的大势所趋,无论是政府主导还是商业主导,无论是司法机关与行政机关之间,还是行政机关与行政机关之间,共享信息无疑能够减少交易成本和管理成本。早期的相关规范性文件之所以不要求银行营业场所的上级机构和人民银行进行协助查询,与当时银行业务手工操作有很大的关系,在当时的历史背景下人民银行不协助查询实属“非不为也,是不能也”。2005年后之所以出现法院与其它有权机关来人民银行查询账户信息,这是央行的系统建设先拔头筹造成的别人“搭便车”现象。

三是行政执法。基层人民银行与法院之间有互相协助的需要。当前,人民银行在空头支票处罚、人民币账户许可、贷款卡发放、个人信用报告准确性等方面非常容易发生纠纷,特别是个别地方空头支票处罚罚款主动缴纳率不高,需要向法院申请强制执行,为了维护金融秩序,提高基层央行行政执法的效果,人民银行与法院等有权机关需要长期的沟通与合作。

四是制度保障。人民银行基层行难以承受坚持不协助法院查询的后果。法院可以跨地域执法,从理论上讲,我国的任何一个法院的任何一个法官都可以对任何拒绝提供查询协助的人民银行机构做出强制措施决定。2008年4月1日起执行的修订后的《民事诉讼法》加大了对不履行协助调查、执行义务的行为的惩罚力度,第103条、104条规定人民法院对不履行协助调查、执行义务的单位可以罚款,对单位的主要负责人或者直接责任人员可以予以罚款;对仍不履行协助义务的,可以予以拘留;并可以向监察机关或者有关机关提出予以纪律处分的司法建议。对个人的罚款金额,为人民币1万元以下;对单位的罚款金额,为人民币1万元以上30万元以下,罚款额度大大高于修订前。基层行因不向法院提供查询协助被处罚后,惟一的法定救济渠道是向做出强制措施决定的法院的上一级法院申请复议,但上级法院为了维护本系统的执法权威,鲜有撤销下级法院的强制措施的。《通知》虽然规定“人民法院对人民银行上述机构及公务人员执行本通知规定,或依法执行公务的行为,不应采取强制措施。如发生争议,双方通过友好协商解决争议;直接协商不成的,应及时向最高人民法院和中国人民银行反映。”,但《通知》仅适用于“印发之日起至清理执行积案活动结束止”,清理执行积案活动结束后《通知》中的免责规定是否仍然有效不无疑问。因此,从维护基层行的稳定,保护单位工作人员的人身财产安全的角度出发,人民银行应当向法院提供查询协助。

二、公安机关、检察机关、国家安全机关等部门查询的依据及可行性分析

公安机关、检察机关、国家安全机关等部门办理刑事案件时,同样可以依据《刑事诉讼法》第45条规定要求人民银行协助查询相关信息。按照社会大众的一般观念,刑事案件重于民事案件,如果人民银行对法院执行民事案件给予了协助,就没有理由不给予公安机关等部门协助。

与《民事诉讼法》不同,《刑事诉讼法》没有明确规定有关单位和个人拒绝提供协助时公安机关、检察机关可以采取什么措施,但这并不表示人民银行拒绝提供协助就没有法律风险。曾有某地经侦部门的公安人员威胁要拘留拒绝提供账户查询协助的人民银行工作人员,依据是《治安管理处罚法》第六十条:“伪造、隐匿、毁灭证据或者提供虚假证言、谎报案情,影响行政执法机关依法办案的”。这种说法显然站不住脚。首先,人民银行并没有“伪造、隐匿、毁灭”证据,只是“拒不提供”证据;其次,经侦部门办理刑事案件,是刑事侦查机关,不是行政执法机关,因此不能适用此条的规定。但是,国家安全机关依法履行职责时,如果人民银行相关人员拒绝提供协助,则可能直接面临被拘留的危险。《国家安全法》第二十六条规定:“明知他人有间谍犯罪行为,在国家安全机关向其调查有关情况、收集有关证据时,拒绝提供的,由其所在单位或者上级主管部门予以行政处分,或者由国家安全机关处十五日以下拘留;情节严重的,比照刑法第一百六十二条的规定处罚。”《国家安全法实施细则》第二十四条对此做了进一步的解释:“有证据证明知道他人有危害国家安全的犯罪行为,或者经国家安全机关明确告知他人有危害国家安全的犯罪行为,在国家安全机关向其调查有关情况、收集有关证据时,拒绝提供的,依照《国家安全法》第二十六条的规定处理。”除了法律风险,人民银行拒绝向侦办刑事案件的公安机关等部门提供查询协助还将承受“包庇犯罪分子”的社会舆论压力,有损于人民银行的社会形象。

虽然法律风险是人民银行决定是否提供查询协助的考虑因素之一,但不应当根据风险的不同而对不同的机关给予不同的对待。需要指出的是,同样是要求人民银行协助查询账户,法院办理民事案件与公安机关等部门办理刑事案件关注的焦点就不一致。法院为保全和执行财产,关注的是现有的账户和存款余额。公安机关等部门从追查犯罪线索的目的出发,关注的是特定阶段的账户的开销户记录和交易记录。他们的许多查询要求超出了账户系统的所能提供的信息范围,只能依靠人民银行工作人员的耐心细致的解释使其放弃不能实现的要求。

三、其它行政机关查询的依据及可行性分析

从现阶段来说,其它行政机关要求人民银行提供查询协助的法律依据尚不充分,在未全面评估法律风险的情况下,不宜贸然提供协助。对于协助行政机关查询,应严格按照依法行政原则进行办理,对于法律没有规定的,坚决不予协助查询,对于法律规定模糊的,建议与相应行政机关进行联合解释,具体划清可以查询、不予查询的范围和界限,严格保护单位、个人合法权益不受侵害。需要特别指出的是,基于我国的国情,纪检监察机关依据《中国共产党纪律检查机关案件检查工作条例》和《行政监察法》办案,具有“准司法”的性质,从坚持党的领导,积极推进党风廉正建设角度,人民银行应当积极配合。

人民银行与其它行政机关,虽然被法律赋予了不同的权能,但从根本上讲都具有行政管理的相同特征,账户系统、征信系统本质上都是通过加强管理来提供公共服务,其它行政机关的行政管理行为最终也是为了实现这个目的。近几年在人民银行的推动下,有关金融服务的大系统建设取得了显著的成绩,不仅是法院,社会上也有越来越多的单位和个人希望分享人民银行系统建设所带来的成果。用经济学术语来讲,人民银行的系统本身具有一定的外部性,随着时间的推移,会有越来越多的分享需求。从另一方面来说,现代政府建设的一个重要方向是服务型政府,人民银行作为国务院组成部门,既要进行宏观经济调控,也要提供微观金融服务,所以,从长远来看,对外提供一定的系统建设服务成果是符合时代发展的大背景的。

聊聊统计检查查询书 篇6

法律效力来源

统计部门承担着保障统计数据真实、准确、完整、及时的职责,因此《统计法》第五章专门赋予了统计部门对统计工作实施监督检查和查处统计违法行为的职责。统计部门在开展监督检查和查处统计违法行为等行政执法活动中需要按照法定的程序和内容,根据有关法律、法规、规章的规定,并结合在执法过程中的客观实际来制作、发布反映行政执法活动过程和每个环节内容的法律性文书,以保证统计部门的执法活动具有法律效力和法律意义。而统计检查查询书作为统计监督检查和查处统计违法行为工作中的常用文书,在《统计法》中对其进行了明确规定。

《统计法》第三十五条第一款第(一)项规定:“县级以上人民政府统计机构在调查统计违法行为或者核查统计数据时,有权采取下列措施:(一)发出统计检查查询书,向检查对象查询有关事项。” 可见,《统计法》为保障统计工作的顺利开展和统计资料的客观及时,确保统计违法行为受到依法追究,在规定统计部门必要的监督检查权的基础上,进一步赋予了统计部门的统计查询权。

实际使用情况

《统计法》规定了统计部门在调查统计违法行为或者核查统计数据时发放统计检查查询书,行使统计查询权的权利。同时,《统计法》第四十一条第一款第(三)项还规定了统计调查对象“拒绝答复或者不如实答复统计检查查询书的”,统计部门有权进行行政处罚。可见,《统计法》通过赋予统计部门查询权并通过责任担当的形式来保障统计检查查询书的正确、有效使用。

《统计法》仅规定了统计部门发放统计检查查询书,行使统计查询权的权利。但是法律并没有也不可能对发放统计检查查询书的具体情形作出细致的规定。由于统计业务工作和统计部门行使监督检查权的需要,2011年北京市统计部门在统计系统执法程序和文书式样中通过查询书使用说明的形式规定了统计部门在以下几种情况下可以使用查询书:(1)受查单位原始记录或统计台账不完备,基础工作较差且不配合检查,致使重点指标无法取证;(2)迟报统计资料;(3)拒绝提供统计资料;(4)经催报后仍未按时提供统计资料;(5)拒绝、阻碍统计调查、统计检查;(6)其他需要使用统计检查查询书的情况。

统计部门在发出统计检查查询书后,可根据查询书的回复情况,确定下一步的处理方法。如果受查单位没有答复,以拒绝答复查询书的违法行为予以立案。如果受查单位答复,可以根据答复结果选择采取不处理、直接进行处罚或再次进行检查集中处理方式。在检查时制作一般程序文书,在询问笔录中说明查询情况。

主要内容及适用范围

统计部门发放检查查询书的目的就是统计部门依据《统计法》等相关法律赋予的职权,在调查了解统计调查对象开展日常统计工作的基础上,通过查询的形式对其进行业务指导,指出并纠正违法行为,为广大调查对象提供统计服务,进而提高统计工作质量。

统计检查查询书作为查处统计违法案件,规范统计监督检查行为的重要文书,其查询的内容不仅仅是某个统计指标数据,还包括该指标的计算过程和方法,以及计算该指标所需的原始记录、统计台账以及与统计工作密切相关的会计资料。可以说,统计检查查询书中查询的内容是统计调查对象在日常经营活动中开展统计工作的直接体现,不仅仅反映出其统计工作是否到位,还可以通过查询反映出统计调查对象是否将统计工作融入到有关单位的日常生产经营活动中,有效发挥统计工作为单位经营活动提供决策依据的职能。不仅如此,统计部门在检查查询书中还应当告知统计调查对象相关内容,以保障其合法权益不受侵犯,比如查询书的答复时间及要求,拒绝答复或者不如实答复查询时的法律后果等等。

需要重视的问题

统计检查查询的根本目的在于为广大统计调查对象提供服务,从而提升统计工作的质量。因此统计部门在日常工作中需要强化依法行政理念,贯彻为检查对象主动提供业务指导和服务的理念,不能仅仅将发放查询书作为进行处罚的前提条件和手段。笔者认为,统计检查查询书的发放旨在促进统计调查对象日常统计工作的法制化、制度化、规范化。充分保障统计查询对象的权利和义务的统一,进而提高政府统计的执行能力。

统计部门要制定完善的统计检查查询书发放制度和流程。统计检查查询书是一种专业性较强的文书,查询的内容涉及调查对象的日常基础工作、统计数据质量以及统计监督检查等等,因此统计部门一方面应当依据《统计法》等法律法规制定一套完善的统计检查查询书的发放制度、流程、范围和标准,并在此基础上制定必要的查询书的制式文本;另一方面,统计部门要对统计检查查询书实行信息化管理机制,通过统计数据采集系统、统计执法检查系统等平台,对查询书进行电子化管理,辐射到广大统计调查对象中,保障日常基础工作、统计数据采集、统计监督检查等工作有效开展。

统计部门要建立长期的查询信息通报和宣传机制。统计检查查询书作为统计部门与统计调查对象直接对话的载体,其目的在于促进被查询单位统计工作的深入、有效开展,并努力将被查询单位日常工作中可能出现的问题化解于始发阶段。特别指出的是,统计部门需要通过查询书与广大统计调查对象建立良好的工作关系,可通过开展宣传、召开联席会议、开展培训讲座等形式指导统计调查对象答复查询书。如统计部门对于调查单位领导、统计负责人重在宣传扩大查询书的知晓度,进而促使其重视统计工作;对于从事统计工作的具体人员,需要组织起来进行系统学习;对于社会公众需要通过媒体进行多渠道的宣传,扩大查询书的社会影响,以保障检查查询书更好地发挥作用。

随着近年来一系列统计法律法规的相继出台,全社会对统计工作的关注程度日益提高,统计部门也随之需要面对在社会经济发展中出现的一些新问题、新情况。解决统计工作中的实际问题,自然离不开科学合理的法律文书和有效的法律运行机制来保障。统计部门正确发放检查查询书,其实就是在不断发展的新形势下促进统计工作科学发展的重要体现。

基于查询模型的专家检索方法分析 篇7

专家检索(亦称之为专家查询、专家推荐、专长定位、专长识别[1])作为实体检索的一个特例,要求返回的实体类型是具有特定专长(与查询主题相关的)的专家。由于在促进知识共享和交流、构建学术界和产业界的桥梁、知识管理等方面有重要的应用价值,近年来专家检索引起了学术界广泛兴趣。

企业搜索这一新领域的出现,给信息检索研究社群带来了新的挑战。一个典型企业内对于复杂信息需求的多样性和内联网数据的异质性使得提高总体检索质量比较困难。相反,研究者们仅仅集中于几项重要的检索任务。其中一个重要的任务就是要在一个组织内搜寻到相关的专家。这就意味着用户需要找到一名知识最渊博、学识最高深的专家来亲自解答他所查询的主题。用户只要在当地的内联网搜索引擎中输入几个关键字,就会检索到一组候选专家,并根据他们成为该主题专家的可能性进行排序。国际文本检索会议组织的企业追踪专题首创的搜寻专家任务推动了当前专家检索系统的发展。到目前为止,对语言模型方法出现的问题及可能的解决方案最全面的一种描述在文献[2]中有所介绍。本文采用了具有良好理论基础的语言建模方法,并应用不同的技术对模型进行评估和排序。

1查询扩展技术

查询扩展QE(Query Expansion)是采用计算机语言学、信息学等多种技术,将与原查询相关的词或者词组与原查询重新组合成新查询,以便更完整、更准确地描述原查询所隐含的语义或主题,帮助信息检索系统判断更多相关的文档,从而改善和提高信息检索系统的查询性能。它的核心问题是扩展词的来源及其权重的设置问题。

传统的查询扩展方法[3]主要分为基于全局分析、基于局部分析、基于用户查询日志和基于关联规则等几大类。

查询扩展方法[4]多沿袭信息检索领域查询扩展的研究成果,在查询时动态地扩展原始查询语句,使得扩展的查询语句能比原始查询语句更好地表达用户的查询意图。该技术有助于改进传统的文件检索性能,提高专家检索的准确度和覆盖面。不少工作采用常见的伪相关性反馈PRF(pseudo-relevance feedback)技术,主要是利用查询时返回的Top-N 最相关的支持文档来扩展原始查询语句。

2基于语言模型的排序方法

专家检索问题的实质是:根据用户的查询q,返回与q相关的专家并排序返回给用户。依据查询似然的思想,专家排序可以看作是:用户在检索中提出的查询表达式q是针对某个特定的专家e生成的,而检索系统观察(接受)到用户提出的查询q后,其任务是预测可能生成q的专家并将其根据可能性大小排序返回给用户,即将专家按照p(e|q)排序,模型如式(1):

p(e|q)=p(q|e)×p(e)p(q) (1)

对于一次确定的专家检索过程而言,查询q对每个专家e 都是确定的,因此p(q)与排序无关,则如式(2):

p(e|q)∝p(q|ep(e) (2)

p(e)则是每个专家的先验概率,可用来结合专家权重优先级等因素。在这里,假设p(e)是均匀分布的,即与排序无关。因此,也可以用p(q|e)对专家排序,则如式(3):

p(e|q)∝p(q|e) (3)

在TREC 2005中,Cao等[5]和Azzopardi等[6]介绍了两种用于专家检索任务的语言模型。它们被Balog等[2]解释为候选专家模型(模型1)和文档模型(模型2)。这是目前较常用的专家检索模型框架,它们为基于此的扩展和新方法的产生提供了理论基础。

2.1专家语言模型(模型1)

模型1基于的是Craswell等[7]提出的虚拟文档方法,Fang等[8]将该模型称之为基于专家档案的模型,Petkova和Croft则将其称之为查询独立法[9]。

该模型的主要思路为:根据每个专家e,估算一个专家语言模型,利用p(q|θe),计算专家θe产生q的概率,如式(4):

p(q|e)rank¯¯p(q|θe)=tiqp(ti|θe)tf(ti,q) (4)

通常情况下,查询q是通过一系列词来表示的,tf(ti,q)表示出现在查询q中的词频。该公式假设各个词tiθe中发生的事件是相互独立的。p(ti|θe)表示的是候选专家e写某种东西的概率。若一个候选专家对某方面谈论得越多,则他(她)越有可能是这方面的专家。给定候选专家e,生成查询q类似于询问该专家是否有可能写了与查询主题相关的东西。关于p(t|θe),可以认为θe是由与专家e主题相关的索引词分布模型和背景语言模型p(t|C)的插值,如式(5):

p(t|e)=diDp(t|e,di)×p(di|e) (5)

2.2文档语言模型(模型2)

该模型假定候选专家与查询之间是相互独立的。该模型将查询的生成过程看成如下两个步骤:选择与候选专家e相关的文档di;在di中,用户针对文档中专家的相关信息提出查询q。于是查询q的生成过程被划分到各个文档di中去,如式(6):

p(q|e)=diDp(q|di,e)×p(di|e) (6)

该思想可以表达为:查询q是针对每个文档生成的。在该模型中,p(di|e)的计算与模型1是相同的。而p(q|di,e)的计算可以简化为p(q|di),相对于模型1,模型2的优点在于可以对查询词之间的依存进行建模,而模型1由于首先引入索引词之间的独立假设,因此无法对索引词之间的依存性进行考察。而模型2保留了完整的查询q和每个文档di,从而可以利用各种文本检索中考察查询索引词依存的方法。

3基于查询模型的排序方法

查询建模方法中出现的大量特殊查询扩展和语言模型利用Top-N最相关的支持文档进行操作。本文运用掌握的运算法则建立一个集伪相关性反馈和查询扩展功能为一体的查询式模型。

基于查询模型的专家检索方法可以分为两步,第一步和第2节中模型1的方法相似,而第二步包含实际上的优化改进过程,也就是本文讨论的核心内容。

3.1步骤一:运用语言模型进行专家排序

语言建模的基本观点是评估每个专家有关文档的语言模型,然后根据评估的查询式模型和专家语言模型的交叉熵对专家候选人进行排序。在本文的程序设置中,集合中每个支持文档d都和专家候选人ca有关联,这种关联性可以表示为(d,ca)。信息检索中根据可能性排序原则存在的专家检索问题可以表述为:“专家候选人ca在给定查询式q范围内成为专家的概率是多少?”每位专家候选人ca用专业术语的多项概率分布p(tca)来表示。专家语言模型θca被看作是对术语生成概率的最大似然规则的概率评估,通常应用语言模型语料的数据平滑技术。查询式q同样也由概率分布p(tca)来表示,且查询式语言模型被表示为θq。因此,系统的输出应该包含语言模型θqθca的交叉熵之间专家候选人的降序排列。关于专家模型的查询式交叉熵的表示方法如式(7):

ExpertScoreca(q)=-tqp(t|θq)logp(t|θca) (7)

步骤一的结果是使获得最高分数的Top-N专家退回到系统(而不是用户),这一过程中N是根据经验设定的。步骤二包含了对专家检索的优化过程。

3.2步骤二:运用查询模型对专家排序进行优化

为了更准确地对用户的查询主题建模,需要一个信息源来对该用户的信息需求进行更多了解。传统上的信息检索将查询式Top-N支持文档作为信息源,并用于建立广泛、详细的查询式模型。专家检索是与标准的文档检索截然不同的一项任务。用户搜寻的不是某些具体的信息,而是这些信息的实际发出者和(或者)收集者。这就意味着除了查询主题需要非常具体外,候选专家也要有与该主题相关的专业知识。此外,专家们的专业领域越广泛,对于某个比较专业的问题,他们被咨询的概率就越大。因此,在专家检索任务中需要利用两个用户信息需求的证据:

1) 在整个文档集合中检索的Top-N支持文档(运用经典的LM方法进行文档检索);

2) 与查询主题相关联的Top-N专家候选人(在步骤一中进行检索)。

第一个信息源让检索者对初始用户信息需求有了详细的了解,而第二个信息源相对而言不是很具体,对查询主题有所扩展。所以,作为一个新的查询式模型,本文采用两种查询式模型的混合式:基于Top-N文档的模型(表示为DocumentBasedNewθq)和基于Top-N专家的模型(表示为ExpertBasedNewθq),如式(8):

对于这两种查询式模型的评估,不是采用文献[2]中提到过的方法,而是应用文献[10]中由Zhai和Lafferty提出的原则性强、理论基础好的方法,这一方法优于本文之前信息检索分布实验中用到的其它类似的运算法则。一旦用于运算,就需要将新的查询式模型和初试模型混合以防止偏离主题。本文通过运用查询扩展和术语生成概率建立了一套新的专家排序体系。在式(9)中,用不同的新的查询式模型计算了交叉熵。

ΝewExpertScoreca(q)=-tqp(t|Νewθq)logp(t|θca) (9)

4实验结果与分析

4.1测试集的选择

如何获得实用数据集用于研究测试是专家检索的一个重要挑战,目前所使用的标准测试集大多是从组织内部网收集而来,它们各具优缺点。本文采用W3C数据集作为测试集,它是TREC企业追踪专题所采用的标准测试集,主要用于企业专家检索场景。TREC 2005和TREC 2006使用的专家检索数据集是在2004年6月从W3C(Wide Web Consortium)的公开网站(*.w3c.org)上抓取的,其数据集的详细信息如表1所示。

此外,在这两次的专家检索任务中,W3C给参与者提供了包含1092个候选专家的列表,在候选专家列表中包括了专家的全名和邮件地址。

4.2测试结果分析

在实验中,本文利用第2节中所提到的模型2作为基线语言排序方法,对TREC的企业追踪专题提供的W3C数据集进行检索。同时,运用查询模型方法索引了W3C数据集的邮件列表,并检索专家检索任务中官方主题的标题查询式部分。图1和图2显示了基线法和本文所采用方法关于前10组结果(P@10)的准确度对比情况。

通过观察,查询式建模对于检索方法的改进很有帮助。当步骤一中的平均准确度已经很高的时候,本文的方法是有效率的,但是当平均准确度低于中间值的时候,本文的方法就不会很成功。如果初始的排序很差,那么查询式建模也就会随之变差。但是最好的查询式的准确度会提高10%-20%,因而这种方法适合应用于已经很有效率的检索系统中。因此,查询式功能方面的预测对于查询式建模是非常关键的。

但是也能看到,虽然查询结果有提高,但提高不大,这是由于候选专家的档案和支持文档中包括了候选专家其他的与查询主题不相关的专家领域,如果将这个文档作为查询扩展,则其它不相关的专长领域会影响到查询扩展的效果,从而使得最后扩展的查询主题失去了原有意思(即跑题)。跑题是将查询扩展运用到专家检索中不可避免的现象。目前有一些衡量专家档案中跑题发生的次数的方法,但还未提出一些衡量跑题是何时与如何发生的方法。总之,查询扩展在专家检索中的成功运用有助于发现相似专家,也有助于在组织中自动创建“专长路线图”。

5结语

本文通过对基于语言模型的专家检索方法的研究,提出了一种基于查询式建模的专家检索方法。该方法通过运用查询扩展技术和术语生成概率建立了一套新的专家排序体系。实验结果表明,该方法有效,能提高和改善信息检索性能。进一步研究专家检索专门的查询式建模和预测查询式性能是未来研究检索领域的主要侧重点。

参考文献

[1]Serdyukov P.Search for Expertise Going Beyond Direct Evidence[M].2009.

[2]Balog K,Azzopardi L,M de Rijke.Formal models for expert finding inenterprise corpora[C]//SIGIR’06:Proceedings of the 29th Annual In-ternational ACM SIGIR Conference on Research and Development inInformation Retrieval.Seattle,USA,ACM Press,2006:43-50.

[3]黄名选,严小卫,张师超.查询扩展技术进展与展望[J].计算机应用与软件,2007,24(11):1-4,8.

[4]武洁,王美姣,冯佳明,等.专家检索研究进展[J].计算机应用研究,2010,27(10):3633-3638.

[5]Cao Y,Liu J,Bao S,et al.Research on Expert Search at EnterpriseTrack of TREC 2005[C]//Proceedings of the 14th Text REtrievalConference(TREC 2005),2005.

[6]Azzopardi L,Balog K,M de Rijke.Language Modeling Approaches forEnterprise Tasks[C]//Proceedings of the 14th Text REtrieval Confer-ence(TREC 2005),2005.

[7]Craswell N,Hawking D,Vercoustre A M,et al.P@noptic expert:searching for experts not just for documents[C]//Ausweb Poster Pro-ceedings,Queensland,Australia,2001.

[8]Fang H,Zhai C.Probabilistic Models for Expert Finding[C]//Pro-ceedings of the 29th annual European Conference on Information Re-trieval Research(ECIR’07),Rome,Italy,2007:418-430.

[9]Petkova D,Croft W B.Hierarchical language models for expert findingin enterprise corpora[J].International Journal of Artificial IntelligenceTools,2008,17(1).

[10]Zhai C,Lafferty J D.Model-based feedback in the language modeling approach to information retrieval[C]//CIKM’01:Proceedings of the 2001ACM CIKM International conference on Information and Knowl-edge Management.Atlanta,Georgia,USA,November5-10,2001:403-410.

基于查询日志的消费意图挖掘分析 篇8

关键词:消费意图识别,二元分类模型,SVM

引言

在网络上投放广告已经成为了一种十分普遍,十分重要,收益简单高效的广告投放方式。在我们点击网页的时候,不经意间就能看到各种各样的广告。随着在线广告的不断普及,越来越多的销售商希望通过在线广告来提升自己产品的知名度,提高自己产品的销量。这样一来,搜索引擎便成为了销售商进行产品推销的一个重要媒介。一些搜索引擎,如百度,搜狗等都会记录用户的访问信息,例如,百度的查询日志就由用户搜索语句、用户点击标题、用户点击URL三部分组成。其中,有些信息显示了用户意图是期望购买某类产品的内容。消费对象能更好地反映出用户的消费兴趣,真实的消费需求和消费类别。

1.构建消费意图二元分类系统

第一步需要准确确定有意图或者无意图一个标准,这样才能判断最终得到的系统给出的结果是不是正确的。首先,需要得到用户的真实查询语句,在大量的,真实的语料上进行分析。准确的判断出用户的一条查询究竟是有意图的还是无意图的。

在确定了标准之后,需要根据这些数据抽取特征。所谓特征,也就是一个规则,这个规则可以较为有效的分辨出用户的查询是有意图或者无意图。在多个特征的基础上,下一步就是确定如何利用这多个特征进行分类,因而就需要找到一个合适的分类模型,然后利用抽取出的多维特征,在数据上将每一条语句表示成一个由多个特征组成的向量,然后把这个向量交给分类器去处理。分类器则会计算每一个特征对这条语句是否是有意图查询的影响程度。进而计算出每一个特征影响的权重,当一个新的查询到来的时候,可以利用分类器训练出来的模型进行测试,进而得出结果,判断出该条查询是否具有消费意图。

Lib Svm是台湾大学林智仁(Lin Chih-Jen教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验(Cross Validation)的功能。该软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题,包括基于一对一算法的多类模式识别问题。

SVM是最常用的二元分类器之一。支持向量机SVM作为一种可训练的机器学习方法,依靠小样本学习后的模型参数进行导航星提取,可以得到分布均匀且恒星数量大为减少的导航星表。

SVM分类器即可以解决线性分类问题,也可以解决非线性分类问题。在解决非线性分类问题上,SVM采用了核函数的方法,可以将低维空间的非线性问题映射为高维空间的线性问题,并且几乎不增加计算复杂度,在一定程度上避免了其他机器学习算法的“维度灾难”的问题。SVM分类器中常用的几种核函数包括:(1)线性核函数,如公式(1-1)所示;(2)多项式核函数,如公式(1-2)所示;(3)径向基函数,如公式(1-3)所示;(4)二层神经网络核函数,如公式(1-4)所示。

如果想对消费意图进行准确的分类,首先就要有一个高质量的初始语料库。本数据来源于百度2012年3月份的部分用户查询数据。数据由用户查询语句、用户点击标题、用户点击URL三部分组成。

用户查询语句:用户在搜索框中输入的内容

用户点击标题:用户点击的网页对应的title

用户点击URL:用户点击的网页对应的URL

由于人们对消费意图这一概念比较模糊,而且对于不同的人,会有不同的理解,所以在这里严格定义消费意图的概念如下:

(1)用户搜索语句或点击标题中有明确的购买意向,如“求推荐一部性价比高的手机”这条语料都很明确的具有消费意图,指出了消费对象,并出现了购买触发词,如“推荐”“求”等。

(2)明确的指出了购买意向,但没有触发词“水货智能机,1000元以内”这类数据虽然没有出现购买意愿词,但是仍然可以认为这些语料具有显式消费意图。

(3)用户点击网站的标题具有消费意图倾向“三星Galaxy S6报价_中关村在线”

这类数据可能用户只搜索了“三星Galaxy s6”,单单从这个搜索中,我们并不能确定该查询具有消费意图,但是从用户的点击上可知其应当具有消费倾向。

(4)用户点击的URL中包含电商网站

如用户搜索“手机”后,点击淘宝网,仅仅通过搜索词并不能看出用户具有消费意图,但是通过用户点击的URL:http://www.taobao.com/,可以判定用户的点击行为具有消费意图。

2.结语

一个消费意图二元分类系统,主要针对用户的搜索数据,对数据进行预处理,进而在数据上进行特征的分析和抽取,最终利用特征选择模块,获得了最优特征。

参考文献

[1]张鸿,庄越挺,吴飞.一种基于内容相关性的跨媒体检索方法.计算机学报.2010,31(5):820-826.

[2]H.K.Dai,L.Zhao,Z.Nie,J.-R.Wen,L.Wang,and Y.Li.Detecting online commercial intention(oci).In Proc.of WWW'06,pages 829-837,2006.

[3]赵妍妍,秦兵,刘挺.文本情感分析.软件学报.2010,21(8):1834-1848.

分布式数据库查询优化分析 篇9

1 分布式数据库的组成

分布式数据库属于比较复杂的一个计算机系统, 关于这个系统主要包括下面几个组成部分。

1.1 硬件

硬件是分布式数据库完成其功能的物质条件, 分布式数据库要实现其预定的目标, 必然要依赖对应的硬件, 这里的硬件环境是分布的。硬件包括CPU和内存以及外存等, 不同站点选择其硬件要能够与本地的应用规模相适应, 同时也需要充分考虑全局应用规模, 要根据站点实际的需要来选择最佳的通信设备。

1.2 软件

分布式数据库在具备硬件条件以后还需要对应的软件来辅助其功能的实现, 每一个站点需要配备一定的操作系统还有数据库管理系统, 这样站点才能满足其自身的需要。为更好的处理和完成全局事务, 高层的分布式数据库管理系统也是必不可少的。只有将软件和硬件有效的结合起来, 才能真正的发挥其作用。

1.3 数据

数据是分布式数据库基本的组成部分, 根据其存放形式可以将数据分为局部数据与全局数据两大类。局部数据是以局部数据库的形式存放, 全局数据是以全局数据库的形式存放。

1.4 人员

分布式数据库需要很多的人员, 只有多层次的才能满足分布式数据库需要, 各个环节都需要人员来完成, 各个层次的人员要进行分工合作, 通过共同的努力来实现数据库查询的需要。

2 分布式数据库具有的特征

分布式数据库属于数据集合, 从物理的角度上来看分布式数据库是分散的, 但是从逻辑上来看分布式数据库又是统一的。尽管分布式数据库将各自数据分布在多个站点, 但是其是基于一个统一的逻辑框架上面的。分布式数据库具有这么几个方面的特征:

2.1 数据分布性

分布式数据库系统里面的数据分散被分散在各个站点上面, 各个站点之间是通过计算机网络来进行连接的, 因此分布式数据库的数据具有分布性的特征。

2.2 逻辑关联性

尽管分布式数据库的数据分布在不同的站点, 但是其从逻辑上来看属于是一个统一的整体, 所有的数据都存在于一个统一的逻辑框架上面。

2.3 站点自治性

分布式数据库的不同站点属于独立的数据库系统, 每一个站点都有属于其自身的数据库, 也有属于自身的软件和硬件, 因此其具有非常强的自治性。

3 分布式数据库查询的层次结构

分布式数据库查询处理有查询分解、数据本地化、全局优化、局部优化四个层次。

4 分布式数据库查询优化办法

关于对分布式数据库查询优化可以采取的方式可以从下面几个具体方面来进行。

4.1 优化索引来提升查询速度

数据索引对分布式数据库查询发挥着非常重要的作, 对索引进行优化可以有效的提升查询速度, 使得查询需要的时间大大缩短。对索引进行优化需要遵循这么几个方面的原则:对于没有指定为外键, 但是实际上连接又非常频繁的地方设置索引, 在不常用于连接的字段可以由DBMS自动生成索引;在需要频繁进行排序和分组操作的列设置索引;在排序列数较多时可以设置复合索引。

4.2 避免和简化排序操作

大型数据表如果要是进行排序会对数据库查询速度有着非常大的影响, 为了提高数据库的查询速度, 在可能的情况下要尽可能避免对大型数表进行排序。通过索引根据一定的次数输出这种方法就可以在很大程度上来代替排序操作, 既实现了排序操作的目标, 又对数据查询速度没有太大的影响。索引增加对排序操作的避免有重要的作用, 还可以对数据表进行合并, 使得排序的次数降低, 当然这些操作必须在适当的范围内, 不能因为单纯避免排序而成为一种累赘。在实际中有时候排序操作是无法避免的, 如果要是排序操作无法避免, 那么要采取相应的措施来简化排序操作, 可以适当的去缩小排序范围, 适当排序的部分被简化, 那么对数据库查询速度的影响会降到最低。

4.3 尽量避免顺序存取大型数据表

嵌套查询的顺序存取会对降低数据查询效率, 使得数据查询的速度受到很大的影响, 为了避免分布式数据库查询效率受到影响, 要尽量避免顺序存取大型数据表。通过对存在连接的列建立索引以及利用索引路径处理查询的办法来避免顺序存取大型数据表, 这样就可以大大降低嵌套查询的顺序存取造成的影响。

4.4 构建临时表

对数据表的子集重新排序, 并且构建临时数据表会使得分布式数据库查询效率得到有效的提升。

4.5 简化嵌套层次

为提升分布式数据库查询效率, 那些困难的正规表达式和相关子查询要尽量避免, 查询嵌套层次要做到优化, 嵌套层次要尽量的去简化。嵌套层次多的时候就会出现重复操作的现象, 为避免主查询与子查询有不必要的重复, 要尽量减少主查询里面的子查询。

5 结论

计算机与网络技术的发展, 推动着分布式数据库系统也在快速发展。在对分布式数据库进行查询的时候, 因为物理分布的不同会大大增加数据的查询难度。分布式数据库查询优化对数据库的性能高低有直接的影响, 采取不同的查询方式, 其效率有很大的差别, 采取有效的数据库查询方式可以使得查询效率明显提升, 因此本论文提出的优化方式具有很重要的现实意义。

摘要:本文对分布式数据库的基本概念进行阐述以后, 提出了相应的优化方式, 采取这些优化办法会使得分布式数据库查询效率得到有效提升。

关键词:分布式数据库,查询,优化

参考文献

[1]赵荣.分布式数据库查询优化方法[J].科技视界, 2013 (03) .

查询分析 篇10

当前,“互联网+”、“云计算”、“大数据”已经成为热点,各行业用户都在高频度接触这些术语。“大数据”不仅是行业趋势,也正影响着人们生活,当今时代已被称为“大数据”时代。企业战略集团(ESG)认为,大数据(Big Data)是“规模超过常规处理能力边界的数据集,它使得技术部门不得不采取非常规手段”[1]。换言之,大数据是指“无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合”[2]。Viktor Mayer在《大数据时代》中指出:“大数据是指不用随机分析法(抽样调查)这样的捷径,而对所有数据进行分析处理,并且具有大量(Volume)、高速(Velocity)、多样(Variety)、真实性(Veracity)、价值(Value)等5V特点[3]。”

根据IDC的报告显示,目前1.8万亿GB容量的大数据中非结构化数据占80~90%,到2020年将以44倍的发展速度增长。如何有效管理、挖掘、分析海量非结构化数据中蕴藏的信息,已成为大数据领域的重要挑战。

1 Hadoop数据仓库分析工具———Hive

大数据存储并不是基于关系型数据库,传统的结构化查询语言SQL无法直接在大数据中操作,为了能通过SQL语言来操作和分析大数据,SQL on Hadoop技术孕育而生,该技术是直接在Hadoop上建立SQL查询,既保证Hadoop性能,又能利用SQL的灵活性,方便数据查询和分析,典型技术是Hadoop中的Hive。

Hive诞生于Facebook,是用来管理结构化数据的中间件,可用于数据集成、Ad-doc查询、大数据分析[4],是Hadoop数据仓库的基础构架。它为数据提取、转化、加载提供了一系列工具,可以对存储在Hadoop中的大规模数据进行存储、查询和分析等操作。Hive使用HDFS作为数据存储层,以MapReduce为执行环境,提供类似SQL语言的HQL,将SQL语句转换为MapReduce任务进行数据计算,然后通过HQL语言向用户提供与传统RDBMS一样的表格查询特征。

1.1 Hive的体系结构

Hive的结构可以分为用户接口、元数据存储和解析器3个部分,其体系结构如图1所示。

(1)用户接口。包括命令行接口CLI、Client和Web UI浏览器用户界面。其最常用的是CLI,启动时会同时启动一个Hive的副本,Client是Hive的客户端,用户连接至Hive服务器,启动Client模式时,需要指出Hive Server所在节点,并在该节点启动Hive Server。Web UI通过浏览器访问Hive。

(2)元数据存储。Hive将元数据存储在关系数据库中,如MYSQl、Derby。Hive中元数据包括表的名字、表的列和分区及其属性。

(3)解析器。用以完成HQL查询语句,进行词法分析、语法分析、编译、优化及查询计划的生成。查询计划存储在HDFS中,并由MapReduce调用。

1.2 Hive的数据类型和模型

Hive支持的数据包括简单和复杂两种类型,其简单类型包括整形、布尔型、浮点型和字符串。复杂类型包括结构、映像和数组。Hive中的所有数据都存储在HDFS中,其数据模型包括表、分区、存储桶、外部表。

(1)表(Table)。Hive中的表与关系型数据库中的表在概念上类似,在Hive中每个表在HDFS中都有一个目录以存储数据。例如,生成一个表t1,在HDFS中的存储路径为:/MH/t1,其中,MH是在hive-site.xml中由${hive.metastore.warehouse.dir}指定的数据仓库的目录,所有表数据(不包括外部表)都会保存在此目录中。

(2)分区(Partition)。Hive中的分区类似于关系型数据库分区列的密集索引,但组织方式不同。例如,生成一个表t1,其中dat和city列类型是字符串,对dat和city列进行分区操作,Hive QL语句如下:

(3)存储桶(Bucket)。存储桶对指定列计算Hash值,根据Hash值切分数据,达到并行目的,每个存储桶对应一个文件。例如,将city列分散到20 个存储桶,首先对city列进行Hash值计算,对应Hash值为6 的HDFS目录为:/t1/dat=2015-12-16/city=ca/part-00006。

(4)外部表(External Table)。 外部表指向已经在HDFS中存在的数据目录,其与Table在元数据的组织上是相同的,但数据存储有较大差异。外部表只是一个过程,加载和创建表同时完成,实际数据存储在LOCATION后面指定的HDFS路径中,并不会移动到数据仓库目录中,当外部表被删除时,仅删除元数据,表中数据不会被删除。例如,创建外部表et1,语句如下:

Creat External Table et1(x1string,x2int)

LOCATION'user/mytable/mydata';

1.3 Hive QL

Hive定义了简单的类SQL查询语言,Hive QL简写HQL,它使熟悉关系数据库SQL语言的专业人员能够通过SQL语言操作和分析大数据。HQL常用查询操作主要有:多表JOIN、INSERT、GROUP BY等。以JOIN操作为例,原数据表如图2所示,JOIN操作后生成表如图3所示。

Hive QL的join操作代码如下:

insert into pv_user

select page_view,user.age from page_view join user on(page_view.userid=user.userid);

1.4 Hive的执行

Hive执行过程为:(1)将SQl语句解析为语法树;(2)驱动对语法树进行初步分析,调用相应的语法分析器进行分析处理,将算子树通过一定的规则生成若干个相互依赖的MR任务;(3)编译完成后,开始执行,执行过程按照任务树从根任务开始依次执行,直到结束。执行流程图如图4所示[6]。

Hive完成对数据表的操作。步骤如下:(1) 创建一个文本文件,只存储一个字符串,命令如下:echo'hivedata'> /home/hadoop2.0/test.txt;(2)建立一张hive表:hivee" create table test value string);(3) 加载数据:Load data local inpath" home/hadoop2.0/test.txt" overwrite into table test;(4)查询表:hive-e'select*from test.txt'。

2 Hive的优化和升级———Hive2.0

由于Hive对MapReduce的依赖,在查询过程中需要扫描整个数据集,查询速度存在先天不足,随着大数据发展,其速度已不能满足日益增长的数据要求,Hive2.0是对Hive的优化和升级,主要是Hortonworks公司的Apache开源项目Stinger,主要改进如下:

(1)库优化:(1)引入in-memory-hash-join算法,适用于一方在内存中的JOIN,该算法将小表读到Hash表中,可以遍历大文件产生输出;(2) 引入Sort- MergeBucket- Jion技术,适用于表在同样的关键字上被分为存储桶的情形,大大提高了查询速度;(3)生成简化的有向无环图(DAG),减少内存占用。

(2)优化的列存储(ORCFile):(1)与Hive数据模型紧密一致,生成一个更好的列存储文件;(2)增加了聚合函数,如min、max、sum、average、count等;(3)将复杂的行类型分解为原始类型,便于更好地压缩和投影。

(3)深度的分析能力:(1) Over子句,支持Multiple Partition BY和Order BY;(2)支持大量聚合,Rank,First_Value、Last_Value、Lead/Lag。

3 结语

Hive以熟悉的SQL作为数据仓库的工具来分析大数据,它采用自选语言所开发的可插入式MapReduce脚本,突显其可扩展性;同时其互操作性也比较突出,表现为一个可扩展的框架支持不同的文件和数据格式;其优点是学习成本低,可以通过类SQL语句的HQL语句快速实现MapReduce统计、分析,不必用JAVA语言开发专门的MapReduce应用程序,十分适合SQL专业分析人员对数据仓库的统计分析。

参考文献

[1]中国互联网络信息中心.第32次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201307/P020130717505343100851.pdf.

[2]2016年大数据及其分析将影响深远.中国大数据[EB/OL].http://www.thebigdata.cn/YeJieDongTai/28808.html.

[3]李清泉,李德仁.大数据GIS[J].武汉大学学报:信息科学版,2014(6):102-109.

[4]王有为,王伟平,孟丹.基于统计方法的Hive数据仓库查询优化实现[J].计算机研究与发展,2015(6):15-18.

[5]赵刚.大数据技术与应用实践指南[D].北京:电子工业出版社,2013.

乘列车,查询软件如何选 篇11

查询功能

全国列车数据库更新快、查询速度快、输入灵活

第一次启动会提示数据更新,更新后数据库时间显示为3月25号(测试时间为4月2日),数据更新后可以离线使用,可以节省网络费用。软件查询功能很全,提供了车次查询、站站查询、车站查询和历史查询等功能。

车次查询很灵活,可以选择列车类型,包括动车组、城际快车、快速、普快、特快、直达特快和高速动车等,默认是“所有”。查询速度很快,输入车次,结果马上就出来了。默认进入“时刻”选项卡,显示出站名、到站时间、离站时间、距离始发站的距离等信息。想知道各站票价,就进入“票价”选项卡,各站的软卧、硬卧和硬座会全部显示出来。由于时刻和票价分成了两个选项,查看比较清晰。

车站查询可以按照汉字、拼音首字母、完整拼音和部分拼音查询,查询方式非常灵活。历史查询功能提供了站名查询、站站查询和站名书签的历史记录功能,方便重复查询。

盛名列车数据库更新非常快、查询速度较快、输入较灵活

数据库更新后数据库时间显示是4月2号(测试时间为4月2日),更新速度很快,数据更新后可以离线使用,可以节省网络费用。

软件提供了车次查询、站站查询和车站查询功能,站站查询支持拼音首字母和汉字查询,所有列车类型(动车组、城际快车、快速、普快、特快、直达特快和高速动车)均可查询,名称和软件全国列车略有不同。

小结:盛名列车数据库更快,而全国列车可以根据列车类型查询,更灵活,输入更灵活,还有历史查询功能。总体来说,全国列车有一定优势。

体贴功能和界面

全国列车界面中规中矩,体贴功能较少

全国列车字体很大,比较适合老年人和视力不济的用户。界面设计比较传统,白底黑字。查询站点车次时没有显示序号,显得不够体贴。

盛名列车界面精致,体贴功能较多

盛名列车界面做得很精致,站站查询,车次、行车时间、列车类型、始发站、始发时间、终点站和终点信息会以不同颜色显示,看起来比较清晰。车次查询,车次、始终站点和等级也会以不同颜色显示。车站查询中,车次、始终站点、始终时间和等级会以不同颜色显示,而且前面显示出共多少列,各项显示出序号,看上去很整洁。还有,站站查询提供了复制功能,可以将查询信息复制到剪贴板。

小结:全国列车界面白底黑字,中规中矩,字体大。盛名列车不同项目用不同颜色显示,清晰而美观,而且车站查询显示了序号,显得很整洁。盛名列车具体车次的信息框设计得比较漂亮。要指出的是,盛名列车字体较小。界面设计应该是各有所爱,不过细节方面,盛名列车略占优。

总结

功能、输入和查询方面,全国列车占有一定优势。数据库更新方面,盛名列车略略优先。界面方面,全国列车朴素、字大,盛名列车界面精致、字小。如果你视力不好,更看重功能,最好选择全国列车。如果你是时尚一族,对界面比较看重,盛名列车更适合你。

提高气象数据查询速度的存储分析 篇12

关键词:结构化数据,数据库,数据库索引,列式存储,行式存储

为建设幸福广东,提高预报准确率,广东省要在2015年基本实现气象现代化。信息中心要完成“三个一”工作。即一分钟资料到桌面、一套一体化的数据库、一个实时分析数据集,满足“资料好用、用好资料”的要求。

这“三个一”的工作,其实要求信息中心将及时收到的实时观测资料进行处理、入库,然后提供给预报员和其他应用人员使用, 而不是将原始资料直接送到预报员桌面。这就要求我们需要对成千上万的原始数据进行快速的处理入库和提供高效的快速查询、统计、分析机制。

信息中心每天收到各种各样的气象资料,其中有结构化数据(如国家自动站和区域站等)和非结构化数据(如雷达产品,云图等)。在自动站资料的应用中,预报员希望从自动站观测数据中快速提取如温度、雨量、风向和风速等要素进行平均或累计等运算。

众所周知,数据查询的速度和数据的存储方式都以索引密切相关。信息中心保证大量的实时数据入库的同时,还需要想办法改善数据的存储方式来满足快速查询的要求。在现有的存储技术架构中,是否还有更好的办法来提升数据查询速度呢?我们先来了解计算机的数据存储方式。

1 数据的存储方式

目前,在计算机的数据处理过程中,计算机会将数据存储到存储介质(通常指硬盘)里,存储的方式通常有行式存储和列式存储。

行式存储是将每条记录数据以行的形式依次存储到存储介质中的过程。

例如下面的表:

这个简单表的每条记录包括观测站点的Name(名称),IIIII(站号),Temp(温度)和Rain(雨量)。

这个表要存储在计算机的内存(RAM)和存储(硬盘)中。数据库必须把这个简单的二维表转换成一个个“字节”中,由操作系统按顺序写到内存或硬盘中。按顺序写到内存或硬盘中。

行式数据库把一行中的数据值串在一起存储起来,然后再存储下一行的数据,以此类推。

1,广州,59287,20130916000000,25,20;

2,从化,59285,20130916000001,23,10;

3,番禺,59481,20130916000002,22,5;

如表1。

列式存储是将每条记录数据以列的形式依次存储到存储介质中的过程。

列式数据库把一列中的数据值串在一起存储起来,然后再存储下一列的数据,以此类推。

1,2,3;

广州,从化,番禺;

59287,59285,59481;

20130916000000, 20130916000001, 20130916000000 ;

25,23,22;

20,10,5;

如表2。

2 两种存储方式的优缺点

行式存储数据库因为同一条记录的行存储在一起,所以记录写入速度快,读取一条记录和同一条记录的多个列快,更改和删除记录快,但聚合统计、查询慢,数据压缩比低,索引开销大。

列式存储数据库因为同一类型的列按顺序依次存储在一块,索引和数据列是统一,同一列的数据相同或相似较多,所以列式存储查询速度快、数据压缩比高、装载快,但是插入更新慢,不太适合数据频繁更新变化。

行式存储的数据库擅长随机读操作,多用于联机事务处理 (OLTP);列式存储的数据库则更擅长大批量数据量查询,多用于联机分析处理(OLAP)。

3 气象数据存储使用特点

气象自动站观测的实时资料主要特点是时间点高度集中,时间间隔短,站点较多。也就是说同一个时间点并发数较大。由于这些特点,对收集、处理、存储和管理要求很高,收集耗费的时间也多。根据行式存储数据库写入快的特点,比较适合使用行式数据库。如商业数据库Oracle等。要实现“三个一”的第一个目标,即一分钟资料到桌面,信息中心还需要完善数据流程。

资料一经入库之后,一般很少更改数据项内容。在资料的使用上,预报员更多的是关心某个特殊时间区间(暴雨、台风、冰冻雨雪等天气过程)某个站点或某个区域站点的温度、雨量、风速和风向等要素值或平均值或累加值。从这点来看,气象资料的存储又非常适合列式存储数据库的要求。现经常使用商用列式数据库有Sybase IQ、ParAccel、Sand/DNA Analytics和Vertica等。

4 改进建议

如果气象应用根据某几列来聚合数据,就应该按列的方式组织数据更有效。或者只需要修改某一列值,按列的方式组织数据更有效。因为可以直接找到某列数据并修改,而与行中的其他列无关。如果采用行式数据库,如现在的Oracle数据库,为满足业务需要,需要建立大量的索引和混合索引,而大量的索引所带来的存储空间的浪费以及维护这些索引花费的不少的时间。列式数据库就不会出现这种情形,因为列式数据库的所有字段都是索引的,甚至可以认为索引和数据是统一的。

如果频繁增加行数据,频繁的修改和删除数据,每次要求读出整行数据,那么按行的方式组织数据会更有效,因为只需要一次寻址就可以顺序写入或读出整行的全部数据。

鉴于气象实时数据收集和查询的特点,收集大量并发的实时数据入库应该采用行式数据库,而气象历史数据,无论是查询还是存储压缩,非常适合采用列式数据库。因为查询聚合通常提取数据库中的气象要素列,如温度、雨量等,而相同区域的要素列的值在天气稳定的情形下相同的可能性很大,这非常有利于数据压缩存储。如Oracle和MySQL等稳定可靠的数据库产品。在数据库使用时增加列式索引来加快查询速度,提高预报产品生成时间。

在数据库存储可采用如Oracle 12C的列混合压缩方式压缩数据或者历史库采用高性能列数据库,如SyBase IQ等,如此来提高压缩率和存储效率。

在实际应用中,列式存储的数据库更适合于气象海量数据的分析和统计。

5 小结

上一篇:应用软件系统下一篇:太阳总辐射