跨平台数据库

2024-10-06

跨平台数据库(精选12篇)

跨平台数据库 篇1

1 前言

当前计算机的应用越来越普及, 一个单位的计算机业务系统正不断增长, 为保证系统的安全运行, 不发生数据丢失, 管理员必须经常进行数据的手动备份工作, 有的系统需备份的目录包含较深的子目录, 有的系统备份数据量较大, 备份过程繁琐, 耗时较长, 有时一台机器有多个应用系统需要备份, 同时有的系统不能在白天工作时间进行备份工作, 而且应用系统的操作系统各不相同, 因此, 有必要实现系统的异机跨平台的定时自动备份工作, 一般的做法是启用几台有大数据容量的计算机作为备份机, 这样就存在一台客户机有多个应用系统数据向多台备份机传送备份数据, 一台备份机可能接收多个不同操作系统的业务备份数据。为此选择跨平台的编程语言Java, 用多线程方式开发基于TCP/IP协议的套接字 (Socket) 网络连接程序, 使用ServerSocket和Socket实现TCP/IP客户端和服务器, 同时为应对备份策略的多变性, 将所有系统参数写入XML文件, 用dom4j进行解析, 当需求变化时, 只需通过更改配置文件进行定制, 为适应将来备份策略的扩充, 程序使用设计模式进行了优化设计, 从而灵活实现了数据的异地定时自动备份工作。

2 系统概述

2.1 工作过程

启动客户端和服务器端的进程, 客户端和服务器分别用dom4j的SAX解析器将配置文件读入内存, 并结合XPATH语言对配置文件进行解析, 客户端获取需要传送的本地目录和本地文件及传送时间以及上传的服务器IP地址及端口号, 并与当前机器时间进行比较, 如果时间匹配, 则试图与服务器建立Socket连接, 连接成功后, 创建处理线程进行数据传送。服务器端进程运行后, 用dom4j读入配置文件并进行解析, 获取两个SevrverSocket端口号, 一个用于客户端与服务器端之间的命令传送, 一个用于数据传送。当与客户端建立一个Socket连接后, 创建一个线程进行任务处理, 根据客户端传送的标识, 获取服务器端对应的接收目录, 并将客户数据接收到接收目录。其中客户端通过命令Socket用于传送一系列命令来通知服务端采取相应的操作, 如start:通知传送的是根目录;dir:通知传送的是根目录下的子目录;file:通知传送的是目录下的文件singlefile:通知传送的是单个文件;quit:通知传输结束。当为file或singlefile时, 服务器用accept () 打开数据传输套接字与客户端建立连接, 通过文件输入输出流将文件数据上传到服务器端。

2.2 系统结构

系统采用了桥模式的设计结构, 客户端的结构如图1所示, 采用此种结构可以很好地应对上传周期 (接口Irunfrequency) 和上传方式 (Upload) 的变化。服务器端的结构如图2所示, 采用此结构可以应对接收方式 (接口Ireceive) 和接收目录生成方式 (接口Ireceivetrategy) 的变化。

2.3 开发技术

(1) dom4j

DOM4j是一个开源XML解析包, 支持XML、XPATH和XSLT, 应用于Java平台, 支持DOM、SAX和JAXP, dom4j使用接口和抽象基类, 提供了很好的灵活性, 其性能全面优于JDOM。

(2) XPATH概述

XPath是一门在XML文档中查找信息的语言。XPath用于在XML文档中通过元素和属性进行导航。XPath使用路径表达式来选取XML文档中的节点或者节点集。XPath含有超过100个内建的函数, 是W3C标准。

(3) 桥接模式概述

桥接模式是一种结构型模式, 它主要应对的是:由于类型的固有逻辑, 使得类型具有两个或两个以上的纬度变化。也就是要求抽象不应依赖于实现细节, 实现细节应依赖于抽象。

3 客户端实现

3.1 客户端配置文件:config.XML

directoryupload上传目录, runflag是否启用, runtrategy上传时间, sourcedirectory上传目录完整路径, localemachineident和localeupident分别为本台机在对端服务器的编号和对端服务器的接收目录 (文件) 的编号:

3.2 TransfileClient.Java

用dom4jSAX解析器将config.XML读入内存, 遍历文档, 查找启用上传标志的directoryupload和fileupload节点, 并将其作为参数调用配置中所指明的上传周期类 (Everyday) 进行下一步处理:

3.3 Everyday.Java

判断设置的上传时间 (精确到分钟) 是否和系统当前时间匹配, 是则置正在上传标志, 同时创建上传处理线程:

3.4 DirUpload.Java和FileUpload

分别为具体的目录上传和文件上传处理模块, 上传命令start表示为上传目录路径的最后一个有效目录名, dir表示上传的是一个子目录, file表示上传的是一个文件, 客户机和服务器间将建立一个数据上传soccket, 处理文件数据, quit表示本次传送结束, 遍历上传目录及下属所有目录和文件。Singlefile用于FileUpload传送单个文件:

4 服务器端实现

4.1 receive.XML

cmdport为命令接收端口, datport为数据接收端口, 根据客户端上传的localemachineident和localeupident找到第一个元素directoryreceive, 读其中的参数:

4.2 TransfileServer.Java

服务器端ServerSocket监听, 当与客户端建立一个Socket连接时, 创建处理线程:

4.3 ReceiveFileDir

读入客户机上传的localemachineident和localeupident, 根据上传目录或文件及接收目录封装方式 (WeekCycle) 分别调用ReceiveDir.Java, ReceiveFile.Java。

4.4 ReceiveDir和ReceiveFile

接收客户端上传的数据, 并保存到服务器指定目录:

5 安装配置

5.1 解压缩附件

将本文所附代码附件app.rar解压缩到磁盘中, lib子目中包括dom4j类包, 注意程序目录中不能包含中文或“ (”等特殊字符。

5.2 下载安装JDK

到http://Java.sum.com下载JDK, 版本1.6.0。

5.3 下载安装eclipse

到http://www.eclipse.org下载最新的eclipse开发工具, 用于源码的编辑。以解压缩附件目录下的app为workspace进入系统, 选择file菜单中的import项中的General中的Existing Progjects into Workspace, 然后定位到app目录, 提示找到工程文件TransfileClient, 点击finish按钮, 可获得对源码的编辑界面。

5.4 修改注册表

由于用到大量的TCP/IP连接, 修改注册表。使用regedi命令访问HKEY_LOCAL_MACHINESYSTEMCurrentControlSetServicesTCPIPParameters注册表子键并创建名为TcpTimedWaitDelay的新REG_DWORD值, 将此值设置为十进制30。注册表子键并创建名为MaxUserPort的新REG_DWORD值, 将此值设置为十进制65534, 重新启动计算机。

5.5 程序运行

程序安装目录下执行upload.bat运行客户端程序, receive bat运行服务器端程序。

6 结语

本文介绍了基于XML文档解析的Java的Socket编程, 实现了跨平台的数据异地备份, 本程序笔者已成功应用到实际的业务数据备份中, 配合其他的解决方法, 实现了Lotus domino Server、sql server、oracle、Sybase数据库等数据的异地备份, 本程序在Windows、Sco UnixWare 7.1.3、Suse Linux环境下调试通过。

跨平台数据库 篇2

企业安全策略下的跨平台数据同步

耿昌宇1,朱允文2,洪建东2,居悌1

(1.南京邮电学院,江苏 南京,210003

;2.摩托罗拉中国软件中心,江苏 南京,210029)

摘  要:本文探讨了跨平台数据同步的方法,并举例说明了在企业安全策略下实现跨平台数据同步在设计Intranet自动化工具中的应用。

关键词:企业安全策略、Intranet自动化工具、Socket通信、组件化编程

Data Synchronization Over Different Platforms Under

Enterprise Security Policy

Geng Changyu1, Zhu Yunwen2, Hong Jiandong2, Ju Ti1

(1.Nanjing University of Post and Telecommunications, Nanjing, Jiangsu, 210003; 2. Software Center, Motorola, China,Nanjing, Jiangsu, 210029)

Abstract: This paper discusses methods of data synchronization over different platforms. Then it gives an example to illuminate the application of implementation of data synch

ronization over different platforms under enterprise security policy in the design of intranet automatic tools.

Key Words:

Enterprise Security Policy, Intranet Automatic Tools, Socket Communication, Componential Programming

1 引言

关于B-S开发模式的好处已经被讨论了很多,Intranet自动化工具在现代企业办公自动化中的应用正日益普及。

随着现代企业朝着国际化、集团化的方向发展,现代企业内部各部门之间出现了分工细密化和分布全球化的趋势。分工细密化和分布全球化的趋势使得各部门之间难以找到一个较完整的可共享的数据和可适用于各部门间独立管理的工具,各部门在开发自己的Intranet自动化工具的时候会根据本部门的特点和资源条件选择自己的Intranet发布平台。一方面,部门原有的数据发布平台在一定程度上影响了部门对Intranet发布平台的选择;另一方面,在选定了自己的Intranet发布平台的同时,原来与其他部门共享数据的部门也相应地选择了自己的数据发布平台。

同时,现代企业内部各部门之间的协同工作也越来越密切,不同部门之间通常需要访问的数据能同步更新,或者至少能在一定的时间间隔内进行数据同步。虽然大部分的数据库产品都有自己的基于TCP/IP的访问方式,但在企业安全的策略下,各部门通常会更改对IP端口的访问方式的配置,并开发出自己的内部数据访问工具;有的.部门即使使用了数据库产品的默认设置,也很少公开数据库访问的用户名和密码。因此,在各部门之间通过数据库客户端访问工具进行直接的跨平台数据访问与同步几乎不具备可行性。

本文是笔者在摩托罗拉中国软件中心实习期间参与开发Intranet

自动化工具的设计开发过程中面临的数据同步问题解决方案的总结。

2 几种跨平台数据同步方案

在介绍常用跨平台数据同步方法之前有必要简要介绍一下所开发的Intranet自动化工具的设计目的和状况。

所开发的Intranet自动化工具是运行在Windows NT平台上的ASP应用程序,其设计目的是将本地Windows NT

平台上的CR Tracking(Change Request Tracking, 变更需求跟踪)Access数据库与美国UNIX平台上含有CR跟踪信息的Rational ClearDDTS(Distributed Defects Tracking System, 分布式错误跟踪系统。以下简称DDTS)数据库进行同步更新,以实现与本项目相关的CR信息的本地Web访问和跟踪。在数据同步中要求实现的功能包括:获取

DDTS数据库中的新数据用于Access数据库的添加、获取DDTS数据库中指定纪录的字段值用于Access数据库的更新。

在接手进一步开发Intranet自动化工具之前,本项目组已经有了一个CR跟踪的Intranet工具,使用该工具可以进行CR的输入、修改、查询和列表统计。该Intranet工具要求与

CR相关的人员主动使用DDTS工具查询相关CR的信息,并将信息在Web录入页面上输入到Web服务器上的本地数据库,供CR跟踪使用。这种Intranet工具使用的数据同步方法是利用DDTS数据访问工具,手工数据同步。该数据同步的方法实现简单,但操作繁琐,特别是在查询时需要重复性地输入类似的SQL语句,使得这项工作显得枯燥无味。从严格意义上讲,这不能算是一种跨平台数据同步的解决方案。

考虑到大部分的数据库产品都有自己的基于TCP/IP

的访问方式,要求相关部门开放数据库的IP端口访问及受限的用户名和密码给Intranet开发人员也许是一个简单的实现跨平台数据同步的方法。使用这种方法,只需在Windows NT Web服务器中安装相应的ODBC驱动程序,然后在设计ASP程序时使用ADO编程,进行数据的简单查询和添加、修改即可进行跨平台数据同步,设计十分简单。但这种方法存在两方面的问题:一是在开放数据库IP端口访问的用户名和密码的同时,即给该数据库所在部门带来了安全隐患,一旦Web服务器受到攻击而使用户名和密码被窃取,开放的数据库也就处在被攻击的风险之中;二是有的部门使用的是第三方开发的基于数据库的工具(如DDTS工具),其部门本身并没有数据库的管理权限,因而也就无法添加用户名和分配权限。

跨平台数据库 篇3

数据服务技术,创造竞争力

海量的数据使得数据挖掘成为一项复杂且需要依托专业平台进行的专业领域。目前业内已有不少做互联网数据的公司,但大部分主要是做宏观行业研究和市场研究,而缔元信(北京缔元信互联网数据技术有限公司)作为中国领先的第三方互联网数据服务提供商,是行业中唯一一家国家级高新技术企业。目前,像缔元信这样定位在利用网络技术手段,为企业提供网络数据工具服务和基于数据工具分析咨询服务的本土企业为数并不多。

北京缔元信互联网数据技术有限公司CEO秦雯女士谈及大数据时代互联网数据平台市场环境时介绍,“从我们与广告客户的接触看,大数据的接受度已经很高,我们已不再需要像以前那样去做大数据的普及。但是,如何利用如海似山的数据创造有竞争力的商业模式,如何掌控大数据进行社会管理和服务,这是现在大家都迫切地想知道的答案。对数据服务机构来说,面对的既是重大崛起的时机,也是必须迎接前所未有挑战的时候。”

“互联网营销”就是需要去经营一个能够系统地、持续地、互动地建立、维护、转化客户关系的应用平台,来满足用户的需求。互联网数据服务企业必须依据自身产品的创新才能真正拥有自己的核心竞争力,坚持公正客观的第三方立场,打造透明、诚信的数据环境,是缔元信的理念。缔元信是不为客户做任何数据包装、修饰、人为调整的第三方数据公司,因为这种信念的坚守,在市场上赢得了客户的尊重。

多元化服务,领先的数据处理能力

从2007年创立至今,缔元信始终致力于用第三方互联网数据服务领域,为客户提供全方位数据解决方案。凭借自主研发的超大型网络数据服务平台,缔元信以独有的全景数据服务模式,在网站运营效果、网络媒体价值评估、网络广告营销效果、网络公关舆情、电子商务等多方面为各类网站、品牌企业、公关及广告代理公司、政府部门等提供翔实专业的数据监测、分析及咨询服务。据悉,缔元信主要的核心技术包括海量数据实时采集技术、用户标识技术、海量数据实时并发处理技术、海量数据统计实时发布技术、网页定向抓取技术、网页内容抽取及分析技术、网络数据挖掘技术等。

由缔元信自主研发的DDMP数据管理平台,基于缔元信的数据统计业务,对中国互联网用户行为数据进行集中化、标准化、属性化管理。采用了云存储、云计算及智能语义分析技术,根据用户的网上浏览和消费行为,对用户进行消费倾向特征标识,并可通过多种API接口,将数据输出给各种应用领域。DDMP是网络数据挖掘分析的基础,是各种定向广告平台、个性化推荐系统、在线商务智能分析的支撑系统。以DDMP技术为支撑,也促使缔元信数据平台数据处理能力的强化。

网络数据仓库,积累海量数据

数据显示,缔元信实现了4亿中国网民的覆盖,以及200余家国内主流网站的覆盖,超过14000T数据存储量。缔元信率先在国内建立了网络数据仓库,覆盖近4亿网民的可连续分析的细节行为数据,日均处理PV达到30亿条之多。对于第三方数据平台服务商,秦雯对数据研究平台应用的核心因素给予深刻解读:“数据平台首先要强调系统性和连续性,就是要将数据平台看作一个过程,每个环节所产生的数据都及时进行积累,只有长期的数据积累才能反映规律,这一点很重要。互联网行业的人员对此比较容易接受,但很多传统企业可能还停留在传统媒体应用的抽样项目型的数据使用上,这是需要转变的。其次,要重视数据的细节化和多源化。只有深入分析细节的数据才能了解实际的效果。而多源化数据,是说互联网数据研究在从抽样调查向全样趋势发展,但并不是说全样监测就能够取代抽样调查,而是以全样数据为本,以抽样数据为佐。”

全景数据服务模式,多元化服务

秦雯指出,缔元信的团队对互联网有深刻认识及互联网技术、数据业务的经验积累,专业性很强,因此在数据产品布局和开发思路上更具有突出的互联网特点。凭借自主研发的超大型网络数据服务平台,缔元信以独有的全景数据服务模式,在网站运营效果、网络媒体价值评估、网络广告营销效果、网络公关舆情、电子商务等多方面为各类网站、品牌企业、公关及广告代理公司、政府部门等提供翔实专业的数据监测、分析及咨询服务,提供标准化的产品服务、数据分析和咨询服务、定制化的解决方案。缔元信的客户群目前已经覆盖国内主流媒体网站、政府行业主管机构、4A代理机构及汽车、IT、快消、家电等行业的一线品牌企业。

以数据为支撑,提升ROI效率

“缔元信提供全流量海量数据监测服务,提高数据挖掘的精准度与提升这一过程的效率,两者间并非无解,我们认为,可在全样本数据和抽样样本间进行灵活转换、互证,以解决这一难题”,秦雯强调。为此,缔元信也发展出三种评估方法:直接评估法,根据预投放和历史数据,预测当期广告的各环节转化率,事先制订KPI,事后评估KPI实现结果,主要针对用户转化结果评估;比较评估法,根据行业第三方发布的广告效果基准数据,评价不同广告位的投放效果,主要针对媒体进行评估;复合评估法,以当期广告投放目的为主评指标,附加不同权重的其他过程指标,对广告投放效果进行综合评估,主要用于有针对性地考量当期ROI效率(投资回报率)。

互联网营销实用的手段纷繁多样,无论使用的手段是微博或者是SNS,还是搜索推广、EDM、广告、公关等等,“互联网营销的各个方面追求的都不应是曝光率,而是用户转化率,是通过内容的呈现将用户导入自有平台,”秦雯如是说。以底层海量的用户行为数据做支撑,利用数据工具控制和优化营销过程,可不断提升ROI效率,实现对营销的洞察,比如,数据驱动的广告策略,将从广告效果监测转变为广告效果预测;数据驱动的口碑策略,关注的将是传播效率;数据驱动的网站管理,重视的是无缝整合站内外用户行为,提升网站的可用性和用户转化率;数据驱动的电商管理,需要全面考量渠道、顾客、网站、商品等各运营要素。

缔元信推出互联网数据服务平台经历了在“数据时代”从探索到发展的过程,在未来缔元信也将朝着从有到优的目标继续深入互联网数据服务平台的开发和应用,一方面,通过提升品牌文化增进客户服务能力,另一方面,将坚持不懈为互联网数据服务业的良性发展贡献力量。

“标准文献平台”数据库建设 篇4

近年来,国内外技术标准文献的品种与数量越来越多,如何让用户有效地利用庞大的标准信息资源,快速地检索到所需要的技术要求和技术指标,已成为当务之急。

2 技术标准传统检索方法的特点与局限

伴随着网络和信息处理技术的成熟和发展,人们开发建立了标准文献题录数据库,并通过互联网提供检索服务,使检索不受时间、地域的限制。但是随着标准文献资源的增多,我国外向型经济的不断发展,以及涉及产品质量的突发事件不断发生,这种传统的检索方式已经无法满足需求。因此,以标准题录数据库为基础的传统检索方式对技术标准的有效使用产生了局限性,主要表现在以下几个方面。

2.1 无法实现对技术标准内容的精确标引与检索

传统的数据库检索方式是通过分类、标题、摘要及叙词等手段对标准文献整体进行题录数据加工,来实现对技术标准与技术法规的检索。而技术指标往往分散在多个不同的技术标准与技术法规之中。目前的标准文献题录数据库还不能具有提供面向产品的技术规范及技术指标检索功能,只能通过题录数据库检索到相关标准,逐一阅读技术标准内容。这样既浪费时间,也难以保证查全率。

2.2 对特定产品无体系支撑,无法实现与产品相关的标准体系的检索

对特定产品的技术指标的要求和规定,往往不是通过一个标准来体现的,大多数分散在一系列相关标准中。要想查全体系相关的标准,用户必须十分了解产品体系和标准化原理。在检索中,按照潜在标准体系进行反复推论,检索与借阅大量标准文献。这样,在检索过程中常常会遗漏与产品相关的标准,致使揭示指标检索过程中,既耗时又耗力,从而导致检索结果不全面。

2.3 无法同时检索一系列标准中的技术指标,无法实现不同标准中同一技术指标的比对

由于标准分级的特点,同一个产品可能同时存在相关的国际标准、国家标准、行业标准、地方标准和企业标准等不同的标准中。因此,应用中需要将这些标准配套使用。同时,由于国际贸易和质量监管的需要,用户需要对比查询国内外标准对同一产品的技术指标,这些都是传统检索手段难以满足的。

3 当前检索方法的一些新进展

3.1 全文检索

存贮功能的加强,数据识别技术的发展,使文献全文查询成为可能。全文检索方式是建立在识别准确性和语词匹配的基础上的。这是因为,一旦用户的查询请求用词同全文中某些字符形式一致,查询匹配就会成功。这种检索方法充分利用了计算机的处理能力,它的人工投入比较小。

3.2 关联检索

通过分析和建立元数据之间的关系模型,将有益于对数据进行有效重组。不仅如此,通过揭示元数据所反映出来的文献内容、作者和引文等潜在的关联关系,还会帮助用户有效地进行关联检索。

3.3 概念检索

利用本体技术对文献篇目主题进行标引,揭示出文献主题所反映的事物本体类别与属性关系和关联关系,从而有效地组织文献,精确地表示文献所论述的对象与属性。

3.4 数值检索

为了满足对产品技术指标的检索需求,建立了以产品技术指标为基础的数据库。例如,在产品钢号手册基础上发展而来的钢铁产品指标检索光盘等。

这些检索方法的尝试,按照其对文献内容信息的揭示层次,可分为以全文数据为检索对象的全文检索方法,以文献篇目主题为检索对象的检索方法,以及以单一产品技术指标为检索对象的检索方法。第一类方法会导致查询结果中,有大量无关信息。第二类方法是针对文献篇目概念或元数据多重关联的深化检索尝试,但实质上还是对文献篇目的检索。第三类方法是针对特定产品的指标数据库,该方法难以实现对标准规范条文的有效检索。此外,由于此种方法依赖于特定专业、特定产品的数据格式,所以难以扩展到其他专业。

因此,现有的检索模式,已经无法满足在技术标准检索中对技术指标的精确对照检索,以及对标准指标系统的体系检索。

4 标准内容揭示数据库建设

人们在技术标准检索过程当中,通常会有以下几个方面的需求:

·针对某一产品与标准化对象,或某一类产品与标准化对象的特定技术指标与技术要求;

·针对某一产品与标准化对象,或某一类产品与标准化对象的所有技术指标与技术要求;

·针对某一产品与标准化对象,或某一类产品与标准化对象,在不同层级和不同行业的标准(如国标、行标)的相关技术指标与技术要求;

.针对某一产品与标准化对象,或某一类产品与标准化对象的不同标准化方面的相关技术指标与技术要求;

·针对某一产品与标准化对象,或某一类产品与标准化对象的标准体系,所反映的相关技术指标与技术要求;

·针对某一产品与标准化对象,或某一类产品与标准化对象的技术指标数值和法规条款规定;

·针对某一产品,或某类产品国内外标准的相关技术指标与技术要求的对比分析。

如果想全面与灵活地实现以上检索目标,利用现有的检索技术是难以达到的。按照现有检索技术,需要在相关检索后,通过阅读大量标准文献内容和人工汇集相关技术指标,这不仅工作量大,且难以查全。因此,必须创立全新的技术方法。

国家标准文献共享服务平台的建立,为开展标准文献技术指标与法规条款内容揭示基础研究与数据库建设提供了可能。标准文献内容揭示数据库建设的目的,就是为了研究开发一整套适用于国内外技术标准,并围绕特定产品或标准化对象的技术指标与法规信息体系的检索,同时技术指标对比检索的标准内容信息揭示与检索方法,将对建立标准文献技术指标体系与技术法规信息检索数据库提供帮助。

经研究发现,实现技术指标检索面临两大难题:一是构建标准内容揭示系统需要构建结构化的揭示模型;二是如何对所揭示的复杂技术指标与法规条款进行灵活的定向检索、对比检索、体系检索和全面检索,并有效地组织与展示。

为了解决这两大难道,项目组创新性地构建了以体例元数据为基础的标准文献内容揭示模型,及以专业本体与属性描述为技术手段的技术指标重组检索与展示模型,实现了标准技术指标的分析揭示与组合检索。

5 标准文献内容揭示数据库的服务功能

标准文献内容揭示系统是以标准化理论和标准化实务为重要依据建立起来的概念本体,通过以标准结构化特征和属性指标作为对象属性揭示手段,构建了体系化的、组合化的、可灵活进行概念框架展示与定向组配检索的高效检索系统。其检索功用主要体现在以下几个方面。

5.1 指标检索

可以实现技术标准对特定产品和标准化对象的特定或全部技术指标的检索(见表1)。表1中所反映的技术指标,可以为加工、生产及销售提供依据。同时,可以快速获取产品技术指标,为打击假冒伪劣产品、加强市场监管及维护市场秩序提供技术支撑。

5.2 对比检索

实现国内外技术标准对特定产品技术指标的对比查询(见表2),为应对国际贸易中技术壁垒问题提供参考信息。如遇突发事件,可以实现技术指标的快速查找和比对,为提出应急措施提供技术依据。

5.3 聚类检索

实现对某类产品技术指标的检索。例如:检索乳制品,可以通过系统的下位登录功能将酸乳、灭菌乳、冰淇淋和干酪等乳制品的相关技术规定检索出来(见表3)。

5.4 体系检索

实现对特定产品技术指标体系的检索,满足人们对特定产品全套技术规范的检索需求。

5.4.1 可实现产品生产全过程技术要求的检索。

例如,从水果种植到销售各个环节中,对铅残留量的限量要求(见表4)。

5.4.2 当特定产品无专门技术指标时,可以通过上位登录,实现其上层标准中技术指标的检索,执行

注:因篇幅有限,未能列出所有的检索结果。

注:因篇幅有限,未能列出所有的检索结果。

上层标准。例如:检索“婴儿配方乳粉I”中“溴氰菊酯”限量指标,发现并没有专门的规定,通过上位登录功能,检索到“婴儿配方乳粉”中“溴氰菊酯”限量指标有相关规定(见表5)。

5.4.3当检索产品标准时,可以通过上位登录实现基础标准中技术参数的检索。在执行产品标准的同时,亦执行相关基础标准。例如:检索硬质干酪,结果硬质干酪的产品标准中没有详细表述标签要求。通过上位登录,检索到食品标签的详细内容(见表6)。

5.5条款检索

电商平台竞争状况数据 篇5

基本信息:深圳,雇用约50名员工,6年前公司创立以来,一直在类似Ebay的淘宝网上出售产品,但近来已在淘宝网竞争对手的网站上开设了店铺。

竞争情况:没钱赚,广告费用过高(占他的销售额的40%),销售额跟不上去,所有人都拼命竞争,那是你死我活的竞争。日子很不好过,这促使他寻找其他平台。

酷迪宠物

基本信息:同时在淘宝网和天猫上销售商品的宠物用品店。

竞争情况:在所有行业,包括这个行业,第一流商家每月亏损10%,第二流商家每月亏损8%,第三流商家每月亏损5%,以此类推。所有商家都在亏钱,但那是投资人的钱。钱用光了,他们就把手伸向更多投资人。

商铺咨询服务的商家:

根据行业的不同,淘宝网商家赚钱的只有3%至10%。天猫的数据稍好一些。在电商销售额激增情况下很难赚钱的主要原因是广告费用升高。常用关键词广告和横幅广告,其费率是通过商家竞拍确定的。

鲜花卖家:

过去三年“鲜花”等关键词的平均广告费已提高了两倍,由2011年点击一次5元人民币升高到15元人民币。他还表示,大概50次点击可以带来一笔销售。他之所以容忍新订单约200元人民币的亏损,是因为“那是获得一个新客户的成本,而回头客是没有这个成本的”。“我猜这钱肯定花得值,不然谁也不会花这笔钱。你得多卖货才行,因为线上利润率比线下销售低。”

对于那些非常有钱或有其他收入来源的人而言,继续在淘宝网上经营是有意义的。但还有其他许多人,是在几年前互联网的变革力量猛然被看好时开的店铺,对他们而言,小企业主之梦已开始暗淡。

中国电子商务研究中心(China e-Business Research Centre):

2013年底,中国私人C2C商家的总量同比减少了17.8%,降至1122万,并预测,到2014年底将进一步减少至918万。据估计,淘宝网占这些商家的五分之四。目前淘宝上大部分商家都处于赔钱阶段。现在,离开淘宝也是一种趋势,因为出现更多电商平台后,商家有了更多的选择。

每一天,约有 1万家网店走向死亡。

淘宝的销售,已经越来越集中了,这有两层意思,一是越来越向大卖家集中,二是销售越来越向爆款集中,即单款销售超过1000件的商品。

经济学上的基尼系数越高,说明贫富差距越大,反之越小。《淘宝卖家运赢弱品牌时代》一文曾经提及,淘宝的基尼系数已经超过国际认可的平均值2倍以上。学术上的看法是,这个数字超过一定的水平,体系就会趋于不稳定。

打个比方,排名前5%的大卖家,销售额在整个淘宝的占比,如果前年是15%,今年就是30%了,这意味着财富正向淘宝顶端的大卖家积聚。

淘宝店竞争日趋激烈 小网店如何搏击电商大潮?

2013年01月10日08:31 来源:南方日报 手机看新闻

在竞争压力和政策利好面前,网络经营的风险与机遇并存

当2013年的钟声响起时,坐在电脑前的古洁云,也迎来了新的开始——他在淘宝上的网店选择了在这个特别的时刻来关店,新的一年将全身心投入到正职工作当中。“网店还算是有点小钱赚的,但是由于新的一年正职的工作任务加重了,实在无暇顾及,所以只能忍痛关店了”。

做点小生意对于所有中国人来说都是一个小小的“梦想”,随着电子商务不断发展,利用淘宝这样的电商平台来经营网店也变成了“举手之劳”的事情。但是俗话说“开店容易守店难”,据近日发布的《中国企业电子商务IT建设报告》显示,国内每天约有10000家网店被迫关门。一边是吵吵嚷嚷的天猫、京东商城大电商平台融资谋求上市,另一边则是众多小网店默默关门大吉。小网店如何在电商大潮中冲浪而不至于翻船呢?

■现状

淘宝店竞争日趋激烈

“每天有万家网店倒闭?日均万单也倒闭?”深圳触电电子商务有限公司创始人龚文祥在微博上对于这份报告的内容表示了质疑。据资料显示,《中国企业电子商务IT建设报告》由上海一家电子商务软件的提供商发布,报告中最受关注一项调查结果是因为缺乏足够的实践经验和理论指导,每天国内约有一万家的网店被迫关门。报告指出,人才缺乏是一个首要困难和问题。在经营困难的同时,报告同时提到每一天约有一万家企业和个人进军电子商务,约有9千家企业和个人加入淘宝,2000家企业申请支付宝,1200家企业申请加入天猫。

据电商业内人士表示,此报告一出在行业内马上引起了巨大的反响,因为在早前中国电子商务研究中心也发布过一个报告,淘宝网现在有职业卖家6百多万,每天新增的注册近万家,停运或倒闭的卖家也近万。“对于采销类的淘宝店来说,只要推广费不是很高,倒不会马上倒闭,对于淘品牌来说货堆在仓库里就是成本,即使日均万单都有倒闭的可能,不过说实话,淘宝天猫的生态环境在恶化,尤其小品牌小卖家” 上海万擎商务咨询有限公司CEO鲁振旺则认为“日倒万店”并不奇怪。

“淘宝上具有基数巨大的卖家群体,其中不少卖家开店的目的可能就是卖掉自己的一件二手商品,卖掉之后可能就不再维护了,按淘宝的规定是一定时间内不维护的网店就会关闭。这种‘玩票’性质的‘网店’数量众多,卖家可能在下次想到要卖东西的时候又会再去开店,所以数据的意义不大。”一位接近淘宝的内部人士向南方日报记者表示,“日倒万店”的说法并不准确。南方日报记者就此数据向淘宝官方求证时,淘宝方面人士表示官方并没有类似数据的统计,但是也承认淘宝网店之间的竞争日趋激烈。

■问题

小网店发展遭遇瓶颈

根据数据显示,2011年中国电子商务市场交易规模是7万亿元,到了2012年9.8万亿,预测2015年将达到26.5万亿,《中国企业电子商务IT建设报告》预测像电子商务,移动电子商务和社会化营销将成为国内企业未来1到2年IT投入方向第一集团。巨大的市场前景让诸如淘宝网店这样的低门槛电子商务方式受到不少人的追捧。

况彩丽就是积极投身电子商务行业的一员,利用兼职的方式,况彩丽在2010年底就开始在淘宝上建立了网店进行服装的销售,经过了两年经营,已经发展到了日均近六百单的客单量。但是在去年年底,况彩丽还是忍痛退出了经营的行列。“不是不想再经营下去,而是当个人网店发展到一定的阶段后,就会遇到了瓶颈。”据她介绍,她的网店会经常出现某款热销的款式供应商供货跟不上的情况,“热销款式往往占据网店的主要销量份额,一旦断货,就会严重影响销售。”按照况彩丽的说法,解决的唯一办法就是她自己下单向厂商落定生产热销的款式,但是这将会涉及不小的资金投入,对于一般的小店家而言,这往往是一个最大的门槛。“冒然投入的话,对于个人而言首先需要解决资金的来源,同时还要承担不小的风险。但是不投入的话,个人网店的规模很难做大,最后也变成了帮淘宝打工了,那还不如不干了。”

据南方日报记者了解,与况彩丽情况类似的小店家并不在少数,在淘宝经营奶粉生意的柴静君也向记者表示,自己的三钻网店也即将“转型”,“应该很快就会和一家更大的网店进行合并,我从店主变为股东。因为到了一定的阶段,货源和流量都很难有突破了,和更大的卖家合并才能有更好的资源。”

■展望

政策利好

但仍须练好内功

“虽然在淘宝开店看似很简单,但是要想真正地作为一门生意,绝对不简单。”有多年淘宝经营经验的甘明在接受南方日报记者采访时,对于目前淘宝的生存环境有深刻的体会。“其实综合算下来,开网店的成本并不比开实体店的成本少多少。”甘明和记者算了一笔账:在淘宝上开店,从页面装修的模板到各种功能的开通如今都要缴付一定的费用,不少还是按月计算的,而算上仓储物流的成本,每月下来和实体店的成本相差无几。“网店的成本优势,只有那么一点点。”

据北京大学中国社会与发展研究中心阿里研究中心发布的《淘宝个体店家的社会特征与执业特征研究》显示,人们开店的目的大致有三类,即体验淘宝、机会淘宝,以及事业淘宝。三类店家的规模分布相对均衡,体验淘宝者占比稍高,为36.6%,事业淘宝者和机会淘宝者分别占31.9%和31.5%。真正有意欲在淘宝上作出一番事业的事业淘宝者如何在众多的卖家中脱颖而出,则成为了能否成功的关键。

“营销的能力决定了网店能否成功。”甘明认为,如今就算个人开网店,也要学会数据分析和营销。“行业竞争压力越来越大,要求也会越来越高。”已经成为全职网店店主的甘明,如今每天早上第一时间打开电脑,就是要看网店的流量数据,然后针对数据进行商品的调整等,另外还要研究如何根据不同的时节、时间、事件进行网店促销活动的设立,宣传和购买广告位。“这里面都有不小的学问。”甘明坦言,如今网店的生意越来越难做,店主也需要跟进行业的发展,自我增值提升经营能力。据淘宝方面的人士表示,针对如何提升小店主的经营能力,淘宝提供了淘宝大学供店主学习,而网上也有种类繁多的各种“开店秘籍”可供参考。“店主掌握了经营的窍门后,开一个小小的网店养活自己还是没有问题的。”据甘明介绍,他的网店开业几年,营业额从最早的月均几百到如今已达到月均几十万,也有了进一步扩大规模的计划。

“尽管每天都有成千上万的新网店开业,尽管网店间的竞争丝毫不逊色实体店,尽管没有坚持网店店主的生涯,但是我依然觉得网店这个行业还是可以做出一番事业的。”虽然在网店经营上受到挫折,但是丝毫不损况彩丽对行业的看好。“回想起来,其实我当初遇到的网店资金瓶颈和大多数做普通生意的人是相似的。如果能够坚持下去,也许就可以渡过难关了。”

据电商行业人士表示,类似况彩丽这样的案例在网店店主中颇为普遍,而店主们的难题也引起了政府部门的注意。近日广东省省政府办公厅就发布了《关于加快发展电子商务的意见》(下称“《意见》”)。《意见》中就提到了将会提供发展专项资金扶持电商发展。

“如果有机会,我可能还会尝试再做网店店主。”况彩丽乐观地表示。

首先用数字来分析淘宝上的竞争激烈程度。2012年5月时淘宝上在线店铺5964460,之后淘宝改版,无法从淘宝上看到具体的店铺数量,不过目前这一数字一定不会低于600万。

淘宝每天有3000万访客,我们假定每个访客能访问10个店铺,那么淘宝上所有的店铺将会被访问3亿次/天。把这个数字平均到600万店铺中,每个店铺能获得的访客50个,而淘宝上的转化率是1%-5%,如果取最高值5%来算,每天分到每个店铺的订单是2笔。虽然各个行业的订单客单价不能被统一估算,但这个数字可以证明,如果平均主义的话,几乎每个店都是亏本的。

这个数字是客观的,但事实上却不会出现的,因为任何行业都存在二八定律,永远是一小部分店铺获得绝大部分订单。大多数店铺是达不到每天2个订单。

一直有人质疑:为什么这么少的人赚钱,仍会有那么多人参与?那是因为绝大部分都是兼职做的,淘宝店有无收入根本不影响店主的生活,所以造就上庞大的店铺量。

目前淘宝上的信誉分布:金冠店500左右,皇冠店20万左右,钻石店100万,其它为心级店铺。天猫商城有70557个商家。对这些数据有质疑的,自己去淘宝上论证,不做解释.目前我身边的同事几乎每人一个淘宝店。有人为了利用淘宝对新店的扶持,把亲戚朋友的身份证全部借来开店,一人管理十几个店。但他们大多数是不赚钱的,而实际上也没有多少精力投入:分销网站上下载一个数据包导入店铺,再进入刷钻QQ群或平台去刷钻,这就是他们主要做的工作。如果除去这一部分兼职或做娱乐的店铺,真正全力经营的约有100万,如果在这100万的基数上说有30万是赚钱的,估计多数人能接受,不过事实上还要少于这个数。

有一些人经常会跳出来说自己的店铺是心级的或钻级的就赚钱了,身边的朋友也都是赚钱的之类。如果跳出自己的圈子,上淘宝上各个级别店铺的拿出100个来做认真的分析,就能多少明白真正赚钱的有多少了。

天猫原创品牌乐行士转让 垂直电商发展现状堪忧

2013-04-03 09:05:57中国鞋网 来源: 中国鞋网/中国皮革网

【中国鞋网-鞋业趋势】近日,网络皮鞋品牌乐行仕(专卖店)在官网上发布公告称正寻求转让,截止到3月31凌晨已停止下单及发货。

乐行仕在转让公告中称,乐行仕品牌在4年多的电商成长历程中一直坚持中高品质的产品定位,“在以价格战为主导的中国电商环境中,不愿牺牲品质去追求销量及利润”。

据悉,乐行仕于2008年12月正式上线,主要销售以自主品牌乐行仕为主的产品,包括皮鞋、休闲鞋等,定位中高端。除了官网,乐行仕还在天猫商城等第三方平台铺货。2010年,乐行仕销售额达2000万元。

而3月31日消息称,网络皮鞋品牌乐行仕日前在官网发布公告称正寻求转让,目前已停止下单及发货。乐行仕此前曾在官网进行清仓大甩卖,原价600~800元的女鞋均以39元甩卖。目前,乐行仕官网已停止下单,天猫、京(京专卖店)(专卖店)东、当当也已经搜不到与乐行仕相关的商品。

今日速途网电联乐行仕客服称,这两天还有部分女鞋在清仓处理,100元4双。另外,商品的后期售后乐行仕客服表示也会继续受理。

对此,深圳市时代万货电子商务有限公司创始人徐兵曾在微博上称,乐行仕该做的都做了为什么还会倒?因为都做了才被拖垮了。产品线太宽太长,品牌影响难支撑定位;全网运营铺货分销又独立B2C,耗费精力资源钱!天猫前期烧钱起来,后期就烧不动了。

另外,资深电商观察家牛利犇表示,目前电商行业普遍存在缺乏盈利能力的硬伤,如果无法摆脱亏损,寻找到盈利的突破口,很大一部分电商都会面临倒闭的风险。电商企业需要加强自身的造血能力,尤其在现在资本冷静的时期,更需要开源节流,不盲目竞争和扩张规模,长远发展才能笑道最后。

牛利犇称,垂直电商的发展一直不被业内人事看好,许多垂直电商也纷纷转做平台电商,或是投入平台电商的怀抱。垂直电商的发展最关键的是要有自己的特点,而这个特点是平台电商无法直接复制的或者短期内不会引起平台电商的关注。以聚尚网为例,限时抢购是我们模式的核心,平台电商很难整体复制,避开了过度竞争,因此发展空间很大。

天猫“变心” 淘品牌阵痛中的新机会

2013-07-18 10:08

著名淘品牌御泥坊创始人吴立君近日突发脑疾去世,年仅36岁。这让淘品牌的生存现状再度被抛至聚光灯下。

曾经依托天猫崛起的这些淘品牌在传统品牌大举入侵下正节节败退,加上自身运营费用增加,对企业治理不善,淘品牌正陷入集体沉沦境地,仅剩下韩都、裂帛、阿芙等少数几个品牌依然风光。

伴随着淘品牌失意的是越来越多传统品牌入驻天猫。腾讯科技获悉,西班牙快品牌ZARA、英国知名高街品牌TOPSHOP等近期有望入驻天猫开设官方旗舰店。更早之前,快时尚品牌Gap、优衣库、FOREVER21等已完成入驻。

毫无疑问,传统知名品牌和淘品牌在天猫的天平上已经有了高下之分。

NOP创始人刘爽对腾讯科技表示,淘品牌已进入洗牌阶段,在天猫女装领域传统品牌已与淘品牌平分秋色,在女装销量排名前十中各占5个席位。女装领域淘品牌没被击溃主要是由于女装更讲款式而非品牌,男装领域淘品牌在传统品牌进攻下则早已完全溃败。

“天猫排名前十的男装品牌全部是传统企业,淘品牌不仅被挤出前十位置,还出现增长停滞甚至下降的情况。这在3、4年前是不可想象的,当时淘品牌完全占据男装前十名。”刘爽说,类似男装这些讲究品牌的品类,淘品牌都已经溃不成军。

另一位电商人士分享了一组电商行业数据:天猫淘宝服装大盘同比增长不超40%;入驻天猫企业两极分化极其严重;TOP100大量洗牌,靠照片卖货模式已失效;大C卖家成强弩之末,完全靠吃老客;各家都严重缺乏新客流量;能活下去就三种:顶级大牌、极深风格、拼无节操。

依然处于淘品牌第一阵营的韩都衣舍CEO赵迎光也对腾讯科技表示,未来十年淘宝生态竞争更复杂,服装行业将加速从线下往线上转,竞争越来越强。互联网马太效应越来越明显。

躺着赚钱的日子一去不返

这些淘品牌大多有过属于自己的“光辉岁月”,并成为天猫极力拉拢的对象:参加双十一活动,不仅没有太多费用,还可以在获得平台在资金和流量扶持的前提下一心推高销量,无需担心降价大促会带来亏损。

借助这一黄金时机,一批淘品牌快速崛起。麦包包前身是家专做箱包贴牌生产的传统企业,随着贴牌毛利率下降和同质化竞争加剧,2007年转型不顺后投向天猫得以迅速壮大:08~09年销售额从300万猛增到3000万,2010年销售额过亿。

麦包包大跃进式的成长顺利引来了多轮融资,这也让麦包包创始人叶海峰野心大增,在2010年和2011年展开迅猛的舆论攻势和业务扩展。不过,资本环境的快速变化,加上企业发展的失控让麦包包很快遭遇发展困境。2012年麦包包多次传出裁员的消息:继在当年5月裁员30%后,当年8月又再次裁员,数名中高层员工离职。而叶海峰也被指经过多轮融资后基本完成套现,所占股份微乎其微。

如今麦包包已从喧闹的市场中沉寂下来。叶海峰变得务实很多,近日接受腾讯科技连线时表示,前几年是电商红利期,竞争并非你死我活,企业靠猛打猛冲就可以赢,现在电商进入到相对稳定时期,以往策略失效,变成智者才能赢,麦包包必须夯实,争取今年实现盈利。

“麦包包现在上下已‘闭嘴’,今年没太多宣传活动,不准备大规模扩张。”叶海峰说,传统企业不断涌入电商领域,使得市场竞争恢复常态,进入肉搏阶段,淘品牌不再可能过那种躺着数钱的日子,自己现在考虑最多的是如何将企业经营好,再像过去那样高调无意义。

实际上,不仅仅是麦包包,类似绿盒子等淘品牌在销量过亿后,也纷纷陷入增长困境。而未抓住当年天猫发展机会的天使之城则选择出售给裂帛。

淘品牌感觉天猫“变心”

天猫在成为国内最大B2C平台之际,内部却也出现诸多不和谐的声音。不少淘品牌抱怨天猫越来越重视传统品牌,对淘品牌越来越不重视。为何天猫高歌猛进,一起成长的淘品牌却陷入集体沉沦?

赵迎光对腾讯科技表示,天猫成立之初,并不受传统企业待见,彼时扶持淘品牌是无奈之举。淘品牌还能因为对平台配合度高而从中获益。

不过,随着越来越多传统企业涉足电商,对天猫支持力度越来越大,淘品牌获平台的支持缩水,当初配合度的高优势也逐渐消失,被迫与传统知名品牌站到一条起跑线上。赵迎光说,“说天猫越来越重视传统品牌,这其实是错觉,应该从另一个角度看,天猫现在考虑更多的是谁能更好帮助天猫实现共赢,那谁就获得更多价值。”

但很明显,天猫生态正朝着不利于淘品牌的方向发展。京东CMO蓝烨对腾讯科技表示,淘品牌借助电商大势很快将规模做大,这是好事。关键问题是,消费者买的是产品,如果淘品牌没有好的产品资源,没有供应链,没有研发能力,也仅仅只能在发展初期占便宜。

“仅仅靠抄袭别人的照片这种模式已经行不通。”蓝烨说,消费者是理性的,当传统企业慢慢转变思路,学会淘品牌这套运营规则,淘品牌产品再不行,只能陷入下滑通道。

更要命的是,随着亚马逊、国美、当当等电商企业入驻天猫,传统企业也变得越来越多时,增长已趋缓的天猫流量就显得越来越不足,这使得资金雄厚的企业拥有很强的流量抢夺冲动和能力,中小型淘品牌天然处于下风,生存环境变得更为恶劣。

这已经是被证明的事实,如今淘宝加天猫一年的广告收入早已超过40亿元,商家需要承担各种广告位、直通车,还有技术服务费,不打广告基本已很难获得足够流量。而且,短短几年间,天猫中单个流量转化成本已从三毛钱变成一块钱。卖家流量可能越来越高,成本高企之下利润却没增长多少。

让淘品牌发展脚步放慢的因素还有很多。资深电商专家黄若表示,淘品牌再享受几何级发展不太可能。企业销量从几千万到几个亿,管理员工从几十人到两三百人,靠创业者努力,还可以做上去,但再想走台阶,就必须要套系统化的管理。这种系统化管理绝大部分淘品牌不具备。

此外,从天猫角度讲,在扶持商家时又希望商家别长太大,还会有抑制过程。黄若说,这是淘宝传统,平台通过流量分配、搜索规则制定来做调整,需要扶持大商家时,就靠政策把商家壮大,使商家获得流量更多,排名更靠前,需要抑制时又重新调整。

天猫并不承认偏袒传统品牌。一位阿里人士表示,淘宝对在自己平台上成长起来的淘品牌很珍惜并且支持,淘宝还提出“双百万”战略鼓励推出更多的天猫原创品牌。天猫生态就像金字塔塔基一样,谁能成为塔尖企业,还需靠自身努力,天猫不会干涉太多。

阵痛中的淘品牌孕育发展新机会

淘品牌无疑遭遇到了发展的天花板,当原来模式无法延续时,下一步该如何走?

清晰的定位或许是存在并壮大的关键。当一批批淘品牌走入下行通道时,依然有新的淘品牌冒出来,2011年当大家都认为电商已是一片红海时,“阿芙精油”诞生,阿芙创始人雕爷被无数淘宝卖家奉为偶像。

2012年,当大家都认为电商红海比2011年还红时,“三只松鼠”横空出世。据媒体报道,“三只松鼠”在当年“双十一”大促的销售额突破800万元,2013年1月份单月业绩突破2000万元,轻松跃居坚果行业全网第一。

“三只松鼠”创始人、网络花名“老爹”的章燎原,利用在线品牌的独特性,塑造了“三只松鼠”这一个性品牌。加上名字好记、便于传播,在通过社交媒体扩散后,“三只松鼠”取得了目前的成绩。

“现在活得比较好的淘品牌,都是定位精准的,而且必须定位精准。像阿芙精油、小狗吸尘器、御泥坊,我们就是韩风,裂帛就是民族风,定位特别清楚。”赵迎光说。

淘品牌依然具有很多优势,传统企业的电商最多只是一个部门,且多是由职业经理人带队,纯电商企业则是全情投入的老板带领一群激情满满、近乎“疯子”在冲锋,他们对线上消费者消费趋势发生的短周期内的变化反应快得多。

但对于淘品牌来说,更急需提升的是视野和格局。

一位电商人士指出,淘品牌弱小时不知道天高地厚,很有冲劲,反而做大了后越做越像传统企业,在向传统企业看齐的过程中丧失自信,其原因在于很多淘品牌格局太小,发展过程中过于保守,根本没想到行业会做到这么大体量。

一个曾经很知名的淘品牌,在08年是天猫主推的典型,当大多数淘品牌年规模才5000万时,其年规模已做到10亿元,但企业过早关注精细化运营,错失发展机会,如今只能扼腕叹息。蓝烨指出,淘品牌一定要志存高远,想清楚下一个阶段的事情。谈及当前淘品牌局面,一位电商人士乐观的表示,发展慢并不意味着坏事,能让企业在高速发展的浮躁中静下来,沉淀自己,也能不断去创新,如模式多元化、产品多样化、渠道多通路。“现阶段是考量管理水平的真正时候,成功了,这些淘品牌创始人才是真正的企业家。”

现在淘宝生态环境竞争激烈,呈一片红海状态,从一个不知名品牌慢慢打造成为一个略有盈利的店铺需要较长时间过渡。不通过广告投入获得流量入口,单凭购物搜索,海量商品与用户需求的精准匹配,80%的商品并非没价值,但根本展示不出来,这几乎无解。特别是天猫商品挤进自然搜索排序后,中小卖家更没机会了。让买家从总量超过10亿件商品的大海中捞出你店铺的商品并不是那么简单。罗马不是一天建成的,所以要提升店铺信誉及销量便得借助淘宝广告宣传,成本高且转化率低,所以平时网上那些什么淘宝村第一个月就月入上万的新闻就当做是茶余饭后的谈资即可。

天猫现状和存活下来的玩家特征

信息来源:亿邦动力网作者:单宇发布时间:2014-04-29浏览:186我要评论

天猫商城的驻店玩家普遍反映,天猫变化太快,想说爱你不容易。很多人已经关店清仓,改行去了。还有人在“新政”下苦苦支持。

听听一位资深操盘手对服装类目的判断:

现状1:只有排在前面的不死

关键词——核心数据全线下降、萎缩、关店潮

行业(搜索+成交)指数持平或下跌,转化率下降,客单价下降,单品成交均价下降,人均成交件数下降,店铺用户粘性下降,PPC下降,关店潮,死店潮(店在,无运营或少运营),新增店铺数下降„„

无淘品牌或传统品牌成功杀入战局,进入TOP商家梯队,并实现单独核算盈利。只有原有座次不断更替或渐进死亡,只有排在前面的不死。

主要原因在于平台扶持,流量资源倾斜,或靠并购规模效应,扩大业绩额。但是风险向资本是否雄厚、管理风险,业绩预期和业绩实现之间的平衡中倾斜。

现状2:平台流量调控之手遭斩

关键词——流量成本登顶、流量碎片化、质量降低、平台商家意识分化

直通车广告点击成本单边上涨结束,钻展靠标准化素材拉高点击成本,“淘客”跟“一淘”身份切换,硬广消失。

2013年“双11”“双12”会场大部分商家成交萎靡,流量碎片化满足了展示位多元化的平台需要,却降低了流量全局质量,丧失了平台调控之手的力量。屡调不中,指哪打不到哪的时代来临。爆款策略无以为继,难以获得足够毛利支撑。

平台跟商家同床异梦时代来临,但是商家困兽,斗无可斗;平台想做移动,想做O2O,但是陪玩的商家一点油水也沾不到,温水煮青蛙,不玩担心,玩了闹心。

现状3:过度依赖新增用户

关键词——挡拆已死、新增断流、新品不新

淘宝“濒死”,阿里巴巴的C2C业务丧失了全部合理存在可持续发展的基础,会被微信、微店、美丽说、蘑菇街等陆续接管。

天猫在重复淘宝的老路,即将断流。没有了淘宝的百花齐放作为买家和卖家网购习惯和操作行为的培训基础,传统或非传统的商品同场竞技的集散地,消费者用购买行为来引导一条商品差异化创新的路径。没有了淘宝作为金字塔基覆盖全部网购年龄、购买力、新奇特创新的土壤。平台上的产品的同质化不断提高,新品的低成本诞生不存在,迭代速度在降低。2014站外站内的服饰直通车单品广告几无新趋势,新品不新是普遍现象,丧失了客户在海量商品的平台上的购物欲望和复购欲望。

天猫仅依赖平台新增客户,而不是经过淘宝培养过的高阶客户过渡至天猫这一有效的迭代过程,天猫未来出现跟淘宝一样的“下流化”不可避免。

九种活法

当前市场中,可以存活并持续存活的玩家只有以下几种类型:

1、资金雄厚不在意一时盈亏可持续追加资金投入的(考虑到资金的综合成本,生命周期三年,三年无法建立核心竞争力必死,土豪玩法);

2、被平台重点扶持的(不超过20家,淘品牌或传统服装品牌倾销库存,生命周期三年以上暂无死相),重点关注规模危机引爆点;

3、整体业务综合毛利60%、或服装定价倍率超过3倍的(类似卓雅这种传统品牌,即使卖库存,依然能卖出5倍以上定价,靠品牌线下影响力高价、少折扣、产品创新,且电商业务本身是盈利的,这种是最健康的。不过品牌影响力就像钱包,可以提取但是不能透支,平衡是问题。切记在线零售本来就是不断拉低受众预期的“利器”);

4、大量传统品牌卖库存不在乎毛利、净利,电商业务非独立核算、独立核算净亏,或靠库存折算低成本微利,平台肥料一堆;

5、自有流量来源(非平台业务流量来源,自有论坛社区,自有客户粘性,长不大,但能活);

6、非营销广告依赖的,可以充分享有并放大平台自然搜索优势的(长不大,但能活);

7、小类目小品类,高门槛低竞争的;

8、作坊(10人高效率运作,10人以下作坊都不算)经营,严控成本,坚持爆款策略,放弃整店经营,不求做大,简单粗暴。资金能保障一个销售季爆款失败,依然可以追加投入下个销售季的经营,一旦两个销售季失利,猝死;

9、视觉玩到极致(花苼记,但也越来越难活)。

值得推敲的行业数据:

1、阿里巴巴2013年全年总营收79.52亿美元,约合493.91亿人民币,全年营业额1.1万亿。全年TOP商家广告投入最大的,公开付费广告占比10%-15%,还是分散多平台多渠道的广告投放,并非仅在平台上;中间层商家付费广告占营收30%尚且活的艰难。所有商家净利之和是多少,有心人不妨算算,更能看清自己是不是过去、现在和未来的肥料一枚?

2、凡是多渠道运营的商家心知肚明,考虑到非阿里平台的整体运营活动和包邮政策,同一款商品即使在比价平台上同价,在非天猫淘宝的平台上购买,全年大部分时间里价格是低于阿里系的,活动价格更是审核为比阿里系至少低1元,但是依然无法撼动当前领头羊的优势;

3、某些知名淘品牌分销专卖店、专营店,不管新开还是早期开店,DSR评分中原本少得可怜的评价记录,瞬间十几间店铺就冒出80万-120万个买家关注店铺数据。平台已彻底无底线,喂流量到嘴边了,牛不牛?规则?规则是人家定的!

活下来的那些卖家,往往具备一些特征:  相对正规的; 有明确的做生意的思路和规划的;  有科学的运营方法的;  有钱的,也会花钱的;  愿意改变的;  不愿意改变的;  具备全网运营能力的。

相反,谁没活下来呢?死掉的卖家大都有这些特点:  投机的。觉得只要搞定了某些东西,就不愁了的;  跟风的,别人怎么做我也怎么做的;  不会花钱,明显有暴发户行为的;  不愿意改变的。

淘品牌破茧:遭遇传统品牌竞争

作者: 黄晨岚 吴晟来源: 《环球企业家》2011-09-05 08:40:40

在6月28日淘宝的“聚划算”活动中,小虫米子准备了两万件“真丝”小披肩参加,但有买家发现产品实为涤纶材质,遂在微博上发出质疑—鉴于微薄在中国的实际效用,小米虫子遇到何种境遇都不奇怪了。

赔付方式是这样的:对于2011年迄今为止的买家,无论是真丝还是涤纶材质,都无需退还商品,仍以正价138元退款到支付宝作为弥补。小虫米子在道歉声明中解释说:“由于对供应商管理不善、质检环节缺失导致发出的商品中混杂了部分涤纶面料的商品。”

至少306.6万的赔付金额,对这家年销售额已超过1亿元的淘宝店铺来说,或许不算重负,但令它意识到,自己不再是崛起的未来之星,而是传统零售业的普通成员。在这个细节决定一切的行业,一个小失误就可能带来经济与名誉上的巨大损失。

C2C金皇冠大卖家的这次教训,也给淘宝商城中的“淘品牌”们以预警。两者虽然在淘宝提供的两个不同平台上经营,但有着相似的草根背景。

淘宝对于“淘品牌”的官方定义是:淘宝商城和消费者共同推荐的网络原创品牌。目前有100多个淘品牌。

三年多前,一批名不见经传、前身多为代工工厂或淘宝C2C卖家的小企业,是淘宝商城入驻最早的商户。而在两年前,其中表现上佳的成为首批“淘品牌”。伴随淘宝商城的扩张,“淘品牌”们获得倾斜而来的资源,而其中最为灵活与勤奋的,以每年增长5至10倍的惊人速率,飙升成为销售上亿的企业。超速的快感如此美妙。风险投资开始追逐垂直电子商务的新星:目前至少有5个淘品牌投资到位,还有一些正在洽谈。然而,当淘品牌们自认为已逃脱传统线下企业的宿命时,供应链管理、公司治理上的隐患—商业世界“中年”危机矗立面前。

尽管不是每个都发生质量瑕疵,但类似的隐忧已不容忽视。本次报道采访的五家淘品牌,无不把供应链升级、管理规范化列为公司发展重点。

压力不仅来自内部。去年11月11日淘宝商城的光棍节大促销活动,当日交易额9.36亿元,13个店铺单日销售额过千万,其中10个是传统品牌。而在近期某月度热销排行榜上,除了女装类“韩都衣舍”、美容类“御泥坊”这两个淘品牌,其余8个都为传统品牌。而在其搜索排行榜中,清一色皆为传统品牌。“淘品牌未来会碰到的困难主要有两个,一是因为成长太快,而品牌需要时间去沉淀;二是中国本土的传统品牌,和淘品牌之间的竞争。” 一淘网高级营销专家廖兵对本刊说。2009年4月,正是廖首次提出“淘品牌”概念。

去年以前,传统品牌本不愿入住淘宝商城。而在淘宝从渠道转为生态系统的过程中,淘宝商城投入大量资金吸引的外部流量、淘宝原本累积的3亿注册用户,成为淘品牌的肥沃土壤。或许是淘品牌们超预期的表现,令传统品牌开始领悟新商机,并纷纷入驻淘宝商 城。

现在,据廖兵的说法,维沙曼(Vero Moda),杰克琼斯(Jack Jones)、Only等品牌线下知名度高,线上销售非常厉害,年销售额可达数亿元人民币。而且,本土传统品牌通常集团作战,譬如博洋军团中有博洋家纺、艾夫斯、唐狮等十余家在淘宝开店;红豆集团有8支电子商务军团。这意味着,即使享有同等资源,淘品牌的转化率也不及传统品牌。

年轻的淘品牌在运营上的弱势暴露无遗。2010年淘宝网大客户广告价位为150万元、300万元和500万元三档,2011年500万元档直接升至800万元。对于资本更为雄厚的传统品牌,这是加速圈地的机会,而对于淘品牌,淘宝曾提供的资源渐渐流失,网络营销成本节节上升、电商人才难寻等现实难题迫在眉睫。

希望借此锤炼,蜕变为真正品牌的“淘品牌”们,限时赛即将开始。男装淘品牌斯波帝卡(Sportica)创始人吴诗辉意识到,新一轮竞争要求淘品牌直面传统品牌的竞争,做出再升级。“现在,强大的电商营运能力只是淘品牌成功必须有的一个基础,真正要取得成功,就要有和线下品牌一样拥有强大的品牌塑造能力,”吴诗辉说,“整个企业围绕品牌打造一个完整的系统,像供应链、市场营销,都要做得很好。”

好在,得益于对电子商务运营的专注及风险投资的介入,淘品牌拥有再升级的能力。

尽管入网后的传统品牌崛起迅猛,但仍有个学习过程,互联网世界的用户、平台及推广方式与线下迥然不同;另一方面,不少体量庞大的传统品牌尚未在战略上完全理清电子商务的地位。廖兵举了优衣库的例子:“目前优衣库在淘宝上的表现,在服装领域,销售排名可能连前20也进不了。可能因为线下扩张仍是它目前的主要战略,线上部分对淘宝重视度还不够。”据悉,优衣库的电子商务团队只有几个人,其他流程均外包给不同公司,在执行、沟通、战略层面上,并不得心应手。

事实上,未来的强势品牌,一定会兼具传统品牌和淘品牌的双重基因。传统品牌的优势基因在于制造、供应链、品质管控、品牌运营及对渠道的把控能力。淘品牌的优势基因则是创新、基于数据化的分析能力、基于网络技术的精细化运营能力、互联网推广能力;传统品牌应学习淘品牌的“轻”,而淘品牌则应学习传统品牌的 “重”。

“我认为2年之内,淘品牌在淘宝这个平台上还是领先的。但接下来2年至关重要,看(淘品牌)能不能把自己的短板补足。”廖兵说。

留给淘品牌的窗口期不长。“传统品牌的体量都很大,虽然他们现在还没想明白怎么做电商,但他们早晚会想明白的”,淘品牌韩都衣舍的创始人赵迎光说。现在,韩都衣舍在全力争取时间,在传统品牌真正想明白、协调好之前,率先树立行业地位。

不过,对于处在不同垂直品类的淘品牌,再升级的窗口期长短也不尽相同。如果线下产业中有定位相似的巨头存在,窗口期会很短;反之,淘品牌可以相对从容地升级。在淘宝商城,男装品牌的竞争尤为激烈,七匹狼、雅戈尔、杉杉、红豆等,定位在中层的传统大型品牌太多,且男装比女装更容易规模化,而难以做到差异化竞争。

相对来说,在箱包、童装、化妆品渠道等品类中的淘品牌更从容一些。练内功

在所有淘品牌中,做箱包的“麦包包”一直以来是顺势跑得最快的。今年,它给自己定的营收目标是10亿元,相当于卖出将近千万只包,每天有数万只包从库房出仓,奔向全国各地按下鼠标的消费者们。

“麦包包已经是中国最大的箱包公司,不是网上的,而是国内整个线上、线下最大的箱包公司。”创始人叶海峰告诉本刊。

2009年到2010年期间,麦包包得到联想投资、DCM和挚信资本总计4500万美金的两轮投资,这在短期内快速拉升麦包包的体量。以团队规模计,2007年十几个人;2009年上半年100多人;2010年500人;现在是1000多人。在供应链上,从箱包代工起家的叶海峰不但有自己的工厂,现在还拥有一百多家供应商;仓储的范围从嘉兴拓展到广州、北京,武汉和成都也即将开仓。

与此同时,麦包包也在竭力变“细”。其首席运营官邱玉栋在内部常说:“再快也要把鞋上的泥弄干净。”邱玉栋曾在物美集团工作九年,加入麦包包前,他是当当网分管财务的副总裁。2009年,他从北京来到嘉兴。“以前在管理上比较靠人治,有些制度和流程不太规范。经过流程梳理以后,现在有400多个流程,3800多个流程节点,每个人按流程完成每天该做的事情。”邱玉栋对本刊 说。

对于未来,叶海峰并非高枕无忧:“我们还没有经历过10亿级别的规模,有一个忧患意识,提前感到要做到这个量级不那么容易。挑战是未知的,我们会通过团队建设、练好内功来面对。”

但如何练就内功,对不同领域的淘品牌来说,则需要深思熟虑,击中要害。拥有3个童装淘品牌的绿盒子网络科技有限公司,今年的营收目标是2.5亿。2010年,绿盒子先是引入挚信资本1500万元投资,不久又得到DCM1.2 亿人民币的投资。这些钱怎么用?绿盒子创始人吴芳芳告诉本刊:“外部推广目前倒不是我们最为看重的,更多的资金会花在供应链升级、产品升级、品牌建设。”

在供应链升级方面,绿盒子在网络童装品牌中率先提出要做“安全童装”,在秋冬面料上进行全检,同时把供应链体系重新做出筛选和升级,工厂也作了一轮淘汰。一部分资金用于指定第三方质检,以代替工厂提交的质检报告。“这势必增加我们的生产成本,但从长远来看,一个品牌作这些投入还是有必要的。网络是一个新兴的消费模式,大家都有担心我在网上买的东西怎么有质量保证?我觉得童装这个领域,不仅是质量保证,安全保证非常重要。”吴芳芳说。

而在库存管理方面,绿盒子有着严格的要求:“实话实说,‘零库存’已经不大可能了。但我希望我们在业内做到库存量最低的品牌。”做到这点颇为不易。通常而言,线下的童装市场,当季消化率70%已相当不错,会有30%的库存率。而绿盒子则借助数据分析,做好销售预测,同时兼顾供应链的管理和资源整合。一切努力都是为了实现5%至8%的库存目标。

员工总数500多人的绿盒子,有80多人的设计师团队和20多人的数据分析团队,这两个团队的员工比重远高于多数淘品牌。

吴芳芳本人是设计师出身,她相信绿盒子的核心竞争力不在推广,而在于产品。“我觉得中国的童装开发团队里面,我的团队是最强的。我们的设计团队里面,有日本、台湾、香港设计师。我不怕竞争,因为我们实实在在卖产品。”

相比箱包和童装,淘宝商城的女装品类竞争要激烈得多。但为什么韩都衣舍能蝉联两个月淘宝商城“月度热卖排行榜”榜首?韩都衣舍已经获得了IDG千万美金级别的投资。无独有偶,韩都衣舍也竭尽全力学习做一个“快时尚”服装制造商。

根据韩都衣舍提供的数据,这家渠道品牌和产品品牌复合型的品牌,2011年上半年的销售额超过1亿元,预计今年会超过3亿元。当季SKU(库存单位)数量为5000款左右,保持每天上架40款的更新速度。

2009年以前,赵迎光还只是把网店定位为做“进口韩国商品”的品牌代购生意。当时他从韩国寻找最时尚的服装品牌,供顾客挑选,再根据顾客订购量从韩国进口商品。但后来,他发现这种业务的四大硬伤:等待时间过长、经常容易断货缺货、无法退换货、性价比不高。

经过长时间思考,他决定从代购商转变为“时尚进口专家”。韩都衣舍开始组建“买手小组”,作用是:负责跟踪大量韩国品牌的产品,从中选出款式不错的产品,然后进行样衣采购、试销,再根据试销情况在中国找代工工厂量产。同时,买手小组之间又形成竞争。其销售冠军小组的5个人是一年半以前组合的,从当初的10 万元起步费,做到了现在每个月200多万的销售额。

近5000款衣服中挑选出40款,这需耗费极高的人力成本。“我觉得互联网,特别是时尚这类的非标准化的产品,不可能参照数据分析,只能用人的眼睛和经验。” 赵迎光说。韩都衣舍今年最重要的任务还包括提升生产供应链及产品质量。

产品开发、团队建设、供应链升级、规范化管理,这是几个意图做大的淘品牌们共同的关键词。在窗口期内迅速练就足以和传统品牌相媲美的后端实力,以应对即将到来的竞争。但疑问也就此产生,这样一来,淘品牌是否会向传统品牌的生存模式回归呢?

比传统更多

回归传统,的确是个不可逆的方向。

淘品牌的再升级,目标是成为真正的品牌,而不再是具有可替代性的网货卖家。如果只是依赖淘宝商城,风险过于集中,迟早会碰到销售天花板。“出淘”一度成为热议的话题。

但外面的世界并不精彩。经营百货的柠檬绿茶出淘后建立独立B2C平台,流量和销售额不尽如人意。

更安全的方式似乎是:淘里、淘外并行发展,即线上、线下覆盖全网络道路。在凡客推出的V+平台、京东大力推动的百货平台以及当当网、麦考林、拍拍网等众多占市场份额较小的平台上,能看到越来越多的淘品牌。

男装淘品牌斯波帝卡出现在所有主要互联网销售渠道上,同时积极拓展线下实体店铺。据创始人吴诗辉介绍,现在来自淘宝商城的销售收入只占到一半,而2009 年时90%的销售都在淘宝平台上。“淘宝所占的比例一直在下降,但总体销售一直在上升。我们给其他网络平台更高的扣点。”吴诗辉说。

童装淘品牌绿盒子提供的数据也支撑类似结论:淘宝商城仍占到绿盒子70%左右销售额,不过,在V+、京东等平台上,基本上可以实现每个月150%的增长。而淘宝的体量已经很大,增速开始放缓。韩都衣舍目前的销售额的80%来自淘宝平台,但赵迎光认为:“淘品牌今后一定是要往全网品牌继而全渠道品牌的方向发展。

尽管战略已明确,但大多数淘品牌在执行中仍显保守。譬如,对于独立B2C的投入,目前只有麦包包的独立B2C网站已经带来多过于淘宝商城的销售额。2009年拿到风险投资以后,麦包包即投入千万用以推广自己的网站。叶海峰对此解释:“主要是正确的时间点去做了。当时外部流量成本是可以承受的,所以做起来了。现在外部流量成本居高不下,因此难做。目前也在投外部的广告,但效果没有以前好。”

同时,从线上起家的淘品牌对于线下的广阔市场也各有考量。一些淘品牌意识到,目前整个电子商务行业非常浮躁,尤其是B2C领域,流量成本被过分拉高,对于大投入的独立B2C平台,不必刻意为之。叶海峰曾在2007年通过开加盟店做线下销售,但如今决定将全力发展麦包包的线上渠道。

绿盒子已经在上海开出2家体验店铺,还将在北京、深圳等大型城市陆续开设,但速度不会太快。今年计划是5至6家,明年30至50家左右。“我们计划在大城市完全以直营的方式做;在其他城市作联营。”

绿盒子不敢过快拓展线下业务。线下店面尽管可带来销售额,但更重要的作用在于体验与互动。“我们希望每一个店铺可以做好,可以服务好我们的客户,并且可以成为线上和线下非常完美的承接。”吴芳芳说。

斯波帝卡已在上海松江、广西、云南、河南、山东、安徽、厦门开出十几个加盟店,计划今年在全国开出80家到100家实体门店,仍以加盟形式为主。就在去年,斯波帝卡花了一年时间做了市场调查、形象布置、零售系统等前期准备。不过,加盟店素来难以管理,开在二三线城市可以带来的品牌效应也尚未可知。这种难度对传统线下商家尚属难题,何况一家线上起家的企业。说到底,成长与蜕变的最大阻力通常来自自身。正如经纬中国创始人张颖在微博中所言:“这些在温床里成长起来的淘品牌还不具备很强的独立竞争能力,也没有花时间专业化提升自己的团队。这些瓶颈长远会是致命的!”

跨平台数据库 篇6

摘 要:在教育领域中,管理和决策越来越依赖于数据和分析,如何利用大数据科学决策是高校近年来信息化建设关注的主题。文章分析了高校共享数据中心平台的理论知识和相关技术,讨论了面向服务的数据交互技术方法及共享数据中心的非技术因素。最后分析设计了面向主题域的常熟理工学院共享数据中心,并对其体系架构及关键业务系统的数据流向做了详细的分析叙述。

关键词:大数据;数据交换;数据中心

中图分类号:TP392 文献标志码:A 文章编号:1673-8454(2015)10-0010-03

大数据科学决策是高校治理体系和治理能力现代化的关键。在教育领域中,管理和决策越来越依赖于数据和分析,而非基于经验和直觉,然而,目前大多数高校的管理模式中信息化的作用尚未充分体现,尽管在长期的办学过程中积累了大量的数据,但这些宝贵的决策信息资源没有得到相应的整合和开发,更谈不上利用这些数据对学校的教学、科研、管理等各项事务进行预测和分析。随着大数据发展而带来的教育政策研究与决策“用数据说话”的趋势亦渐明显,构建共享数据中心,将这些海量、分散、异构的数据资源集成起来达到共享、融合,通过多维度、多层次、多群体、多因素数据分析并形成一定的应用模式,从中分析和挖掘潜在的价值,去解决高校事业的瓶颈问题,是将大数据应用于教育领域的重要举措。

一、大数据时代的高校共享数据平台的相关技术及理论

1.信息编码标准

信息编码标准是做好信息管理的基础,信息只有遵循一个统一的标准进行组织,才可能构成一个可流通、可共享的信息库。信息编码标准是数字化校园中不同层次的系统尤其是应用系统能够相互访问的基础。数据交互过程中,各业务系统数据信息要按照信息编码标准的数据标准进行数据清洗和过滤,处理后的数据才会存储到中心数据库。信息编码标准是学校信息化建设的必要条件;同时信息标准的水平也反映了学校信息化建设的水平和高度。

2.共享数据模型

共享数据中心主要完成学校各类跨地区、跨部门、跨系统的管理数据与信息资源的数据交互和共享,是各个业务系统数据交互的中转站,是信息资源的存储中心。由于各学校早期的信息化建设基本都是由业务部门主导,缺乏统一规划,没有统一标准。同时考虑成本以及推倒重来的建设风险等因素,一般建议采用交集数据中心模式建立共享数据中心,即:各系统间的数据交互完全通过数据中心来完成;共享数据中心只对交互系统之间需要交互的数据建模,各系统沿用原有的权限模型,需要交互的数据在相关系统中独立的存在,但所有数据有且只有唯一的维护源头。

二、大数据时代的高校共享数据平台总体设计

1.共享数据中心体系架构(图1)

(1)数据采集层

采集的数据主要包括基础数据,如人、财、物等基本信息;学校开展教与学主体事务的业务数据,如教师教学、学生选课等;体现教师学生成长与发展的过程数据等。数据采集层主要完成上述相关数据的采集工作,其中大部分数据随着其相关的业务系统日常运作过程而积累下来,还有一部分是相关管理人员手工录入,或者电子表格批量导入。

(2)数据集成层

数据通常存储在很多个不同的数据存储系统中,从所有源中提取数据并将其合并到单个一致的数据集中确实有一定的难度。数据交换工具通过转换功能对数据进行清理、标准化及转换,数据转换为兼容格式后,就可以将其物理合并到一个数据集中,并且数据在合并成功且应用转换后,通常会被加载到一个或多个目标。

数据集成层同时还负责加载数据库中的维度表和事实数据表,处理 Analysis Services 多维数据集和维度,使用 Integration Services 任务和转换来自动处理更新多维数据集和维度,使用户始终获得最新的数据。

(3)管理操作层

管理操作层的基础数据主要来自各个业务系统,有的统计指标类数据是经数据仓库加工提供。管理操作层面向教育治理者日常管理,主要包括师资队伍建设管理、师资结构分析、学业预警、教学考核等。归纳如下:

为满足日常管理,提供了以固定报表为主的综合报表统计平台。

为便于突发性和临时查询需要,提供了各大主题的综合查询平台以及基于数据仓库的灵活查询功能。

为规范对外数据报送,提供了统一的对外数据报送接口。

2.主要业务系统数据流向

共享数据中心本身不会产生数据,所有的业务数据的维护遵循数据生命周期按照“谁产生,谁维护”的原则,各自业务系统分别产生数据,所有数据只有唯一的生产源头。共享数据中心与各业务系统之间进行交互,一方面保证基础数据在各系统中的一致性,同时也对主要业务数据进行积累沉淀。

以学生数据为例,学生的人头数据以学籍系统为准,而学生的其它基础数据又在学工系统中维护完善。数据共享中心既负责从学籍系统中抽取学生人头数据推送学工系统,同时又从学工系统中抽取完整的学生基础数据存储在数据中心,图书系统、一卡通系统等业务系统从共享数据中心订阅学生相关数据。其主要业务系统数据流向如图2所示。

三、共享数据中心的非技术因素

1.数据质量管理

数据是高校有效开展信息化管理和辅助决策分析的依据,是实现高校治理现代化的重要保障,因此其质量和时效性已经越来越受到高度关注。提高数据信息的质量,加强数据管理,不仅需要在高校日常工作中充分利用现代信息技术,强化高校业务与信息技术的融合,还要依靠广大师生的配合参与,必须循序渐进,稳步推进。

(1)从源头治理,从数据录入、内部处理入手,把好数据质量“入口关”;

(2)督促问题治理,部署检查规则,实现问题数据发现、分发、治理、监督、考核闭环管理,把好数据质量“治理关”;

(3)做好规范管理,完善制度、规范流程、系统硬控制,把好数据质量“流转关”。

2.数据安全管理

大数据既意味着机遇,也蕴涵着挑战。数据安全管理问题,是高校应用大数据面临的最大风险。虽然共享数据中心模式数据管理,方便了数据分析和处理,但由于安全管理不当所造成的大数据丢失和损坏,则将引发毁灭性的灾难。在使用数据过程中应遵循以下原则:

(1)使用生产数据必须经过申请和审批,开发测试环境使用生产数据必须进行数据混淆。

(2)对生产用户进行严格的授权管理,防范非授权访问生产数据。

(3)含敏感信息的生产数据应使用专用邮箱传输等。

(4)对生产数据建立和实施严格的备份机制。

四、总结

在大数据的支撑下,高校运行过程的各种元素能够实现数字化的呈现,数据得到实时流转、存储和整合,信息按照权限充分公开。大数据能够聚焦于决策对象的微观层面,将原本模糊的现象通过数据逐步清晰的描述出来,大数据是超越个体与局部的相对静态视野,更容易发现问题所在、可能弱点和盲区的宏观动态视野并且用于各项事务的预测和决策。本文讨论了面向服务的数据交互技术方法、数据流向以及一些非技术因素,设计了面向主题域的共享式数据中心。本共享数据平台成功应用在常熟理工学院数字化校园建设项目中,通过数据交换、主题分析,为学校的科学决策提供了有力保障,推进了学校的现代化治理能力和水平。

参考文献:

[1]姬倩倩,温浩宇.公共交通大数据平台架构研究[J].电子科技,2015,(2):127-130.

[2]陈瑞.大数据时代基于共享平台的信息服务工作研究[J].科技创业月刊,2015,(1):20-22.

[3]赵巍,刘丹,王欢.高等学校共享式数据中心设计与实现[J].长春理工大学学报(自然科学版),2015,(1):132-135.

[4]陈霜叶,孟浏今,张海燕.大数据时代的教育政策证据:以证据为本理念对中国教育治理现代化与决策科学化的启示[J].全球教育展望,2014,(2):121-128.

[5]张建.教育治理体系的现代化:标准、困境及路径[J].教育发展研究,2014,(9):27-33.

[6]阎光才.高等教育治理体系与治理能力的现代化[J].苏州大学学报(教育科学版),2014,(3):1-3.

跨平台数据库 篇7

电力系统电磁暂态过程是电力系统中短暂的、但却非常重要的物理过程。所有的故障都伴随着相应的电磁暂态过程。因此,对电磁暂态的监测、记录和分析一直是电力系统中重要的研究方向。近年来,随着电子技术的快速发展,电力系统内暂态录波逐步向高采样率、连续稳态记录和海量存储方向发展[1],并且记录格式逐渐统一到了IEEE Std C37.111—1999标准[2]。目前,录波数据海量化的发展趋势明显,并且已经对各种基于串行编程实现的电力系统暂态数据分析软件[3,4,5]造成不小的压力,其中,最明显的就是当采样点数过多、多个模拟量通道集中显示时,反应速度都较慢,甚至有的软件系统出现了由于图形系统绘制效率过低而导致的系统完全失去响应,最终只能强行退出的情况。

在计算机硬件技术发展方面,随着芯片设计和制造工艺逐步达到了物理极限,在过去40年中,指导CPU时钟频率发展的摩尔定律逐步走向终结。CPU性能上的提升转而通过改变其原有的体系结构,即由单核转变为多核来实现。多核计算机的出现、发展和迅速普及带来了一场计算技术革命:原来传统的、面向单核的串行编程技术被完全颠覆,逐渐被基于多线程模式的并行编程技术所取代。过去软件完全依赖CPU主频来提高运行速度和效率的时代已经过去,软件要提高运行速度和效率,就必须依赖于软件系统本身在设计上适应新的计算机体系结构。

针对这2个方面的发展趋势,结合多年从事电力系统故障分析软件研究的基础[3,6,7,8,9],通过研究对比Windows和UNIX下的各种绘制技术,本文提出并实现了可跨平台的海量COMTRADE波形数据并行绘制算法,可有效提高面向海量故障录波数据、海量广域测量数据和海量电能质量录波数据的软件显示效率。算法可以随着未来CPU核的数量的增加和绘制工作量的增加,获得线性加速比,适应计算机硬件体系结构发展的需要。

1 算法基础分析

文献[9]把传统设计中通道图形对象与通道录波数据之间的包含关系改造成相识关系,实现了录波分析软件中与波形数据量无关的图形撤销算法。本文在文献[9]基础上进一步改造传统暂态分析软件中录波数据、通道图形对象、用户控制这三者间的关系,使得改造后的新关系能让并行绘制成为可能。

传统的基于串行绘制的关系和改造后的基于并行绘制的关系分别如图1和图2所示。

从图1可见,在传统的基于串行绘制方式的关系中,一切都是紧耦合的,所有需要显示的波形数据采用串行方式在单一图层上进行绘制,效率低下。无疑这种关系下的绘制系统已经不能适应并行计算技术的发展。而在如图2所示基于并行绘制方式的新型关系中,数据和图形已经被解耦,并且把原有的单一图层划分为波形图层和用户控制图层。其中,由于波形图层的绘制量占总绘制量的99%以上,所以,要提高绘制效率就必须充分利用多核计算资源,将绘制过程并行化。而用户控制图层用于绘制与用户进行交互的图形提示信息(例如标签、坐标等)和数据显示信息(例如计算结果等),这部分绘制工作量非常小,所以可采用串行方式进行绘制。

2 绘制技术选取

为实现海量COMTRADE波形数据的并行绘制,分别采用如表1所示绘制技术进行试验,并得出了相应的是否支持并行绘制的试验结果。

由于目前绝大多数第三方电力暂态数据分析软件都基于Windows技术开发,于是试验1首先采用“GDI+位图”技术模式。试验1内容为:采用2个映射到不同CPU核的线程,在不同设备上下文(device context, DC)、不同位图上进行绘制,并记录单一线程和双线程并行执行下的耗时。通过试验发现,由于Windows内部所有的图形设备接口(GDI)对象(画笔、画刷等)都是进程所有而非线程所有,因此,这种技术模式只能实现并发绘制,而无法实现并行绘制。并发绘制过程中,由于Windows图形内核会自动进行同步,所以导致线程由于不断切换而引起效率严重下降。由于OpenGL规范中支持多线程绘制,于是试验2采用了“GDI+位图+OpenGL”技术模式, 结果发现在不同DC(不管是不是兼容DC)中,Windows只允许进程中一个DC在同一时间绘制兼容位图,但是,由于具体绘制时使用OpenGL而不是GDI对象,所以绘制速度与试验1相比有小幅改善,但还是明显慢于此技术组合下相同工作量的单线程,因此,这种技术模式也只支持并发绘制而不是并行绘制。

由于Windows下的图形绘制技术都无法实现并行绘制,于是转向UNIX下的图形库X11。试验采用最新的QT4[10]库,其图形库部分就是在X11的基础上实现的。试验3采用“QImage+QPainter”技术模式,结果发现由于X11库中绘制对象完全是线程独立的,因此可以实现并行绘制。试验4采用“QImage+QGLPixelBuffer+QPainter+OpenGL”技术模式,也就是在QGLPixelBuffer中采用OpenGL绘制(QPainter用于控制OpenGL的绘制目标设备为QGLPixelBuffer),而后再转换为QImage,通过试验发现,这种技术模式可以实现并行绘制,但由于要在多种不同绘制图层中进行类型转换,所以效率没有试验3采用的技术模式快,并且由于波形绘制都是二维,因而试验3的方案就可满足需要,因此,选用“QImage+QPainter”技术方案作为并行绘制算法所采用的技术模式。

3 并行绘制算法

3.1 算法步骤

如图3所示,算法被设计成并行流水线模式,同时有多个通道绘制线程在不同的QImage上绘制图形。每个线程的绘制工作量划分采用如下公式计算得到:

{ΜDrawSΙ=ΜSΙ+(ΜEΙ-ΜSΙ)(ΝΙD-1)ΡΜDrawEΙ=ΜSΙ+(ΜEΙ-ΜSΙ)ΝΙDΡ(1)

式中:MDrawSI和MDrawEI分别为每个通道相对于通道数据原始保存数组的起始下标和结束下标(也就是每个线程对于此通道的实际绘制范围);MSI和MEI分别为需要显示的通道数据原始保存数组起始下标和结束下标(也就是通道当前需显示范围);P为系统CPU核的个数;NID为线程ID号,取值范围为1~P

通过把每个需显示通道的绘制量均匀分到每个线程上,实现了负载平衡。

下面采用跨平台的线程库Pthreads[11]详细阐述算法步骤:

步骤1:采用Phtreads应用编程接口(API)函数pthread_num_processor-s_np 获取到当前系统的CPU核的个数P。创建开始绘制条件变量StartDraw和每个线程可共享的图像对象QImage,建立P个相同的通道绘制线程(指定线程ID号NID为线程创建顺序序号1~P)。建立单一的用户图形操作绘制线程。调用Pthreads API 函数pthread_attr_setscope设定线程运行模式为系统竞争模式,以保证绘制过程中占据所有CPU核。

步骤2:在窗口大小改变等触发窗口重绘的消息函数中,获取当前可视窗口大小,经过坐标转换、映射后得到后台实际窗口坐标系中的当前可视矩形区域。通过通道矩形与当前可视矩形区域的与运算获取需要显示的通道列表及其对应的数据显示范围(即式(1)中需显示的波形数组起始下标MSI和结束下标MEI),并将这些信息做全局共享。

步骤3:触发开始绘制通知条件变量StartDraw,激活所有线程在其自有的可共享QImage对象上进行绘制。对于波形绘制线程而言,获取通道显示列表及其对应的不同显示范围后,对于每一个通道采用式(1)计算出需要绘制范围MDrawSI和MDrawEI,绘制对应波形。而在用户图形操作绘制线程中,则将当前的各种用于与用户交互的图形信息在其内的QImage对象内进行绘制。各个线程绘制结束后,向主窗口发送异步自定义通知事件FinishEvent。最后,各个线程重新被条件变量StartDraw阻塞,等待下一次激活。

步骤4:在主窗口中的FinishEvent事件响应函数中判断是否所有线程已经绘制结束。如已经绘制完毕,将所有通道绘制线程所对应的可共享QImage进行融合,得到波形绘制图层,之后再与用户图形操作绘制线程内可共享的QImage对象融合,并将最终融合结果提供给主窗口进行贴图显示。

步骤5:主窗口关闭时,依次对每个线程调用Pthreads API函数 pthread_cancel进行退出,再依次调用pthread_join等待所有线程全部安全退出。

3.2 通道绘制线程内的详细算法伪码

通道绘制线程内的伪码如下:

从以上伪码可知,通道波形绘制只需要触发开始绘制条件变量StartDraw即可,只在需要绘制时才占用CPU资源。在没有触发重新绘制以前,主窗口中只是在以极快的速度贴图而已,因此算法效率很高。参数Format_ARGB32_Premultiplied的意义是产生可供融合的特殊Alpha通道图像。

3.3 图层融合详细算法伪码

图层融合的伪码如下:

可见,QImage的融合算法非常简明,只是在一幅透明QImage对象上不断进行图像的“与”运算,所以速度很快。CompositionMode_Sourceover参数的意义是在透明图形上进行与运算。

4 试验结果

算法试验所采用计算机配置为4核,单核2.4 GHz,内存2 GB。试验中采用需绘制点数为20万点的模拟量通道对象,绘制图形大小为1 024×768。试验中忽略用户图形操作线程及其耗时,试验结果如表2所示。

从表2可见,抛开图形融合耗时,此算法已实现了效果非常理想的并行绘制,而图像融合耗时增加也只是每增加一个QImage对象,增加6 ms~7 ms的耗时,并且图像融合耗时相对于并行绘制时间要小得多。此试验表明采用本文算法后在4核计算机上就可将图形系统的响应速度提高3倍,因此,该多核并行绘制算法可有效改善海量波形绘制系统的性能。另外,从表2也可知,此算法可随着CPU核的数量的增加和绘制量的增加,获得线性加速比。

5 结语

随着电力系统信息化建设的快速发展,各种暂态数据的分析处理在电力系统运行中的地位将越来越重要。因此,各种第三方暂态分析软件如何有效利用多核并行计算资源来应对暂态数据海量化的发展趋势,将会是所有厂家都必须面对的挑战。本文所提出的并行绘制算法完全采用了跨平台技术,适应了电力系统软件跨平台的发展趋势,同时也适应了多核并行计算的发展趋势,可有效改善当前所有此领域内串行绘制系统的响应速度。

摘要:针对当前第三方电力暂态数据分析软件在绘制海量波形数据时出现的效率低下、反应缓慢情况,结合多核并行计算技术,提出了一种可跨平台的海量COMTRADE波形数据并行绘制算法及其技术。该算法在分析传统串行绘制系统内部关系的基础上,提出了基于并行绘制的新型关系:将原有单一图层分为波形图层和用户控制图层,其中以并行方式绘制波形图层,而后通过融合图层方式完成最终绘制。通过试验分析Windows和UNIX下的各种图形绘制技术,找到了最适合海量波形数据并行绘制的跨平台技术组合:“QImage+QPainter”技术模式。结合跨平台的线程库Pthreads,详细论述了并行绘制算法的每个步骤,给出了让通道绘制线程能负载平衡运行的绘制工作量均分公式,同时给出了通道绘制线程和图层融合详细算法的伪码。试验证明所提出的并行绘制算法可获得较大加速比,并可随着绘制工作量的加大和CPU核的增多,获得线性加速比。

关键词:COMTRADE,海量数据,并行绘制,QT4,Pthreads

参考文献

[1]白青刚,夏瑞华,周海斌,等.采用高性能集成芯片的故障录波故障设计.电力系统自动化,2005,29(22):94-96.BAI Qinggang,XI A Ruihua,ZHOU Haibin,et al.Design of fault wave recording device using high performance integrated microchip.Automation of Electric Power Systems,2005,29(22):94-96.

[2]Power System Relaying Committee of the IEEE Power Engineering Society.IEEE Std C37.111—1999IEEE standard common format for transient data exchange(COMTRADE)for power systems.1999.

[3]桂勋,郭凯,谭永东,等.基于网络的全图形化故障录波分析软件系统.继电器,2004,32(24):44-50.GUI Xun,GUO Kai,TANG Yongdong,et al.All-graphic software system for fault record analysis based on network.Relay,2004,32(24):44-50.

[4]郑敏,黄华林,吕鹏,等.故障录波数据通用分析与管理软件的设计.电网技术,2001,25(2):75-77.ZHENG Min,HUANG Hualin,L Peng,et al.General analysis and management software for transient data from protective relaying and fault recorder.Power System Technology,2001,25(2):75-77.

[5]杜新伟,李媛,刘涤尘.电力故障录波数据综合处理系统.电力系统自动化,2006,30(12):75-80.DU Xinwei,LI Yuan,LI U Dichen.Integrated processing systemfor power fault recording data.Automation of Electric Power Systems,2006,30(12):75-80.

[6]桂勋,刘志刚,钱清泉.基于模式的电力系统通用可扩展故障分析软件系统.电力系统自动化,2007,31(15):99-102.GUI Xun,LI U Zhigang,QI AN Qingquan.General extensible fault analysis software for power system based on patterns.Automation of Electric Power Systems,2007,31(15):99-102.

[7]桂勋,刘志刚,钱清泉.故障录波分析中的三维分析方法.电力系统自动化,2007,31(17):99-102.GUI Xun,LI UZhigang,QI AN Qingquan.3-Danalysis method for wave record fault analysis.Automation of Electric Power Systems,2007,31(17):99-102.

[8]桂勋,姚兰,钱清泉.可扩展的电力系统故障集成分析环境.继电器,2007,35(7):1-5.GUI Xun,YAO Lan,QI AN Qingquan.Expansive integrated analysis environment for power system fault.Relay,2007,35(7):1-5.

[9]桂勋,姚兰,钱清泉.录波分析软件中的图形状态记忆算法.电力自动化设备,2007,27(9):35-39.GUI Xun,YAO Lan,QI AN Qingquan.Memory algorithm of wave chart state in fault record analysis software.Electric Power Automation Equipment,2007,27(9):35-39.

[10]BLANCHETTE J,SUMMERFIELD M.C++GUI programming with QT4.2nd ed.Englewood Cliffs,NJ,USA:Prentice Hall,2008.

给排水企业数据库平台构建 篇8

1 企业数据中心存储类型

1.1 静态数据库

静态数据库应该存储整套系统最基本的数据。静态数据库信息应该是给排水企业现有人、物、方法、事件方面的基本属性信息。静态数据应有统一的识别编码系统,用来保证数据的唯一性。其建立应该至少满足第三范式的要求。企业数据中心逻辑结构如图1所示。

其他数据库信息的存在都是以静态数据库的存在为前提,所有其他数据库信息的增加前提需要有静态数据库的相关信息索引,动态、模型数据库的主键需要直接来自于静态数据库信息,外键信息在静态数据库中应该有信息检索。静态数据库用来存储基本的数据类型,主要是一些宿主数据和元数据,其数据元素包括: (1)公知常识:性别、日期,周,计量单位天气预报术语的量化等。

(2)生产相关数据:设备、材料的编号、GIS系统基础地形,位置信息、管网数据库相关信息、人员识别信息、通信用基本Port点信息等。

(3)管理相关数据:管理流程、待遇标准、规程管理信息等。

(4)调度相关数据:调度系统优化参考点及量化信息,专家库系统关键信息字段等。

1.2 动态数据库

动态数据库至少包括三类数据:一是有关SCADA数据采集数据:可以通过自动化系统采集的各种分类数据,如原水表Tb_ZT1000,测压点表Tb_ZT2000等等;二是运行相关数据:应根据现有运行数据库的情况和系统数据库设计的要求,建立与自控系统合理的数据接口,以实现与自控系统的数据通讯连接[1]。应对自控系统的数据进行筛选、归并和汇总,提取相关数据, 建立统一的运营监测数据库,为给排水运行调度和管理提供及时准确的信息,便于对给排水系统进行全面的监视;三是管理运行相关数据:大部分项目数据是按照Word文档和Excel表格的形式予以保存和管理,其它则仍以纸质的形式予以存放和管理。必须依据系统的要求对这部分数据进行整理和数字化录入工作,以保证文档资料数据的完整性。

1.3 模型数据库

模型数据库主要存储模型运行相关的支撑数据, 边界条件接口,模型运行结果的存储,保存,展示设置等信息。

模型包括给排水管网模型,净水处理厂模型,污水处理厂模型,模型的精度和广度依据实际情况的不同, 范围和精度有较大的差别。包括定位于初级调度和规划的初级建模应用,定位于综合调度及设计的中级管网建模和可以应用于管网渗漏控制的完整管网建模系统。不同的模型精度的范围依据建模工具是使用第三方成熟的软件平台和根据已有的EPNET软件开发的模型,数据设计而不同。

1.4 历史、分析数据库

历史数据库主要对必要的信息进行周期性的存储,数据推荐按照推荐按照重要数据5分钟存储一次, 其他数据10分钟存储一次,进行历史数据的存储。为了检索方便,建立历史数据库检索系统。好的索引选择可以提高数据定位及数据操作效率。

数据库管理系统根据索引标记的关键值(一般是数据块在磁盘上的位置) 进行数据块的磁盘定位及磁盘I/O,而对索引字典的操作(查、增、删等)计算机CPU计算时间及索引数据的磁盘I/O次数取决于索引技术的选择。数据块在磁盘上的存储组织方式(如存放连续性等)直接决定数据的磁盘I/O次数,而索引块的存储组织方式直接决定定位到数据块关键值的计算机CPU计算时间及索引数据的磁盘I/O次数。

1.5 数据中心库

数据库是信息化建设的重要基础。数据库设计通常是作为应用系统开发的一部分进行的,但在应用系统开发中数据库设计具有特殊的重要性和相对独立性,因此在本规范中专门进行规定。

开发者在系统设计阶段,应采用合理的设计方法进行数据库设计,建立数据库的逻辑模型和物理模型, 最终设计出高性能、易扩展、易维护、少冗余、高安全性、高可靠性、一致性和完整性好的数据库。

1.6 数据仓库

广义的数据仓库包括2部分,一是数据仓库数据库,用于存储数据仓库的数据;二是数据分析部分,用于对数据仓库数据库中的数据进行分析[2]。广义的数据仓库设计应该包括数据仓库数据库的设计和数据仓库的应用设计2个方面,而数据仓库的应用与数据仓库的设计一脉相承,共同构成了数据仓库应用的整个生命周期,这个周期包括3个阶段:数据仓库规划分析阶段、数据仓库设计实施阶段及数据仓库的使用维护阶段。

2 数据交换整合

数据库交换整合主要体现在透明的数据库接口及异构数据库的存取功能,后者在前面已经有描述,透明数据库接口包含以下内容:

(1)表命名规范

表名用T_ 开头,表名一般不超过三个英文单词, 长度不能超过30个字符。表名能表达表的功能的英文单词或缩写英文单词;也可用汉语拼音的方式命名。无论是用缩写或完整英文单词,或者是拼音字母, 单词均应大写。表名中含有单词全部采用单数形式,多个单词间用下划线(_)进行连接。若库中有多个系统,表名采用系统名称 + 单词或多个单词。

(2)字段命名规范

字段能表达字段功能的英文单词或缩写英文单词;不超过三个英文单词,长度不能超过30个字符,多个单词间用下划线(_)进行连接。表中的主键,名称取为:“ID”,其数据类型为varchar,主键数据一律采用java程序或存储过程按照一定的规则生成,不允许采用自增长的数据。

(3)索引使用原则

a.数据库表的逻辑主键采用唯一的成组索引,对系统键(作为存储过程)使用唯一的非成组索引,对任何外键列采用非成组索引,同时考虑数据库的空间大小,表访问方式,以及这些访问是否主要用作读写。

b.主键的相关信息应该是在静态数据库中有相关信息,可以利用主键和外键组合作为索引,也可以采取用外键建立多级索引。

c. 数据库大多都索引自动创建的主键字段, 同时也要考虑索引外键,它们也是经常使用的键。

d.为了不让索引占用太多的存储空间,一般不索引blob/text等字段或者引大型字段(有很多字符)。

e.常用的小型表不建议建立索引或为小型数据表设置任何主键或外键, 尤其这些小型表需要经常有更新、删除和插入操作的情况下。

(4)字段类型规范

规则:用尽量少的存储空间来存数一个字段的数据,比如能用int的就不用char或者varchar。

考虑到数据库未来的可能的变化,对于字符型推荐采用varchar(N),格式的字符型,对于数字型不确定数据类型,采用较为宽泛的数据类型。

时间戳字段尽量用varchar (20) 型,或者直接用datetime字段类型,如created:表示从 '1970-01-01 08: 00:00' 开始的int秒数,采用英文单词的过去式;

静态数据库多采用小型的结构表,数据库的冗余应该至少达到第三范式的标准。

(5)存储过程的命名规范

存储过程的命名按照以下命名规范:PR _ + 系统模块缩写(与表前缀类似)+_+ 功能标识字符串 + 表示存储过程操作的主要表名(不带前缀)或功能的英文单词或该单词缩写,长度不能超过30个字符。

(6)函数命名及设计规范

函数的命名规范:FU _ + 系统模块缩写 +_+ 功能标识 + 表示函数操作的主要表名(不带前缀)或功能的英文单词及其缩写,长度不能超过30个字符。

(7)视图命名及设计规范

同前面情况类似,视图命名按照以下命名规范: V_ + 系统模块缩写 +_+ 功能标识 + 代表视图查询的主要表名(不带前缀)或功能的英文单词或英文单词缩写,总字符长度不超过30个字符。

(8)触发器命名设计规范

触发器命名遵循如下规范:TR_ + 表名(不带前缀)+ _ + 触发类型简写,触发器名称需大写。

3 基于第三方软件的数据共享应用

企业在信息化建设过程中逐步形成了各部门专用的业务系统,这些业务系统虽然满足了部门级的业务需求,但是对企业来说形成了信息化应用的“信息孤岛”[3]。为了消除这些信息壁垒必须以“数据”为中心实现企业应用集成。

在实现方式上由于涉及到多个业务系统间数据交换,各业务系统的相关设计需要遵循基础数据标准,系统接口标准、系统集成标准。数据中心作为各业务系统的统一数据接口,各业务系统与数据中心的数据交换采用MS BizTalk Server进行管理。BizTalk Server互联五通平台架构如图2所示:

BizTalk Server是微软公司提供的一种可用于数据共享的应用工具软件,它是基于.NET开发平台,数据交换统一采用XML标准,实现对需要共享的信息的源头和终点的连接。如果它是用于连接企业内部的系统, 称为EAI(Enterprise Application Integration ),如果它连接的是 各个机构 的系统 , 称为B2B集成 (Busi- ness-to-Business Integration)。

Biztalk Server主要功能之一就是要实现将各个系统连接起来,连接过程必然要进行数据交换,也就必然有数据的流入和流出。在Biztalk Server工具中用消息 (Message)来表示流动的数据或信息。接收消息由收到信息的系统发出,接收通过Biztalk Server采用接收适配器进行接收;接受过程处理完之后,再使用Biztalk Server发送适配器将发送消息发到接受信息的应用系统中。

Biztalk Server中的接收适配器(Recieve Adapter)用来处理不同类型的消息,对不同的消息有不同的获取方式,例如有的消息是从文件夹中提取的文本文件,而有些消息则是特定的服务器的WEB Services中获取, 也有消息可能是从某个FTP服务器下 载,还有的消息是通过HTTP请求获得的,更多的消息可能是直接从各种数据库中获取。

Biztalk Server中的适配器主要是接收和发送的功能,如果涉及到消息的分类、加密解密及验证、编码解码等的功能却需要由由管道(Pipelines)来完成。常用的加密解密、编码解码都有相关的规范和处理标准,开发人员不必费心,管道(Pipelines)能够自动完成相关工作;开发人员需要创建架构(Schema)来定义消息的分类和验证。管道(Pipelines)在接收到消息时,首先要进行解密和解码流程,得到原始的信息流,同时保证信息流的完整性。然后,按预先设计好的架构来解析信息流, 如果能够匹配到合适的架构并完全符合要求,则将信息保存到一个称为MessageBox的数据库中,以备后续业务处理需要。

Biztalk Server工具支持业务流程 (orchestration)概念。业务流程提供了丰富的工具和规范的流程对消息中的信息项进行各种处理,包括进行循环、分支判断、逻辑判断和并行的流程以及表达式计算、调用规则设定,数据转化设置,表存储设置等,并且提供工作流的支持。为了方便完成相关业务流程,并不专业的编程理论,不用编写大量的专业代码,而是通过提供的一套可视化的工具来设计,设置规则,优化匹配架构的方式来使业务流程处理完成,处理完成的信息采用发送管道进行编码和加密,然后使用发送适配器将信息发送到指定的应用系统中,整个流程完成了不同系统,不同部门和机构的数据共享。

4 结束语

跨平台数据库 篇9

20世纪90年代以后,Web应用遍及全球,网络深入人心,数据库日益普及。大型机构由于分支机构不断变化、产生,原有集中式应用模型不能适应新环境,分布式数据库成为主要研究方向。企事业单位不能真正解决信息孤岛问题[1],信息化建设很难成功,真正发挥应有作用。为消除信息孤岛,实现信息共享,迫切需要建立一种公共环境,对用户提供统一、透明的访问界面,信息集成研究因此而起。历经十多年信息化工作积累,信息化程度已初具规模,为了能共享数据,可以建立统一的数据交换平台实现。交换平台为系统提供了基于XML的数据交换机制,可以直接为全局的应用系统提供信息交换服务,是实现信用信息系统业务功能的技术基础。同时,为了能更充分利用现有系统,可采用Web服务和中间数据库构建数据交换平台。

1 异构数据库

1.1 异构数据库系统

异构数据库系统是相关的多个数据库系统集成,实现不同数据库之间数据信息资源、软硬件设备资源和人力资源“并轨”共享,。为各种系统提供集成、统一、安全、快捷的信息查询、数据挖掘和决策支持等服务,实现数据(主要是异构数据)共享和透明访问。每个数据库系统在加入异构数据库系统前就已存在,拥有自己的DBMS(Data Base Managment System)。异构数据库各组成部分具有自身的自治性,实现数据共享的同时,仍保有自己的应用特性、完整性和安全性控制。异构数据库系统的异构性主要体现在三个方面:系统异构、DBMS异构和逻辑异构[2]。

1.2 异构数据库的发展和特征

数据库技术的出现为信息管理带来了新手段。作为计算机科学技术发展最快、应用最广泛的重要分支之一,数据库已成为计数机信息系统和应用系统的重要技术基础和支柱。数据库技术发展大致经历了三个阶段,在发展第二和第三阶段,分布式数据库系统(Distributed Databses)基本解决了集中式数据库系统的弊端;但对不断发展的大型机构,由于发展阶段、应用目的不同等原因而产生的不同数据系统,有机地结合在一起共同工作仍存在问题,这便首次产生了异构数据库系统的研究需求。在20世经90年代,数据库发展面临新挑战,在Web、新的应用需求及硬件技术飞速发展情况下,web提供一个集合异构数据源平台;Web发展促进了异构数据库系统理论进一步研究和发展。异构数据库系统是对分布式数据库系统的继承和发展,二者既有相同之处又有区别。最根本的区别在于:分布式数据库系统只拥有单一逻辑数据库,虽然可以在物理上分布,但只有一个DBMS为其服务,提供一致的查询与更新,严格说,各分布子系统是同构的;而异构数据库系统则以多个异构、自主的数据库系统为基础,通过一定程度集成而构成一个分布式数据库系统。异构数据库特征则可从以下三方面说明[3]:

(1)分布性。

异构数据库系统各组成部分是分布在不同位置的各种自治数据库系统,通过通讯网络建立各部分之间连接。系统的数据保存在分布的数据库系统中,可以以各不相同方式保存,没有严格逻辑要求。每一个独立自主的数据库系统只是整个异构数据库系统中的一个网络结点。

(2)异构性。

排除数据库宿主系统的异构性,异构数据库系统的异构性主要由两方面产生:

(1)数据库管理系统(DBMS)的异构:由于组成系统的各数据库系统可以不同,因此形成了DBMS的异构,这种异构实质上可分为三个方面:

A.结构不同:根据不同的方法论,DBMS采用不同的数据模型和数据结构,反映在物理上的存储方法也可能不同。例如层次数据库与关系数据库。

B.数据存储种类异构:相同或相似的现实世界数据,存在表达多样性,因此不同数据库系统存储方式不同,可以是数据类型、范围、精度以及组成部分的异构。例如:在一个数据库中可以采用整型表达的数据,很可能在另一数据库中采用字符串表示,而在第三种数据库中则变为某种对象的一个属性。

C.关系表达异构:由于不同环境及需求,事件中两个事务之间关系可从多方面理解,由此造成在数据库中关系表达的异构,这种异构与该数据库系统采用的数据型或密不可分,可能出现同一数据的不同分割和组合以及关系连接。

(2)数据遗漏及冲突:不同的应用对数据对象的不同侧面要求不同,很可能在某领域内非常必需的数据在另一环境中却可以忽略,或者实际上是另一种数据,所以数据遗漏和冲突在所难免。

(3)自主性。

构成异构数据库系统各子系统具有各自的自主性,拥有对自身系统内各种资源使用的权利,包括设计、执行、修改等,同时拥有与其它系统交互的权利,包括加入、退出、通讯、提供服务等。它们有权利接受外来服务请求,也有权利拒绝请求服务的权利。但在这些权利与承诺的系统义务之间必须有机结合。

2 数据交换平台的总体设计

2.1 系统的体系结构

由于各业务系统是异构的,首先必须定义一个统一的XML文件数据标准进行交换。考虑到旧系统改造和新系统扩展方便性,本文采用的数据交换系统结构如图1所示[4]。

首先,各业务系统按自身系统数据结构情况开发应用程序,以共同的数据标准规范,将要共享的数据生成合符要求的XML文件;然后将XML文件通过数据采集接口模块传输到数据交换平台。这样,外部系统就可通过查询请求查询到平台中间数据库中自己需要的数据,从而达到数据共享目的。下面,对图1数据交换系统架构四大部分作一简析。

(1)业务系统:是指企业内部各业务系统,负责将自身系统需要共享数据转换成规范的XML文件。它是共享数据提供者,又是共享数据使用者。

(2)外部系统:是指需要查询共享数据并具有对应权限的用户系统。

(3)数据采集模块:是数据交换系统重要组成部分,包括传统采集接口和Web Service接口两种方式,将要传输的数据采集出来,送到数据交换平台处理。

(4)数据交换平台:是数据交换系统重要组成部分,由原始数据池、平台中间数据库及核心处理模块三部分组成,负责XML文件的处理和存储。

数据采集模块和数据交换平台是系统实现数据共享的核心部分。

2.2 数据交换平台

数据交换平台负责所传输到达的XML文件转换和存储操作,其中包括原始数据池、核心处理模块和中间数据库三部分。

(1)原始数据池。

它是数据缓冲池,在采集模块和核心处理模块之间起缓冲作用;负责将从数据采集接口模块中采集到的数据以XML形式分类暂时存储[5],在核心处理模块空闲时再行处理,处于数据交换和存储模块最前方位置;数据按各业务系统分类存放,各业务系统都有自己对应的文件夹,XML文件暂存在文件夹里,如果在获取数据过程中有错误发生时,将错误信息打包成XML文件,发送到错误反馈信息子目录中。

(2)核心处理模块。

它是数据交换的中心,是连接原始数据池、数据库和外部系统的纽带,负责XML数据处理和数据库数据转换,包括两种功能:

(1)从原始数据池传输过来的XML文件,按照规定的数据结构存放到中间数据库中。(2)根据用户查询请求,将需要的中间数据库的共享数据处理组合成XML文件,传输给用户使用。

这里涉及XML文件到数据库之间数据转换问题。由于原始数据池中数据以XML文档形式发送到平台中间数据库,假如将整个文档原封不动存储到数据库中,就会切断数据与数据之间联系,且难于管理和维护。因此数据交换平台中使用的是按XML文档结构层次拆分的,分别存于不同的表或字段形式当中。

(3)中间数据库。

它是业务系统上传的共享数据集中存储的地方,是由核心处理模块处理后的共享数据。各业务系统只要将自己的数据按照一定通用格式如XML提供出来,完全不用改变原来数据库结构。中间数据库,方便了网上检索需要,易于操作。这一方式使各业务系统对自己的数据有完全的控制权[6]。如果用户需要查询信息,那么对应的数据信息将从中间数据库取出,并经核心处理模块进行从数据库结构到XML文件的处理,将XML文件传输给用户,在用户的系统中被处理和显示。

中间数据库的数据表分为两大类:基本码表和用户表。码表用于维护系统中基本不变的数据,包括性别、民族、职务、国家、提交方式、办结结果、特别程序种类、特别程序结果等。用户表用来维护用户日常经常操作的数据,主要包括申请人信息表、申请企业信息表、受理信息表、业务信息表、业务规则信息表、补给信息表、审批是想信息表、经办人信息表、办结信息表、特别程序信息表等。

3 结束语

Web技术及Internet的飞速发展,使产品信息集成要求迅速与新兴技术相结合;但由于信息来源多样化,产生了大量异构数据。如何使各种应用程序能够透明地操作多种数据源,在应用程序和各数据源间建立传输信息的纽带,对实现信息化至关重要。本文探讨了基于XML的企业信息集成问题,可为企业间信息共享提供良好的理论支持。

参考文献

[1]熊光楞等:《并行工程的理论与实践》[M];清华大学出版社,23-24。

[2]李黎:《基于XML的异构数据库数据集成技术研究》[R];四川师范大学计算机科学学院,2008:5-7。

[3]C W Chung.“DATAPLEX:An access to heterogeneous distributed databases”[M],Comm.——ACM,Vol.1No.1.2002.

[4]李阳:《数据交换系统设计与实现》[R];北京交通大学,2006:21。

[5]Charles F Goldfarb.《XML实用技术》[M];清华大学出版社,1999:56-58。

跨数据库平台的应用系统设计 篇10

要让你设计的应用系统跨不同的数据库平台, 必须从数据库设计和应用系统访问数据库模块这两部分都要进行考虑。

一、数据库设计

1. 采用各类数据库上都能使用的数据类型

只有很少部分的数据类型得到所有数据库服务器的支持。每一种DBMS都有它自己的数据类型以及为什么要这样使用它们的原因。

以下是ANSI数据类型:BIT, CHARACTER, DATE, DECI-MAL, DOUBLE PRECISION, FLOAT, INTEGER, INTERVAL, NUMERIC, REAL, SMALLINT, TIMESTAMP, TIME, VARBIT, VARCHAR, CHAR。

以下是Oracle/Access/SQL不支持的"标准"数据类型:IN-TERVAL, TIME, VARBIT。

只有Oracle才支持DATE, 但是以下的"标准"数据类型不被Oracle支持:BIT, DECIMAL, NUMERIC, TIMESTAMP。

以下的"标准"数据类型不被Access支持:BIT, CHARAC-TER, DATE, NUMERIC, SMALLINT, TIMESTAMP。

这样, 只有以下的数据类型可以保证在各类数据库上都能使用:DOUBLE PRECISION, FLOAT, INTEGER, NUMERIC, RE-AL, SMALLINT, VARCHAR, CHAR。

2. 不要使用存储过程

在某些编程环境下, 出于效率和安全等方面的原因, 存储过程成为程序员开发数据库应用程序的唯一方法。Visual Basic、C和Java程序员都并不需要了解SQL。然而, 在其他某些编程环境下, 存储过程又是完全禁用的。MySQL通常和Apache Web服务器组合使用, 这是因为这两种软件不仅免费、可靠而且功能强大, 但是, 恰恰是MySQL不支持存储过程。

3. 不要使用连接

连接是Oracle和SQL Server这两种DBMS上令人头痛的一个问题, 因为这两种系统在连接的概念上有根本的不同。基本上, 各个DBMS的连接工作原理不总是一样的, 如使用连接, 你最终可能会得到意外的结果集合。

二、应用系统访问数据库模块设计

在构建了可以跨数据库平台安装的数据库之后, 我们要设计应用程序来实现对这些可能部署在不同平台下的数据库进行访问, 在应用系统访问数据库模块中, 应该尽量采用ANSI SQL, 它是一种和平台无关的数据库语言。不管你在使用哪种数据库系统, 如果它完全支持SQL那么它就应该支持ANSI SQL-92标准。总之, 你应当用到的可靠命令如下:

数据定义语言 (DDL) 下的CREATE和DROP。

数据操作语言 (DML) 下的ADD、UPDATE、DELETE和IN-SERT。

获取数据的SELECT。

如果你在这些命令中使用了区分大小写的表格或字段名, 或者这些名字包含了空格或其它特殊字符, 那么你最好用方括号把名字围起来。这样做有助于防止非标准字符引发DBMS的不正常反应。对于数据库部署, 建议采用由设计者提供不同数据库平台下的空表, 由用户在部署时针对不同平台选择对应的表进行数据库还原或数据表迁移, 从而减少对SQL语句的依赖和出错的可能性。

三、应用系统访问数据库模块实例

下面以Visual Studio.NET 2005开发工具 (以C#为开发语言) 来开发的, 同时可以访问Oracle和SQL Server数据库的应用程序模块。

为了该模块能顺利运行, 首先在Oracle上要有一个数据库实例OraDb, 其中当然要有我们要访问的表;在SQL Server上有一个数据库名为"实例", 其中也有我们要访问的表。都要求采用用户名和密码的形式登录。只要按前述要求写SQL命令, 调用以下模块就可以实现访问Oracle平台和SQL Server平台下的数据库。

要实现对Oracle和SQL Server数据库的访问首先是.NET Framework数据提供程序不同, 前者是System.Data.OracleClient, 而后者是System.Data.SqlClient, 这就要求用户针对不同的数据库平台的选择来动态地创建到数据库的连接, .NET提供了IDbConnection类, 通过创建该类的实例来动态得到相应数据库平台的连接;其次是连接字符串形式不同, 除了都要提供用户名和密码外, 后者要提供服务器名 (或IP) 和数据库名, 而前者只用提供数据库实例名 (或IP) 。

给出数据库平台类型和SQL语句调用该模块就可以得到一个包含数据库查询结果的数据集, 如果是要对数据库进行添、删、改等操作, 由于此时不用返回数据集, 只需返回修改的行数, 可以采用例如:int i=mycommand.ExecuteNonQuery () ;语句, 该方法针对.NET Framework数据提供程序的Connection对象执行SQL语句, 并返回受影响的行数。采用该模块并举一反三, 开发者就可以轻松实现跨数据库平台进行访问。

参考文献

[1].Visual C#2005编程技巧大全, 罗斌、罗顺文等编著, 中国水利水电出版社, 2007.1.1

[2].Visual C#2005编程实例精粹, 罗斌、越飞等编著, 中国水利水电出版社, 2006.7

UMA大数据平台启动 篇11

UMA联盟是两年前由携程旅行网联合易车网、慧聪网、安居客、珍爱网等多家互联网垂直行业的领军企业组成的营销联盟,成立两年来,成员企业从最初的5家发展到现在的40多家。而更多企业的加盟,使得这个联合营销平台更有可能拓展更多、更高效的网络营销渠道,也凸显出建立大数据平台的价值。

据UMA大数据平台的设计与开发单位晶赞科技CEO汤奇峰介绍,为UMA联盟搭建的该大数据平台是一个集标签、归类、机器学习于一体的自动化平台。平台的技术架构基于企业级的高并发实时处理,在数据脱敏、脱密的基础上,进行高维度的运算。

值得一提的是,作为一个数据共享的平台,数据安全被置于UMA大数据平台的核心位置。首先,大数据平台只是提供一个数据共享的平台,并不保有数据,数据依然归各个成员企业私有。其次,数据的使用采用问答式请求和握手机制。第三,采用了多项隐私保护技术手段,比如数据脱敏。

据悉,UMA大数据平台即日起已在部分核心成员企业试商用,并计划在今后向中国互联网全面开启商用,使得各优秀的互联网产业资源可以更紧密联合,共同推动中国互联网产业的发展。

跨平台数据库 篇12

本文以气象数值预报产品为切入点, 详细分析气象大数据的特点和实际业务需求, 基于Net CDF技术实现了全序列气象数值预报产品原始格式解码, 实现数据的格式转换, 生成符合各类数值预报产品特征的Net CDF格式的存储库, 并将转换和重新组织的数值预报产品数据实时存储到相应的Net CDF库文件中;基于NCL (The NCAR Command Language) 编程语言读取Net CDF库文件中的数据生成精度高、内容展现丰富的数值预报图形产品, 并提供给业务用户业务应用[2]。

1 关键技术应用与设计

1.1 数值预报产品应用现状

目前气象预报领域已建立起比较完善的数值预报业务体系, 在各级气象台站的日常公众气象预报服务中发挥着越来越重要的作用, 特别是为灾害性、关键性、转折性天气的预报服务、航空气象服务、军事气象服务、水文气象服务等提供了有物理基础的指导产品和定量参考信息, 并为预报业务向应用气象和环境气象领域的拓展提供了有利的技术支持[3]。

然而在目前数值预报资料的使用过程中存在以下问题:

1) 目前我们能够获取到的数值预报的种类已经比较丰富, 如欧洲大气模式、欧洲海洋模式、欧洲细网格数值预报、JMA、JMA细网格、Grapes模式等。各国数值预报中心生成的数值预报存储格式各异, 对预报员的使用, 以及查询、存储、归档等都造成了一定的困难。尤其像T639, JMA, EC等数值预报模式, 都将不同预报时次的数据分为单个文件进行传输, 这对单站连续时间数据的读取造成了非常大的困难, 时效也特别低。

2) 随着数值预报精度越来越高, 它的数据文件也越来越大, 如Grapes 12KM的单时次数据文件为16G, 全序列数值预报日数据总量约几百GB, 三年的数据量大约为20T左右, 这对于存储空间和存储管理也有了比较高的要求[4]。

因此, 为了给预报员提供更多种类, 格式更加丰富的数值预报产品, 为了能够将历史资料完整有序、有效的存储并让其提供服务, 需要完成全序列数值预报数据的收集、存储和加工处理。不但要将选序列数值预报产品归类存储, 形成数值预报产品库, 还将对其进行加工, 生成更加便于存储、查询、展示的Net CDF格式的数值预报产品, 形成规范的Net CDF产品库[5], 并可提供给不同的业务用户使用。同时将使用NCL编程语言对Net CDF产品进行加工, 实时生成多要素、多层次、多时次、多范围的数值预报图形产品, 旨在为预报员提供更直观、更有用的预报素材。

1.2 系统总体设计

系统总体架构如图1所示, 整个系统由4个子系统组成。

子系统1:原始格式数值预报产品收集程序

实现诸如欧洲大气模式、欧洲海洋模式、欧洲细网格数值预报、JMA、JMA细网格、Grapes模式等原始格式产品的收集和管理。

子系统2:数值预报产品格式转换和数据集成

基于Net CDF技术, 将日本数值预报产品 (JMA) 、欧洲大气模式、欧洲海洋模式、欧洲细网格数值预报、JMA、JMA细网格、Grapes模式等7类数值预报产品进行格式转换写入Net CDF库[6], 每月生成一组库文件, 从而实现了数据的集成。

子系统3:数据服务开发

基于Net CDF库文件, 利用NCAR Command Language工具, 将日本数值预报数据 (JMA) 、T639数值预报数据、Grapes数值预报数据及欧洲数值预报产品 (ECMWF) 等全序列数值预报产品经过资料加工后转换成图形产品[7], 并实现产品的按需分发。

子系统4:可视化系统监控管理模块

系统对各个独立的系统转换程序进行统一的可视化的管理, 并实现系统运行状态的全过程实时监视, 并能实现日志系统的查询统计。

1.3 气象大数据数据结构设计

Net CDF (network Common Data Form) 网络通用数据格式是由美国大学大气研究协会 (University Corporation for Atmospheric Re⁃search, UCAR) 的Unidata项目科学家针对科学数据的特点开发的, 其通用的数据结构在广泛应用于大气科学、水文、海洋学、环境模拟、地球物理等诸多领域, 但是针对气象数值预报产品的分析和处理, 其通用的处理方法面临挑战, 为此基于Net CDF技术设计和实现了针对气象数值预报产品这类典型的气象大数据的数据结构。

1.3.1 Net CDF通用数据结构

一个Net CDF数据集包含维 (dimensions) 、变量 (variables) 和属性 (attributes) 三种描述类型, 每种类型都会被分配一个名字和一个ID, 这些类型共同描述了一个数据集, Net CDF库可以同时访问多个数据集, 用ID来识别不同数据集。变量存储实际数据, 维给出了变量维度信息, 属性则给出了变量或数据集本身的辅助信息属性, 又可以分为适用于整个文件的全局属性和适用于特定变量的局部属性, 全局属性则描述了数据集的基本属性以及数据集的来源。一个Net CDF文件的结构包括以下对象:

1.3.2 气象大数据数据结构设计

一个气象数值预报产品变量可以通过5个维度描述, 经度维 (lon) 、维度维 (lat) 、高度维 (level) 、时间维度 (起报时间:time) 和预报实效维度 (未来几天的预报:Forcast Time) , 例如温度变量可以描述为temp (lon, lat, level, time, Forcast Time) , 其中预报时效的间隔通常是“非等间距的”, 如日本数值模式未来0-72小时为6小时间隔, 未来72-120小时为24小时间隔。T639模式预报时效更加复杂, 而通用的Net CDF数据结构要求维度是等间距分布的, 因此通用的Net CDF数据结构无法满足气象大数据的应用需求, 为此我们将预报时效这个维度与Net CDF的变量合并, 即直接在变量名中用TTT来体现预报时效的维度就显得灵活性十足, 以温度为例, 这样就用四个等间距的维度描述气象数值预报产品, 以温度为例, 其变量即变为temp TTT (temp000, temp001, temp002……) , temp TTT (lon, lat, level, time) , 其数据结构如图2所示, Net CDF中变量的命名方式如图3所示。

那么, 在读取时间序列的时候, 就对于要读取n个变量, 会不会影响效率呢?经过试验, 读取速度几乎没有差别。因为影响读取效率主要在open (close) 文件的次数, 而该结构在数据处理过程中只是open一次文件, 然后读取不同的“变量” (temp000, temp001, temp002……) 。因此基于通用结构设计的气象大数据数据结构完全满足目前的实时业务需求。

1.4 预报要素转换算法设计

根据实际业务需要, 部分日常实际业务中应用的气象要素在产品中并未实际作出预报。因此需要对其中的几个气象物理量进行计算, 主要实现温度露点差 (depo) 到相对湿度rhum的转换、计算散度的公式、计算散度公式、计算K指数公式等算法进行设计和实现。

1) depo是温度露点差, rhum是相对湿度

其中float rhum[Xdim*Ydim];

2) 计算散度的算法

3) 计算散度的算法

以上算法均以接口方式实现, 具体实现如下:

接口1:void Read And Calucate Rhum (char*Net CDFData Path, int Real Time Number, float**val)

接口2:void Read And Calucate Vorticity (char*Net CDFData Path, int Real Time Number, float**val)

接口3:void Read And Calucate Divergence (char*Net CDFData Path, int Real Time Number, float**val) 。

2 关键技术实现

2.1 关键技术实现策略

为了实现跨平台的需要, 我们采用Suse Linux系统作为开发平台[8], 采用C语言作为开发语言来进行数据产品的开发, 使用脚本语言python实现所有模式的统一调度。这样实现的好处是不仅可以方便地将程序移植到Suse Linux、Ret Hat、Aix等其他系统平台中, 还可以提高程序运行的效率。

系统实现过程中需要引入如下概念:

1) 要素:模式包含雨量rain, 高度场hght, 温度temp, 海平面气压mslp, 东西风uwnd, 南北风vwnd等基本要素, 不同模式要素不同。

2) Flag变量:如该时次nc数据已经更新则flag位置置为1, 如数据更新不成功或没有更新为缺测或者为0。

3) Stat变量:如nc文件正在写入, 则该时次位置置为1, 如更新完毕改该时次位置置为0.防止写入读取错误。

4) Tstr变量:表示该时次年份, 文件生成、更新时写入。

5) Ystr变量:表示该时次日期, 文件生成、更新时写入。

6) Lon变量:格点形数据, 表示要素经度范围。

7) Lat变量:格点形数据, 表示要素纬度范围。

8) Level变量:表示要素层次范围, 如200hpa, 300 hpa, 1000 hpa, 地面层等等。

区域范围:不同的模式或不同要素预报范围可能不同, 如南半球、北半球、[经度60~150, 纬度-20~70], 等等这里模式一般定义东经为正、西经为负, 北半球为正、南半球为负。所以有时需要将不重叠的不同范围的数据拼接在一起, 形成完整范围的可用数据。

要素变量:对于每个模式的每个要素, 都包含不同时效的预报, 如未来3小时雨量rain003, 未来6小时雨量rain006, 未来12小时雨量rain012……, 不同要素的预报时效可能相同也可能不同, 需根据模式定义来判断。

2.2 关键技术实现

以气象数值预报产品为代表的气象大数据是多源数据, 各类产品的格式不同, 有grib1编码格式、grib2编码格式、顺序二进制编码格式等, 如何将这些多源的数据格式转换成统一的数据格式是一个重点解决的技术难点。为此我们设计实现了数据解码算法, 经过解码的数据流按照气象大数据数据结构模型批量写入Net CDF库文件中。

其中的关键是定义好两个数据startp[s1, s2, …sn]和countp[c1, c2, …cn], Startp[]里面定义好数据块的起始位置, Countp[]定义从起始位置往后的偏移量。以一个二维的数据为例, 假设存入一个10×10的数据流, 为此, 定义Countp[]表示从起始位置往后的偏移量。其中阴影数据的做下角是数据块的起点, 从起点沿X轴和Y轴方向阴影覆盖的长度是偏移量, 阴影覆盖的范围是实际存储的数据。具体数据组织如图图4所示[9]。

3 实际业务应用

业务应用在Linux开发平台下从生成的Net CDF产品库中读取数值预报数据, 利用NCAR Command Language工具, 将日本数值预报数据 (JMA) 、T639数值预报数据、Grapes数值预报数据及欧洲数值预报产品 (ECMWF) 等数值预报产品转换成图形产品, 同时运用定时作业方式运行ncl脚本文件, 从而实现数值预报资料到图形产品的自动化运行。最终形成多预报时次、多层次的多种气象要素的图形产品展示到气象业务网等门户网站, 供预报人员及其他用户使用, 图5中是通过转化后的Net CDF库读取数据绘制图形产品的流程图, 图6是通过系统绘制的气象水汽通量图[10]。

4 结论

经过对气象大数据的分析和处理, 实现了气象数值预报产品原始格式解码, 实现数据的格式转换, 生成符合各类数值预报产品特征的Net CDF格式的存储库, 并将转换和重新组织的数值预报产品数据实时存储到相应的Net CDF库文件中, 通过接口服务的方式为气象相关的业务应用单位提供数据服务, 基于Net CDF的数据流绘制了气象行业广泛应用的树预报产品图, 目前系统已经业务化运行, 运行结果表明系统数据读取性能和稳定性方面完全满足业务实际需求。

摘要:为了更好处理和应用诸如气象数值预报产品等非结构化的气象大数据, 基于NetCDF技术实现了全序列气象数值预报产品原始格式解码、数据的格式转换以及生成符合各类数值预报产品特征的NetCDF格式的存储库, 并将转换和重新组织的数值预报产品数据实时存储到相应的NetCDF库文件中;基于NCL (The NCAR Command Language) 编程语言读取NetCDF库文件中的数据生成精度高、内容展现丰富的数值预报图形产品, 并提供给业务用使用, 业务运行结果表明大数据处理技术的引入对气象大数据在业务中的应用具有一定的促进作用。

关键词:气象大数据,NetCDF,数据解码,算法

参考文献

[1]董晓婷.大数据的定义特征及其应用分析[J].硅谷, 2013 (11)

[2]康波, 刘胜强.基于大数据分析的互联网业务用户体验管理[J].电信科学, 2013 (3) .

[3]Chang-Tien Lu, Yufeng Kou, Jiang Zhao.Detecting and tracking regional outliers in meteorological data[J].Elsevier Journal, 2006 (11) .

[4]刘碧湘.如何利用大数据推进计算机审计[J].科技信息, 2013 (21) .

[5]崔忠燕, 杨鹏, 李杰, 等.基于NetCDF的数据交换平台研究[J].微型机与应用, 2011 (20) :35-37.

[6]张林, 高玉春, 杨金红, 等.基于VC++平台的相控阵天气雷达NetCDF数据读取与产品显示[J].气象科技, 2010 (2) :27-29.

[7]杨兆礼, 万齐林.实例分析如何应用GrADS实现NetCDF格式转换[J].广东气象, 2008 (5) :39-41.

[8]基于Windows Azure平台的SUSE Linux Enterprise Server[J].办公自动化, 2013:23-25.

[9]庞博文, 李国庆.基于C/S结构的大数据量遥感图像显示方案[J].科学技术与工程, 2008 (14) :27-31.

上一篇:有效践行下一篇:天然草地