B2B搜索引擎平台研究

2024-05-31

B2B搜索引擎平台研究(共9篇)

B2B搜索引擎平台研究 篇1

B2B搜索引擎平台研究

(新华云科)

【作者介绍:新华云科语义智能搜索引擎研发团队,是由英国布里斯托大学、广州中山大学、北京理工大学高级网络技术专业、软件工程专业、计算机科学专业的硕士研究生、博士研究生,联合搜索引擎资深专家,于2008年组建的语义智能搜索引擎专业研发机构,拥有独立自主的知识产权。】

搜索引擎也是一个数据库和网站,B2B是一个电子商务交易搜索引擎平台。B2B(英文Business To Business的缩写)是指企业对企业之间的营销关系。而电子商务只是现代B2B marketing的一种具体主要的表现形式。

传统的企业间的交易往往要耗费企业的大量资源和时间,无论是销售和分销还是采购都要占用产品成本。通过B2B的交易方式买卖双方能够在网上完成整个业务流程,从建立最初印象,到货比三家,再到讨价还价、签单和交货,最后到客户服务。B2B使企业之间的交易减少许多事务性的工作流程和管理费用,降低了企业经营成本。网络的便利及延申性使企业扩大了活动范围,企业发展跨地区跨国界更方便,成本更低廉。

B2B不仅仅是建立一个网上的买卖者群体,它也为企业的之间的战略合作提供了基础。任何一家企业,不论它具有多强的技术实力或多好的经营战略,要想单独实现B2B是完全不可能的。单打独斗的时代已经过去,企业间建立合作联盟逐渐成为发展趋势。网络使得信息通行无阻,企业之间可以通过网络在市场、产品或经营等方面建立互补互惠的合作,形成水平或垂直形式的业务整合,以更大的规模、更强的实力、更经济的运作真正达到全球运筹管理的模式。

目前企业采用的B2B可以分为以下两种模式:

1、面向制造业或面向商业的垂直B2B(又可以称之为行业B2B)。垂直B2B可以分为两个方向,即上游和下游。生产商或商业零售商可以与上游的供应商之间的形成供货关系,生产商与下游的经销商可以形成销货关系。将垂直搜索的概念重新诠释,让更多生意人习惯用搜索模式来做生意圈,找客户。垂直B2B成本相对要低很多,因为垂直B2B面对的多是某一个行业内的从业者,所以,他们的客户相对比较集中而且有限。

2、面向中间交易市场的B2B(又可以称之为区域性B2B)。这种交易模式是水平B2B,它是将各个行业中相近的交易过程集中到一个场所,为企业的采购方和供应方提供了一个交易的机会。

B2搜索引擎举例,比如:

中国最大的农业b2b信息化推广宣传平台。中国农业网【.cn】是一家集互联网信息、电子商务和线下服务于一体的农业行业专业网站。自2001年成立以来,一直以“综合涵盖+行业细分”的双重模式整合农业资源,引领中国农业信息化的潮流,在国内农业电子商务领域独树一帜!

再比如:中国蔬菜网[.cn]是一家集互联网信息、电子商务和线下服务于一体的蔬菜行业专业网站。自1999年成立以来,一直引领蔬菜产业信息化潮流,是中国蔬菜产业信息化的成功典范。

B2B搜索引擎平台研究 篇2

关键词:B2B平台,反欺诈,数据挖掘,类别不平衡,代价敏感性

1 引言

随着互联网和信息技术的高速发展,电子商务以其高效益,低成本等特点,为企业尤其是中小企业,提供了更为广阔的发展空间。然而在电子商务高速发展的今天,其商业进行中隐藏的问题也逐渐暴露出来。最为显著的问题就是电子商务欺诈问题。B2B(Business to Business)是企业与企业之间通过互联网进行产品、服务及信息的交换。B2B网站为买卖双方提供信息交流的网络商业平台并为用户提供网上交流的条件,促成交易的机会。但是往往网站中的信息存在欺诈性,会对交易受欺诈方和平台方造成较大的损害。

本文的研究目在于解决B2B平台上欺诈检测问题。基于平台上的买家或卖家的数据对客户进行分类识别。从而增强B2B平台运营商对其网站上的欺诈用户识别与预防能力,从而保护用户的权益,维护平台的稳定发展。目前有研究者利用数据挖掘技术解决B2B电商平台的欺诈问题,但现有研究仍然存在一些不足:第一,在线欺诈问题描述性的较多,提出实际解决方案的研究比较少;第二,缺乏用来进行实验的真实数据;第三,以往研究很少考虑到类别不平衡问题与代价敏感问题。本文利用集成学习算法———EasyEnsemble[1]对真实B2B企业数据进行应用,并于其他算法进行比较论证分析。

2 相关文献回顾

2.1 传统反欺诈的研究

欺诈指交易方有意隐瞒或提供错误的与交易相关的信息以获得经济利益的行为,是感知风险的一种。从根本上讲,B2B在线欺诈行为的出现可以用“信息不对称”进行解释。在信息不对称的情况下,卖方拥有比买方更多的关于交易对象的信息[2]。

近十几年国内对电子商务的研究主要是新的技术带来的商业模式以及新的观念等方面[3]。通过对相关文献的回顾,可以发现对于B2B平台反欺诈问题的研究主要包括两方面:一是欺诈预防;二是欺诈检测。欺诈预防指的是起初就采取有效措施阻止欺诈发生;而欺诈检测指的是当预防措施无效时,能够用最短的时间识别欺诈的方法[4]。大部分的研究都会同时涉及这两个方面。从信任机制的角度入手,有学者利用实证方法比较系统地研究了影响B2B电子商务风险的因素[5]。根据Selmar Meents等(2003)实证研究中所分析的声誉因素在B2B在线交易中的正向影响效应[6],Josang等人(2007)提出了关于基于名声的信任机制[7]。Rafael Maranzato等(2010)在电子商务平台声誉系统的基础上运用逻辑回归和逐步优化的方法进行网上欺诈的研究[8]。

2.2 基于数据挖掘的B2B平台反欺诈研究

目前,数据挖掘方法解决B2B平台反欺诈问题研究有很多,大多集中于从描述性的角度[11]和欺诈预测的角度[12]来进展开。其中,Chang(2011)[12]运用决策树进行分类,Zhang等人(2011)使用了逻辑回归的方法[13],Pandit等人(2007)使用马尔可夫随机域模型的方法[14]。

此外,欺诈问题的研究还关注了类别不平衡性问题,在数据挖掘的研究中,一般是假定用于训练的数据集类型是平衡的,即各类所拥有的样本数量是大致相当的,然而这一假设在很多真实问题中是不成立的。例如在欺诈问题方面,欺诈的数据量远远小于非欺诈的数据量,在这种情况下,分类器通常会倾向于将测试样本全部判别为大类而忽视了小类,可想而知,由此得到的分类器在小类的预测上效果会很差。Weiss G(2004)指出分类器在不平衡数据上性能下降的原因有:不恰当的性能评价准则、不恰当的归纳偏置、一类样本数目过少产生的绝对稀少问题等[15]。

3 Easy-Ensemble算法

Easy-Ensemble算法首先是多次独立地利用随机下采样的方法,将大类样本划分成多个与小类样本平衡的子集,然后将如此得到的数据集进行训练得到多个分类器,然后将多次独立的下采样方法得到不同的分类器进行了集成;本算法可显著的提高下采样方法在类别不平衡问题上的性能,同时继承了下采样方法的高效性。该算法的原理是:

对于二元分类的类别不平衡问题,设定小类为正类,用字母P表示,大类为反类,用字母N表示,运用下采样的方法,从N中随机采样得到其子集,我们用N'来表示,并且有|N'|<|N|。为使类别平衡,一般地会使|N'|=|P|。

Easy-Ensemble方法是采取了一种直接的集成策略,它充分利用随机下采样方法所忽略的大类样本,我们用表示。在Easy-Ensemble方法中,随机下采样方法被独立的使用多次,因此得到多个大类的子集N1,N2,…,NT。然后将每个子集Ni(1<i<T)分别和小类样本P结合起来,结合起来的样本作为训练集用来学习并得到分类器Hi。最后利用Ada-Boost集成技术将这些分类器结合起来。

因此,最终的Easy-Ensemble得到是一个集成分类器,Easy-Ensemble方法使用了所有的小类样本。当小类样本很少时,充分地利用每个小类样本是非常重要的。本研究要解决的问题就是小类样本—欺诈用户样本信息较少的分类问题,而且通过解决类别不平衡问题,可以提高小类样本分类的正确类,从而也解决了小类样本误分类带来的高额代价,因此解决本文的问题,可以采用Easy-Ensemble算法。

4 实验结果与分析

4.1 实验设计

本研究的数据来源于国内一家大型B2B平台公司,该公司注册会员记录大约有300万。文中使用2012年1月至9月的数据,选取数据的方式是,首先收集全部欺诈数据,然后再从非欺诈数据中随机抽取一部分非欺诈数据。最终数据集中包含正常数据1250条,欺诈数据33条。

首先将原始信息进行预处理,得到的主要属性:1)公司ID号标识一家公司的唯一编号;2)欺诈与否的标签(其中0代表非欺诈用户,1代表欺诈用户);3)是否是金牌会员(其中0代表非金牌会员,1代表金牌会员);4)是否购买质量认证;5)用户从注册到数据更新时刻的时间间隔(月);6)平均每天的登录次数;7)平均每个月的登陆天数;8)该公司产品总共被搜索次数;9)该公司商情总共被搜索次数;10)访问公司数;11)访问产品数;12)收询盘总数;13)回复询盘总数;14)阅读盘总数;15)产品更新天数;16)产品总数;17)该公司所包含的三级行业数;18)IP数;19)近30天的产品数;20)近30天的三级行业数;21)近30天的产品关键词均值;22)产品关键词均值;23)总访问页面次数;24)总搜索次数;25)购买服务的金额。

实验中将本文采用的Easy-Ensemble算法与决策树算法、贝叶斯分类器以及SVM算法进行比较,以验证Easy-Ensemble算法是否适合B2B平台反欺诈这类问题。实验采用Weka 3.7.10软件中提供的相关算法以及用Matlab编写的Easy-Ensemble算法进行实验分析。

4.2 实验结果与分析

本节将讨论实验结果,并对实验结果进行分析,如表1所示。

从四种算法的实验结果中可以看出,与三种比较算法相比,Easy-Ensemble算法除F-measure指标表现较差外,G-mean和AUC指标表现更优。对于F-measure指标进行进一步的分析,Easy-Ensemble算法在正确类的分类上,效果较其他几个算法是不太理想的,但G-mean和AUC两项指标说明该算法在分类时的第一类错误率和第二类错误率较低,EasyEnsemble算法的Confusion矩阵如表2所示。

通过对表2的分析可以看出,Easy-Ensemble算法的准确率以及第一类误判率情况为:分类准确率为92.67%,说明该算法的分类准确性依然很高;第一类误判率为7.28%,这说明Easy-Ensemble算法在数据类别不平衡度较高的情况下将好用户分类的错误率也是比较低的。对于第二类误判率,也是我们比较关心的指标,Easy-Ensemble算法的实验结果是9.09%,说明当数据类别不平衡程度较大时,该算法不会将更多的欺诈用户预测为好用户。

将2012年份的样本数据使用Easy-Ensemble算法进行运行,最后将欺诈与非欺诈的数据进行区分之后,得到的模型如图1所示。通过该图可以看出是V_CNT(访问其他用户的总次数),S_PROD_CNT(用户产品被搜索的次数),MONEY(购买服务的金额),S_OFFER_CNT(用户商情被搜索的次数),INTER_ADD_TIME(从注册到数据更新时刻的时间间隔),这些属性需要重点监测。

综上分析,文中验证了Easy-Ensemble算法能够有效解决数据类别不平衡性,并且适用于本文研究的研究问题。通过实验得到的实验结果是本文重要的分析依据,基于此本文将对B2B企业反欺诈给出意见及建议。

5 B2B电商企业反欺诈策略

通过以上实验结果的分析,本文为电商平台企业提供指导性建议。

(1)增加在线支付的功能,或者是交易款项的担保功能。这样将使得买卖双方交易时更加放心,进而降低了欺诈的发生,从而也更好地促进电商行业的发展。

(2)增加物流配送功能,电商平台可以很好地清楚卖方是否提供符合要求的货物,而且也可以保证货物能够在规定的、可控的时间内到达买方指定的地点。

(3)完善电商平台上及时通讯软件的功能,如文字、音频、视频、大容量文件的传输功能等,且一定要保证该软件使用的安全性,让买卖双方更愿意使用平台自带的通讯软件来交流,且能够满足各种交流方式的需求。

(4)若B2B交易的额度较高,可以对交易双方的公司进行实地的考察,保证巨大交易金额背后的公司具有负担如此巨额货款的实力,进而降低交易的风险。

(5)针对有信誉或者信用等级较高的用户,也需要认识和了解欺诈行为发生的规律,即分类算法得到的决策树结果,从而有依据地提高自身甄别欺诈用户的水平,并创建口碑传播的相关机制。

各种免费外贸B2B平台分析 篇3

1、该平台可以免费注册,但注册后只能发布采购信息,不能发布供应信息,要想发布产品供应信息,必须交费才可以,因此,直接排除继续使用。

2、注册进入账户后,感觉就有点乱,很多无关的东西都在里面,网速慢,发布产品繁琐,没有自动重发功能,而且,即使你操作很多次,进入平台后感觉还是无从下手。

4、注册进入该平台后,界面非常友好,发布产品,商情一目了然,而且,经常更新,排名很考前,唯一的不足就是不具有自动重发功能。

5、这个不是正宗的中国制造网,是北京的一家企业注册的,注册后需要营业执照认证,我没有理会,国外的要你营业执照干嘛,所以没有使用,不做评价。

6、注册的第二天就收到 询盘,有一个现在正在联系了,虽然没有变成订单,但 询盘 数量还是不错的,3-5天就有询盘,只是,免费的只能回复2个询盘,之后的询盘要等到7天才能回复,免费的本来就很难找到客户,7天后在回复,希望就不是很大了,该平台也有自动重发功能,但必须是7天之后才可以重发。

8、该平台也不错,可以免费发布信息,自动重发,界面也很友好,只是询盘数量不多,至今没有收到一个询盘,也许是我发布产品的质量不高吧。

9、该平台后台管理也不错,可以免费发布产品,最多可以发30个产品,对于一般企业来说已经足够了,但不具备自动重发功能,要想更新产品,只能手动更新。

10、该平台可以免费发布产品信息,但数量有限制,只能发布3个,而且还不能更新,只能原来的删除或修改,效果不是很好。

11、注册该平台后,在其首页上根本找不到“Signin”,根本不知道怎么登陆,而且,字体实在太小,看的人眼睛受不了,不够专业。

12、这个才是真正的中国制造网,是目前中国收费B2B用户最多的平台之一。中国制造网保有免费使用功能,注册之后,进入平台,发布产品信息,非常顺利,也有自动重发功能,但因为其用户量比较大,所以,免费的排名实在太靠后了,基本上没有什么效果,最近,听说他们搞了关键字排名,每一个关键字只出售10个排名,保证在搜索结果的第一页,现在搞活动,费用为1WRMB/keywords。

13、这个平台对产品的要求太高,上产的产品图片不能超过20K,否则就不能发布,太难了,我试过了,即使把图片数小到只有硬币大小,也有23K左右,这么小的图片能有什么效果,而且,即使发布上去了,在其首页搜索,也搜索不到产品。

14、听说这个平台不错,但注册后发现并不具有免费功能,无法发布产品,因为这是一个搜索引擎。

15、该平台可以发布产品信息,且可以自动重发,操作也很简单,没有诸多限制。

16、,注册这个平台后的第二天,就收到询盘,我回过去了,没有消息了,我催了一次还是没有消息,又过了两天,又收到一个询盘,我回复了,还是没有消息,这次,我没有再去催了,可是又过了2天,又收到一个询盘,而这个询盘和第二次的那个一样,是同一个客户,这次,当我准备回复的时候,提示,免费会员不能回复,提示我升级为收费会员,我晕,2个免费的回复就没有消息,来的又是同一个客户,我还交费了,谁知道是不是骗局?

17、深圳的一家B2B公司,注册都很顺利,而且产品发布也很顺利,但不顺利的是产品审核,我一个星期前发布的产品,到现在都没有审核通过,他们业务员打来电话,希望我升级为收费会员,这样,审核周期不会超过3天,而且,免费试用只能回复10个询盘,不管怎么说,只要审核速度能快一点,还是很不错的。

18、这个平台不错,免费发布产品,排名很靠前,并且具有自动重发功能。

19、这个平台也很不错,没有诸多限制,只是不具有自动重发功能,但排名很靠前,很不错的。

20、这个平台只能发布一个产品,但可以发布多个商情,但发布的商情在其首页上根本就搜索不到,只能搜索到其产品。

21、这个是国内的一家平台,说是免费的,其实,也有收费的,免费的不能上传产品,需要等待审核。

22、这是非洲最大的电子商务网站,可以发布产品信息,但没有自动重发功能,产品发布后,很快就可以在首页搜索到,且排名靠前。

23、这个平台是最近比较火的,但发布产品实在太麻烦,为此,我还专门发过贴批评了他们,但不可否认的是,他们的界面做的实在很清新、自然,因为他们针对的主要是国外小采购商,所以,产品的所有信息都需要填写,包括单价,包装,运费等,而且,一旦客户看中了产品,付款也是先付给敦煌网的,但可以在你的账户中看到这笔款,然后发货,就是国内淘宝网在国际上翻版,我个人认为,不太适合做外贸,对供应商来说,发布产品实在太麻烦,对客户来说,把钱付给敦煌网,他们也不会太放心,所以,我就直接不用了。

B2B搜索引擎平台研究 篇4

电子商务B2B平台正呈现出以下几方面的特征:

1、平台服务多元化

平台存在的意义在于捕捉多变市场的网络效应,借此以满足不同群体对彼此的需求。电子商务B2B平台服务从最初的只为信息流服务到如今参与到交易的每个环节中的服务。如:信息服务、交易服务、金融服务、物流服务、云服务等。

1)在大数据充斥的互联网时代,信息成为市场角逐点,然而精准信息获取更为重要,加强平台信息服务提升信息精准度是目前电商B2B平台首要任务;

2)B2B用户交易习惯以及对平台大额交易担保的信任程度是目前平台交易服务的困境,B2B平台可以引入第三方在线交易系统,识别客户真实有效的身份信息,加强信息精准度,把控注册会员的真实性,是改善在线交易难的基础;

3)电商B2B服务B2C化主要体现在物流服务层面,作为平台为用户提供物流服务时需要考虑在目前集中度低的物流市场如何选择适合的物流公司,考虑因素包括运力、运输配备、运输过程货品安全以及运输后服务能力;

4)云服务的云安全是目前电商B2B客户考虑的主要问题,也是平台服务商需要解决的关键问题。比如CA买卖网可以为客户提供云采服务,让企业能够在买卖网平台上设立网络采购大厅,从而获得供应商信息,并进行网上发标、网上评标、网上开标、网上中标、网上签约等一列活动。

2、平台服务纵深化

电商B2B平台以用户为中心服务纵深化加强,线上线下相结合是目前平台服务的主要体现。电商B2B平台深入挖掘平台价值,人性化、智能化的为用户服务。平台商为客户发掘市场价值,以用户需要为服务标杆,通过线下的活动提升了用户的体验将线下向线上转移,提升平台变现能力;改善平台技术层面能力,与企业ERP系统结合,助提升订单管控能力。

3、平台生态圈化

B2B搜索引擎平台研究 篇5

摘要:介绍某嵌入式Java运行平台的总体框架;在此基础上,详细讨论为该平台开发的数据库(DB)引擎组件的框架和结构组成,描述该组件实现的SQL子集和数据表达方式以及逻辑算法的设计思路;提出该组件今后的改进设想。

关键词:数据库引擎 Java 嵌入式系统

引言

随着嵌入式系统CPU硬件从8位到32位的发展,嵌入式系统软件的开发环境也得到迅猛的发展,编程语言从10多年以前的汇编为主流发展到现在C、C++、Java为主流。另外,面向对象设计技术、组件技术等在嵌入式系统软件设计中的应用也日益引起人们的重视。

在嵌入式系统软件开发领域,Java是一门较新的异军突起的编程语言。其优点是语言本身简洁优美,完全按照面向对象思想设计,并且语言引入许多较为先进的特性,如多线程、自动内存管理和垃圾回收,非常适合于大规模复杂软件系统的开发。其不足点是与硬件结合不够紧密,同时代码运行速度较慢。此外,对于内存的使用,程序难于管理和控制。

由于采用Java编程具有如上所述的众多优点,越来越多的嵌入式系统采用Java技术来构造软件系统。本文在介绍基于日本某自动售货机产品的控制板的Java运行平台基础上,详细讨论笔者为其平台开发的DB引擎的组成和设计思路。

(本网网收集整理)

1 Java运行环境平台

图1所示为Java运行环境的总体框架示意图。本系统为克服Java的解释执行机制所引起的执行速度慢的问题,在硬件上采用了Sun公司开发的Pico Java芯片。它能够直接执行Java的二进制代码,使Java的执行速度提高一个数量级以上。在硬件层的上面是OS层,本系统采用的是ITRON(日本东京大学坂村键教授设计的一种嵌入式操作系统,虽然在日本以外的市场影响不大,但在日本本地市场,占有率达90%以上)。由于ITRON规格制定得比较早,并且为兼顾低端嵌入式应用的场合,ITRON总体上功能比较简单,并未把诸如TCP/IP、文件系统等内容包含在其里面,因此与嵌入式Linux等不一样的是,TCP/IP、文件系统是以独立的组件形式存在的。在OS层的上面是JVM层。与其它一般Java虚拟机不同的是,本系统的Java执行代码不需要由JVM解释执行,而是由CPU硬件直接执行。在JVM的上层是自动售货机的基础平台类库和公共组件层。本文介绍的DB引擎组件正是处于这一层。该层的上面是应用程序层,用于实现自动售货机的各种控制、管理机能。

2 嵌入式系统DB引擎

2.1 DB引擎组件的引入

众所周知,在台式机领域,DB是一个十分关键的基础软件。以往嵌入式系统的软件可能更侧重于与硬件的交互与控制,但随着对嵌入式系统功能需求的日益复杂化,嵌入式系统软件中,信息、数据的保存与管理的比重也日益增加。在这样的背景下,嵌入式系统软件开发中,通过引入DB组件,对实现软件整体框架结构的组件化与简单化,有着十分明显而重要的意义。

2.2 DB引擎组件的总体框架

如图2所示,将整个DB组件设计为3层结构,分别为JDBC接口层、SQL解释层和动作执行层。这3层之间呈单向依赖关系。也就是说,SQL解释层依赖于动作执行层,但动作执行层不依赖于其上面的两层,可以单独存在而直接被使用。如果用户以使用方便为主要目的,可采用完全配置方式,应用程序通过JDBC接口层存取数据。反之,如果用户对空间和效率要求较高,可仅配置动作执行层组件,应用程序直接调用动作执行层的API进行数据的检过和更新等操作。

(1)JDBC接口层

如前文所述是可选组件,旨在为应用程序提供一个标准的DB调用接口。

(2)SQL解释层

本DB组件实现的SQL解释层,只实现了标准SQL的一个小子集,主要完成select、delete、insert、update、create table、drop table等功能。其中数据操作语句(select、delete、insert、update)的解释要点之一是where条件子句的解释执行,类似于数学表达式求值算法。本文采用简单直观的“算符优先法”。该算法使用两个工作栈,一个称作OPTR栈,用以寄存运算符;另一个称作OPND栈,用以寄存操作数或运算结果。算法的基本思想是:

①首先置操作数栈为空,表达式起始符“#”为运算栈的栈底元素;

②依此读入表达式中每个Token。若是操作数,则进OPND栈adk是运算符,则和OPTR栈的栈顶运算符比较优先权后作相应操作,直至整个表达式求值完毕(即OPTR栈的栈顶元素和当前读入的Token均为“#”。

文实现的SQL子集描述如下:

预定义

:=<日期>

:=

:=[,[,[…]]]

:=[,[…] ]]

:= =│==│!=││>│>=│<│<=

:=[,[,[…]]]

<统计函数名>:=MIN│MAX│COUNT│SUM

<统计函数>:=<统计函数>(

<统计list>:=<统计函数>,[,<统计函数>[,<统计函数>[…]]]

<数据类型>:=INT│UNMBER│CHAR│DATE

:=文递归定义式

:=(

:=NOT

:=OR

:=AND

SQL文定义式

①SELECT*|FROM

[WHERE][ORDER BY[ASC|DESC]]

②SELECT<统计list>FROM

[WHERE]

③UPDATE

SET[WHERE]

④INSERT INTO

[()]VALUES()

⑤DELETE FROM

[WHERE]

⑥CREATE TABLE

(<数据类型>[,<数据类型>[,<数据类型>[…]]])

⑦DROP TABLE

注:|表示多选个,表示某定义项目,[]表示可选项目,…代表循环省略表示。

(3)动作执行层

动作执行层是整个DB组件的核心和关键,因为所有的DB操作最终都由该层完成,同时用户也可以跳过上面的两层,直接调用该层的API,以实现相同的数据操作功能。下面介绍其主要设计要点和思路。

2.3 数据的表达与存储

由于嵌入式系统的资源十分有限,不能引入复杂的算法和数据存储格式,同时由于Java对二进制数据的处理十分不便,本文最终采用CSV格式来保存表数据。其要点是:

①各字段数据之间采用「,」分开;

②如果字段数据本身包含有「,」,则将整个字段数据用引号括起来;

③如果字段数据本身包含有引号「”」,则将引号「”」改写为两个重叠的引号「””」,依次类推。其次,每个记录占文本文件的个行,每一个数据表与一个物理数据文件一一对应。

采用这种方式处理的优点是:

①全部数据都是采用字符串保存,Java处理起来十分方便;

②对不定长字段的保存处理与定长字段处理统一,不需要额外的附加处理,而且存储效率高;

③对多字节文字的处理程序不需要额外的编码转换处理,由

JVM平台本身的功能可以自动完成。

当然,采用这种处理方式也存在其不足之处:

①由于在数据文件中,每条记录的长度不定,数据即使局部更新,也必须重写整个文件;

②由于同样原因,单条记录的.检索难于直接定位,而必须读入整个数据文件。

为弥补由此产生的性能下降,本文采用数据Cache加以克服。也就是说,尽可能将数据缓存在内存中,通过减少对物理文件的读写操作来提高数据的性能。

2.4 多线程数据存取的同步与互斥

在Java虚拟机环境下,没有多进程的概念,但对于多任务的处理提供了多线程的手段。本DB引擎组件是公共组件,供上层多个应用程序组件共同使用。由于上层的每个应用程序组件本身由一个或数个线程来执行,因此,DB引擎组件必须考虑多个线程同时存取某个数据时可能引起的冲突问题。对于该问题的解决办法,一般是采用DB锁定的方法。关于DB锁定,进一步细分的话,可区分为读锁和写锁;根据锁定粒度的粗细可分为按表锁、按Page锁、按记录锁等,不一而足。

为设计和实现的简单起见,本DB引擎组件提供按表锁定的方式,同时不区分读写锁之间的区别。这样,大大简化了SQL语句的分析和处理过程,并且可以直接把锁定操作与表的open操作相关联,锁解除与表的close操作相关联。实现时,对应表对象Table的每一个实例,设置一个field变量,用于保存锁定状态,再利用Java语言提供的synchronized手段同,可以较为方便地实现数据表的锁定功能。代表示例如下:

//表锁定。为了避免死锁,有超时判断逻辑

synchronized void lock()throws DBError{

long t2,t1;

t1=System.currentTimeMillis();

//由于可能出现在wait语句被唤醒而却得不到表锁的情况,为提高超时逻辑判断精度,采用循环

while(isLocked){

try{

wait(DBError.TIMEOUT/10);

}catch(Exception e){e.printStackTrace();}

//超时判断

t2=System.currentTimeMillis();

if(t2-t1>DBError.TIMEOUT)break;

}

//发生超时退出循环情况,抛出例外

if(isLocked){

throw new DBError(DBError.TIMEOUT_ERR,name);

}

//设定锁定标志

isLocked=true;

}

//表打开操作

//参数ro只读打开标志

void open(Boolean ro)throws DBError{

lock();

readOnly=ro;

//表数据读入

load();

}

//表关闭操作(同时释放锁)

public synchronized void close() throws DBError{

if(isLocked==false)return;

//关闭前,保存数据

if(isDirty)save();

if(isUnload)unload();

//释放锁,通知其它等待线程

isLocked=false;

notify();

}

图3 DB引擎组件主要类的关系

2.5 DB组件实现的结构设计

图3所示为DB引擎组件的主要类之间的关系。其中,Database为数据库类,用于描述和管理整个数据库对象Table为数据表类,用于描述和管理表对象;TableData用于描述和管理保存表数据的物理介质(文件);Field为字段类,用于描述和管理字段类型信息;Record为记录类,描述一条数据记录。为简化处理,本组件将Database类设计为singleton模式,即本组件只能创建一个Database实例。这对于嵌入式系统来说,大部分场合已经足够。与数据库的一般物理概念相对应,1个Database实例包含n个Table实例,1个Table实例包含n个Field实例。同时,1个Table实例包含1个TableData实例,1个TableData实例包含n个Record实例。

Connection类用于管理用户访问数据库的会话(Session)过程。对应一个用户的一次会话过程,生成一个Connection实例。Connection类对象保存着当前Session打开的Table列表,当用户提交执行某SQL语句而需要锁定某个Table时,系统首先检查该表是否已经在当前Session已打开的Table列表中。如果已经被打开,则不需要进行重复的锁定操作,直接反回对应的Table对象实例。反之,如果尚未包含在打开的Table列表中,表明当前Session尚未打开和锁定该表,必须执行该表的打开和锁定操作(如果该表已被其它Session打开,则必须等待到其它Session翻放该表为止)。

本DB组件还支持commit与rollback事务处理。能够在如此微小的DB组件实现事务处理,主要得益于上述的Session管理框架。在Table类commit与rollback处理基础上,当一个Session执行commit或rollback操作时,对包含在打开列表中的每个Table实例,调用执行相应的commit或rollback处理即可。

3 结语与展望

本DB组件已实际运行了大约两年时间。这期间除了对该组件进行一些功能追加以外,主体框架上基本保持不变,从而在一定程序上表明了该设计框架的可行性和合理性。该组件编译以后,class文件形成的jar包大小约为68KB,短小精度悍,便于使用。当然,该DB组件目前仍然存在一些不足:首先,较为关键的一点是速度问题。一直以来,Java的执行速度问题就是受批语的缺点所在,因此采用它实现自然也避免不了这人瓶颈。今后改进的思路之一是,将其中Java处理效率不高的部分移出Java,采用C实现;二者通过JNI手段加以连接,以提高总体的运行速度。第二点需要改进的地方是表锁定的粒度问题。由于目前只能整个表进行锁定,并且不区分读锁定与写锁定,因此粒度较粗。虽然这样实现起来较为简单,但在多任务处理环境中可能增加不必要的时间等待。最后,JDBC接口的实现目前还不完全,需要加以完善。

★ 数据库设计文档范文

★ 数据库参考文献格式

★ 面向城市规划的空间数据方法

★ 数据库管理英文简历

★ 教师红色引擎工程学习心得体会

★ 简介模板免费

★ 数据库实训报告范文

★ 再看数据库――(7)游标

★ 国际贸易与数据库营销

B2B搜索引擎平台研究 篇6

关键词:网商,电子商务,融资,机制

1 B2B电子商务网商融资市场发展概况

近年来, 中国电子商务发展迅速, 据中国电子商务研究中心数据显示, 2010年, 国内B2B市场继续保持着稳定的增长态势, 一方面, B2B电子商务交易额稳步增长, 全国电子商务市场交易额达4.5万亿, 同比增长22%。其中, B2B电子商务交易额达到3.8万亿, 同比增长15.8%;另一方面, 利用电子商务平台的中小企业规模庞大, 2010年, 我国使用第三方电子商务平台的中小企业用户规模已经突破1400万。

随着B2B电子商务中经营的中小企业 (以下简称“网商”) 群体增多, 其发展所面临的融资问题日益突出, 为此, 国内各大银行与电子商务行业的一些领军企业开始合作, 依托电子商务企业掌握的海量企业交易数据和对物流、资金流、信息流的掌控, 开辟了一条有别于传统信贷模式的网络融资服务。通过努力, 截至2010年12月, 中国第三方电子商务市场企业全年“网络融资”贷款规模首度突破“百亿大关”, 达140亿元, 而在2009年, 这一数字仅为46亿元, 业务发展迅速, 同时包括阿里巴巴、网盛生意宝等多家电子商务平台介入网商融资服务。

2 银行开展网商融资市场中存在的问题

无论从客户数、交易规模以及发展速度来看, 网商融资市场的潜力巨大, 但深究分析, 较银行现有中小企业融资客户相比, 网商的融资难的现象更为明显。主要存在的问题如下:

2.1 客户端:如何较好较快满足客户需求

作为电子商务平台上经营的网商企业, 普遍采用信息发布、网上洽谈等网络化的经营模式, 其生意的突发性和随机性现象更为明显, 对融资需求的“短、频、急”需求更为强烈。而在传统银行的信贷流程中, 涉及到业务申请、银行调查、人工审查审批、作业监督、合同签订等一系列线下操作环节, 难以及时契合网商高效的融资需求。同时, 由于中小企业的出险率高, 传统银行中小企业融资对押品的要求较高, 抵质押是中小企业获得融资的前提条件, 而作为互联网上经营的网商, 以轻资产型的贸易企业为主, 且经营年限不长, 可提供抵质押物的难度较大, 据阿里巴巴统计, 其B2B平台上超过70%的网商无法提供抵质押物, 因此, 简单生搬硬套现有融资方式, 难以解决网商的融资需求。

2.2 银行端:如何实现一条可持续的商业化模式

银行作为商业化的经营机构, 发展一条可持续的商业化模式是开展网络融资业务的根本。从经营角度, 银行在开展网商融资服务当中, 至少存在两大难点:

2.2.1 如何防范网商融资风险

网商作为经营年限短、固定资产轻的市场群体, 其经营波动性、抗风险能力普遍较弱, 因此, 如何防范网商融资风险是银行开展网商融资所面临的首要问题。若与银行现有中小企业融资客户相比, 网商群体是更小的企业, 普通处于发展初期, 银行在融资发展过程当中, 普遍存在以下几大难题:一是如何衡量企业经营能力, 网商财务不规范现象更为严重, 同时, 作为非生产企业为主的网商, 也不适宜用电费和水费的调查模式, 银行须重新开辟一条新型调查模式来了解企业经营状况;二是如何防范企业主道德风险, 按传统信贷模式说法, 即如何评判企业主信用状况;三是如何确保企业第二还款来源, 在中小企业违约率普遍较高的前提下, 银行要求押品是保障自身融资安全的合理举措, 但在缺乏押品的融资市场, 如何解决融资出险后的追偿问题, 降低违约损失率, 是银行防范融资风险的重要举措。

2.2.2 如何降低网商融资操作成本

网商融资金额小、频率高, 银行必须重点考虑如何降低业务操作成本问题, 一是如何解决信息传输成本, 网商融资已颠覆了银行传统融资的笔数概念, 若每笔融资的信息传输均采用纸质方式, 操作难以为继;二是降低融资流程处理成本, 包括信息获取、资料传输、资料审核、合同签订等一系列处理成本;三是降低银行管理成本, 随着客户数的几何级增长, 再采用原有逐户的贷后管理模式, 已不具备可操作性, 因此, 如何能够精准地发起潜在风险客户, 实现贷后管理的目标化操作, 也是网商融资模式中必须重点思考的一环。

3 银行发展网商融资市场中的策略研究

3.1 实行客户自助的业务操作模式

从电子银行的发展可以对网商融资的发展起到较大的启示作用。通过网上银行, 实现了资金汇划支付从柜面化向网络化转化, 这不仅大幅提升了客户体验, 也极大地降低了银行操作成本。因此, 网商融资要发展, 必须探索出一条“客户自助+系统自动”的业务操作模式。

所谓客户自助, 即在融资现有操作环节中, 将部分借款人与银行交互操作部分转化为客户自助操作, 如业务申请、合同签订、贷款提取、贷款归还等环节, 可以由客户自助在网上银行进行操作。客户自助的操作方式将突破时间和空间的限制, 大幅度提升客户体验。

所谓系统自动, 即在客户操作指令发出之后, 银行要尽量实行系统化的处理方式, 一方面, 系统化处理能力提升处理时效, 系统处理解决了客户自助操作背后的响应问题, 没有系统处理, 不但不会提升客户体验, 反倒大幅影响客户操作感受;另一方面, 系统化处理解决了人工处理的操作风险和操作成本问题, 大幅超过柜面结算汇款金额。试想, 若没有系统化的处理手段, 今天网点的排队现象将不可想象。因此, 在网商融资环节的系统自动, 要实现客户指令操作后的自动化处理, 如客户网上申请融资之后, 系统能自动响应接收申请;客户在网上发起贷款提取操作之后, 系统能自动触发贷款发放操作。

客户自助+系统自动的操作模式, 在现有的网上银行的资金汇划等方面应用已非常广泛, 银行须将此种模式嫁接到融资过程当中, 真正实现自助化的融资模式, 将成为银行开展网商融资的根本。

3.2 探索网商融资的风险管理模式

3.2.1“网络行为+实地验证”——如何评判客户

信息获取成本是开展小企业融资业务的主要难点之一, 银行在开展传统小企业信贷业务时, 往往通过多方验证来综合评判企业违约风险, 或者干脆采用当铺文化, 仅抓第二还款来源来降低违约损失率。但是, 在数量庞大的网商群体中, 再采用原有的信息获取方式不可持续。一是网商的经营模式不同于传统中小企业的经营模式, 其信息获取源头发生变化;二是网商普遍以贸易商为主, 传统用于核实中小工业企业的水电费、财务报表均不太适用于网商群体。为此, 如何核实、并且低成本地核实网商的经营情况是业务顺利开展的前提。

数据可以造假, 但行为很难造假。采用监测网商网络经营行为的方式将彻底改变银行现有信息获取方式。网商作为网络上经营的商户, 其在电子商务平台上留有大量的业务洽谈、在线交易、网上信用的网络行为信息, 通过对网络行为信息的系统抓取、整理, 来探索一条评判网商经营情况的新模式。在实际业务开展当中, 为了验证网络行为与客户经营情况的相关性, 需要通过实地验证的方式来验证, 最终通过对网络行为信息的加工整理, 探索出与企业经营状况相关性最大的行为指标, 因此, 我们提出“网络行为+实地验证”的客户调查模式, 并以此来评判网商经营情况。

3.2.2 联合保证替代抵质押——如何解决抵押难题

缺乏抵质押是网商融资的另一大缺陷, 因此, 突破抵押瓶颈势在必行。在采用抵押方式的融资时, 往往将网商作为单独的融资主体来考虑, 但网商在网络经营中, 具有自身的网络群体, 包括上下游、同行等, 网商的信誉、经营状况在网络群体中较为透明, 设计一种互相监督、互相制衡的融资模式是突破抵质押的思路之一。建设银行基于网商群体的现状, 开发出一款网商连带联保的业务品种, 即3户 (含) 以上的网商组成联合体, 联合体中任一成员既是借款人, 又是其他联合体成员借款的担保人, 通过几户网商之前相互交错的担保, 为单个网商的融资提供了增信作用, 由此来解决网商抵押物不足的难题。通过联合保证的模式, 既解决了网商融资瓶颈, 又防范了银行的信贷风险。

3.2.3 实行精确化的贷后管理——如何进行管理

随着网商融资户数的增多, 针对数量庞大融资群体的贷后管理工作, 无法再通过逐户的间隔期检查模式, 而需要探索精确化的风险预警+现场检查方式来解决融资户的贷后管理问题。在预警体系中, 通过对网络行为和账户行为的持续监测, 对发现异常的客户进行预警, 以此来精确化地定位潜在风险客户, 并辅以现场检查方式来验证预警结果。

3.3 挖掘网商融资需求行为, 提升客户体验

消费者行为研究在电子商务领域中已大行其道, 但在融资领域, 尤其是企业融资领域环节尚处于空白状态, 出现这种现象的原因是多方面的, 但随着网商融资模式的出现, 如何挖掘网商的融资需求, 如何提升网商在融资过程中的客户体验, 是实现网商融资模式能够可持续发展的根本。

在现有的融资中, 银行设计产品往往根据基层行的意见和产品设计者的人工判断来完成。网商融资将融资过程网络化, 为挖掘客户融资需求提供了基础, 一方面, 银行应采取数据挖掘等技术, 在客户细分、客户流失预测、客户行为分析、数据库直销、系统预警等方面进行广泛应用, 能够实现直接面对客户进行融资行为分析;另一方面, 银行应实行常态化的产品完善机制, 对于融资产品的业务操作、贷款额度、贷款利率等方面, 按照消费者行为分析的结果进行快速修正, 以达到融资产品实时贴近市场的效果。

4 加强网商融资服务的综合配套机制建设

近年来, 我国政府及有关部门对电子商务发展的重视程度不断提升, 相继出台了多项鼓励扶持政策。例如, 2005年, 国务院办公厅印发了《关于加快电子商务发展的若干意见》, 要求推进国民经济重点领域的电子商务应用, 探索多层次、多模式的中国特色电子商务发展道路, 促进各类电子商务应用的协调发展;2007年6月, 国家发改委、国务院信息化工作办公室联合发布我国首部《电子商务发展“十一五”规划》, 明确提出我国正值电子商务发展的战略机遇期, 要普及深化电子商务应用, 提高国民经济运行效率和质量, 大力发展电子商务服务业, 形成国民经济发展的新的增长点;在2010年《政府工作报告》中, 温家宝总理首次明确提出积极发展电子商务。

网商融资作为电子商务发展中不可或缺的一环, 对推动网商群体发展, 促进电子商务生态环境建设具有举足轻重的作用, 商业银行作为金融体系中的一环, 无法也不可能单独承担网商融资难的问题, 其需要各方面努力, 通过对方合作, 进行电子商务的综合配套机制建设, 进而推动网络生态建设。一是要建立多方合作机制, 建立政府引导、金融、物流多方合作的模式, 打通电子商务的信息流、资金流和物流;二是要建立网络信用建设, 改变现有部分网商重视线下信用, 轻视网上信用的情况, 将网上信用作为企业整体信用的一大组成部分, 推动网络信用体系建设;三是要合理降低网商税负水平, 由于网商的避税现状, 其往往将经营状况隐蔽进行, 仅将网络平台作为一种信息展示的渠道, 通过降低税负水平, 引导网商的资金流显化;四是打击网络不良商户, 对于网络欺诈、洗钱等违法行为的商户, 要采用法律手段予以制裁;五是促进各个电子商务平台的理性竞争, 防止垄断, 网络经济的一大特征即集群效应, 既有可能出现垄断现象, 这不仅影像消费者福利, 也影响网商经营, 因此, 政府需要引导各个平台有效竞争。通过对电子商务的综合机制建设, 建立高效、信用的网络生态, 推动我国电子商务行业又好又快发展。

参考文献

[1]丁慎源.网络贷款能否破解中小企业"融资难[J].中小企业管理与科技, 2010 (29) .

[2]胡晓明, 彭丽芳.基于长尾理论的电子商务信用融资服务[R].第二届网商及电子商务生态学术研讨会, 2009.

B2B搜索引擎平台研究 篇7

依据《查找职业归纳陈述》显现,归纳查找引擎文字罗列方法形成许多用户体会欠安,查找引擎应该走上敞开,联系人类才智的联系型查找成果现已成为下一代查找引擎的开展方向,而敞开式查找能够给用户供给更好的查找成果。

本年查找商场的运营商以及职业教授的表态是最棒的佐证,甚至连国外的查找巨子google、微软也做出了改动,推出“常识图谱”和“必应快照”,都是根据常识同享型的查找成果内容。

敞开渠道

本年查找职业加入了一部分新成员,就是其间一位,推出第三代查找主打敞开查找渠道。第三代查找的特征在于通常用户敞开查找后台,通常用户有了等多的权力,不仅仅是运用和获取查找成果,还改动了传统方法。

第三代代表开发渠道的方向,向普通用户、协作组织层面敞开。是查找职业界首个完全对用户敞开查找后台的查找运营商。查找引擎敞开别的一个方向是,向站长、运用东西开发者层面的敞开,打造联盟查找渠道,baidu是这一范畴的典型代表。

baidu敞开渠道是对准用户需要,为站长开发者供给免费的敞开式数据与对接渠道,站长与开发者将布局化的数据提交到baidu开发后台,让其同步运营在baidu查找中,以查找成果的方法展现给用户。

baidu对敞开渠道的定位是打造查找敞开渠道生态链,上面是接受和联系站长、运用开发者和内容运营者等优质内容资源,下面是效劳广阔用户,必定程度上供给查找成果质量。

搜狗查找也加入了查找运用敞开渠道的队伍中,本年7月,搜狗查找敞开渠道正式上线,衔接广阔站长、开发者和内容效劳商,这一行为被搜狗视为晋升技能质量最要害才过程。

搜狗查找负责人曾表:经过敞开查找渠道优化查找成果的方法现已得到许多干流查找引擎的认同,Google推出OneBox,baidu也提出了框核算,

一起也呈现了许多仿照者。

不管是向用户敞开查找后台仍是google、baidu、搜狗向运用开发者、站长敞开查找进口,“敞开”现已成为查找业界厂商的一致。

常识同享

跟着查找引擎的需要在不断加深、加广,传统的查找方法也发作很大改动,除了文字之外,视频、语音等信息现已成为查找引擎的重要原因,查找成果交互式展现有利于晋升用户体会。

交互式展现方法能够了解成一种常识同享型的查找成果,也是这些年查找引擎开展方法的新趋势。许多国内的查找厂商都在常识同享方面做出了测验和改动,有的在功能设计和展现作用上也改动许多。

本年7月,google推出了“常识图谱”产物,这个产物联系多个查找成果的展现渠道,只会提出了一些要害词的关联信息,然后愈加体现出成果常识的同享特征,所以有人称常识图谱与网络渠道是团体才智的联系。不久,微软在必应查找快照侧边栏增加闻名人物和地址的直接成果,向用户供给闻名人物和地址的关联信息,用户能够获取更多的名人信息。有媒体称必应快照查找是相似常识图谱的东西。

在国内里搜在常识同享方面进行了测验,第三代查找成果包含与要害词的新闻、视频、百科等信息,用户能够看到更全部丰厚的查找成果,而这些成果是参与者和查找技能共同完成的,用户在运用浏览器的过程中,是能够同享和完善这些成果。

交际查找引擎运营查找也具有常识同享的特征,据负责人讲,如此查找供给不仅是根本信息的网页成果,是一种论题式信息布局,以信息聚合的方法了解用户需要,也能够经过交际渠道协助用户解决问题。

B2B搜索引擎平台研究 篇8

腾讯科技讯(雷建平)8月28日消息,自去年3月以来高速发展的搜狗最近单季度营收突破千万,搜狗CEO王小川更是信心满满的放言1年流量超过谷歌中国,并且实现盈亏平衡,

搜狗为何有如此快的上升势头,在过去一年多时间做了哪些工作,今后将如何发展,近日搜狗搜索事业部总经理茹立云就这些问题向腾讯科技作出解答。

茹立云称搜狗搜索未来将与LBS应用结合,并将利用搜狗手机输入法的渠道推广搜狗手机搜索,不过,他强调搜狗暂时不会独立做购物搜索,不会与淘宝旗下一淘网产生冲突。

正打造移动开放平台

随着移动互联网发展,搜狗也加大了对这一领域投入力度。据茹立云透露,去年以来搜狗推出新产品步伐明显加快,继推出识图搜索功能后,现在正在跟第三方合作,打造移动开放平台。

茹立云称,移动互联网上的数据更精准,移动平台推出后可以更加及时添加到搜狗搜索中。搜狗正积极推进这一计划,已有数十家合作伙伴加入。除打造移动开放平台外,搜狗在LBS上也在不断做出尝试。

作为最早一批独立地图运营商及牌照获得者,茹立云认为搜狗地图未来大有所为。未来移动互联网应用与地理服务息息相关,与LBS结合一直是搜狗努力的方向,也是先天优势所在。

茹立云举例说,手机LBS应用可根据用户地理位置及查询给用户推进最适合的餐馆、加油站。之前LBS在互联网或者移动互联网中,还属于独立创新形态存在。未来移动互联网上搜索更偏向于技术服务、更偏向娱乐性。LBS结合是非常重要的一点。

搜狗手机搜索也在加紧推广。茹立云称,手机端搜索有几大渠道途径:手机硬件商、移动运营商、手机软件商三类。搜狗手机输入法是重要推广渠道,搜狗搜索正在积极探索搜狗手机输入法的推广价值。

据茹立云介绍,搜狗与硬件厂商间主要是手机输入法方面合作,搜索方面合作尚未进行,软件渠道方面则已与浏览器厂商UCWeb合作,不过在其他方面还处于尝试阶段。

搜狗不做独立购物搜索

从母公司分拆与阿里巴巴组成新公司后,搜狗进入到高速发展阶段。最新财报显示,搜狗搜索及起始页业务收入达1360万美元,较2010年同期增长252%,较上一季度增71%。搜狗与淘宝的合作也进入新阶段,购物浏览器今年底前将正式上线。

不过,另一方面淘宝已推出购物搜索一淘网,搜狗与一淘网之间仍不可避免的面临竞争。对此,茹立云表示,搜狗不打算做一个独立购物搜索或类似产品。 “在我们搜索里,发现用户有购物需求,可以把结果寄存到搜索里,用户点出去可能进入的是一淘或者是去哪儿。用户浏览某一个页面的时候,可以做一些相关推荐。”

茹立云称,搜狗更希望把互联网上已存在的垂直引擎整合进来,通过搜狗流量、渠道分发给用户,一方面是用户流量体验更好,另一方面是产业链形成一个协同效应,这也避免了搜狗所有事情都需要自己做。

目前实时搜索已经成为一个热门应用,在这方面搜狗也有举措。据茹立云介绍,搜狗去年5月时就在搜索中集成微博搜索结果,他认为对于实时搜索来说,热点事件上需更进一部挖掘用户搜索需求。未来应用可能会脱离简单的搜索形态。“同一事件从最初开始和最后,中间有一个什么样的变迁,这可能是用户更感兴趣的,而不是一个单纯的搜索。”

以下是专访搜狗搜索事业部总经理茹立云实录:

腾讯科技:搜狗刚刚推出一个识图搜索这一块,现在像谷歌、百度都推出了类似的业务,我想了解,为什么这些搜索引擎开始要做这个业务呢?你们的搜索是跟进还是创新?这个服务对你们的意义在哪里?

搜狗做以图搜图比谷歌更本地化

茹立云:首先我们会去看到,用户对图片的需求是非常大的,我们从自身的数据,还有第三方的数据可以发现,除了图文搜索以外,垂直搜索里面图片是比较大搜索需求。在以前的图片搜索只是能够根据输入关键词找对应的图片。就是说,你已经知道某个概念了,你把这个概念对应的图片找出来。

但是实际上,我们各种用户查询的分析,互联网上这种问题,在搜狗上查,这张图片是谁?这种结果有的时候是上千万,很多用户他看了一张图片,但是想知道这张图片是谁?他的来源是什么?他背后也什么故事,他是不是真实的?这种需求潜在着很多。

那么很难用之前的已经知道一个概念,去把这图片找出来,那你就是撞大运了,猜他是一个什么概念,看看有没有这样的图片?之前的这种需求的满足非常广,我们推出这种,以图搜图,你通过图片的上传,可以搜出或者我可以告诉你这个图片是谁?这样的话用户的这类需求就可以满足。

我们会发现之前的几类产品,都存在明显的缺陷,首先第一位,使用特别不便捷,你要搜一张图,要么是把这个图片拷下来,再打开首页,再输入进去看。但是我们现在的一种方式是跟浏览器的结合,用户想调查某一个图背后的故事,特别便利,大部分用户的图片都是网络图片,他只要把鼠标移到这个图片上,通过浏览器的功能或者插件,他马上告诉你,这张图片是谁,跟他同组这个图片是什么?有几张类似的图片,他们很容易去判断潜在的东西。

第二块像谷歌、百度,百度的识图更新度非常复杂,现在数据库,半年内现在东西都差不多。搜狗这一块可以做到当天的图片当天就能够搜索出来。很多用户去搜的时候,可能是比较热点的一些图片,比如说前一段北京的暴雨这些图片,你需要有一个及时度,这些图片出来之后,首先他在什么范围内有这些图片,还有他最初的源头是什么?可能这个图片三个月以内的,可能百度现在的一套就搜索不出来。

比如谷歌,他存在一个问题,比如说你去搜一些图片的时候,他经常给你出韩文、日文,甚至阿拉伯文,作为普通的网民的话,他肯定对语言的掌握没有那么精深,英文大家基本上还可以读一读,但是韩文、阿拉伯文,西班牙语这些东西,就是看到了也不知道他是什么东西?所以本地化的支持上,受到更多的简体中文一种方式。

用户看到搜图的结果,能够看懂,另外一块我们刚刚发现用户存在一种需求,他看到一张图片,觉得很好玩,他想找其他类似的图片,类似的图片可能跟这张图片,从一般的基于图片的内容来讲,没有的那种特征,没有办法把他找出来,他可能形状上,并不一定类似,但是现在比如说,像谷歌推出了能够找形状类似的图片。

百度没有这种东西,搜狗可以通过这种纹理、颜色、形状这些特征之外,还可以通过图片间的链接关系,把同主题图片找出来。

人脸技术技术近几年并无真正突破

腾讯科技:其实你们的图片识别就是很容易让人联系到人脸识别,这里面涉及到一个关于隐私方面的问题,你们具体在人脸识别这一方面有什么样的突破性的发展?另外,你们如何规避隐私方面的问题?

茹立云:搜狗在图片上的积累,技术上积累,或者经验上积累,会比搜狗公司还要长,我们现在带领这个图片团队的人,是一位在图像领域有十多年研究的清华大学的博士,做相关的研究工作,

探索用输入法推广搜狗手机搜索

腾讯科技:其实您刚刚说了有很好的服务,另外一方面你有很好的服务,但是没有的渠道来推你这个产品,也是一个很大的问题。之前像百度,它其实联合一些硬件厂商,很多预装的服务,谷歌它有安卓系统,它有相关的渠道,推广他们的搜索。你们虽然说在PC端有输入法,有浏览器可以帮助你们推广你们的搜索,你们在手机端怎么样推动你们的搜索应用?

茹立云:手机端可能是几大渠道的途径,第一大是手机的硬件商,第二大就是移动运营商,第三大是手机的软件商,本身的web服务的网站。搜狗本身手机输入法就是一个很大的渠道,这也是积极探索,怎么样能够结合起来。另外,我们也跟一些非常知名的软件服务商合作。

腾讯科技:您刚才只是说宏观的,我想问的是,你们和哪些硬件厂商有哪些合作,和移动运营商有哪些合作?

茹立云:在无线这一块,更多是手机的这种,或者在移动软件运营商这一块,软件厂商这一块我们已经谈下一些合作。硬件这一块,我们现在更多还在手机输入法,硬件厂商手机输入法的合作。移动运营商一方面在手机输入法这一块合作,另外一方面在探讨跟搜狗搜索这一块怎么去合作。

腾讯科技:目前还是属于在尝试的阶段?

茹立云:对,除了软件渠道,因为我们跟UCWeb有合作之外,其他的还处于一种尝试的阶段。

对广告严格监控防范竞价排名弊端

腾讯科技:我们刚刚谈到的很多是很技术的方面,另外一方面,目前百度在中国的搜索市场一家独大,但是之前的竞价排名到现在的凤巢一直是遭到了业界的抨击。你们是怎样能规避像百度出现的问题呢?

茹立云:我们通过几个方面的方式,本身百度受到抨击,用户这一块的体验上,搜狗的所有广告跟自然结果是有明显的标识,我们的广告都是有底色的,不像百度很大一部分广告没有底色,一般的用户没办法去辨别这是广告还是自然搜索。搜狗上用户可以更好地辨别,这是广告还是自然结果,用户可以对这些事情进行选择。

第二块,对客户的开户资质会有非常高的要求,对他们资质的认定要求会非常高。第三块,有一些东西可能一开始你认定了,它是正常的一环,但是一旦投放广告之后,可能会把内容给变了,我们有一套监控机制去判断当前的页面内容跟最初投放广告的时候页面内容是不是发生了变化,如果是变化的话,那可能就是要有一套预警和重新被确认的流程,这样能够确保一开始投放是正常的,到后面做了一些坏事,继续在我们搜索引擎出现的情况。

第四块,我们有一个专门的团队,人工在网上寻查我们的广告是不是正常的,也会去测试一些广告它背后的服务是不是真实的。

通过细节累计改变用户搜索偏好

腾讯科技:搜索在使用的过程中,用户是有一个偏好的过程。像百度的用户规模这么大,还是因为它有一个很大的用户黏性,你们处于相对弱势的情况下,你们怎样才能扭转现在这样一个局面?

茹立云:首先过去一年的发展过程,我们过去一年流量将近增长了一倍。整个中国互联网搜索市场流量增长20%-30%,我们的增长速度比竞争对手快很多,同时,由于我们搜索引擎和浏览器两个渠道上面的创新,使得真正接触到搜狗搜索的用户,越来越喜欢搜狗。它是一个搜索效果更好,能够更方便去辨别广告和搜索结果。用户在里面的体验也是越来越好。

我们产品的效果和平台是非常有竞争的,可以成为国内最好的搜索引擎用户体验的厂商,很多层面上都已经超过谷歌和百度的情况。的确面临一个问题,怎么让更多用户知道呢,我们希望通过更多去拓展用户,把搜狗搜索推送在用户面前之外,也希望做一些跟之前不一样的产品,使得用户背后的需求,他要搜索就要来搜狗,我要地图,就得来搜狗,我要音乐就得来搜狗,一整串的把他串起来,可能会想到要搜索就得来搜狗。

根据用户行为推送适合内容

腾讯科技:您能给我描述一下,搜狗搜索未来理想的形象,距离这一天大概有多远?

茹立云:这个可以从我们的slogan说起,我们的slogan应该是搜狗开始。相关的几个事情,前面提到过,我们希望用户它有搜索意图的时候,或者他被迫有搜索意图的时候,一方面有搜索意图的时候,他能想到搜狗。同时他背后有搜索意图的时候,能够把它可能关注的内容主动地推送给它,或者推荐给它,这也是互联网发展的阶段。

以前门户阶段是浏览,后来是搜索的阶段,现在第三个阶段是推介。无论是在走所引擎还是SNS服务里面,大家都在努力做推介。不需要用户自己主动输这些东西,你就可以把关心的内容推送给他。

搜狗未来会往这个方向去发展,一方面我们需要把现有的搜索引擎市场份额做大,同时我们把它作为用户上网整体的入口。刚才提到的垂直搜索的入口非常多,如果他现在要记住搜索的入口,我觉得对一半网民来讲都是非常困难的。搜狗通过它自主研发的,已经掌握这么一套垂直结果的实时集成的技术,他只要到搜狗搜索里面搜索任何相关的他想找的搜索和内容,我们都能够有能力跟他最相关的垂直引擎推送给他。

用户可以把搜狗当做一个同一个上网入口,不需要自己有各种各样的垂直引擎。你也看到现在垂直引擎本身流量比较大,一些小的垂直引擎加起来流量也非常大。一方面能够使得用户使用起来很便捷,另一方面使整个产业更加良性的,不是所有的事情都让你自己来做。我们有一个用户群,把这流量带给你。

另外一方面,我们能够在用户并不是显示输入观念的一种搜索意图下,还是这种搜索意图,我们把它称为探索引擎。在你看一篇文章,或者写一些东西的时候,我们探索你背后的意图是什么,什么样的信息或者什么样的资料对你是有帮助的,我就可以推送给你。这两者结合在一起的话,我们的目标是最后能够形成的无时无刻,无处不在的搜索。这种搜索并不需要你像以前输入关键词,而是根据你的一些行为,会把背后搜索好的结果告诉你,推送给你。

据我了解,人脸识别技术近几年全球范围内还是没有真正意义上的突破,他能够做还是在一个封闭的数据体上,去找人脸的匹配或者比对。

比如说大家可能看到一个产品,像微软相册的这种产品,因为是跟你相关的这种人,出现在照片里的人也不会太多,一般的家庭十几个人就挺多的了,如果朋友圈大一点,就几百个人,这种范围内的是可以匹配的,类似的像facebook上的,你圈一个人,他就在你的相册里面给你找出来,某种意义上来讲,还是一种封闭式的,你要去分个类,可能就是几百甚至上千了不起了,但是如果你一旦开放到整个互联网的话,互联网数亿的人,你要去做匹配,现有的技术我觉得要做到精度很高,我觉得基本上还达不到。

这是本身人脸这么一个技术,可能大家会担心的一个点,我在街上随便拍一个照片,我可能把他背后其他的照片找出来,甚至找出他是谁,现在来讲是有一些难度的。

B2B搜索引擎平台研究 篇9

B2B平台为英文Business-toBusiness的缩写, 即企业对企业, 或者说是进出口商之间的外贸电子商务平台。B2B外贸平台是外贸购销市场的领域的一种, 是出口方对进口方的国际营销关系, 其具体的运作方式主要是出口方以会员的身份在B2B平台上用英语发布公司、销售产品信息、付款方式及运输等信息, 而进口方则可以在外贸平台上发布采购信息, 双方都可以在B2B平台看到对方的信息后向另一方发Email询盘或者通过Trade manager等软件在线交流, 从而使得外贸得以顺利进行。目前国内著名的B2B外贸平台主要有Global sources Alibaba及Madein-China等。

小型语料库因其灵活适用性在语料库的研究中成为一种较热的研究项目, 大型的语料库主要是研究范围较广的综合性研究, 而小型语料库一般是精心采集的, 旨在帮助语言学习者理解语言现象的语料库, 尤其是在商务英语专业翻译教学与研究过中, 可以充分利用海量网络资源及语料库工具创建小型翻译语料库以辅助教学与科研。

二、小型翻译语料库的建立

在创建B2B翻译的小型语料库前, 首先应根据该语料库国际贸易用途及B2B网页框架设定一些基本原则, 在日常的商务翻译教学过程中需要编撰一系列专用翻译素材与教学辅导素材, 如果以B2B平台的翻译为素材, 自建小型语料库, 对翻译教学将有较大的帮助。目前小型语料库仍未有统一明确的规范与标准, 但就其建立过程而言, 主要分为料采集、格式转换、标注及赋码、语料的整合生成、语料库的检索四个主要的过程。

1. 语料采集和格式转换

开发大型的语料库是一浩繁的系统工程, 需要耗费大量的人力物力, 对于一般的商务英语翻译教学而言, 只需有针对性地建立小型语料库即可, 建立B2B翻译教学用小型语料库首要工作就是要进行语料采集和格式转换, 欲善其事, 必先利其器, 须了解常用的工具件。

信息采集工具:因B2B商务平台主要是网页在线信息, 故需运用一些网络语料批采集软件, 常用的网络信息收集软件主要有Wordsmith Tools里面的网页资料下载工具Webgetter以及Httrack等软件;文字编制的软件主要有Editpad Pro、Ultra Edit、Edit Plus等软件。

文字识别转换工具:常见的文字识别及转换工具主要有将PDF文档转换成word格式的Solid Converter PDF软件;Adobe Acrobat Pro、CAJ Viewer等, 如果是要将扫描的文档传话识别成电子文档还需要ABBYY Finereader软件。

专门针对B2B平台的网页语料采集, 一般采用Httrack软件, 将要采集的企业的B2B平台信息采集下载。

2. 语料的赋码

从网络上下载的文本一般还不是清洁文本, 需要清除杂质与多余的标点符号, 将清洁前后的文本进行分类命名保存。语料赋码工作的第一步通常是加Text header, 即给语料标注篇名、作者、字数、领域、文体、来源、关键词等, 一般做法是将上述项目分别填入尖括号中并放置在文本句首。

目前还没有自动编写Text header的软件, 需要手动编写, 一般的小型与语料库是可以根据个人实际需要不编写Text header。

目前较通用的语料进行赋码的软件有Tree Tagger自动词性赋码器, 使用该赋码器对英语赋码准确率在96%~97%之间, 以下为基本的操作步骤:

第一步, 双击打开Tree Tagger软件。

第二步, 点击左上角的File菜单, 选择其中的“Open File”选项或者“open Direction”选项, 打开对话框。

第三步, 在对话框中选取需要词性赋码的文档, 选中后点击“Open”按钮。

第四步, 在界面的上方“English, German, French, Italian”语言框中选取文本语言的种类。

第五步, 点击“Start Tagging”按钮, 软件就开始对打开的文本进行词性赋码。

Tree Tagger软件对所选文本词性赋码完成后, 会在原文本所在文件夹中生成同名文件, 只是扩展名已经变成了“.pos”, 此文件就是赋码后的文件。

3. 语料的整合

在对B2B平台采集的语料进行赋码后, 需要对这些赋码的语料进行整合后, 才能做检索工作。目前做语料整合检索的软件主要有Word Smith, Compulang Word Pilot以及Antconc等软件。在建立一般小型的语料库时, 我们一般采用wordpilot软件整合语料库, 具体的步骤如下:

第一步, 在“wordpilot”安装路径所在系统盘所在文件夹中找到“libraries”子文件夹, 在子文件夹中创建一个自建语料库的文件夹, 将以上搜集赋码的B2B清洁语料复制到该文件夹中。

第二步, 双击运行“wordpilot”软件, 选择“file”菜单里面的“new”选项, 出现对话框, 选择系统文件里面的“library”文件夹。

第三步, 选择“Edit”菜单中的“Add text file”选项, 软件会弹出对话框, 在对话框中找到新建在“libraries”文件夹中的语料库纯文档, 选择后对话框会自动关闭。

第四步, 选择“File”菜单中文件保存的“Save”选项, 键入自己命名的语料库的名词, 比如说“B2B platform”保存即可, 这样一个小型的语料库就生成了。

4. 语料的检索

语料库的检索的目的是导出索引行, 以便于研究者观察类似的语言现象, 洞察其中的秘密, 这些规律主要包括这几个规律: (1) 有关词语搭配的规律。一个词语惯常与哪些词语搭配出现, 词语的搭配一方面是与意义有关, 另一方面是与搭配形式有关, 分析词语的搭配对翻译教学具有重要的意义。 (2) 有关类联结及形式的规律, 搭配研究中主要是考虑词与词的共现关系。根据检索的难度系数来分, 可以分为简单检索与复杂检索, 简单检索的检索项目主要是检索一些明确的字面字符串和较为简单的通配符, 检索项中主要是常量检索, 变化形式不大。而复杂检索中的检索项是模糊综合性的, 检索表达式中常包含一系列变量, 比如对赋码语料中词性的检索。本文主要以Antconc软件为例说明语料库的整合及检索。Antconc软件是由日本早稻田大学科技学院与工程学院英语教育中心的Laurence Anthony教授编写的一款跨平台语料处理软件, 该软件具有索引, 词表生成, 主题词计算, 搭配和词组提取等多种功能。语料库建库及检索过程的具体方法如下:

第一步, 点击file菜单窗口出现“open files”, 选择要打开的语料文件。

第二步, 在“Search Term”一栏键入要检索的关键词词项, 如tea, trade term, 等等。

第三步, 在“Search Window Size”一栏设置显示的词语数量。

第四步, 点击“start”开始检索。

三、结语

语料库的建立在我国目前正在发展阶段, 语料库的建立及其软件的应用为商务英语教学提供了新的教学方法与教学手段。通过建立小型的B2B商务英语语料库的建设, 可以对国际贸易商务平台上面常用的项目进行模块化, 每一个模块的语料都有重叠之处, 通过建立这样的语料库, 可以为商务英语B2B平台的翻译提供有力的教学与练习工具, 促进商务英语翻译教学的发展。

摘要:本文基于外贸企业的B2B的销售平台角度, 探讨了小型语料库的建立的四个步骤:料采集、格式转换、标注及赋码、语料的整合生成、语料库的检索, 将小型语料库用于商务英语翻译教学, 能丰富教学手段、提高教学效果。

关键词:B2B外贸平台,商务翻译教学,语料库

参考文献

[1]桂诗春, 杨惠中.中国学习者英语语料库[M].上海:上海外语教育出版社, 2003.

[2]王克菲.新型双语对应语料库的设计与构建[J].中国翻译, 2004 (6) .

[3]赵宏展.小型翻译语料库的DIY[J].中国科技翻译, 2007 (2) .

[4]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社, 2002.

[5]阳光武.社会建构主义模式与汉英翻译教学[J].四川外语学院学报, 2004 (2) .

上一篇:托托乡中学纪念九一八事变演讲稿下一篇:全体老师学习活动总结