文件处理(精选10篇)
文件处理 篇1
引言
《标准施工招标文件》第二章第3.7.2条规定:“投标文件应当对招标文件有关工期、投标有效期、质量要求、技术标准和要求、招标范围等实质性内容作出响应”。[1]《招标投标法实施条例》第五十一条规定:“有下列情形之一的, 评标委员会应当否决其投标:…… (六) 投标文件没有对招标文件的实质性要求和条件作出响应”。[2]《评标委员会和评标方法暂行规定》第二十三条规定:“评标委员会应当审查每一投标文件是否对招标文件提出的所有实质性要求和条件作出响应。未能在实质上响应的投标, 应当予以否决”。[3]
以上法律法规的相关要求及规定具体而明确。一个严格按照规范及程序完成的招投标活动, 其中标人投标文件与招标文件发生某些不一致的情况, 是不合逻辑的, 但现实中却偏偏会发出这种情况。其原因或是招标文件某些实质性内容不清, 或是投标文件无意失误碰巧评审的疏漏。再纠其原因是在于人, 因为没有人能保证做事绝对不会失误和疏漏。因此, 非要在杜绝中标人投标文件与招标文件的某些不一致情况上下功夫, 显然是徒劳的。不如面对已经出现的“不一致情况”, 积极寻找科学合理的解决方法。
《中华人民共和国招标投标法实施条例》第五十二条规定:“投标文件中有含义不明确的内容、明显文字或者计算错误, 评标委员会认为需要投标人作出必要澄清、说明的, 应当书面通知该投标人。投标人的澄清、说明应当采用书面形式, 并不得超出投标文件的范围或者改变投标文件的实质性内容”。该条文从一个侧面承认, 招标投标文件内容的疏漏、失误是难免的, 评标阶段可以给投标人一定的、有条件的纠正机会。
解决“不一致情况”的途径
1.合同组成添加招标文件
将招标文件列入合同文件的构成, 并在专用合同条款的合同文件组成及优先顺序中, 将其优先顺序排在投标函及其附录之前, 合同履行期间随时发现及时纠正, 即可解决技术标和商务标中“不一致情况”。这种做法在实践中比较常见, 但饱受专家学者们的非议, 双方的观点也是各执一词, 其深层次的原因与目前对招标 (投标) 文件的某些法律性质的观点不一致有关。
2.设置响应承诺条款
《标准施工招标文件》第二章第3.7.1条关于投标文件的编制要求中, 允许投标人的“投标函附录在满足招标文件实质性要求的基础上, 可以提出比招标文件要求更有利于招标人的承诺”。因此, 从公平、公正、诚信及职业道德要求考虑, 应在招标文件的投标人须知前附表中, 补充须投标人更全面完整的响应承诺条款, 即凡属投标人有能力响应的招标文件实质性要求, 若投标文件的相关内容描述为对其不予以响应时, 且项 (处) 数少于一定的数量, 招标人可认为投标文件的相关内容描述是一种无意失误, 投标人同意招标人在评标时或中标后及合同履行期间, 将其修正为响应招标文件要求, 并且不改变投标文件的实质性内容。否则, 其投标作废标处理。
对投标文件中出现“有限的”“失误 (错误) ”可以认为是偶然的、无意的和难免的, 可称之为:有限容纠失误。为了保证投标文件的编制质量, 对失误数量应设置一个限度, 比如:评标时可容忍的失误数≤3项 (处) , 评标打分设计为:无失误得3分, 失误1项 (处) 扣1分, ……失误4项 (处) 及以上的, 认为投标文件编制质量极差, 其投标作废标处理。合同履行期间才发现有4处及以上失误的, 除按承诺进行修正外, 还可约定一定的经济赔偿。
该承诺是基于“响应推定”而提出的, 至少在形式上表明投标人是带着诚信参与招投标, 显然不承诺的诚信、动机、企图都将受到质疑, 其投标将被拒绝。对于一个合格的投标人投入大量的人力物力参与一个招投标活动, 目的就是希望中标, 对于招标文件中的合法合理的要求条件无疑是接受的, 为了避免一处“无辜”的失误导致投标失败, 这样的承诺投标人也一定乐意接受。有了此承诺, 面对几十万字的投标文件, 评标人员不必把大量的时间精力无谓地消耗在找出几个“错别字”上, 乃至轻易就把一个投标文件否决了。
解决“不一致情况”的方法
技术标中的不一致情况解决方法较简单, 只需将不一致的文字或描述进行修改即可。解决商务标的不一致情况, 主要是对于一个具体的已标价工程量清单而言, 投标总报价与待修正数值之间存在着确定的对应关系, 投标总报价就是合同价, 是投标文件中最重要的实质性内容, 投标总报价组成中的某个数据或算术错误的修正, 会导致一系列的数据的变动, 加之数据量大, 评标时没有充足时间进行核对, 往往到竣工结算时问题才会暴露。因此, 探究合理的对这类不一致情况的修正方法, 是本文着重讨论的主要问题之一。
1.修正对象和修正原则
(1) 修正对象。工程量、单价及合价等。
(2) 修正原则。第一, 投标总报价不得修正;第二, 未填写单价和合价 (以下简称“漏价”) 项目的单价采用招标控制价中的相应单价 (或其余投标人该项单价的平均值) 替代;第三, 纠正算术错误, 合价金额与依据单价计算出的结果不一致的, 以单价金额为准修正合价;第四, 项目编码、项目名称、特征描述、计量单位、工程量等按招标文件纠正。
2.修正方法
其中, Qi为工程量 (规定计取的费率从计算形式上可看做广义的工程量) ;Pi为单价 (与费率相乘的部分其本质就是价值。因此, 从计算形式上也可看做广义的单价) ;α为修正系数。
公式 (1) 必须消除了原投标总报价组成所有的算术和形式上的缺陷, 并且确定为结算调整的依据。以下通过一个简化的报价数据对比加以说明 (见表1、表2) 。
在表1、表2中有意设置以下几处错误:杯子的合价计算结果错误, 如110×15≠1485;托盘为漏报单价, 替代值20;合计错误, 如1485+500≠1886。
对表1、表2的对比分析是:表1的合价经调整后完全消除了算术错误, 而表2合价调整值的列合计没有错误, 但其中1485这个数值本身的错误并未消除, 必然导致修正系数的不同 (表1:α=80.24%;表2:α=86.30%) 。
同一结算如果分别按照表1、表2计算结果显然不同, 1978=80.24%×2465, 2127=86.30%×2465。对两个简化表的数据很容易找出原因, 但是真实投标总报价组成的计算表的子目有几百甚至上千项, 不同的计算结果和差异是不易被察觉的。这就是为什么要求计算修正系数时, 一定要消除了原投标总报价组成的所有算术和形式上的错误的原因。
结论
《建设工程工程量清单计价规范》GB50500-2013第6.2.7条规定:“……未填写单价和合价的项目, 视为此项费用已包含在已标价工程量清单中其他项目的单价和合价之中。当竣工结算时, 此项不得重新组价予以调整”。[4]第8.2.2条规定:“施工中进行工程计量, 当发现招标工程量清单中出现缺项、工程量偏差, 或因工程变更引起工程量增减时, 应按承包人在履行合同义务中完成的工程量计算”。如果“漏价”项目因工程变更引起工程量增减时, 显然“漏价”项目增减部分的工程量应当调整, 这是个无法回避的现实问题。
摘要:笔者通过“合同组成添加招标文件”和“响应承诺”两个途径, 探索建设工程在发包、实施阶段出现的招标与投标文件不一致问题的处理方法。
关键词:招标文件,投标文件,不一致问题,处理方法
参考文献
[1]《标准文件》编制组.中华人民共和国标准施工招标文件 (2007年版) [M].北京:中国计划出版社, 2007.
[2]中华人民共和国国务院.中华人民共和国招标投标法实施条例[Z].2011-12-20.
[3]中华人民共和国国家发展和改革委员会.评标委员会和评标方法暂行规定[Z].2013.
[4]中华人民共和国住房与城乡建设部.GB50500-2013建设工程工程量清单计价规范[S].北京:中国建筑工业出版社, 2013.
文件处理 篇2
这篇文章主要介绍了Pthon批量处理将pdb文件生成dssp文件,通过本例主要学习遍历目录下文件的方法,需要的朋友可以参考下
# -*- coding: utf-8 -*-“”“Created on Sat Jun 20 19:36:34 @author: chaofn”“”import os“”“这个程序的目的是将linux下/ifs/home/fanchao/Manesh_pdb目录中的所有文件(一共有215个文件)批处理将pdb文件生成dssp文件”“”#listdir返回文件名的列表fileLine=os.listdir(‘/ifs/home/fanchao/Manesh_pdb‘)#遍历整个列表for i in range(len(fileLine)-1): #将字符串用变量表示 input_file=‘/ifs/home/fanchao/Manesh_pdb/‘+fileLine[i] #先去掉文件名的后缀,然后形成后缀为dssp的文件名 out_file=fileLine[i].split(‘.‘)[0]+‘.dssp‘ output_file=‘/ifs/home/fanchao/Manesh_dssp/‘+out_file #注意:参数的传递(先是%s,然后是%变量名),多个变量的传入要用元组表示,在元组前用% os.system(‘/ifs/share/lib/dssp/dssp2 -i %s -o %s‘ %(input_file,output_file))
Word文件批处理“嗖嗖”的快 篇3
本来为了美观,不同材料的正文标题设置了不同风格的字体,而且,插入的图形特地设置成不同的大小,近40篇文档一一修改,多么累人!好在从来就没有难倒我的事,从网上搜索到“Word文档批量处理大师软件”这个工具,修改起文件来,那真是“嗖嗖”的快。
首先把所有文档存放到同一文件夹下(注意备份,以防处理失败造成文档丢失),然后运行软件,单击“选择目录”加入目标文件夹,在“Word文档批处理选项”中,选中“格式设置”,勾选右侧窗口中“有标题”、“字体”,再单击“字体”按钮,设置成“黑体”,完成后,单击“添加为待处理任务”。
再选中“Word文档批处理选项”中的“图片/替换/设置”(如图),选中“任意特征的图片”、“我要设置,不替换”,并勾选“新尺寸”,输入图片的高、宽,再单击“添加为待处理任务”。
最后,单击“处理所有任务”,问题解决。当我把文档送给领导时,领导张口结舌的样子至今我仍然记得。
处理电子文件管理的措施 篇4
关键词:档案管理,电子文件,处理,几个关系
时下, 档案利用已经搭上现代化的传媒, 产生前所未有的社会影响。这些正是我们电子档案发挥出来的一些作用, 电子文件是时代进步的产物, 电子文件的问世不仅意味着档案载体的转移, 而且也向传统的管理思想、体制、理论、方法提出了全面的挑战, 使当代档案工作的生存和发展面临前所未有的压力。所以, 电子文件管理在为后代人服务的同时, 更强调为现代人服务;在维护其存史价值的同时, 更强调其现实价值。这样才能最大限度地激发全社会对电子文件的需求, 培育支持电子文件管理的社会意识和动力, 为档案工作创造更加良好的生态环境, 本文就电子文件管理要处理好的几个关系谈点粗浅的认识。
1 处理好电子文件和纸质文件的关系。
换句话说也就是处理好有纸和无纸的关系。电子文件在给人们的学习、工作、生活带来巨大便利的同时, 也给人类带来巨大的风险, 是名副其实的"双刃剑"。电子载体固然有便于制作、编辑、传播、检索、携带等纸质文件难以比拟的优势, 但是也有载体、信息和生存环境不稳定的致命弱点。而纸质载体却有稳定、安全、可靠、直观, 经得起时间考验的特质。电子文件的风险因素只要不解除, 就摆脱不了对纸质文件的依赖。在当前以及今后相当长的时期内, 电子文件和纸质文件是互连、互补、互动的关系, 而不应当是相互对立、你死我活的关系。电子文件的问世打破了纸质文件一统天下的格局。有人相信计算机无所不能, 于是"无纸办公"的雄心便油然而生, "无纸办公"的词汇在许多文章中频频出现, 在有些人眼里, 似乎"无纸"就是先进, "有纸"象征落后, "无纸"成了办公自动化追求的目标。我国是发明纸张, 纸文化深深扎根的古国, 取消纸张谈何容易!因此, 不能简单地将电子与先进, 纸质与落后划上等号。我们应当做到电子文件管理推动纸质文件管理改革, 纸质文件管理促进电子文件管理的完善。我们可以将使用频繁的文件实行无纸保存, 将利用率不高的实行纯纸质保存, 由此将"双套"保存的范围减到最小。同时, 我们也可以利用缩微片存储密集、稳定可靠、成本低廉的优势, 将电子文件进行缩微转换实现无纸化。
2 处理好存量和增量的关系。
在信息化环境中形成的归档电子文件可分为存量和增量。存量是指对传统纸质档案数字化后形成的电子文件。该电子文件的形成有利于档案的检索、传递和共享利用, 有利于保护珍贵档案原件, 延长易损档案的保管寿命等。但是它仅仅是纸质档案的复制件, 不能独立承担档案的原始凭证价值。更何况, 如果原有档案价值有问题, 数字化处理也将徒劳;增量是指在电子政务、电子商务等信息化环境中直接形成的电子文件, 如果采取有效的控制措施, 即对它的原数据进行妥善的收集和管理, 它有可能成为优质电子文件, 并成为现代档案的优质资源。由于增量电子文件管理需要加强前端控制, 管理难度大。因此多数档案部门都将信息化的重点放在存量数字化上, 忽略了增量电子文件的收集和质量控制, 从而使增量不断变成新的存量, 使档案部门陷入无休止的存量数字化工作。我们应当将数字化的重点放到现行电子文件的收集上来, 或者至少做到存量和增量两手抓, 达到激活存量价值, 放大增量价值的目的。
3 处理好数量与质量的关系。
现实生活中, 我们在用发展的眼光揣摩未来人的需求, 不断调整档案收集范围以外, 还需要依靠充足的档案数量去支持其质量。在纸质档案的时代, 数量与质量的关系问题过去未被足够地重视, 是因为还不突出。在电子文件时代, 由于信息爆炸、知识猛增, 档案需求与时俱进, 数量和质量的关系问题需要重新考量。一方面, 我们要研究当代档案用户需求变化的规律, 调整电子文件的归档范围, 优化电子文件的收藏结构, 改变单纯重视收集红头文件、行政类文件的倾向, 提高档案收藏的含金量。另一方面, 也可以利用电子文件存储密集、海量、检索方便、快捷的优势, 适当扩大档案收集的范围, 实行以数量支持质量的档案收藏策略。
4 处理好电子文件档内与档外关系。
档案工作的起点和终点都在社会, 因为归档电子文件资源来源于社会, 又需要回归到社会。由于管理档案的机构历来是机关的内部部门, 档案干部往往习惯于"封闭"的工作环境。档案机构与外界交流不畅通, 是造成档案收集难和利用率低两大难题的主要原因。为了打通与外界的关系, 档案部门做了不懈的努力, 但是没有根本性突破。为了收集电子文件, 许多档案部门一再向各领域信息系统呼吁, 要求"前端控制", 然而应者寥寥。目前档案系统十分重视内部各系统之间的资源整合是必要的, 但是, 更重要的是要通过完善法规制度, 加强沟通, 千方百计地与社会信息化系统接轨, 将档案信息化系统纳入电子政务、电子商务、电子校务、电子法务、电子银行等系统的规划和建设, 取得电子文件收集、归档的主动权。例如, 目前不少档案馆主动与本地区新闻传媒单位联系, 收集了大量的新闻视频文件, 并建立了正常的归档渠道, 使"昨天的新闻成为今天的档案"。建立档内与档外的和谐关系, 能使档案服务从间接转换直接、从被动转换主动、从幕后走到台前、从滞后转向超前, 使档案信息化更好地带动档案信息资源建设和服务体系建设, 使档案工作步入一个较好地良性循环。
5 处理好管理与技术的关系。
管理与技术的关系好比舵手与轮船。舵手是管理, 决定轮船的航行方向;轮船是技术, 是舵手管理发展的动力。因此, 不顾舵手的的素质, 盲目追求所谓的豪华油轮, 搞华而不实的"创新", 或者对新技术缺乏兴趣, 一味偏好传统, 习惯守旧, 都不利于事业的发展。档案工作管理也是一样的, 任何档案信息化建设的成功, 都离不开管理与技术的紧密结合。首先, 信息技术的应用必须坚持以业务需求为导向。该需求必须来自对实践的深入调查, 而不是凭空设想, 需求把握准, 技术投入就会得到良好的回报, 反之将劳民伤财。其次, 要崇尚信息技术。电子文件是信息技术的产物, 当前所遇到的许多棘手问题, 如凭证价值保障、安全性控制、内容管理、异构资源整合、无障碍传播等都需要借助日新月异的信息技术。当今时代, 新技术的发展继续呈加速度的态势, 如手机、数码相机、摄像机、电视机等与人类生活休戚相关的技术发展尤其迅猛, 我们不跟踪, 不应用, 其他领域应用了, 档案专业就会失去竞争实力和发展良机。
6 处理好现在与将来的关系。
档案是历史发展的纽带, 它能让历史凝固、瞬间永恒、信息沉淀、时光延伸、记忆说话、知识传承, 目的是让未来和历史"牵手"。从事"牵手"的档案职业显然非常神圣, 因为它是社会持续科学发展的基石。可是我们在面向历史和未来时不要忽略了"今天"。今天从昨天走来, 又向明天走去, 无数个今天留下无数的瞬间, 才构成历史记忆的长河。为此, 有些传统的理念需要完善或升华。例如, 过去我们强调档案工作者是"守护历史", 要甘于寂寞、甘当无名英雄, 这是对的。然而, 作为现代信息资源的电子文件管理, 还应当引进经济活动的理念, 也就是讲究当前的效益, 追求产出投入比的最大化。为此, 流入档案馆的电子资源, 不能满足于"守护历史"而让它一味地沉淀, 而应当将归档作为电子文件新生命的起点, 让它通过计算机网络的血管, 继续流入社会信息化大海, 这应当成为电子文件管理孜孜以求的目标。
参考文献
[1]张大伟.构建电子文件管理的八大和谐关系[J].档案现代化管理, 2009, (9) .
办公室文件处理实施办法 篇5
一、收文办理
(一)收文办理是指将收到的请示和其他需要报请领导批示的文件、材料按一定程序办理的过程。
(二)收文办理使用《文件处理笺》。
(三)收文办理程序
①秘书股登记—②分管副主任提出拟办意见—③主任审核—④主管副书记审批—⑤必要时送书记审定—⑥书记批示传主管副书记、办公室主任阅知(或主管副书记批示传办公室主任阅知)—⑦分管副主任组织落实—⑧办公室主任和副主任督办—⑨办理结果登记及归档—⑩向作出批示领导反馈办理结果。
(四)收文办理要及时,请示事项在规定时限内作出答复。
二、发文办理
(一)发文办理是指将拟印发的文稿按一定程序报有关领导审核和签发的文件办理过程。
(二)发文办理使用《发文稿纸》。
(三)发文办理程序
①秘书起草或接收其他部门代拟的文稿—②分管副主任初审及修改—③主任审核及修改—④有关常委核稿—⑤主管副书记核稿或签发—⑥必要时送书记签发。
重要文件、材料的审批,在有关领导审核后,按领导意见印发征求意见稿,在一定范围内征求意见,必要时提交会议讨论,修改完善后再送有关领导核稿和签发。
三、文件传阅
(一)文件传阅是指秘书部门根据领导批示或者授权,按照一定的程序将公文送有关领导阅知或者批示的文件办理过程。传阅文件主要是阅知性文件和材料。
(二)文件传阅使用《文件、党刊传阅片记》。
(三)文件传阅应进行登记,并当面送交传阅对象(或所在单位办公室有关人员)。文件传阅过程中应当随时掌握文件去向,避免漏传、误传、延误和遗失。
(四)文件传阅程序
①秘书股(含收发室)登记—②传主管副书记—③传办公室主任—④必要时传书记—⑤按领导批示传常委和部门领导—⑥传办公室副主任。需要处理的及时处理。
结合图像处理完成文件碎片复原 篇6
关键词:图像处理,文件碎片复原,拼接,边界匹配,像素提取
一、引言
随着研究深入,对于文件碎片拼接也涌现出了许多研究方法,一些文献也进行了描述。本文主要讨论的是结合图像处理技术完成文件碎片复原,主要涉及图像分割、轮廓特征提取、轮廓表示方法等相关领域,并且将计算机视觉、多维信号处理和图像处理技术等紧密结合在一起。阐述了对于不同类型文件碎片复原的处理方法,并在一些方法中加入文字特征的分类算法和像素匹配算法,结合最优化思想,使复原程度尽可能高,人工干预尽可能少。
二、基于文字的文件碎片处理方法
对碎片进行预处理扫描:对于单面印刷的文件碎片,保证碎纸片被扫描的一面在原始位置中属于同一面。对于双面印刷的文件碎片,要扫描碎片两面的信息,并且信息对应于哪面要标记清楚。为处理方便,同一次扫描使用相同的背景颜色。
1、针对纵切的规则的单面印刷文件碎片
(1)法一:
将图片格式的碎纸片图以灰度值矩阵A(k)的形式存储,
再将灰度值矩阵转化为0-1矩阵C(k),其中
(其中英文仅考虑四线三格最中间一格,这是为减小误差)。再基于上述0-1矩阵,提取出每幅图片左右边界0-1值,存于B(k)的第一、二列中,
运用左右边界匹配法,即基于纵向和横向规则切割特性:两相邻碎片中第一幅的右边界上文字和第二幅的左边界上文字多数来自同一汉字或英文字母,两邻接图片的边界的差异度小,分别做差计算,选取差异度最小的匹配。(以碎片k和s为例)这样得到右边界最佳匹配
(2)法二:
目标函数为minf(π),这样一来哈密尔顿路径求得的是全局最优解,即最佳匹配。
2、针对既横切又纵切的单面印刷文件碎片
(1)法一:由于横切纵切切割了两次,所以采用二层筛选的方法,并加入了k-means聚类算法(即接受输入量k,将n个数据对象划分为k个聚类,使所获得的聚类满足同一聚类中对象相似度较高,不同聚类相似度较小)
第一层做行位置筛选,读取图片的像素行,存入碎片的特征列向量中,并将此列向量作为行特征的唯一标识,将列向量元素差异最小的图片聚类,分别将中文和英文的归类。然后通过人为干预实现类的合并,将中英文都聚成同样数目的类,每一类包含相同张数的碎片。构建行内碎片的左右边界匹配模型,最终确定出每类内部碎片的排序。第二层做列位置筛选,建立上下边界匹配模型(与左右边界匹配法类似)得出各行的上下位置序列,经过两层筛选,得出原碎片序列。
除前方法外,需要构建中文特征灰度条向量
和英文特征灰度条向量(只考虑英文的中格部分),
建立特征匹配模型(以碎片k和s为例),
当特征值属于合适小的置信区间时,即Wk,s∈[a,b]时,认为两碎片在同一行。
(2)法二:法二则需加入基于文本行特征的碎片行分组,行分组方法类似于法一中对英文的分组方法,对行分组碎片进行横向拼接得到复原的碎片行,再对碎片行进行纵向拼接,得到复原结果。
3、针对既横切又纵切的双面印刷文件碎片
(1)法(一):由于双面我们需要进行两次特征匹配,一次是碎片k与s的a面,另一次是碎片k的b面与碎片s的a面。得到a面和b面的特征列向量。综合两次特征匹配结果,以及左右和上下边界匹配模型,加入人工干预,根据文件碎片内容以及文字边缘是否契合,得到正确碎片匹配序列。
(2)法(二):因为两面,故匹配距离需替换为两面的匹配距离之和。在对碎片行做纵向拼接minfk(π)k=1,2,...,nr时,将基于旅行商问题的拼接策略扩展为多旅行商(两个旅行商)问题的拼接策略,即一条旅行商路径代表纸张一面,另一条代表另一面,目标函数变为
其中,当k=1,2,...,nr时fk(π)为横向旅行商问题的目标函数,其匹配距离为正反面碎片边界横向匹配距离,当k=nr+1时fk(π)为纵向旅行商问题的目标函数,其匹配距离为正反面碎片边界复合匹配距离。
二、对于文字的不规则的文件碎片拼接方法
1、斜切情况。
我们设想找到平行于碎片中文字的直线斜率,找到图片1-x列,每一列最上面像素值为0的点,从x个点中选出最上面的点。同理得到个(m-x)-m(m为碎片图的宽度)列中处于最上面像素值为0的点。由这两个点得到平行于碎片中文字方向直线,再根据找到直线的斜率对碎片进行角度调整,最后用同规则碎片的方法进行匹配。
2、无规则情况。
利用形状匹配法,提取碎纸片轮廓线,通过边界和面积准则判断两轮廓是否匹配。在这里我们参考了贾海燕[1]女士研究的一种碎纸自动拼接中的形状匹配方法。设想给定两个碎片,确定两碎片轮廓形状之间是否存在匹配部分,选择任意一个碎片,把它放在参考坐标系中,称为固定碎片,并选定一个比较长度。
Step1:固定碎片从最高点象素开始取一组长度的象素作为固定链,在另一个将要进行比较的碎片上最高点开始取相同定长叫做旋转链,将旋转链剩余象素进行旋转和平移,固定链所取定长上最后几个象素的垂线和旋转链相交。重复步骤,直到每个象素都进行过匹配。
Step2:再进行碎片旋转。一个碎片在任意旋转一定角度之后,这个碎片的轮廓保持和它的方位相对应。假如选择一度一旋转,那么这个碎片必须在参考坐标系里旋转360个位置,每个轮廓都是有可能匹配的位置。
Step3:运用最优匹配算法,即先取定一个碎片确定固定链,长度m,再取另一碎片确定旋转链,长度仍为m。经过旋转和平移,使这两个碎片满足边界和面积匹配准则。
Step4:进行文件碎片拼接优化,将这两个已经匹配好的碎片作为一个新的固定碎片,用第三个碎片进行匹配,方法同上,并微调第二个碎片,使其位置更合理。
Step5:依次进行直到复原完整。
三、对于图片的不规则文件碎片拼接[3]
我们主要研究运用特征点匹配的快速图像拼接算法。首先对图像进行预处理。然后,采用Harris特征点提取的方法,对待拼接图像进行特征点的提取,利用基于灰度互相关的方法对图像进行初匹配。其次,用基于欧氏距离的聚类预筛选算法,主要依据匹配点对之间的欧氏距离相同或相近这一特点,通过简单聚类的方法筛选出包含欧氏距离值点最多的邻域,则可认为该邻域内的距离值是匹配点对;反之,则认为是不匹配点对从候选匹配点对集中剔除,并运用RANSAC算法对匹配点集进行精确匹配。最后运用基于LM加权融合与拉普拉斯金字塔相结合的图像融合算法,有效消除拼接缝及亮度突变现象,以实现图像的无缝平滑拼接。
四、对于含表格线的不规则文件碎片拼接方法
我们希望利用文字行特征[2]和表格线的方向来拼接形状相似的文件碎片。先对文件碎片进行二值化处理,获取文字边界,进而获取文字行方向、间距、高度等文字行特征。如果有英文汉字,应将英文单词图像拆分成类汉字图像,即将英文单词图像分割成宽度与高度近似的类汉字图像。
以碎片某点作为坐标原点,水平方向作为X轴方向,垂直方向作为Y轴方向,在[-90°,90°]范围内等角取60个方向,再将每个选定方向作为新坐标系的X轴方向,求原像素点。坐标变换后新坐标如果不是整数,则按4舍5入法取值。像素点在新坐标系下只改变坐标值,其颜色属性不变。再求新坐标系下碎纸片边缘的最高点和最低点坐标,从最低点开始给每行(具有相同Y坐标)从1开始编号,计算每行的白点个数、红点个数、宽度(像素个数)。根据每行的红点、白点个数及碎片宽度计算该方向的文字图像个数总数以及文字行行高总和,并按从大到小排列,选文字图像个数最多、文字行行高和最小的方向作为碎片的文字行方向。
一般碎片内表格线的方向与文字行方向平行,且只沿一个方向分布,可采用类似于文字行方向的扫描方法获取表格线方向。再将碎片按此方向重新放置,此后文字方向可能朝上或朝下,故加入人工干预进行图片翻转。将两碎片按文字行方向线位置对齐,然后计算文字行方向线或表格线与碎片边界的交点与处于同一水平位置的另一个碎片交点的距离。若两碎片在拼接位置对齐,则点与对应点距离相等,拼接后与对应点变为同一点。若未对齐,则其距离相等的连续点的个数比对齐位置的要少。
参考文献
[1]贾海燕,朱良家,周宗潭,胡德文,一种碎纸自动拼接中的形状匹配方法,(国防科学技术大学机电工程与自动化学院自动控制系,长沙湖南410073)
[2]罗智中,基于文字特征的文档碎纸片半自动拼接,计算机工程与应用,2012,48(5),207
基于进程管理的气象文件监控处理 篇7
随着我国多普勒天气雷达网建设的深入发展,集合计算机信息技术、气象产品开发和应用越来越多。在气象图像资料中,MODIS气象图像资料起着重要作用,一般通过对MODIS气象图像资料进一步分析处理可以得到各种需要气象产品,这些气象产品对工业、农业、服务业等等行业起到重要气象安全保障作用。本文围绕气象产品处理程序的设计问题进行了研究和探讨,并且对气象产品文件的实时监控处理提出了解决方案。
2.监控处理设计
MODIS(中分辨率成像光谱仪)是美国宇航局研制大型空间遥感仪器。它在36个相互配准的光谱波段、以中等分辨率水平(0.25Km~1Km)、每1~2天观测地球表面一次。获取陆地和海洋温度、初级生产率、陆地表面覆盖、云、汽溶胶、水汽和火情等目标的图像。
在气象产品生产过程中对MODIS气象图像资料进一步分析处理,控制程序实时监控模块的设计是关键一步。在监控模块处理过程中,首先需要对新下载的气象文件实时监控,判断MODIS气象图像源文件目录列表是否有新下载的数据文件;其次,当有新下载的数据文件时,控制程序的预处理模块将被调入,对下载的气象图像数据资料进行处理,并确认文件处理完毕的完整性。
由此,控制程序的监控处理过程与预处理过程如此往复下去,最终控制程序完成对MODIS气象图像数据文件的产品生产过程。在程序监控模块设计中,本文使用VB6.0设计了监控处理模块,在监控进程运转过程中,有效实现了进程管理控制。本文中监控处理模块采用进程阻塞方式进行处理,监控进程核心问题是实时监控MODIS气象图像源数据文件目录列表。
当有新文件已经下载时,预处理模块被调入进程并进行处理。在设计的处理过程中,预处理模块主要任务是完成对MODIS气象图像源文件的处理工作(一般源文件的容量在百兆以上)。首先,系统将为源文件处理生成基础数据文件;随后再对基础数据文件进行分析处理,得到相应参数产品的文件(即称气象产品),进而为有气象安全需求的用户提供气象产品帮助。
我们设计的控制台程序的工作流程,首先是程序启动监控进程处于工作状态,当有新的MODIS气象图像源文件下载完毕时,预处理模块进程被调入,进入工作状态(此时监控进程处于阻塞状态);其次,控制程序在预处理进程完成对下载文件基础数据文件的处理后,监控模块进程将被启动并进入监控处理状态(此时预处理进程处于等待状态),控制程台程序如此往复进行工作。监控处理模块设计是控制台程序的核心部分,下面将介绍用VB6.0语言设计的监控处理模块,用于解决MODIS气象图像源文件的处理。控制台程序处理流程图,如图1所示。
3.控制台程序监控处理模块的关键代码
在MODIS气象图像文件下载完毕后,控制台程序需要对下载源数据文件进行实时监控处理,我们通过进程控制分析及判断,可以有效解决文件实时监控处理的问题。具体监控模块处理的关键代码如下:
上述代码中,语句p Hnd=Open Process(SYNCHRO-NIZE,0,Iproaaa),引用系统API“Open Process”函数,此函数用以获得指定程序进程句柄,其中变量Iproaaa为获取的进程号。语句Call WaitForSingleObject(pHnd,INFINITE)为预处理进程无限等待过程,直到预处理进程处理结束,再执行监控进程。另外,语句Call CloseHandle(pHnd)为结束预处理进程过程。
一般调用Shell函数时,会传回一个数值,此数值称为进程号(Process Id),利用此进程号可以调用Open Process API函数,取得进程管理(Process Handle),然后再利用进程管理调用WaitForSingleObject处理过程。等待被Shell函数调用执行的程序执行完毕,即可继续向下执行监控进程。
4.结束语
在众多控制程序处理过程中,文件实时监控处理过程被广泛运用,监控模块处理过程针对需要监控的数据信息实时处理,通过进程管理控制,更加有效地使用计算机资源。本文结合实际开发工作,探讨了MODIS气象图像文件生成气象产品的处理过程,希望能够为进行相关工作的开发人员提供一些参考。
摘要:文件实时监控处理过程在控制程序处理过程中被广泛运用。本文结合文件处理的实际工作,描述了文件处理程序的监控处理过程,实现了基于进程管理的文件监控处理与预处理过程的协同工作。
关键词:监控处理过程,进程管理,预处理过程
参考文献
[1]Evangelos Petroutsos.Visual Basic6高级开发指南[M].北京:电子工业出版社,1999.
[2]王兴晶等.Visual Basic6.0应用编程150例[M].北京:电子工业出版社,2004.
[3]王健南.基于VB6.0的Windows进程管理程序设计[J].电脑编程技巧与维护,2005,5:26-30.
文件处理 篇8
1 Hadoop中海量小文件处理存在的问题
1.1 海量的小文件堆积造成系统节点内存不足
我们知道在HDFS整合数据时, 是将数据分割成若干块存储在多个数据节点上的。因此, HDFS存储的大文件都是被分成许多块分摊出去的。由此, 不可避免的就会产生很多尺寸小, 甚至比Hadoop应用中默认分块小很多的小文件, 这些文件被认为是不可以分块的而被保留在了各个数据节点上。当这些海量小文件达到一定规模后就会淹没数据节点的内存从而造成硬件内存供应不足的现象。
1.2 海量小文件的检索效率低
由于Hadoop的分布式存储对象是海量的廉价计算机, 因此存储系统中数据节点的内存限制也对可存放的文件数量造成了制约, 从而增加了系统管理的难度。一但某一数据节点上出现了海量小文件, 文件的检索效率就会急剧下降, 当小文件的数量达到一定规模后, 甚至可能导致数据节点崩溃。
2 Hadoop中海量小文件的处理分析方法
2.1 构建海量小文件分析处理架构
文件→合并→建立索引→分布存储。
将数据节点中的数据分成两种块形式。一种是存储小文件的文件块, 一种是存储索引的检索块。本架构的核心主要是处理分布式存储小文件的单位数据。主要实现的一个过程是, 先将数据节点上的海量小文件合并, 写入数据节点, 再利用Map/Reduce对存储在块中的小文件分类并创建索引, 然后将索引分布式存储在数据节点上。
2.2 设计海量小文件合并算法
以时间作为合并的依据, 创建以时间作为文件名字段的大文件, 就能有效地应用Hadoop技术合理地生成系统可处理的块文件。合并的设计算法如下:
小文件结构:LFile
String LFile_Name//小文件名
String LFile_Content//小文件内容, 以字符型存储
DateTime LFile_Time//小文件创建时间
I n t F l a g//小文件结尾标志符, 如果为1, 表示文件被删除;如果为0则表示文件存在, 标志符初始值为0
合并文件结构:CFile
String C File_N ame//合并文件名, 含创建文件的时间信息
String CFile_Content//合并文件内容, 包含每个小文件的名字、创建时间、内容及结尾标志符
DateTime CFile_Time//合并文件创建时间
Inpu t:小文件的结构体
Open (CFile[0]) ;
in t i=0;//用于小文件的计数
//定义时间字段T1, 获取小文件的生成时间;合并文件的创建时间其实就是我们定义的小文件合并的结束时间, 一般取时间区间为1小时, 即:T2=T1+3600s
如上算法, 每写入一个小文件都有时间阀的判断, 则1小时内所需合并的n个小文件就有n次while的循环。其时间复杂度为n, 空间复杂度为1。
2.3 设计海量小文件索引方法
由于海量小文件的增长是动态、不规律的, 因此在无法确定每个父节点下的孩子数量的情况下, 使用节省内存的孩子兄弟表示法就无法满足要求。而Trie树型的每个节点都有唯一的父节点, 如果选择双亲表示法就能唯一确定节点的指针域, 从而便于磁盘存储, 使得内存分配更为规则。
要提高海量小文件的索引效率, 仅仅建立一级索引是远远不够的, 因此在将一级索引建立在数据节点的基础上, 为了避免在调用索引时的页面频繁替换所造成的磁盘损坏和大量耗时, 我们在一级索引的基础上在数据节点内存中保存二级索引。这样就能在每个数据节点上调用一个二级索引, 而不会出现每个数据块都建立二级索引。从而提高索引效率。
索引的构建过程主要分为三大块。
(1) 利用Map任务对海量小文件创建并行索引;
(2) 利用Reduce任务对所有小索引进行合并整理, 形成能够索引小文件的大索引。
(3) 将文件扩展名放入名称节点, 并将扩展名下的索引文件分块写入对应的数据节点中。
2.4 设计海量小文件分块方法
海量小文件分块就是将全局索引根据数据节点上块的大小进行分割, 确保每个索引的完整性, 使得文件查找过程中尽可能的节省索引次数。根据每个分割好的索引合理分配块的位置, 使其存储在对应文件的相邻节点上, 减少通讯过长造成的代价损失。分块遵循“块中所有文件都具有相同扩展名”这一原则。具体算法如下:
如上分块算法能将某个扩展名下的树都写入块中, 不论同一扩展名下的树是否写满都不再写入, 这样才能使索引效率最大化。
3 结语
本文的研究工作有一定的借鉴作用同时也存在了诸多不足之处。在未来的研究过程中, 将探索Hadoop中小文件的更新方法, 尤其是基于批量索引的更新将是一个复杂的过程。并结合实际环境进行真实系统测试。
参考文献
[1]ZDNet, Nasuni Cloud Storage Gateway By Dan Kusnetzky, June 1, 2010.
[2]Hussam Abu-Libdeh, Lonnie Princehouse, Hakim Weatherspoon, RACS:a case for cloud storage diversity, 2010.
文件处理 篇9
随着网络服务的高速发展, 数据的数量呈现井喷之势, 云计算技术已经成为提供主机数据和软件与服务部署方面越来越受欢迎的下一代基础设施[1]。分布式文件系统是网络服务基层实施的重要组件。HDFS作为Hadoop的分布式文件系统, 已经成为海量存储集群上部署的主流文件系统[2]。由于HDFS是一个开源软件框架, 获得了许多大公司的青睐, 根据存储与处理海量数据时的优异表现得到广泛用与分析。然而HDFS在处理海量小文件时却忍受着性能降低, 因为Name Node把文件系统的元数据信息放置于内存中, 所以海量小文件的存储会引发的Name Node内存消耗过度以及Name Node性能降低, 使Name Node成为了系统瓶颈。
随着各类社交网络的兴起, 产生了大量数据文件, 如日志, 用户文件, 图片等等小文件, 所以针对Hadoop小文件问题现在已经有一些解决方案, 这些方案可以大体分为两种策略:第一种是通过部署多个Name Node来支持更多的负载以此来提高系统性能;另一种则是通过合并小文件来最大限度的减轻Name Node的内存负载。其中Apache Hadoop基金会[3,4]已经再次开发了HDFS, HDFS能够在一个集群中支持多命名空间从而提高系统的可扩展性以及隔离性, 但是还是存在系统很难去配置各个命名空间的协调问题。文献[5,6]提出了通过客户端本地缓存来存储索引文件实现索引或者数据预取减少Name Node的使用, 从而优化HDFS的I/O性能。但是实验结果表现出的文件访问性能提高不是很显著。文献[7]提出了一种优化I/O性能的方法, 但是只是针对存储于HDFS上的地理信息数据。这种方法只适用于特定的数据并且没有提高文件访问效率。另外其他处理小文件的方法包括Sequence文件和Hadoop Archive。Sequence File[8]是HDFS提供的一种二进制的文件技术, 通过将<key, value>对序列化到Sequence File实现小文件的合并, 同时还支持基于数据块的压缩, 显著减少了名称节点的内存, 但是这种方法存储花费时间长, 并且查找一个小文件就需要遍历整个Sequence File, 对系统访问性能产生了影响。Hadoop Archive (HAR) [9]是一种文件归档技术, 通过将小文件打包成HAR文件来减少HDFS中文件数量, 从而减轻Name Node内存负载压力。但是读取HAR中的文件需要读取两层index文件以及读取文件数据本身, 并且HAR不允许对已生成的文件继续追加, 所以使用HAR的系统访问性能受到影响。
为了克服上面提到的困难, 本文提出一种基于已有的HAR方法的优化机制, HAR被从新设计索引机制来提高对元数据信息的管理, 并在不需要改变HDFS体系结构的情况下提升文件访问性能。通过对HAR的索引策略进行改进, 并且实现对已有HAR文件进行追加操作和通过客户端对索引文件进行预取, 很好的提高了HDFS在面对小文件存储与读取上的性能。
1 研究现状
Hadoop平台提供了与google文件系统相似的分布式文件系统HDFS[10]和Map Reduce计算框架[11]。HDFS具有高容错性, 易扩展的特点, 能够提高极高的数据吞吐量, 适合那些有着超大数据集的应用程序, 因而被各大公司广泛运用, 包括AOL, Amazan, Facebook, Twitter等[12]。HDFS有一个单一的Name Node节点和多个Data Node节点, 属于主从式架构。体系结构如图1所示。
Name Node管理元数据信息以及文件系统内部配置数据, HDFS中的文件被分成块, 每个块被复制和存储到多个Data Node上[13]。Data Node管理块存储以及响应来至客户端从Name Node指向的请求。HDFS提供了优化方法处理海量数据, 计算被分摊到各个节点, 使存储输入数据的传输负载最小化, 并且数据复制确保了软件与硬件的高容错性。但是HDFS设计初衷是用流数据访问方式存储大文件数据, 简而言之, 就是说在处理小文件上会有如下问题:
(1) 高的Name Node内存消耗。Name Node内存存放元数据信息。一个文件的元数据信息大概占用内存250bytes, 然后每一个块默认有3个备份, 那么大约消耗368bytes[14]。也就是说文件越多, 内存消耗越多, 而Name Node内存有限, 所以需要降低Name Node消耗。
(2) 不能接受的存储时间。如文献[7]中提到存储1KB到10KB之间大小的550000个小文件耗时7.7个小时, 但是存储这些文件到本地文件系统如ext3, 仅仅花费660秒。
(3) Name Node成为瓶颈。元数据信息管理是一个费时的任务。为访问一个文件HDFS客户端会先去Name Node取元数据信息。对于小文件而已数据传输花费非常短, 所以磁盘寻找和管理元数据信息变成主要负载对象。当有大量小文件访问时, HDFS客户端访问Name Node会非常频繁, 从而影响Name Node性能。
为解决这个问题, Hadoop提高了HAR方法处理海量小文件[9]。用户可以把小文件归档存储在归档文件中 (.har) 中并且如访问正常文件一样去访问归档文件。这种方法减少了文件数量, 从而减少了Name Node内存消耗, 也一并减少了HDFS客户端访问Name Node的次数。HAR方法是通过一个Map Reduce作业将小文件打包为大文件, 原文件也可以被并行透明的访问。
如图2所示HAR文件结构包括以下三个部分:
(1) bar.har/_masterindex:存储哈希代码和偏移量。
(2) bar.har/_index:存储文件状态。
(3) bar.bar/part-[0..n]:存储文件数据。
小文件被存储在归档文件的多个部分内并且依据索引保持着原来的数据分离。文件索引结构如下图3所示。
在HAR文件中读取文件要比在HDFS中读取慢的多, 因为读取一个HAR中的小文件需要经过2层索引。另外, HAR文件一旦被创建, 要想添加文件, 就只能重新创建HAR文件, 这样又会花费很多HDFS很多时间。
2 优化策略
本文提出优化策略主要包含三个方面: (1) 合并小文件减少Name Node内存消耗和提高其访问性能; (2) 扩展现有HAR技术, 提高文件追加的能力; (3) 基于HAR的新索引实现HDFS客户端的索引预取, 减少Name Node负载。
2.1 单层索引机制
为提高现有HAR技术的访问效率, 本文利用单层索引, 放弃双层索引。通过创建一个哈希表分离许许多多的索引文件。索引结构如下图4所示。
在此索引机制下, 当访问一个文件时, 由归档程序根据文件名称派生出的一个哈希代码, 根据索引文件的数目作为关键值和散列码, 去定位包含元数据的索引文件。如下图5所示, 假设file-1的哈希代码是9768。用此哈希代码除以文件数, 4得出0值, 这个值定位到元数据文件中的index_0文件, 实际的文件与HAR方法中相似也将被保持于Part文件。这样可以将定位文件的位置最简化。
2.2 文件追加策略
当创建一个HAR文件时, HAR将依据文件名称获得一个哈希代码并将信息存放在依据哈希值排序方便快速查找的masterindex文件中。然而, 插入文件需要合适的位置去存放文件, 而这样做时要确保HAR文件的结构很困难, 在这种限制之下, HAR方法不允许修改已经生成的HAR文件。为了添加额外的文件到HAR文件, 就必须生成新的HAR文件, 这样的方法非常的低效。
为克服这个缺点, 这里依据之前提供的新索引机制提出对HAR方法进行改进, 新方法允许用户不通过重新创建NAR文件, 添加额外的文件到已经存在的HAR文件中去。如图6所示, 这个插入方法包括3个步骤:合并新文件、合并索引文件、移动新Part文件。
例如图6中所示, 插入file-8, file-9到bar.har中, 首先合并文件到tmp.bar中并且检查bar.har中的part文件是否存在以防止文件重复。然后合并tmp.bar中的索引文件到已经存在的bar.har中的索引文件。再移动tmp.har中的part文件到bar.har中去, 最后删除tmp.har。
在上述插入文件的过程中, 要注意检查part文件的大小, 如果超过大小, 需要重新设定索引表哈希表的散列函数创建HAR文件, 另外可以将默认块大小设置为128M以减少part文件过大的概率。
2.3 元数据预取
新索引机制生成的索引文件存放于Namenode, 为减轻Name Node负载, 在HDFS客户端和Name Node直接添加专门用于小文件读取的索引预取机制。当HDFS客户端试图读取HAR文件中的一个小文件时, 与该文件在同一个part文件中的其他小文件的元数据信息从Name Node节点预取。假设被归档小文件之间具有一定相关性[6], 被一起访问的可能性很大, 当相关小文件的元数据存在于HDFS客户端缓存内时, 客户端不需要启动PRC请求到Name Node节点。在这种预取机制之下, Name Node节点请求将大量减少, 从而提高了Name Node的运行性能。
3 评价与测试
3.1 实验环境及数据
本文实验环境是有4个节点的hadoop集群, 其中3台是DELL OPTIPLEX790, Intel (R) Core (TM) i3-2120 CPU 3.30GHz, 2G内存, 160G硬盘。另外一个节点是Lenovo扬天M4660N, Pentium (R) Dual-Core CPU E6600 3.06GHz 3.07GHz, 4G内存, 200G硬盘。网络环境是百兆以太网。其中, 最后一台机器作为Name Node, 前3台机器作为Data Node。每个节点安装的是Centos6.5, hadoop版本是0.20.2-cdh3u5, JDK版本为1.6.0_24。数据来自多个数据集, 分别包括20000、40000、80000个小文件, 它们分别总计大小为1.4Gb、2.8Gb、5.6Gb。
3.2 实验结果及分析
实验主要对比HAR方法和改进的HAR方法在以下三个方面的性能表现:Name Node主存消耗, 文件读取时间, 以及添加文件消耗时间。
3.2.1 读取性能
为评估访问小文件的策略, 我们通过HAR方法与改进HAR方法及实现同part文件元数据预取情况下分别做读写操作, 实验评估来自多个数据集 (20 000, 40 000 and 80 000 files) , 每个数据集测试重复6次, 取平均值。每次从数据集中读取100个随机的小文件。结果如下图7所示。
由图7可知, 改进HAR方法及实现part文件元数据信息预取情况下的读取文件的速度比HAR方法读取文件的速度在三个数据文件集中读取文件上显著提高。
3.2.2 文件添加时间
为添加小文件到已存在的HAR文件中, HAR不得不重新创建HAR文件, 对于改进HAR文件通过新索引机制可以直接追加文件到已存在的HAR文件。在实验中添加545个小文件大约40M到已存在的HAR文件中去, 结果如下图8所示, 改进HAR方法在追求文件上比HAR方法效率显著提高。
3.2.3 Name Node主存消耗
同样使用20000、40000、80000数据集分别存储到10、20、40个目录中去, 并且对HAR方法和改进HAR方法使用Name Node内存消耗情况进行测试比较, 结果如下图9所示。
根据图9可以发现改进HAR方法在使用内存情况上比HAR方法有轻微的提高, 这是因为改进HAR方法使用单层索引策略, 而HAR方法使用两层索引, 索引文件要较改进HAR索引文件占用Name Node内存较少。但改进HAR方法对于HAR方法对Name Node内存使用的优化影响不大。
4 结论
本文针对Hadoop处理小文件时Name Node内存消耗过重, 负载过重性能降低在现有HAR文件合并技术的基础上提出了一种新的索引策略, 使两层索引变单层索引, 降低了索引时间, 并且改进现有HAR技术实现了对HAR文件的追加功能, 并对相关part文件实现元数据信息预取操作, 优化了HDFS系统的负载均衡。实验结果表明, 本文建议的方法可以实现DHFS系统对小文件存储访问时I/O性能的明显改善, 另外Name Node内存消耗明显降低, 文件追加效率显著提高。
摘要:HDFS (Hadoop Distributed File System) 作为开源系统广泛地适用于各类存储服务中, 具有高容错, 易扩展, 廉价存储等特点。然而, HDFS基于单一的服务器Name Node来处理元数据信息管理, 当处理海量小文件时会造成Name Node内存过分消耗以及存储和读取性能并不理想, 使Name Node成为系统瓶颈。本文提出一种基于HAR (Hadoop Archive) 的优化机制来提高Name Node存储元数据信息的内存利用效率和提高读取小文件的访问效率。另外, 该策略也扩展了HAR文件追加的优化和为提高访问效率采用索引预取机制。实验结果表明该优化策略能够提高现有HAR处理小文件的能力和访问海量小文件的效率。
文件处理 篇10
Mastercam X系统提供了许多类型数控铣床的后处理器,但在实际使用中用户常根据自身机床需要,对后处理文件进行以下几个方面修改。1)将程序号地址码“%”修改为“O|”,“P”等其他格式,或需要将程序号地址码“%”屏蔽。2)将程序名,时间,单位显示等注释信息屏蔽。3)将换刀指令屏蔽,适应无刀库的数控铣床。4)将工件坐标指令G54修改为G92。5)将4轴指令A0屏蔽,适应用3轴数控铣床。因为Mastercam X系统提供的默认后处理文件“MPFAN.PST”被绝大部分用户所使用,下面以“MPFAN.PST”为例讲述Post后处理文件的编辑,其他类同。
1 Post后处理器编辑
1)编辑程序号地址码“%”
Mastercam X系统提供的默认后处理文件“MAFAN.PAN”给出的NC程序,其程序号地址码为“%”,但有些数控系统为“O”,“P”等其他格式,因此需要修改“MAFAN.PAN”文件,在修改“MAFAN.PAN”文件之前需要将其只读属性去掉。用文本编辑打开“MAFAN.PAN”文件。在“文件起始和刀具交换设置”部分,将程序号地址码“%”修改为“P”,如下所示。
注:以上每行后面括号内容为操作注释,实际中不要。
2)将程序名,时间,单位显示等注释行屏蔽
Mastercam X系统提供的默认后处理文件“MAFAN.PAN”给出的NC程序,显示程序号,NC,时间,单位及刀具参数等注释行,但有些数控系统不接受NC程序中的注释行,遇到这种情况就需要修改“MAFAN.PAN”文件。用文本编辑打开“MAFAN.PAN”文件,在“刀具注/手工输入设置”部分将刀具注释行屏蔽,在在“文件起始和刀具交换设置”部分,将程序号地址码重新修改为“%”,并屏蔽程序地址码显示,程序号显示,NC程序名显示及时间显示,如下所示。
注:以上每行后面括号内容为操作注释,实际中不要。
保存修改后文件“MAFAN.PAN”。试POST后处理一刀轨如下,
3)将换刀指令屏蔽,适应无刀库的数控铣床
Mastercam X系统提供的默认后处理文件“MAFAN.PAN”给出的NC程序,会自动产生换刀指令及回参考点指令,以便于带刀库加工中心进行自动换刀,但对于那些不带刀库需要手动换刀的数控铣床,如果仍然执行换刀指令及回参考点指令,就浪费时间,所以遇到这种情况就需要修改文件“MAFAN.PAN”。用文本编辑打开文件“MAFAN.PAN”,在“文件起始和刀具交换设置”部分的第0581行插入“e$#”屏蔽换刀指令,将0653行的指令[sgabsinc,sgcode,*sg28ref,“e$#”,]删除使Z轴不回参考点,将0654整行屏蔽,使X,Y轴不回参考点。如下所示,
4)将工件坐标指令G54修改为G92
Mastercam X系统提供的默认后处理文件“MAFAN.PAN”给出的NC程序,其工件坐标指令为G54,但有些数控系统用G92指令,遇到这种情况就需要修改文件“MAFAN.PAN”。用文本编辑打开文件“MAFAN.PAN”,在“文件起始和刀具交换设置”部分的第0696行将G54修改为G92如下所示,
注:以上每行后面括号内容为操作注释,实际中不要。
5)将4轴指令A0屏蔽适应3轴数控铣床
Mastercam X系统提供的默认后处理文件“MAFAN.PAN”给出的NC程序带有4轴指令A0,但有些3轴数控铣床无法适应,所以遇到这种情况就要修改文件“MAFAN.PAN”。
用文本编辑打开文件“MAFAN.PAN”,在“提问顺序设置”部分的第1685行将输出4轴指令键值由Y改为N,如下所示,
保存修改后文件“MAFAN.PAN”。试POST后处理一刀轨如下,
注:以上每行后面括号内容为操作注释,实际中不要。
3 结论
综上所述,只要用户根据自身机床需要,把Mastercam X软件的POST后处理文件进行适当编辑,这样后处理出的NC程序,便可顺利让数控铣床接受,从而控制数控铣床运作,使零件加工得以实现。
参考文献
[1]张景成.负荷开关、环网柜[J].电气时代,200,1.
[2]翟启明,王瑞军.负荷开关在电网中的使用现状和发展前景探讨[J].山西电力技术,1998,5.
[3]叶慧平,李力抗.负荷开关若干技术问题[J].高电压技术.2002,3.
[4]王士和.电流互感器的特殊分析与技术[J].电气开关,1999,5.
[5]赵誉.配网自动化-智能化配电开关[J].技术文摘,2005,9.
[6]吕华山.柱上开关电器的选择与使用[J].技术论文,2005,7.
【文件处理】推荐阅读:
文件处理程序06-03
音频文件处理方法06-25
批处理实现文件共享10-20
组卷就是文件处理部门07-01
图像文件与图形文件07-16
强制删除任意文件以及文件夹06-03
整理自己的文件和文件夹教案08-16
用QQ文件中转站“中转”大文件05-08
巧妙解决删除文件或文件夹出错故障08-16