文本数据库

2024-08-02

文本数据库（共9篇）

文本数据库篇1

摘要：介绍了利用插值中间件技术将数据库、超文本技术和Office办公软件相结合,建立了数据库报表智能输出的工作模式,实现了对具有标识格式的Office报表进行自由插值。

关键词：中间件,报表输出,超文本,标识格式,数据插值

1 引言

当前，在办公自动化中，报表输出是必不可少的，各个机关和企事业单位在报表输出处理上所采取的策略也各不相同，有的单位自行投入经费或技术力量，开发适合自身工作的报表生成工具，也有一些单位局限于自身规模和技术资源，采用比较原始的人工录入方式进行。针对上述特点，提出了一种基于超文本技术实现数据库报表智能输出的中间件设计，为从事这方面设计的工作提供接口工具，为大多数仍然采用传统手工录入报表的单位转变工作模式，提高工作效率，同时降低开发成本。

数据库技术在当今的企事业管理中应用越来越广泛，在信息系统设计过程中，数据来源至关重要，需要的报表，大多是利用信息系统从数据库中获取数据，通过加工处理而生成的。因此，应该让用户有多种DBMS选择。除了Access、SQL Server等主流数据库管理系统外，也可选择其他数据源作为数据获取途径，选择合适的数据库管理系统可以在系统运行效率和实用性方面得到更好的效果。

超文本标记语言是标准通用标记语言下的一个应用，具有简易性、可扩展性、通用性和平台无关性等特点，由于其可显示标准ASCII码，因此可将Word、Excel等Offic工具编辑的模板转换为html格式，进而方便信息系统操作处理。

2 主要设计方法

2.1 模板制作

报表主要输出模式为Word模式或Excel模式，为避免因程序转码带来的不便与未知问题，方便程序直接以文本格式读取插值，需要将模板的格式进行转换。报表Word模板制作完成后，将模板另存为htm格式。此时，模板文档存储模式为标准ASCII码形式，信息系统可以直接进行读写，但是，页面显示格式自动转换为Web版式，因此，需要调整视图为正常Office页面显示模式后保存。为方便调用打开，将模板后缀名改为dot，再次调整页面视图格式后直接保存即可。Excel模板制作方式与Word基本相似，更改后缀名时改为xlt，其他均按照Word模板制作方式完成即可。

2.2 中间件设计

中间件本身不存放格式及数据信息，主要作用是将指定数据与标识符进行有效替换，因此主要需接收的参数为数据库连接串。根据相应调用程序，指向对应模板，可生成所需的目标报表。

中间件首先需要按顺序接收数据库连接串参数，参数设置采取比较方便客户操作的界面，设置结果存放于ini系统配置文件，客户可以在系统内设置，也可以直接在配置文件内写入参数。数据表连接完成后，需进行有效字段判断，方法为设定字段搜索条件为非空，进行循环检索，对标示变量计算累加结果，循环结束后标示变量值即为有效字段数量，同时获取了插值数据，根据这些条件即可进行插值操作。

2.3 数据插值方法

在实际工作中需要把数据库中的数据加工处理抽取出符合人们需要的信息，提供更好的服务，为更快捷地得到适宜的表格或报表，用户或各行业的表格报表需要能够智能输出。以工资表输出为例，如表1所示。

首先设定插值标识符，在样表中找到相应位置将标识符定位(标识符位数最好固定，这样可以方便插值替换)，标识符一般由标识部分和代码部分组成，标识部分主要作用是使用特定的字符，可以让机器识别，以此来判定在何处定位;代码部分是区分各个插值参数，当预计插值参数数量为N时，插值代码位数可以定义为比N的位数多1～2位，方便下一步进行扩充，同时，可以将代码定义为数字和字母混合的模式，这样每位代码可以有36个可选方式，可以满足一般参数扩充的需求。标识符设定完成后，下一步进行数据抽取。来源数据可以存在于数据库管理系统，也可以以文件模式存储，或者根据现有数据计算得出。获取数据后，系统判断指定插值位置，截取插值位以前的字符和标识符后的字符，插入插值数据，得到新数据，方法如下：

其中，N为初始信息，Np为插值位以前的字符集，Nl为标识符，Nb为标识符后字符集，Ndata为插值数据，Nnew为插值后获取数据。

插值过程可将文本信息存放于memo控件中，将memo控件设为不可视(方法为memo1.visible:=false)，按照逐行判别标识符的方法进行搜索，同时将插值数据替换标识符，继续存放于memo控件，将全部替换完成后，将memo控件内容分段写入生成文档。写入时需要注意的是：汉字为2个字符，各分段可能会出现单数个字符，如果直接写入则会出现乱码现象，因此各个分段需要对长度进行判别，长度为偶数位时直接写入，长度为奇数位时补充一位后写入，这样可以保证汉字写入准确。

3 典型流程代码

在Delphi的开发环境中，常用的调用Office主要采用3种方式：控件TOleContainer嵌入Office、利用Delphi的Servers控件、运用CreateOleObject。提出的基于超文本技术能够更加方便地利用中间件控制Office，不需转换代码，直接运用文本格式对模板进行操作，用户只需要按照规则设置自己所需的模板，提供数据来源，即可通过中间件生成目标文件，达到所需要的效果。

报表文本生成的关键技术是如何将数据库中以及计算的数据直接嵌入报表模板的文本中，以Word格式报表生成为例，部分代码如下：

3.1 常规报表生成部分

3.2 中间件调用

4 结语

基于超文本技术的中间件与Word模板、Excel模板具有无关性，可针对具体需求快速开发数据库应用程序，传递参数到中间件，由中间件自动生成报表。利用这种技术实现的报表不受格式、字数、DBMS和数据项等参数影响，能应对多种形式和要求自由输出。该技术适合机关、学校、医院和公司等部门进行报表开发，在报表输出方面提供了一条高效可行的方法。

深入文本，感受文本篇2

[关键词]现代文阅读文本教学价值

[中图分类号]G633.3[文献标识码]A[文章编号]16746058（2016）060016

现代文教学是当前课改背景下语文改革的重点。不过环顾当下的现代文阅读教学实际，教师的讲解、分析太多，这样的包办式做法，压抑了学生的思维，看似为了学生，实际上剥夺了学生解读文本、体验和感受文本的机会，违背了新课程理念。那么应该怎么做呢？本文就现代文阅读谈两点看法，望能有助于课堂教学实践。

一、深入文本，发掘教学价值

一个文本能够被选入语文教材，一定具备了相当的价值。无论从字、词、句到整个文本的谋篇布局，或是从描述的人物形象到人物的思想感情，或是从课文表达的内容到艺术手法等等，文本所呈现出来的值得学习的东西太多了。因此，我们在引导学生阅读时应该深入文本，对文本的教学价值充分地挖掘。

例如，《金岳霖先生》这篇课文，深度挖掘，我们可以从文本中挖掘出如下几点教学价值：

1.发现金先生高而可攀的人格魅力

按理说，金岳霖先生是中国现代哲学家、逻辑学家，给人的感觉应该是“高山仰止”，不过在汪曾祺先生的笔下，不是高不可攀，而是高而可攀。

从外貌上看，金先生古怪有趣，但是其教学却非常率性自在，生活更是活泼无拘，透露出来金先生整个人率真、可爱、不做作、不雕琢、少俗虑、重真情、爱生活的性情，周身洋溢着人性之美。而有这样的人格魅力的人是不是只有金岳霖呢？汪曾祺先生写作的用意不仅仅是为了写金先生，而是通过对他的描写折射出“西南联大知识分子”所共有的人格魅力。

2.简洁畅达的语言魅力

赏析整篇文本，质朴散淡、平实亲切，细细品读，能够感受到行文克制而有神采，内敛而不宣泄，给读者留有无限的想象。

例如文中的一段描述：“林国达游泳死了，金先生上课，说：‘林国达死了，很不幸。这一堂课，金先生一直没有笑容。”如此平淡的语言，却透露着金先生无比沉重的内心，短短数言却道出了千般滋味。

3.用细节表现人物的艺术魅力

整篇文章，为了凸显某一个性格，汪先生会在细节处反复描写。

例如，文章为了表现“有趣”两个字，描写了如下细节：“走路深一脚浅一脚，微仰着脑袋，在讲座时突然停下捉跳蚤。”通过这些细节将人物真实地再现，不仅如此还彰显了写人记事类散文的特点——“形散神聚”。

4.有趣的漫画式写法

从写法上看，汪曾祺笔下的金岳霖让读者不由得会联系到契诃夫笔下的套中人，都是教师，而且行为举止都很“怪”，不过，透过文本读者看到的两个形象却是截然相反。这样的漫画笔法被汪先生运用得恰到好处，行文有趣生动、不火不辣，汪先生笔下的金先生并没有因为“怪”而招人讽刺嘲笑，恰恰是这种“怪”反而让金先生显得更为可亲可敬。

二、感受文本，驶向文本意义

语言学习不是教师灌输的，尤其是阅读课，必须让学生自己去亲身感受，什么是“感受文本”？

笔者认为，感受文本是指引导学生凭借或结合课文的语言描述，在学生自己的头脑中再造出与文本内容相对应的情景，或者是从作品出发，想象课文中并没有直接描写的人物的心理、神态、语言行为等内容，感受不是重复，最终是要能用自己的语言表达出来，将自己的感受与文本的内容相结合，实现个性化阅读。

感受作品中的人、事、物、景、情以及未直接明言的内涵，是鉴赏文学作品的起点。在文学赏析中，教师要注意调动学生的主观能动性，让他们去想象、欣赏一个个生动的画面，营造“如观其人，如闻其声”的氛围。为了有效地感受作品的形象，教师在引导学生进行赏析时可以让学生了解一些文学创作的方法和技巧，引导学生按照这些方法展开想象，经历作家创作时的思维历程。

例如，《荷塘月色》一文在描写荷塘时多处采用电影蒙太奇手法：“曲曲折折的荷塘上面，弥望的是田田的叶子。”这是由远景推向近景，太近就看不清“曲曲折折"的全貌，而“弥望"就是满眼，显然已由远及近了。“叶子出水很高，像亭亭的舞女的裙”，这是荷叶的近景。“层层的叶子中间，零星地点缀着些白花；有袅娜地开着的，有羞涩地打着朵儿的。”这是由近景变为特写镜头，以少女的风韵写尽荷花白璧无瑕的美质。“正如一粒粒的明珠，又如碧天里的星星。”这是从近景拉到全景，翘首仰望，月夜碧空如洗，犹像弥望的田田荷叶；荷叶星罗棋布，宛如镶嵌在“碧空”中的明珠，视野开阔，全局尽收眼底。如果学生能够像欣赏电影镜头那样去想象上文的景象，就不难获得“身临其境”、“历历在目”的效果，就能欣赏到这令人心旷神怡的意境。

文本数据库篇3

(1)系统登录功能。

(2)文本文件内容自动和手动导入功能。

(3)数据库表数据添加、编辑、删除、刷新和查找功能。

1 功能模块

1.1 系统登录模块

系统登录是用户进入到系统的门户,只有通过登录模块,才能对登录用户进行身份验证,只有系统的合法用户才可以进入系统的主界面,如图1。

1.2 文本文件自动和手动导入模块

该模块按功能将窗口分为两部分,如图2。左部分显示正在处理的文本文件和处理结果。右部分按功能分为3个区域:

区域1:用户可以通过DriveListBox控键,选择文本文件所在的盘符,通过DirListBox控键,选择数据集文件所在的路径,通过FileListBox控键可以选择用户需要入库的数据集文件,并且在TextBox控键中显示数据集文件的绝对路径。

区域2:CommandButton控键对文本文件进行处理,如果用户没有使用区域1的功能,那么CommandButton控键将按照默认的路径,查找文本文件进行处理。

区域3:DTPicker1控键用于选择日期时间,显示相应的日志文件,如图3。

1.3 数据库管理模块

用户点击“数据”菜单,显示子菜单数据库管理,数据库管理模块提供表数据添加、编辑、删除、刷新和查找功能,如图4。

2 系统实现

按照一定规则组织起来的一系列数据文本文件,存放在文件系统中,同时按照相应规则在SQL Server 2000数据库中建立数据表。

建立数据源,使用远程数据控件MSRDC,访问远程数据库,代码如下:

MSRDC1.Password="密码"

MSRDC1.UserName="用户"

MSRDC1.DataSourceName="数据源"

在VB中,用循环语句一行一行地读取文本文件的内容,并且赋值给一个数组,同时用Split函数将数组里的字符分割,得到文本文件里的数据,再插入到数据表中,代码如下:

Do While Not EOF(1)'循环至文件尾。

Line Input#1,TextLine(i)'读一行

日志文件存储了之前的操作信息,可以供管理员查阅每日的操作,方便管理,日志文件生成代码如下:

Print#2,"写入各种操作信息"

Close(2)

系统通过Timer控件,定时查找指定地址是否有符合要求的文本文件,有就自动导入数据库。用户手工导入文本文件数据信息时,通过VB6.0的控件选择文本文件所在的文件系统中的地址,并且判断文件是否存在,代码如下:

End Function

文本文件入库完成后,将该文件移到另一个目录下,如果该目录已经存在这个文件,则将文件名修改后再移至该目录。

数据库管理模块使用DataGrid控件,实现对数据表的删除、查找、刷新、添加和编辑操作,访问数据库的代码如下:

3结语

本程序是基于Windows XP操作系统、SQL Server 2000数据库平台及VB6.0的开发平台,实现存储大量数据的文本文件批量导入到SQL Server 2000数据库和数据库管理的功能。

参考文献

[1]武洪萍.visual basic数据库应用.北京:中国电力出版社,2006.

[2]郭琦.Visual Basic数据库系统开发技术[M].北京:人民邮电出版社,2006.

解读文本不等于肢解文本篇4

我在课前精心准备了很多春笋和竹子的相关图片，课堂教学也按自己预设的教案有条不紊地进行。考虑到这篇课文只有两个自然节，篇幅很短，我把每一个自然节中的每一句话都逐一进行讲解，重点指导一年级孩子有感情朗读，在朗读中感知、体会春笋蓬勃向上、永不满足的顽强生命力。两个自然节学完之后，我抛出这样一个问题：“原来嫩生生的春笋娃娃最后长成了什么？”孩子通过幻灯片展示，很容易回答出长成了高大的竹子。我紧追不放地问道：“那么，当你们看到郁郁葱葱而又高大的竹子，此时你们想对那些春笋娃娃说什么？”“春笋，你好好生长，千万不要死呀！”“春笋，你干吗要长这么高？别人会把你砍掉做东西用的。”“春笋，你也会有自己的孩子吗？”孩子高举着小手，回答得很踊跃，想象力也挺丰富，可没有一个能回答到“点子”上。于是，我一遍遍地引导他们：“瞧，阳光照一照，春笋娃娃欢快地舒展了四肢；春风吹一吹，它们勇敢地抬起头，又往上长一长；春雨淋一淋，它们咕嘟咕嘟地喝了个饱。”还是无济于事，所有孩子的回答都脱离了轨道，我只好无奈地对他们说：“你们这么小的年龄，真有爱心，将来一定会成为保护环境的卫士”。原以为通过这个非常简单的问题既可以让孩子学习这篇课文得到最后的升华，又可以成为本节课的亮点之一，完美地结束本节课的教学，没想到会是如此偏颇的回答，糟糕的收尾。课是上完了，我的心情却因此闷闷的、沉沉的。

课后，很多老师围坐在一起进行评课。大家一致认为我在本节课教学中教学思路很清晰，只是很明显地把文本肢解了，从而使孩子解读文本时缺少整体感，整节课教学有些“散”。我自己也陷入了深深的思索之中。

《新课程标准》强调：“阅读是搜集处理信息，认识世界、发展思维，获得审美体验的重要途径。阅读教学是孩子、教师、文本之间的对话过程。”在开展阅读教学前，教师要能准确地把握教材，对教学目标、教学重难点等熟稔于心。教学中教师带领孩子一同走进文本，师生运用一定的教法和学法解读文本，击破教学重难点，实现教学目标，和文本进行有效对话。

在与文本的对话中，要找到解读文本的“切入点”。很多课文都有“牵一发而动全身”的切入点，或者是标题，抑或是文中某个关键词、关键句，比如《春笋》一文中的“向上，向上，再向上”就是孩子理解的关键句。还有一些关键词语如“冲破”、“掀翻”、“冒出来”等等，都是整篇文章的支点，抓住它们往往能将整篇文章撬动起来，在此基础上引导孩子整体感知课文，就会让孩子对文本留下完整的印象，而不至于将文本“大卸八块”，给人以割裂之感。

文本数据库篇5

常用多媒体开发工具Authorware开发许多有实际用途的软件,比如查询信息、电子日历、留言板、推介产品、互动演示等功能的软件,这些都需要涉及数据处理,数据同科技情报图书等工作形影不离。Authorware同数据之间的关系主要有:(1)过去,程序设计是把数据放在程序中,这样,表面看似简单,实际给数据的重复使用带来不便,增加了数据冗余性;(2)可以通过把数据作为一个文本文件,放在物理磁盘上,需要时候可以读和写,这样把数据与程序分开;(3)应用数据库文件,建立更加规范的数据组织形式,这对数据的迁移、管理、运用带来更大的方便。

1 数据存放在Authorware文件中

(1)用文本图标,直接把数据放在其中进行显示或用计算图标,在其中输入数据进行处理。

如果有许多数据,并且这些数据之间有一定关系时,只用文本图标进行显示就缺乏数据之间的联系。可以用框架图标,把许多数据放在不同的框架页中,这些页面之间的相互跳转可以用导航图标来完成。如果这些数据要进行扩充,只需在框架图标右侧添加更多的文本图标作为框架页,在此基础上,还可增加框架图标,这样可增加更多的框架页,组织数据能力明显增强。另外,在文本页面中可对数据定义风格、应用风格,这就建起链接关系,数据之间就有了一定“超链接”关系。如果要建立起上下导航关系,只需增加交互图标,在交互图标的右侧增加计算图标,在计算图标编辑代码框中输入Goto(IconID@”图标名”),设置交互类型为按钮,范围为永久,响应选项卡中选择分支为退出交互,这样就可以上下导航。如果这些数据相当多时,可以放入一个群组图标中,当很多数据用不同群组图标分别建立起来后,只需要把它们放入一个交互图标中,选择交互类型为按钮或热区域即可,这样数据联系密切,但缺乏共享性。

(2)用交互图标选择文本输入交互类型,通过EntryText、numentry传递数据。

2 用文本文件作为Authorware文件的数据提供者

2.1 直接用计算图标进行数据存取操作

首先拖放一个交互图标在流程线上,在其右侧拖拽一个群组图标,交互类型为文本输入,然后拖入三个群组图标,分别取名为写、读前一个、读后一个,双击写群组图标,在其中加入一个计算图标,输入代码:i:=i+1 WriteExtFile(FileLocation^”no”^i^”.txt”,EntryText),这样,只需单击一下写按钮就保存一次内容,且每次的文件名均不一样。双击“读前一个”群组图标,在其中拖入一个计算图标,在其中输入代码:i=i-1neirong:=ReadExtFile(FileLocation^"no"^i^".txt"),在此计算图标的下方添加一个文本图标,用文本工具输入{neirong}。这样,就可以把保存的文件内容分别向前进行浏览显示,同理,“读后一个”进行类似的设置。

2.2 用知识对象来帮助实现Authorware文件与数据交换信息

下面用当天的日期作为文件名进行保存。

首先,使用“插入/控件/ActiveX”命令,选择“Calender控件9.0”,在流程线上添加一个图标名为“ActiveX...”,在演示窗口中调整其相对位置、大小。从知识对象面板中,将“窗口知识对象”拖动到“ActiveX...”图标的下方,打开对话框,选择其默认的对象参数设置,在“Select Windows Control”界面,选择“Memo”选项。然后,拖曳一个交互图标在知识对象图标的下方,在交互图标的右侧拖入两个群组图标取名为保存、读取,交互类型分别为按钮、事件。双击保存群组图标,拖拽一个“窗口控制—获取属性”,使用其默认设置,再拖入一个计算图标输入代码:WriteExtFile(FileLocation^Date^".txt",wcPropertyValue)。双击读取群组图标,拖入一个计算图标,输入代码:

在此计算图标下方拖入一个“窗口控制—设置属性”知识对象,设置其对应的参数。最后,选择Click事件,挂起其他事件。

2.3 外部程序编辑法

首先在流程线上添加一个计算图标,输入代码:JumpOutReturn("notepad.exe",RecordsLocation^"str.txt")textstr:=ReadExtFile(RecordsLocation^"str.txt"),然后再拖拽入一个显示图标,用文本按钮输入{textstr}。这样就可以用Windows自带的记事本程序来编辑文字信息,并在Authorware中显示。

2.4 外部函数法

(1)可以在网上下载一个UCD扩展函数Scrledit.u32,计算图中执行的函数ScrollEdit(),将调出一个可以滚动输入的文本编辑框,赋值给一个字符串,显示在文本图标上。

(2)首先要在系统目录System或System32中找到文件“Hhctr1.OCX”,把它作为外部函数导入,随后提示函数名填HtmlHelpA;然后在计算图标中输入相应代码来调用相应文件。如调用help.chm文件使用如下代码:HtmlHelpA(0,FileLocation’help.chin”,1,0),在Authorware中导入或调用TXT、RTF、CHM文档。

3 同数据库之间的连接

将Authorware的交互性同数据库处理数据的强大功能和灵活性结合在一起,在多媒体软件中实现对数据的存取功能。

3.1 用Access创建数据库文件

运行Access后,选择“空数据库文件”,命名新建的数据库文件名为record.mdb。双击“使用设计器创建表”开始创建表的过程,可以自定义字段name、info分别为文本数据类型,最后为表命名为record。

3.2 设置ODBC

ODBC(Open Database Connectivity)即开放式数据库连接,可以直接使用VF、Access、Mysql、Oracle等数据库中保存的数据。用SQL(Structured QueryLanguage)即结构查询语言,对VF、Access、Mysql、Sql server等数据库中的记录进行相应的操作。

在XP的控制面板→管理工具中,双击数据源(ODBC),弹出“ODBC数据管理器”对话窗口,需要为所有用户使用,选择“系统DSN”选项卡,添加mdb数据源驱动程序,取名为mymdb,选择刚建的数据库record。

3.3 建立Authorware文件

在流程线上,拖入一个文本图标命名为“背景”,导入背景图片,在文本图标下拖放一个计算图标,取名为初始化数据库,双击输入以下代码:ODBCHan-dle:=ODBCOpen(WindowHandle,“ErrorVar”,”record.mdb”,””,””),其中外部函数ODBCOpen()在ODBC.U32中。在初始化数据库图标下,拖拽一个交互图标取名为1,在其右侧拖入一个群组图标取名为输入文字,选择其交互类型为文本输入;然后,在群组图标的右侧拖放一个计算图标,选择交互类型为按钮交互,快捷键中输入“enter”,表明按回车结束,双击计算图标,输入代码:x:=EntryText GoTo(IconID@"2"),在响应选项卡,选择退出交互选项。在这个交互图标下再拖入一个交互图标取名为2,在右边输入一个群组图标,选择交互类型为文本输入交互,继续向交互图标2的右侧拖入一个计算图标,双击此计算图标,输入代码:y=entrytext GoTo(I-conID@"操作"),其作用就是向数据库中表的段写入信息,调整其相应位置、大小,输入提示用语。

在交互图标2的下方拖入一个交互图标取名为“操作”,在交互图标操作的右侧继续拖入一个群组图标取名为写,设置其交互类型为按钮,双击“写”群组图标,拖入一个计算图标,在其中输入代码:

在“写”群组图标里,再拖入一个计算图标,命名为“继续添加”,在“响应”选项卡中,选择“范围”为永久,其代码为:GoTo(IconID@"背景"),可多次输入记录信息。

在操作交互图标的右侧继续添加一个群组图标命名为“读”,交互类型为按钮,双击“读”群组图标,进入第二层编辑窗口中。首先,拖拽一个文本图标取名为显示数据,用于获取数据库record表的信息,用文本按钮输入{data}。在显示数据图标的下方,拖入一个计算图标用于获取数据库中表的信息,其代码如下:string=”select name,info from record”

在计算图标的下方拖入一个交互图标取名为浏览,在浏览交互图标的右侧拖入三个计算图标,分别取名为前一条、后一条、离开,设置交互类型为按钮。

双击“上一条”计算图标,输入代码:if i>1 theni=i-1 end if

Data=”当前共有”^n^”条记录,当前查看第”^i^”条r”^GetLine(source,i)(i为自定义变量,初值为0)。

双击“下一条”计算图标,输入代码:if i

Data=”当前共有”^n^”条记录,当前查看第”^i^”条r”^GetLine(source,i)。

最后,在操作交互图标的右侧增加一个计算图标,取名为“退出”,输入代码:ODBCClose(ODBCHandle),关闭数据库的连接。

4 结束语

Authorware与人交互的内容可以写入文本文件、数据库文件,也可直接读取文本文件、数据库文件的内容。同理,直接对文本文件、数据库文件进行编辑、修改的结果也可以直接从Authorware开发的软件中显示出来,完成“双向”读取操作。Access支持SQL语言,设置关键字后,可以在Authorware中实现对Access数据库的记录进行修改等操作。Authorware的交互性和Access数据处理功能的结合,在学习、科研、情报、生产等许多方面有很大用途。

摘要：本文把数据同Authorware开发的多媒体软件分离,使程序更加灵活、方便,把数据放在文本文件、数据库文件中,从数据库Aceess中提取数据在作品中动态显示,并在Authorware中实现“双向”读写、浏览信息等操作,在实践中有广泛用途。

关键词：Authorware,文本文件,Access,读写,实现

参考文献

[1]黄小宇,张凤群,陈阳.中文Authorware多媒体制作[M].北京:清华大学出版社,2005.

[2]李若瑾,王丽萍.Authorware7.0实例教程(第二版)[M].北京:电子工业出版社,2010.

[3]京辉热点工作室.Authorware5入门与提高[M].北京:人民邮电出版社,2000.

[4]袁海东.Authorware6.5教程[M].北京:电子工业出版社,2003.

[5]仇芒仙,等.Authorware实用教程[M].北京:高等教育出版社,2005.

[6]陈冠雄,李光群.Authorware多媒体制作[M].北京:清华大学出版社,2005.

[7]毕广吉.Authorware变量、函数、控件手册与范例[M].北京:电子工业出版社,2003.

文本元数据自动抽取算法的研究篇6

元数据是描述数据的数据,当前无论是科技论文还是建立数字图书馆,元数据大多由人工逐条标记输入,这样就花费了大量的人力、物力和时间,而且海量文献的管理也越来越困难了。在构建元数据中心或是元数据库的时候,若元数据信息可以自动抽取,这将很很大程度上提高工作效率[5]。

元数据自动抽取技术常用以下三种:基于词典的文本信息抽取[1]、基于统计学的文本信息抽取[2]、基于规则的文本信息抽取[3]。其中采用词典的抽取方法,需要实现构造词典,需要很强的专业知识,并且应用领域相关性太强。而基于规则的文本抽取多采用基于正则表达式对论文的标题、作者、摘要等信息进行抽取,但是基于正则表达式的规则设计只针对论文文献进行抽取,并且规则不能自动学习,抽取规则通用性相对较差。

为了解决基于正则表达式方法不能自动学习和只能对论文元数据抽取的缺点,本文提出了基于特征相似的归纳学习算法,该方法可以自动生成抽取规则,并且生成的抽取规则,不但可以应用到科技文献文档,还可以实现对其他类型文档的元数据信息抽取。

1元数据抽取模型介绍

本文所设计的元数据抽取模型如图1所示。从图1中可见,该模型主要包括三个部分:文档预处理模块、学习模块和抽取模块。借助三个模块,本模型的具体信息处理流程为:(1) 模型的输入为学习实例,首先通过文档预处理模块对输入的学习实例进行预处理,按照预先定义好的格式,生成文档模版,并存储在文档模版库中。(2) 学习模块从给定的已经被预处理过的训练实例中,利用基于特征相似的归纳学习算法,对预处理的文档进行实例学习,自动生成抽取规则。(3) 最后抽取模块利用生成的抽取规则,实现对科技文档或是其他类型文档的元数据的自动抽取。下文将详细阐述这三个模块的设计思想与具体算法。

2文档的预处理

文档的预处理主要是对输入的任意文本使其规范化,按照指定的格式对其进行分块,然后将预处理后的文档保存,以提供给下个模块的使用。在对Web网络元数据信息进行抽取时,往往利用Web页面其自身特点,利用页面标签,生成DOM树,抽取元数据,根据节点在DOM树中的定义路径,从根节点一次经过节点序列每一个节点,进行规则的学习和元数据的抽取[3,6]。在普通的文档中,没有像页面标签一样的固定结构,可以方便地生成DOM树,但是仍然可以将文档按照某些特定的属性,进行分块,提取块的关键词,生成多个节点。然后对节点进行处理,对文档进行学习,生成抽取规则。

通过研究,发现一篇论文通常具有论文标题、作者信息、论文摘要、关键词和论文内容以及引用等部分。每一部分我们称为一块,根据每部分的关键词或是特征值以及相关的符号等,可以对其进行分块。如:可以利用abstract、keywords、换行等特殊关键词或是符号对首页进行分块。如果块中包含有title、author、email等关键词或是换行回车特殊符合,就说明分块是正确的。每个分块可以看作是一个节点,类似Web文档DOM节点。但是没有像DOM结构,有严格的自上而下的分层结构,没有状态的变化,只是单一状态,并且约定每个节点之间已经具有一定的次序关系。如:科技论文就约定,标题——作者信息——摘要——关键词,构成线性关系。

3规则的学习

规则的学习是借助于学习模块,此模块生成抽取规则的算法是利用归纳学习算法,通过学习训练实例,在自动生成抽取规则的过程中,结合特征相似度算法对规则进行匹配验证,最终生成抽取规则。

3.1基于特征相似的归纳学习算法

基于特征相似的归纳学习算法,是将基于归纳学习算法和特征相似度结合起来。归纳学习算法是一种建立在假设基础上的一种抽取方法,是机器学习算法中的覆盖学习法。首先产生一个规则去覆盖尽可能多的集合中的例子;然后从集合中删除被覆盖的例子;再在剩余的例子基础上,产生另一个规则;最后尽可能多地去覆盖集合中的例子,如此循环。直到错误率为零或是满足于个事先设定的标准。而特征相似度就是对某个元数据信息计算其概率的方法,对于要抽取的信息和已经标记的信息进行计算,选取不同的特征函数和值进行计算。

在此模块中,是通过对给定的预处理的训练实例进行学习,然后生成抽取规则。在学习训练的过程中,充分结合了节点的结构特征、语义特征等信息,结合归纳法进行学习,然后用相似特征函数去验证我们生成的正则表达式是否正确,以及判断能否满足我们接下来的抽取需求。像科技论文,就能利用科技文献等文档的相关特性,进行学习和生成抽取规则。

例如标题的学习,结合标题一般是整篇文章中字体最大的,标题的字号是不是粗体,等等,对标题进行相似匹配估算。首先确定要抽取的元数据类型或种类,确定元数据数据特征,如标题字号[7]等。根据数据特征,选取合适的特征函数,构建相似度矩阵。然后计算相似度矩阵的最大值和最小值,再用[最小值,最大值]之间的值进行估算,根据估算的值,确定元数据类型。对需要抽取的元数据特征进行匹配,如果数值是在允许的范围内,则认为节点内容就是元数据内容。否则,重新计算,最后对标题生成正则表达式模式的抽取规则。

3.2算法描述

在基于特征相似的归纳学习算法中,生成抽取规则主要包括四个步骤:

(1) 对其每个节点进行关键字的匹配查找。

(2) 用某一特定的符号替换关键词,如:#,构成#content#的形式。

(3) 基于当前的特殊标记,再次循环学习新的规则,直到覆盖率满足提前设定好的条件。

(4) 利用相似匹配函数,对生成的规则进行相似匹配和验证,并生成正则表达式。

算法描述:

这样遍历每个节点,把产生的规则加入到集合中,输出训练实例的rule集合,算法结束。

如下实例:

对一个文档的摘要先进行实例学习,然后生成抽取规则。

文档如图2所示。

摘要节点:abstract节点。目的就是找到特定关键词,替换关键词,构造抽取模式,形成#abstract#的模式。

Step1 先根据基本特征对其进行分块,形成节点,并设置规则为空。

Step2 输入例子,进行学习。替换abstract等关键词为#abstract#,形成如下的模式#abstract# this paper proposes #abstract#,在这样的情况下,我们就可以按照#content#的方式对其进行抽取规则的生成。

Step3 如果接下来的规则学习还依赖与上面的生成的中间文档,可以接着学习,形成如下的模式:#abstract# #content# #abstract#。

Step4 调用相似函数,对其抽取内容进行匹配和验证,产生如下的正则表达式。Expression:*author* ‘#abstract#’ * abstract ‘#keyword#’ *keyword。

对于系统来说,它可以判断这些是不是符合正则表达式,并且是否能满足待处理文档的需求,如果符合,输出rule。

4抽取元数据

元数据的自动抽取是通过抽取模块实现的,元数据的抽取是利用上一模块生成的抽取规则,使用正则表达式的模式匹配对,并结合特征相似函数,然后对待抽取的文档进行元数据的抽取。通过基于特征相似的归纳学习算法学习而得的正则表达式模式的抽取规则,没有专业领域的要求,可以应用到科技论文之外的其他类型的文档。

生成的抽取规则是正则表达式的模式,利用正则表达式规则,对待抽取的文档,根据关键字进行循环模式匹配,并对其进行相似判断,最终实现对元数据的正确抽取。

具体算法描述如下:

首先,载入有正则表达式的rule文件。然后按以下步骤循环,依次抽取元数据信息:

(1) 得到提取的关键字,然后从rule文件中搜索每一个匹配的模式。

(2) 如果得到的内容是不包含模式的内容,则抽取出其内容。否则,继续从rule文件中寻找子模式的匹配,直到找到没有模式匹配为止,抽取其内容。

(3) 用特征相似函数,对抽取的内容进行验证,如果验证通过,则为元数据内容。如:对作者的抽取,验证其内容是否为人名。

例如对摘要的抽取,中文文档有“摘要”关键词,英文文档有“abstract”关键词,如果一旦匹配正则表达式模式:*摘要+描述*或是*abstract+description*的模式,就认为匹配到正确的摘要信息,否则,继续循环匹配,直到找到正确的匹配模式,然后对其进行元数据信息的抽取。

5实验结果

作为对这个算法的验证,我们用两种类型的文档对其进行了验证,科技论文和某公司的软件资产信息文档。

1) 科技论文

对科技论文的抽取主要还是集中在首页的信息,目的还是抽取标题、作者、摘要、关键词等信息。在这里我们首先用学习100例子的方式进行抽取测试,然后又用了300例子进行学习,然后抽取测试,测试结果和步骤按照以上的方法进行,正确率基本在80%左右,说明设计的抽取方法是符合要求的。

2) 某公司的软件资产信息文档

在对公司的软件资产信息文档抽取的过程中,主要想抽取的是软件名称、软件的开发作者、软件的版本和开发时间等信息。结果显示正确率也在80%以上,说明该方法不但可以针对科技论文实现正确的抽取,包括其他的文档也可以进行正确的抽取,很好的实现了其扩展性。

对比结果如表1所示。

这两个实验中,第二个实验相对第一个实验有更好的回收率,抽取准确度也更高。这主要是因为论文提交时的格式约束不强,对其进行分块、节点划分的时候,出现一定的偏差,这样就导致生成的正则表达式不能很好地满足抽取需要。而软件资产信息文档有其严格的格式要求,在规则生成和元数据的抽取时节点划分比较准确,提高了提取的成功率。

6结语

本文主要介绍了将归纳法和特征相似度相结合,自动生成抽取规则,并对论文等文档进行元数据抽取的方法。实现了不错的扩展性,不仅针对科技文献可以实现正确的抽取,还可以对其他类型的文档实现自动抽取。通过实例,也证明了此算法能提高系统的回收率和抽取的正确率。

接下来的工作主要是解决节点多状态的问题,由于假定了节点状体顺序转移和单一状态,造成状态的单一转移,这就造成了自动生成抽取规则的不灵活性,不能按照需求自动生成需要的正则表达式。下一步,将研究利用节点某些特殊结构,实现状态的灵活跳转,不再局限顺序结构。

参考文献

[1]刘永丹,曾海泉,李荣陆,等.基于语义分析的倾向性文本过滤[J].通信学报,2004,25(7):78-85.

[2]钟敏娟,郝谦,刘云中.基于多模板马尔可夫模型的文本信息抽取算法[J].计机工程,2006,32(2):203-205.

[3]张秀秀,马建霞.PDF科技论文语义元数据的自动抽取研究[J].现代图书情报技术,2009(2):102-106.

[4]Laender A H F,Ribeiro-Neto B A,da Silva A S,et al.A brief survey ofweb data extraction tools[J].SIGMOD Records,2002,31(2):84-93.

[5]周亚.2001-2008年国内元数据自动抽取研究综述[J].科技情报开发与经济,2009,19(23):13-15.

[6]Kern R,Van Hateren J H,Egelhaaf M.Representation of behaviourallyrelevant information by blowfly motion-sensitive visual interneurons re-quires precise compensatory head movements[J].J.Exp.Biol,2006(209):1251-1260.

文本数据库篇7

本课题主要研究如何从万维网中抓取带有持续Cookie (persistent cookie) 的POST文本数据。现以Windows7的32位系统作为测试平台, 以eclipse Mars.1为开发平台, 研究一个快速抓取POST文本数据的方法。

HTTP协议概述

HTTP协议, 即超文本传输协议 (Hyper-text transfer protocol) , 是用于从万维网服务器传输超文本到本地浏览器的传送协议。HTTP是一个应用层协议, 由请求和响应这两种报文组成。请求方法有8中类型, GET、POST、HEAD、PUT、DELETE、TRACE、CONNECT和OPTIONS等。其中GET和POST是最常见的两种请求方式。GET是以实体的方式得到由请求URI所指定资源的信息, 如果请求URI只是一个数据产生过程, 那么最终要在响应实体中返回的是处理过程的结果所指向的资源, 而不是处理过程的描述。POST则用来向目的服务器发送请求, 要求它接受背负在请求后的实体, 并把它当作请求队列中请求URI所指定资源的附加新子项, POST被设计成用统一的方法实现下列功能:

对现有资源的解释;

向电子公告栏、新闻组、邮件列表或类似讨论组发信息;

提交数据块;

通过附加操作来扩展数据库等。

POST请求报头信息分析

请求报头允许客户端向服务器端传送请求的附加信息以及客户端自身的信息。例图1介绍了一个典型的POST请求报头, 它主要包含以下字段:Accept字段表示浏览器支持的MIME (Multipurpose Internet Mail Extensions) 类型;AcceptEncoding字段表示浏览器有能力解码的编码类型;AcceptLanguage字段表示浏览器所支持的语言类型;Connection字段表示客户端与服务器连接的类型;Content-Type字段表示网络文件的类型和网页的编码格式;Cache-Control字段指定了请求遵循的缓存机制;User-Agent字段表示浏览器版本信息;X-Requested-With字段的值为XMLHttp Request表示请求是Ajax异步请求, 值为nul表示请求是传统同步请求;Host字段表示请求的服务器网址;Cookie字段是一些网站为了辨别用户身份、进行session跟踪而存储在用户本地终端商的数据。

POST文本数据抓取方案设计

抓取POST文本数据的基本流程如图1。首先, 需要读取字符串url, 并根据字符串url建立URL类的实例post URL, 此后需要建立post URL连接, 这将返回一个Http URLConnection类的对象connection, 此时并没有创建实际的网络连接。其次, 要给对象connection设置连接属性, 其中, 首先要调用set Request Method方法将请求方式设置为POST;其次需分调用set Do Output和set Do Input方法将参数都设置为true, 这是因为POST请求的参数是放在http正文内;此后, 需要调用set Request Property方法, 该方法有两个参数分别是key和value, 参数key可参考表1中第一列的数据来设置, 参数value的值与表1中第二列的数据类似, 针对来自不同的源的POST网页可依照抓包代理工具中捕获的POST请求报头信息来设置key和value的值。设置好连接属性后, 就可以调用connection对象的connect方法来打开到post URL引用的资源的通信链接。应该注意的是, 设置连接属性必须在打开连接之前, 否则将会发生错误。最后, 建立字符输入流对象读取文本数据并保存到本地, 流程结束。

若要批量抓取POST文本数据, 需要对图1中描述的方案的流程进行改进。在给对象connection设置连接属性这一步骤中, 有一个字段为Cookie。Cookie分为非持续Cookie (nonpersistent cookie) 和持续Cookie (persistent cookie) 。如果没有给Cookie设置过期时间, 则Cookie会在关闭浏览窗口时消失, 这样的Cookie被称为非持续Cookie。非持续Cookie一般被保存在内存里。如果设置了Cookie的过期日期, 则它将被一直保存直到过期位置, 这样的Cookie被称为持续Cookie。火狐浏览器的持续Cookie被保存在数据库cookies.sqlite中, 过期日期由expiry字段记录。获取持续Cookie的方法有以下两种:

连接数据库cookies.sqlite, 选择表moz_cookies, 读取name、value和expiry字段的值;

建立Web Driver类的对象打开浏览器, 建立并打开url链接后获取cookie的name、value和expiry字段的值。

第一种方法在数据库cookies.sqlite中表格的数据没有加密的情况下可通过Class.for Name (org.sqlite.JDBC) 连接SQLite的JDBC来实现。第二种方法的原理是在打开浏览器并打开url链接时保存服务器向客户端发送的Cookie。显然, 第二种方法比第一种方法更加通用。因此, 本课题采用第二种方法来获取Cookie, 流程图见图2。

采用图2中描述的方法可以完整地得到Cookie的name和value, 又根据持续Cookie有过期日期的特性, 设计出了批量抓取POST文本数据的流程图, 见图3。当保存好当前抓取到的文本数据后, 并在抓取下一个页面前, 需要判断当前日期是否在Cookie的过期日期之前。若为真, 说明此前得到的Cookie仍然有效, 可继续使用;若为假, 需要刷新网页重新抓取Cookie和过期日期。由于在获取Cookie的过程中打开了firefox浏览器, 因此抓取完预计的所有页面后, 需要关闭浏览器, 到此整个流程结束。

实验结果

调试好各模块的程序后, 需配置好URL和文本的保存路径。以中国裁判文书网为例, 运行程序, 见表2所示的统计结果。

结束语

本文介绍了抓取POST文本数据的详细步骤, 在执行抓取文本程序的过程中, 曾出现过返回502 Bad Gateway的HTTP状态消息的情况。这是由于服务器从上游服务器收到一个无效的响应。此种情况可通过记录抓取进程的方式解决, 在再次执行程序时就不会出现抓取重复文本的错误。通过反复的实验, 验证了此种抓取方式的可行性, 并且操作简单。

文本数据库篇8

一、功能模块介绍

登录模块：包含用户登录页面login.asp。

网站访问记录存储模块：log.asp页面, 实现对网站访问日志记录的存储操作。

管理模块:show.asp页面，用于查看网站的访问日志记录。

二、功能设计与实现

(1) 、登录页面设计 (图1) 。

使用表单制作用户登录页面，当点击“登陆”按钮后把用户输入的用户名和密码信息提交到check.asp页面，进行用户合法性检测。登录页面部分源代码如下：

(2) 、网站访问记录存储模块

文本文件存储方式

通过对文本文件的写操作将用户的访问记录存储到文本文件中，该页主要源代码如下：

数据库存储方式

通过对数据库的写操作将用户的访问记录存储数据库中，该页面主要源代码如下：

(3) 、查看用户访问日志页面

在该页面可以查看网站的历史访问日志记录。见图2

文本文件存储方式下的数据显示

通过对文本文件的读操作可以把存储的网站访问日志信息读取并显示在相应的区域内，该页面主要源代码如下：

数据库存储方式下的数据显示

通过对数据库中存储用户网站访问日志的数据表的访问，将网站访问日志信息读取并显示在相应的区域内，该页面主要源代码如下：

三、两种实现方式的比较

(1）、从两种方式的实现方式上看。文本方式是通过对文本文件的读写操作来实现数据的存储与使用，读写的操作就是对文本内字符的操作，一切的算法控制关键也就转换为文本字符的控制，算法的灵活性很大。但数据库方式则是通过对数据库中相应数据表的读写操作来实现数据的存储与使用，现在不管是何种编程环境与语言都提供了比较规范的数据库编程接口，我们可以通过标准的SQL语言方便的实现数据的相关操作，算法上比较简单。

(2）、从存储数据文件本身性质来看。文本方式的操作数据是存储在一个文本文档当中，占用存储空间小，通过操作系统本身就可以打开文本文件，数据的查看与访问非常简单，但文本是一个孤立的文档，文档与文档之间的数据不可能建立起任何的联系。而数据库方式的操作数据是存储在数据表中，数据表必须通过相应的数据库软件才能够访问数据表，表与表之间可以建立相应的联系，使数据之间相互关联。

文本数据库篇9

一、研究背景

Popescu等人把用户评论的文本信息挖掘任务分为以下步骤: (a) 挖掘评论中的主要产品属性; (b) 挖掘用户评论文本信息中对于产品属性的主要观点; (c) 分析用户评论文本信息中的情感倾向; (d) 对提取出的有效信息进行重要性排名。本文的研究内容主要涉及的就是以下几个方面。

1、挖掘产品的特征属性

由于国外的研究者较早的意识到分析挖掘有效信息对于产品生产商的重要性, 所以在英文的信息挖掘方面, 他们已经取得了较好的研究领域发展的成果。在2004年时Hu等人就采用应用关联分类的方法对文本信息中进行有效的挖掘。利用这种非监督性的方法对一些产品评论的文本信息进行挖掘研究, 平均的调查准确率达到了72%, 然后在此基础上再对信息进行后续加工处理, 就得到了用户对于产品主要特征的情感倾向性。

由于网络评论信息数据挖掘的范围较大, 并且信息的专业性不强, 信息变化快, 人工参与监督型的方法不满足于对整体信息的挖掘, 这就需要采用非监督型的数据挖掘方式, 总体的对文本信息进行分析研究。本文在以上研究的基础上, 运用关联规则的非监督型挖掘方式和情感倾向性分析技术来更好地对评论进行挖掘深析。

2、情感分析

情感分析也叫做观点挖掘, 和本文的研究主题相比较, 观点挖掘更偏向于文本中对相关主题内容所表达观点的发现和挖掘。文本信息具有主观性和客观性之分:主观性的文本偏向于对一种观点的表达和认知;二客观性文本偏向于对一种事实的说明和称述。观点挖掘的目的就是将文本中的主观性文本信息识别出来, 分析其中含有的观点信息以及她们之间还存在的潜在的联系, 将得到的结论应用到实际问题中去。主体在主观性文章中表达对某些或者某一实体的认知, 这其中就包含着大量的主观性情感。情感分析的目的就是判断文本信息中体现的情感倾向, 可以分为正面、负面和中性三类。

二、文本信息挖掘方法

本文在以上研究的基础上, 运用关联规则的非监督型挖掘方式和情感倾向性分析技术来更好地对评论进行挖掘深析。具体的分析方法可以分为以下几个步骤: (a) 利用中文语言的分析工具对文本信息中的词性进行标注。 (b) 按照产品的属性分类模型, 逐字逐句的分析信息的情感倾向。分类则采用Ling Pipe自然语言分析工具。对文本信息的情感倾向进行汇总, 加入到观点评论的数据库中。 (c) 对进行词性标注后的文本信息建立关联规则的事务文件。 (d) 在关联规则的Apriori算法基础上, 挖掘出频繁项集作为候选的特征属性集合I0。 (e) 将抽取的产品特征文本信息属性集I0按照近邻规则进行筛选, 筛选后的结果作为候选特征属性集I1。 (f) 将候选特征属性集I1按照独立支持度的规则进行分析抽取, 形成候选特征属性集I2。 (g) 将I2过滤形成特征属性集合I3;再从中过滤掉单字名词的项目, 包括单字名词的n项频繁项 (n≤3) 。剩余的则成为了最终的产品特征属性集I。 (h) 在观点数据库中挖掘到关于产品特征属性的语句, 分析出句子包含的情感倾向。 (i) 再按照句子出现的频率性大小进行排列, 并总结出正面和负面信息的数量。

按照这种方法对文本信息进行挖掘, 不用建立特征属性的概念模型就可以得出文本信息的特征属性。本文中以获取产品特征分析为例, 运用观点挖掘结合情感分析的技术, 从大量的用户文本信息中得到了有效的评论信息, 使用这种方法进行分析挖掘实验表现出了极大的优越性, 为生产制造商和客户提供了经济实用的决策手段。

摘要：本文以文本信息中的情感偏向性数据挖掘作为出发点, 对中国用户使用产品的评论文本信息加以分析和讨论, 采用Apriori算法解读文本信息的特征挖掘, 并结合监督形式的情感分析技术, 实现了对使用产品评论信息的情感倾向性数据挖掘, 以便于更好地帮助生产服务商改进自我的生产缺陷, 提高行业内的竞争力。

关键词：情感倾向性,数据挖掘,文本信息

参考文献

[1]唐明.文本挖掘及其在多文化交流平台中的应用[D].西南大学, 2006

【文本数据库】推荐阅读：

经济文本07-19

文本层次07-21

文本实践05-10

文本检测05-12

基于文本05-16

电子文本05-16

文本设计05-19

文本教材05-28